<?xml version='1.0' encoding="utf-8"?>
      <rss version='2.0'>
      <channel>
      <title>Форум на Исходниках.RU</title>
      <link>https://forum.sources.ru</link>
      <description>Форум на Исходниках.RU</description>
      <generator>Форум на Исходниках.RU</generator>
  	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=3688071</guid>
        <pubDate>Sat, 08 Oct 2016 06:38:01 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=3688071</link>
        <description><![CDATA[zamir: Если я вас правильно понял, то такой подход сможет немного подавить шум.<br>Для качественной очистки надо использовать машинное обучение.]]></description>
        <author>zamir</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=3687300</guid>
        <pubDate>Mon, 03 Oct 2016 10:15:42 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=3687300</link>
        <description><![CDATA[webcoder88: Не менее интересная задача - выделение речевого сигнала от шумов и музыкального сопровождения. <br>Самым перспективным направлением является обработка спектрограмм звукового сигнала. В источниках часто пишут, что речевой сигнал очень изменчив. А если использовать это свойство для его детектирования и очистки о остальных шумов. Если посмотреть на спектрограммы в Adobe Audition CS, можно заметить характерные формантные кривые речевого сигнала. Как правило, они имеют большую плотность энергии. Речь имеет много высших гармоник, которые можно отфильтровать режекторным фильтром.<br>Можно наложить решетку с шагом, кратным мгновенному значению частоты основного сигнала и обнулить их.<br><br>1. Можно представить речевой сигнал в виде текстр наложенных одна на другую.<br>2. В виде объекта (четкое изображение неподвижного камня, смазанное изображение летящего камня).<br>3. Если выводить или обрабатывать график вертикального участка спектрограммы. Частота основного тона будет совершать характерное движение вокруг некоторого среднего значения, что ловится с помощью детектора движения ;)<br>Если форманты  шума или музыки колеблются с меньшей амплитудой, то при некоторой чувств-ти детектора движения, он их не заметит.<br>Вспомните глаз лягушки.<br>Есть желание написать программу и проверить?]]></description>
        <author>webcoder88</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=3684886</guid>
        <pubDate>Sun, 18 Sep 2016 08:41:38 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=3684886</link>
        <description><![CDATA[webcoder88: <div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>По современным представлениям слух использует два разных алгоритма кодирования сигнала.<br>
1. На частотах до 3-4 кГц кодируется форма сигнала. Нейроны имеют разные пороги срабатывания, поэтому сигнал кодируется номером нейрона с самым высоким порогом и числом сработавших нейронов. Однако частота следования импульсов в отдельно взятом нейроне не может превышать 300-400 Гц, т.к. на выделение медиатора и восстановление электрического равновесия уходит 1-2 мс. Поэтому на средних частотах близкорасположенные нейроны объединяются в группу (до 10 нейронов) и возбуждаются периодами сигнала по очереди (это положение называется теорией залпов). Этот алгоритм требует периодической структуры сигнала на протяжение порядка 10 периодов, что в частотной области означает узкополосный сигнал с шириной полосы около 300-400 Гц. Это обеспечивается функциональной фильтрацией сигнала в улитке. Таким образом, диапазон частот кодируемого сигнала достигает 3-4 кГц.</div></div><br>
Если частота следования импульсов в нейроне не может превышать 300-400Гц, то он не заметит импульсы с частотой больше 400Гц.<br>
Здесь полная аналогия с делителями входной частоты цифровых частотомеров. Допустим, частотомер собран на микросхемах серии K176 с максимальной рабочей частотой 2000кГц. Тогда предельная частота, измеряемая  частотомером равна 2000кГц. Для расширения диапазона входной сигнал делят на 10, т.е. ставили декаду, например, на счетчике K155ИЕ2, предельная частота которого 10-15МГц или К531ИЕ14 (40МГц).<br>
Таким образом, декада из 10 нейронов выдаст выходной  импульс только при длине импульсной последовательности в 4000Гц.<br>
Значит, входные нейроны либо способны регистриовать импульсы, следующие с частотой более 400Гц, но делят их на некий коэффициент, тк собственная  максимальная частота генерации нейронов не превышает 300-400Гц,  либо теряют часть импульсов, либо функционирует по-другому. <br>
<br>
<span class="tag-color tag-color-named" data-value="mergepost" style="color: mergepost"><span class='tag-size' data-value='7' style='font-size:7pt;'>Добавлено <time class="tag-mergetime" datetime="2016-09-18T08:52:59+00:00">18.09.16, 08:52</time></span></span><br>
Возможно, что все поле состоит из одинаковых нейронов, каждый нейрон соответствует определенной частоте. Выбирает частоту механическая система слухового аппарата, а нейроны преобразуют амплитуду сигнала в частоту следования импульсов.]]></description>
        <author>webcoder88</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2896841</guid>
        <pubDate>Thu, 19 May 2011 00:53:37 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2896841</link>
        <description><![CDATA[NegroFinn: Значит че сразу: 1 и тот же спектрально звук в разных контекстах слышится человеком как разные фонемы - проверено. <br>С детекторами скачков тоже не так все просто: в реальной речи 99% сильно недоартикулированно, порой даже глухие взрывные смазываются, про Л и гласный-гласный я ва-аще молчу.]]></description>
        <author>NegroFinn</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2895364</guid>
        <pubDate>Mon, 16 May 2011 18:17:31 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2895364</link>
        <description><![CDATA[Littlest_hobo: Большое спасибо. Буду пробовать. Постараюсь вернуться с результатами в течение недели.]]></description>
        <author>Littlest_hobo</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2895356</guid>
        <pubDate>Mon, 16 May 2011 18:03:40 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2895356</link>
        <description><![CDATA[nsh: <div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Возможно ли использовать в качестве элементов словаря сами фонемы, а не слова?</div></div><br>
<br>
Да<br>
<br>
<div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>И что делать в таком случае с количеством состояний N, сколько состояний брать?</div></div> <br>
<br>
Изолированные звуки в окружении тишины - 5. Вырезанные из потока - 3.<br>
<br>
<div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Источником образцов будут дети 4-7 лет. Имеет ли это значение при создании таких моделей?</div></div><br>
<br>
Нет]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2895272</guid>
        <pubDate>Mon, 16 May 2011 15:37:13 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2895272</link>
        <description><![CDATA[Littlest_hobo: <a class='tag-url' href='http://ru.wikibooks.org/wiki/%D0%A1%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5_%D0%BC%D0%B0%D1%80%D0%BA%D0%BE%D0%B2%D1%81%D0%BA%D0%B8%D0%B5_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8' target='_blank'>Источник цитаты</a><br>
<br>
<div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Для лучшего понимания рассмотрим все вышесказанное на примере системы, предназначенной для распознавания речи. Для каждого слова из словаря W мы спроектируем СММ с N состояниями. Каждое слово в частности мы представим как последовательность спектральных векторов. Обучение мы будем считать завершенным, когда модель с выской точностью будет воспроизводить ту самую последовательность спектральных векторов, которая использовалась для обучения модели. Таким образом каждая отдельная СММ будет обучаться воспроизводить какое-либо одно слово, но обучать эту модель следует на нескольких вариантах произнесения этого слова; то есть например три человека (каждый по-своему) проговаривают слово «собака», а затем каждое сказанное слово конвертируется в упорядоченный по времени набор спектральных векторов, и модель обучается на основе этих трех наборов. Для каждого отдельного слова проектируются соответствующие модели. Сперва решается 3-я задача СММ: каждая модель настраивается на «произнесение» определенного слова из словаря W, согласно заданной точности. Для того чтобы интепретировать каждое состояние спроектированных моделей мы решаем 2-ую задачу, а затем выделяем те свойства спектральных векторов, которые имеют наибольший вес для определенного состояния. Это момент тонкой настройки модели. А уже после того, как набор моделей будет спроектирован, оптимизирован и обучен, следует оценить модель на предмет ее способности распознавать слова в реальной жизни. Здесь мы уже решаем 1-ую задачу СММ. Нам дается тестовое слово, представленное, разумеется, в виде наблюдаемой последовательности спектральных векторов. Далее мы вычисляем функцию соответствия этого тестового слова для каждой модели. Модель, для которой эта функция будет иметь наибольшее значение, будет считаться моделью названного слова.</div></div><br>
<br>
Проблема состоит в том, что на этапе распознавания фонем моя программа не имеет словаря и не должна его иметь. Таково ограничение указанное в задании. Я должен распознать фонему по куску звукового потока, содержащего только ее и ничего больше. Возможно ли использовать в качестве элементов словаря сами фонемы, а не слова? И что делать в таком случае с количеством состояний N, сколько состояний брать?  И еще одна вещь. Источником образцов будут дети 4-7 лет. Имеет ли это значение при создании таких моделей?]]></description>
        <author>Littlest_hobo</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2895263</guid>
        <pubDate>Mon, 16 May 2011 15:24:51 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2895263</link>
        <description><![CDATA[nsh: <div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Могу я расчитывать на некоторые пояснения от Вас касательно этих моделей, если Вас не затруднит?</div></div><br>
<br>
Можете]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2895256</guid>
        <pubDate>Mon, 16 May 2011 15:16:51 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2895256</link>
        <description><![CDATA[Littlest_hobo: <div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Скрытые марковские модели</div></div><br>
<br>
Ага. Спасибо. Могу я расчитывать на некоторые пояснения от Вас касательно этих моделей, если Вас не затруднит?]]></description>
        <author>Littlest_hobo</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2895161</guid>
        <pubDate>Mon, 16 May 2011 13:00:39 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2895161</link>
        <description><![CDATA[nsh: <div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '>Посему хотелось бы увидеть название метода/методов или ссылку на них, а не направление читать литературу.</div></div><br>
<br>
Скрытые марковские модели<br>
http://ru.wikipedia.org/wiki/%D0%A1%D0%BA%D1%80%D1%8B%D1%82%D0%B0%D1%8F_%D0%BC%D0%B0%D1%80%D0%BA%D0%BE%D0%B2%D1%81%D0%BA%D0%B0%D1%8F_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2894914</guid>
        <pubDate>Mon, 16 May 2011 07:44:05 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2894914</link>
        <description><![CDATA[Littlest_hobo: Здравствуйте. У меня тот же вопрос, что и у vilin4ik&#39;а, но с небольшими уточнениями. Фонемы представлены кусками звукового сигнала(пофонемная сегментация выполнена). Система должна распознавать слитную речь. Хотел использовать MFCC и Кохонена, но после прочтения <a class='tag-url' href='http://forum.sources.ru/index.php?showtopic=330331' target='_blank'>Нейронная сеть Кохонена   После MFCC</a> просто руки опустились. :&#39;(  Сам в этой области новичок и большую часть материала не могу понять или понимаю с великим трудом. Посему хотелось бы увидеть название метода/методов или ссылку на них, а не направление читать литературу.]]></description>
        <author>Littlest_hobo</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2887945</guid>
        <pubDate>Wed, 04 May 2011 14:18:33 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2887945</link>
        <description><![CDATA[vilin4ik: Здравствуйте. Какие параметры нужно высчитывать, чтобы классифицировать фонемы? Например для согласных, глухие они или звонкие? Шумовые или нет? Что нужно рассчитать для глассных? Как установить границы между фонемами?]]></description>
        <author>vilin4ik</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2746421</guid>
        <pubDate>Sun, 07 Nov 2010 23:11:13 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2746421</link>
        <description><![CDATA[MoTaJiKa: Спасибо, neurofish. пока наткнулась на 3ри критерия<br>1. полагается, что сегмент описывается моделью АР при этом для обнаружения скачка в параметрах модели проверяются гипотезы, при этом статистика критерия базируется на ООП-обобщенном отношении правдоподобия.<br>2.критерий кумулятивных сумм (пока не вникала)<br>3. импульсный - касается только звонких сегментов (тоже нужно разбираться)]]></description>
        <author>MoTaJiKa</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2744367</guid>
        <pubDate>Thu, 04 Nov 2010 05:36:57 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2744367</link>
        <description><![CDATA[neurofish: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=2741233'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>MoTaJiKa &#064; <time class="tag-quote__quoted-time" datetime="2010-11-01T00:02:41+00:00">01.11.10, 00:02</time></span><div class='quote '>Подскажите пожалуйста какие есть алгоритмы, которые свидетельствуют о разладке случайного процесса?</div></div>мне известен алгоритм change detection, основанный на изменении BIC в подокнах относительно их объединения. Разладка - понятие туманное и зависит от критерия и стат.модели. <br>
Алгоритм предназначен для автоматический разметки речи на однородные элементы, включает в себя простое вычисление критерия и сложный процес многократного устранения возможных ошибок.<br>
Вычисление критерия:<br>
- вычисляется диагональная матрица дисперсий на некотором окне<br>
- окно разбивается на две половины, для каждой половины тоже вычисляется матрица<br>
- затем применяется BIC (google), идея заключается в том, что если произошло изменение, &quot;объем&quot; эллипсоида дисперсии всего окна больше суммы &quot;объемов&quot; половин. &quot;Объем&quot; нормирован на число отсчетов. С порогом беда, его следует искать.<br>
<br>
Насколько я понимаю, это общий метод детекции разладки - вычисляем некий критерий (информационный, соответствия модели, что-нибудь еще) на целом окне и половинках, затем смотрим как все изменилось и по детектируем по порогу. Сложный этап интегрирует многократные прогоны детекции на разных длинах окна и т.п.]]></description>
        <author>neurofish</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2741233</guid>
        <pubDate>Mon, 01 Nov 2010 00:02:41 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2741233</link>
        <description><![CDATA[MoTaJiKa: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=1179399'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>grisania &#064; <time class="tag-quote__quoted-time" datetime="2006-07-16T11:34:06+00:00">16.07.06, 11:34</time></span><div class='quote '>Также есть алгоритмы, которые определяют начало основного тона. Если основной меняетя, то говорят, что произошла разладка случайного процесса.</div></div><br>
Подскажите пожалуйста какие есть алгоритмы, которые свидетельствуют о разладке случайного процесса?  :scratch:]]></description>
        <author>MoTaJiKa</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2439094</guid>
        <pubDate>Thu, 03 Dec 2009 03:36:37 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2439094</link>
        <description><![CDATA[Skif: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=2439016'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>andrden &#064; <time class="tag-quote__quoted-time" datetime="2009-12-02T21:17:45+00:00">02.12.09, 21:17</time></span><div class='quote '>неужели мозг успевает определить, что участок звука<br>
тот же самый? А на частоте дискретизации 44кгц и 2-секундный участок удаётся различить, более длинные - нет.<br>
Это как-то связано с тем, как мы распознаём звуки?</div></div><br>
Ну на свой вопрос вы сами ответили. Вы же слышите эти биения. Значит мозг распознает. Если вы хотите избавится от биений. То попробуйте записать буфер до середины а потом записать его тем же содержимым зеркально. Щелчки пропадут. Но мозг думаю все равно будет слышать что сигнал периодический. <br>
<br>
<span class="tag-color tag-color-named" data-value="gray" style="color: gray"><span class='tag-size' data-value='7' style='font-size:7pt;'>Добавлено <time class="tag-mergetime" datetime="2009-12-03T03:37:01+00:00">03.12.09, 03:37</time></span></span><br>
Задайте поконкретней вопрос, что вам нужно.]]></description>
        <author>Skif</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2439016</guid>
        <pubDate>Wed, 02 Dec 2009 21:17:45 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2439016</link>
        <description><![CDATA[andrden: Ребята, вы мне вот что скажите. Я генерирую шум - случайные числа с гауссовским распределением.<br>
Потом проигрываю этот шум с повторением. Если длина повторяющегося куска шума меньше или равна где-то 1 секунда,<br>
на слух воспринимается постукивание или биение - неужели мозг успевает определить, что участок звука<br>
тот же самый? А на частоте дискретизации 44кгц и 2-секундный участок удаётся различить, более длинные - нет.<br>
Это как-то связано с тем, как мы распознаём звуки?<br>
<br>
Вот на Джаве полный сорс, если кто проверить захочет...<br>
<br>
<div class='tag-code'><span class='pre_code'></span><div class='code  code_collapsed ' title='Подсветка синтаксиса доступна зарегистрированным участникам Форума.' style=''><div><div><ol type="1"><div class="code_line">package audio.cords;</div><div class="code_line">&nbsp;</div><div class="code_line">import java.io.ByteArrayOutputStream;</div><div class="code_line">import java.io.DataOutputStream;</div><div class="code_line">import java.util.Random;</div><div class="code_line">import javax.sound.sampled.AudioFormat;</div><div class="code_line">import javax.sound.sampled.AudioSystem;</div><div class="code_line">import javax.sound.sampled.SourceDataLine;</div><div class="code_line">&nbsp;</div><div class="code_line">public class RepeatNoise {</div><div class="code_line">&nbsp;&nbsp;public static void main(String[] args) throws Exception{</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp;int sampleRate = 11025*4;</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp;SourceDataLine line =</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;AudioSystem.getSourceDataLine(new AudioFormat(sampleRate,16,1,true,true));</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp;line.open();</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp;line.start();</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp;Noise noise=new Noise();</div><div class="code_line">&nbsp;</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp;for( ;; ){</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp; &nbsp; &nbsp;ByteArrayOutputStream ba = new ByteArrayOutputStream();</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp; &nbsp; &nbsp;DataOutputStream dos = new DataOutputStream(ba);</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp; &nbsp; &nbsp;for( int i=0; i&#60;1000; i++ ){</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; dos.writeShort(noise.next());</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp; &nbsp; &nbsp;}</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp; &nbsp; &nbsp;line.write(ba.toByteArray(), 0, ba.size());</div><div class="code_line">&nbsp;</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp;}</div><div class="code_line">&nbsp;&nbsp;}</div><div class="code_line">&nbsp;</div><div class="code_line">&nbsp;&nbsp;static class Noise{</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp;short[] buf = new short[11025*4*4/5];</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp;int idx=-1;</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp;Noise(){</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp; &nbsp; &nbsp;Random rnd = new Random(System.nanoTime());</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp; &nbsp; &nbsp;for( int i=0; i&#60;buf.length; i++ ){</div><div class="code_line">// &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;double s = 0;</div><div class="code_line">// &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;for( int j=0; j&#60;12; j++ ){</div><div class="code_line">// &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;s+=Math.random();</div><div class="code_line">// &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;}</div><div class="code_line">// &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;buf[i] = (short)(s/12*25000);</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;buf[i] = (short)(rnd.nextGaussian()*25000);</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp; &nbsp; &nbsp;}</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp;}</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp;short next(){</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp; &nbsp; idx = (idx+1)%buf.length;</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp; &nbsp; return buf[idx];</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp;}</div><div class="code_line">&nbsp;&nbsp;}</div><div class="code_line">}</div></ol></div></div></div></div><script>preloadCodeButtons('1');</script>]]></description>
        <author>andrden</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2423150</guid>
        <pubDate>Mon, 16 Nov 2009 15:20:38 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2423150</link>
        <description><![CDATA[Black*Eternal: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=2423039'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>MedEx &#064; <time class="tag-quote__quoted-time" datetime="2009-11-16T14:05:11+00:00">16.11.09, 14:05</time></span><div class='quote '>формант вроде как 4 всего.</div></div><br>
Получается, форманты это пики 4х первых гормоник?]]></description>
        <author>Black*Eternal</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2423039</guid>
        <pubDate>Mon, 16 Nov 2009 14:05:11 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2423039</link>
        <description><![CDATA[MedEx: формант вроде как 4 всего.]]></description>
        <author>MedEx</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2422509</guid>
        <pubDate>Mon, 16 Nov 2009 00:36:04 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2422509</link>
        <description><![CDATA[Black*Eternal: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=2422506'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>Skif &#064; <time class="tag-quote__quoted-time" datetime="2009-11-15T23:26:27+00:00">15.11.09, 23:26</time></span><div class='quote '>В общем обертон это то как звучит инструмент.</div></div><br>
А набор гормоник ведь и определяет звучание инструмента?<br>
<br>
Так получается, что форманты это точки максимумов гармоник, которые мы соединяем линией? <br>
Ведь говорим мы во множественном числе &quot;форманты&quot;, значит их много.. а огибающая одна :)]]></description>
        <author>Black*Eternal</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2422506</guid>
        <pubDate>Sun, 15 Nov 2009 23:26:27 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2422506</link>
        <description><![CDATA[Skif: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=2422176'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>Black*Eternal &#064; <time class="tag-quote__quoted-time" datetime="2009-11-15T10:47:25+00:00">15.11.09, 10:47</time></span><div class='quote '>Вот теперь я полностью понял, что имеется ввиду под гармониками и фонрмантами&#33;<br>
<br>
По поводу &quot;рассчитать огибающую гармоник&quot; я тоже не понял. Частоты найти, это понятно. Я уже поэкспериментировал со звуками, там действительно частота второй двое выше первой и далее частоты последующих гармоник ровно выше на разницу второй-первой. А вот получить мощности их наверное невозможно из первой.. Этож звучание изменится, нет разве? А может ли быть два разных звука с одинаковой первой гормоникой по частоте и мощности?<br>
<br>
Кстати, а что такое обертон? Это другое название гармоник? :)</div></div><br>
Оберто&#769;ны (нем. Oberton — «верхний тон») в акустике — колебания полного объёма, а также различных частей какого-либо звучащего тела (струны, столба воздуха, мембраны, голосовых связок и т. д.). Обычно понятие обертона смешивается с понятием гармонических созвуков, однако несмотря на то, что любой гармонический созвук является обертоном, не любой обертон является гармоническим созвуком.<br>
<br>
В общем обертон это то как звуччит инструмент. В нашем случае это звучание гласных речи. А инструментом является речеобразующий аппарат.  человека :)<br>
<br>
Расчиатать огибающую гармоник значит нарисовать красную линию. См рисунок выше. Соединить максимумы гармоник между собой.]]></description>
        <author>Skif</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2422176</guid>
        <pubDate>Sun, 15 Nov 2009 10:47:25 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2422176</link>
        <description><![CDATA[Black*Eternal: Вот теперь я полностью понял, что имеется ввиду под гармониками и фонрмантами&#33;<br><br>По поводу &quot;рассчитать огибающую гармоник&quot; я тоже не понял. Частоты найти, это понятно. Я уже поэкспериментировал со звуками, там действительно частота второй двое выше первой и далее частоты последующих гармоник ровно выше на разницу второй-первой. А вот получить мощности их наверное невозможно из первой.. Этож звучание изменится, нет разве? А может ли быть два разных звука с одинаковой первой гормоникой по частоте и мощности?<br><br>Кстати, а что такое обертон? Это другое название гармоник? :)]]></description>
        <author>Black*Eternal</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2422171</guid>
        <pubDate>Sun, 15 Nov 2009 10:41:07 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2422171</link>
        <description><![CDATA[Skif: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=2422114'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>Анатоль &#064; <time class="tag-quote__quoted-time" datetime="2009-11-15T07:55:40+00:00">15.11.09, 07:55</time></span><div class='quote '>По частоте первой гармоники мы можем вычислить частоты остальных гармоник, но не их амплитуды. Поэтому огибающей мы никак не получим из частоты первой гармоники.</div></div><br>
Я подразумевал что спектр сигнала анализируемого отрезка времени уже расчитан. Верное замечание. Для того чтобы расчитать огибающую нужно знать спектр.]]></description>
        <author>Skif</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2422114</guid>
        <pubDate>Sun, 15 Nov 2009 07:55:40 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2422114</link>
        <description><![CDATA[Анатоль: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=2422079'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>Skif &#064; <time class="tag-quote__quoted-time" datetime="2009-11-15T06:04:26+00:00">15.11.09, 06:04</time></span><div class='quote '>Из этого следует что вычислив частоту первой гармоники мы можем вычислить все остальные гармоники и рассчитать огибающую гармоник </div></div><br>
По частоте первой гармоники мы можем вычислить частоты остальных гармоник, но не их амплитуды. Поэтому огибающей мы никак не получим из частоты первой гармоники.]]></description>
        <author>Анатоль</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2422079</guid>
        <pubDate>Sun, 15 Nov 2009 06:04:26 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2422079</link>
        <description><![CDATA[Skif: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=2421918'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>Black*Eternal &#064; <time class="tag-quote__quoted-time" datetime="2009-11-14T19:01:54+00:00">14.11.09, 19:01</time></span><div class='quote '>А форманты это получается огибающая гормоники?</div></div><br>
Именно так. Ну точнее сказать, что форманты огибающие гармоник. Первый синий всплеск это первая гармоика, ее частота равна частоте колебаний голосовых связок. Второй всплеск это вторая гармоника, частота второй гармоники в два раза больше первой. Третий всплеск это третья гармоника. Ее частота в три раза больше первой. Если к примеру обозначим частоту первой гармоники через F1 а вторую через F2 и так далее. F3, F4.... То справедливо записать F2=2*F1; F3=3*F1; F4=4*F1. Из этого следует что вычислив частоту первой гармоники мы можем вычислить все остальные гармоники и рассчитать огибающую гармоник которая является амплитудно частотной характеристикой формантного фильтра. Найдя максимумы амплитудно частотной характеристики формантного фильтра мы найдем формантные частоты.]]></description>
        <author>Skif</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2421918</guid>
        <pubDate>Sat, 14 Nov 2009 19:01:54 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2421918</link>
        <description><![CDATA[Black*Eternal: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=2421874'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>Skif &#064; <time class="tag-quote__quoted-time" datetime="2009-11-14T17:27:31+00:00">14.11.09, 17:27</time></span><div class='quote '>На рисунке всплески синего цвета это гармоники.  Всплески красного цвета форманты.</div></div><br>
О, спасибо за картинку&#33;<br>
А форманты это получается огибающая гормоники?]]></description>
        <author>Black*Eternal</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2421874</guid>
        <pubDate>Sat, 14 Nov 2009 17:27:31 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2421874</link>
        <description><![CDATA[Skif: На рисунке всплески синего цвета это гармоники.  Всплески красного цвета форманты.]]></description>
        <author>Skif</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2421801</guid>
        <pubDate>Sat, 14 Nov 2009 13:56:32 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2421801</link>
        <description><![CDATA[Black*Eternal: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=2421610'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>Анатоль &#064; <time class="tag-quote__quoted-time" datetime="2009-11-14T05:21:25+00:00">14.11.09, 05:21</time></span><div class='quote '><div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <span class='tag-quote__quote-info'>Black*Eternal</span><div class='quote '>Гармоники &quot;по совместительству&quot; также являются некоторыми из формант?<br>
 Пытаюсь понять как они друг с другом связаны</div></div><br>
Представте себе гребёнку, у которой зубья спилили так, что их высота вписывается в нек. гладкую кривую.<br>
Представили?<br>
Ну так зубья - это гармоники, а максимумы этой гладкой кривой - форманты.</div></div><br>
Клёвый пример :)<br>
<br>
Т.е. гармоники это сами составляющие (вот эти &quot;вертикальные столбцы&quot;), а форманты это локальные максимумы (этих столбцов)?]]></description>
        <author>Black*Eternal</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2421610</guid>
        <pubDate>Sat, 14 Nov 2009 05:21:25 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2421610</link>
        <description><![CDATA[Анатоль: <div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <span class='tag-quote__quote-info'>Black*Eternal</span><div class='quote '>Гармоники &quot;по совместительству&quot; также являются некоторыми из формант?<br>
 Пытаюсь понять как они друг с другом связаны</div></div><br>
Представте себе гребёнку, у которой зубья спилили так, что их высота вписывается в нек. гладкую кривую.<br>
Представили?<br>
Ну так зубья - это гармоники, а максимумы этой гладкой кривой - форманты.]]></description>
        <author>Анатоль</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2421572</guid>
        <pubDate>Fri, 13 Nov 2009 23:42:39 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2421572</link>
        <description><![CDATA[Black*Eternal: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=2420539'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>Анатоль &#064; <time class="tag-quote__quoted-time" datetime="2009-11-13T05:19:14+00:00">13.11.09, 05:19</time></span><div class='quote '>Тональные звуки состоят из частот, кратных частоте основного тона (ЧОТ). Они и называются гармониками.<br>
Когда звучит струна или голосовые связки то кроме основного тона (самой низкой частоты) в звуке есть и кратные ей частоты (гармоники).<br>
....<br>
Когда звук проходит через речевой аппарат человека, из за резонансных свойств речевых полостей некоторые частоты усиливаются (некоторые ослабляются). Резонансные максимумы речевого аппарата называют формантами.</div></div><br>
Гармоники &quot;по совместительству&quot; также являются некоторыми из формант?<br>
Т.е. все высокие пики - это форманты, а гармониками являются из них те форманты, частоты которых кратны ЧОТу?<br>
Или форманты это максимальные, а гармоники выражены очень малой мощностью и не имеют ничего общего с формантами? Пытаюсь понять как они друг с другом связаны.. :)]]></description>
        <author>Black*Eternal</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2420539</guid>
        <pubDate>Fri, 13 Nov 2009 05:19:14 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2420539</link>
        <description><![CDATA[Анатоль: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=2420503'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>Black*Eternal &#064; <time class="tag-quote__quoted-time" datetime="2009-11-13T01:39:52+00:00">13.11.09, 01:39</time></span><div class='quote '>Так и не понял, что такое гармоники. Форманты, понятно - всплески на спектре</div></div><br>
Тональные звуки состоят из частот, кратных частоте основного тона (ЧОТ).<br>
Они и называются гармониками. <br>
Когда звучит струна или голосовые связки то кроме основного тона (самой низкой частоты) в звуке есть и кратные ей частоты (гармоники). Обычно уменьшающейся амплитуды с ростом частоты.<br>
<br>
Когда звук проходит через речевой аппарат человека, из за резонансных свойств речевых полостей некоторые частоты усиливаются (некоторые ослабляются). Резонансные максимумы речевого аппарата называют формантами.<br>
Частоты и амплитуды формант, их динамика отображают положения и динамику артикуляции, поэтому важны для распознавания звуков речи.<br>
<br>
На спектре звука мы можем наблюдать и гармоники и форманты.<br>
Для низкого голоса, или при малой ширине окна гармоник мы не увидим, только форманты. Это максимумы огибающей спектра.]]></description>
        <author>Анатоль</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2420503</guid>
        <pubDate>Fri, 13 Nov 2009 01:39:52 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2420503</link>
        <description><![CDATA[Black*Eternal: Хотелось бы поднять и продолжить полезную тему. Прочитал всю, запасся огромным количеством разных ссылок, знаний и структуировал тот малый материал, который у меня пытается присутствовать :)<br><br>Так и не понял, что такое гармоники. Форманты, понятно - всплески на спектре. А вот что такое гармоники? Такое впечатление, что тоже самое :) Скорее всего они наверное иногда совпадают, а иногда нет... Или совершенно не так?]]></description>
        <author>Black*Eternal</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2307056</guid>
        <pubDate>Wed, 08 Jul 2009 09:01:55 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2307056</link>
        <description><![CDATA[Hobbit: Интересуюсь: алгоритмы есть, публикации есть, вроде как задача решена, так вот любопытно какой процент сейчас реально фонем распознается?]]></description>
        <author>Hobbit</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2306582</guid>
        <pubDate>Tue, 07 Jul 2009 15:15:45 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2306582</link>
        <description><![CDATA[starn: В источниках пишут, что для распознавания гласных звуков нужны первые две форманты: первая говорит о степени открытости-закрытости звука, вторая - о положении языка. Мне нужно написать такую программу в Матлабе.<br>
<br>
Насколько я понимаю, если имеется авторегрессионная модель, то форманты - это локальные максимумы.<br>
http://s51.radikal.ru/i132/0907/a5/bed119ca4e3c.gif<br>
<br>
Не могу понять, как можно их извлечь из авторегрессионной модели.<br>
<br>
<span class="tag-color tag-color-named" data-value="green" style="color: green"><strong class='tag-b'>Дополнено</strong>: этот вопрос снимается. Оказывается, функцию peaks нужно заменить на findpeaks.</span><br>
<div class="tag-spoiler spoiler closed"><div class="spoiler_header" onclick="openCloseParent(this)">Скрытый текст</div><div class="body"><br>
<a class='tag-url' href='http://www.owlnet.rice.edu/~elec431/projects96/digitalbb/formantscode.html' target='_blank'>Тут</a> предлагается решение с использованием функции peaks, но оно выдаёт ошибку на последней из процитированных строк:<br>
<br>
<div class='tag-code'><span class='pre_code'></span><div class='code  code_collapsed ' title='Подсветка синтаксиса доступна зарегистрированным участникам Форума.' style=''><div><div><ol type="1"><div class="code_line">th = ar(x,n) &nbsp; &nbsp; &nbsp; &nbsp;% auto-regressive model of voice</div><div class="code_line">&nbsp;</div><div class="code_line">[b,a] = th2tf(th) &nbsp; % transfer function of vocal tract</div><div class="code_line">&nbsp;</div><div class="code_line">[h,w] = freqz(b,a); % frequency response of vocal tract</div><div class="code_line">&nbsp;</div><div class="code_line">&nbsp;</div><div class="code_line">f = w.*fs/(2*pi);</div><div class="code_line">&nbsp;</div><div class="code_line">semilogy(f,abs(h)) &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;% semilogx and semilogy plot data</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;% as logarithmic scales for the x- and y-axis,</div><div class="code_line">&nbsp;&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;% respectively.</div><div class="code_line">&nbsp;</div><div class="code_line">&nbsp;</div><div class="code_line">xlabel(&#39;Frequeny (Hz)&#39;)</div><div class="code_line">ylabel(&#39;log scale frequency response&#39;)</div><div class="code_line">title(&#39;Auto-Regressive Model of Vocal Tract&#39;)</div><div class="code_line">hold on</div><div class="code_line">&nbsp;</div><div class="code_line">[floc,fmag] = peaks(abs(h));</div><div class="code_line">allfmnts = f(floc); &nbsp; &nbsp;% ERROR - ??? Subscript indices must either be real positive integers or logicals. error</div></ol></div></div></div></div></div></div><br>
<br>
И если имеется авторегрессионная модель, можно ли по ней полностью восстановить звук?]]></description>
        <author>starn</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2208227</guid>
        <pubDate>Sun, 01 Mar 2009 20:11:33 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2208227</link>
        <description><![CDATA[shur_nn: По многим замечаниям с Вами соглашусь. Однако этот вариант довольно интересен.<br>Ошибка предсказания неоспоримый факт смены направления движения процесса.<br>Возможно эта статья просто краткая информация о проделанной работе?<br>Не знаю, но на мой взгляд в этой статье задано правильное направление.]]></description>
        <author>shur_nn</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2207798</guid>
        <pubDate>Sun, 01 Mar 2009 03:37:03 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2207798</link>
        <description><![CDATA[kaa1: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=2207764'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>shur_nn &#064; <time class="tag-quote__quoted-time" datetime="2009-02-28T21:59:16+00:00">28.02.09, 21:59</time></span><div class='quote '>Статью интересную по сегментации нашел.</div></div><br>
Да, весёлая статья. В начале 91% точность сегментации. Потом ни одного упоминания этого числа нет. Зато точность в выводах значится уже 85%, а затем 75%. Исследования проводились на отдельных словах, а не на слитной речи. Алфавит - 36 фонем. Интересно каких? Ощущение, что не было мягких. Возможно, не было некоторых классов безударных. 10 дикторов - не указано количество мужчин и женщин и, конечно, не указана точность сегментации для каждого пола. Все рисунки разные - нет двух одинаковых сигналов, на одном из которых была бы ручная, а на другом автоматическая сегментация. Похоже, рисунки были приведены не для сравнения ручной и автоматической сегментации. Что означает &quot;точность&quot; при результате 85% непонятно. При 75% - понятно (расхождение менее 15 мс). В первом варианте считалось правильным, если граница определена до середины фонемы или вообще попала на фонему? Слишком много непонятностей, недосказанностей, поэтому не стал бы доверять и результату и алгоритму.]]></description>
        <author>kaa1</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2207764</guid>
        <pubDate>Sat, 28 Feb 2009 21:59:16 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2207764</link>
        <description><![CDATA[shur_nn: Статью интересную по сегментации нашел.<br>http://www.contrterror.tsure.ru/site/magazine12/07-16-Fedorov.htm]]></description>
        <author>shur_nn</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2201050</guid>
        <pubDate>Fri, 20 Feb 2009 19:38:13 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2201050</link>
        <description><![CDATA[shur_nn: Я думаю, что Вы производили измерения по абсолютной величине, а не относительной.<br>Я повторяю, сравните белый шум и белый шум+&quot;Ш&quot; в соотношении 10:1 (один за другим,<br>интервал между звуками не более 0.5 сек.). Я это делал.<br>Мое субъективное мнение, что относительно белого шума, звук &quot;Ш&quot; в белом шуме распознаваем<br>довольно отчетливо. Хочу заметить, что мы с Вами наверняка не одинаковы в плане восприятия звуков.<br>Я прослушивал звуки через наушники гарнитуры. Возможно Вы прослушивали<br>их через акустику в условиях зашумленного помешения, или уровень <br>звукового давление был недостаточный. Я провел довольно много времени за этим занятием.<br>Конечно я допускаю мысль, что моя слуховая система адаптировалась. <br>Я это слышу, значит распознавание шипящих на фоне белого шума возможно.<br>Правда не уверен, что оно возможно с использованием спектрального анализа.]]></description>
        <author>shur_nn</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2200482</guid>
        <pubDate>Fri, 20 Feb 2009 05:35:33 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2200482</link>
        <description><![CDATA[Анатоль: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=2200352'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>shur_nn &#064; <time class="tag-quote__quoted-time" datetime="2009-02-19T19:59:56+00:00">19.02.09, 19:59</time></span><div class='quote '>Я попробовал смешать &quot;Ш&quot; c белым шумом 1:10. Если слушать шум, а потом сумму, то &quot;Ш&quot; прекрасно слышно и распознаваемо</div></div><br>
Повторил Ваш эксперимент. Результат совсем противоположный.<br>
Даже если смешать (добавить) к &quot;ш&quot; белый шум такой же амплитуды, то распознать там &quot;ш&quot; совершенно невозможно.<br>
Тональные звуки можно услышать и распознать даже меньшей амплитуды,  чем шум, а вот &quot;ш&quot; не получилось.<br>
Может Вы реагировали на изменение амплитуды шума и воспринимали это как наличие там &quot;ш&quot;?]]></description>
        <author>Анатоль</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2200352</guid>
        <pubDate>Thu, 19 Feb 2009 19:59:56 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2200352</link>
        <description><![CDATA[shur_nn: Я попробовал смешать &quot;Ш&quot; c белым шумом 1:10. Если слушать шум, а потом сумму, то &quot;Ш&quot;<br>прекрасно слышно и распознаваемо.]]></description>
        <author>shur_nn</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2199563</guid>
        <pubDate>Thu, 19 Feb 2009 05:33:01 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2199563</link>
        <description><![CDATA[Анатоль: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=2199411'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>shur_nn &#064; <time class="tag-quote__quoted-time" datetime="2009-02-18T20:05:57+00:00">18.02.09, 20:05</time></span><div class='quote '>Кстати интересная задачка - шум превышает по амплитуде в несколько раз звук &quot;Ш&quot;. <br>
Чего делать будем ? </div></div><br>
Будем уши затыкать.]]></description>
        <author>Анатоль</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2199411</guid>
        <pubDate>Wed, 18 Feb 2009 20:05:57 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2199411</link>
        <description><![CDATA[shur_nn: Кстати интересная задачка - шум превышает по амплитуде в несколько раз звук &quot;Ш&quot;. <br>Чего делать будем ?]]></description>
        <author>shur_nn</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2199381</guid>
        <pubDate>Wed, 18 Feb 2009 19:41:50 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2199381</link>
        <description><![CDATA[Анатоль: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=2199124'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>sergun83 &#064; <time class="tag-quote__quoted-time" datetime="2009-02-18T13:54:07+00:00">18.02.09, 13:54</time></span><div class='quote '>Дело в том, что значения энергии для невокализованных звуков и значения энергии для тишины с шумом близки.</div></div><br>
Ну это не совсем так. Это справедливо для таких звуков, как &quot;п&quot; или &quot;ф&quot;.<br>
А энергия таких звуков как &quot;ш&quot; или &quot;ч&quot; очень большая. Да и других вполне заметна.<br>
Но если шумы большие, то слабых шумных звуков Вы просто никак не обнаружите.<br>
Ну разве что спект шумов Вам известен, или по динамике формант гласных можно определить прилегающие согласные.]]></description>
        <author>Анатоль</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2199124</guid>
        <pubDate>Wed, 18 Feb 2009 13:54:07 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2199124</link>
        <description><![CDATA[sergun83: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=2199113'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>Анатоль &#064; <time class="tag-quote__quoted-time" datetime="2009-02-18T13:38:04+00:00">18.02.09, 13:38</time></span><div class='quote '><div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=2198424'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>sergun83 &#064; <time class="tag-quote__quoted-time" datetime="2009-02-17T18:09:58+00:00">17.02.09, 18:09</time></span><div class='quote '>методы  для определения невокализованных участков. ЧОТ использовать не хочу. </div></div><br>
Энергия вокализованных звуков речи лежит в основном в низкочастотной области.<br>
Возьмите отношение (или разницу) энергии в низкочастотной полосе и высокочастотной.<br>
Например 100-600гц. и 4000-5500гц.</div></div><br>
Спасибо за ответ, но энергия не подходит. Дело в том, что значения энергии для невокализованных звуков и значения энергии для тишины с шумом близки. А мне нужно отделить именно невокализованные звуки от тишины (шума).]]></description>
        <author>sergun83</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2199113</guid>
        <pubDate>Wed, 18 Feb 2009 13:38:04 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2199113</link>
        <description><![CDATA[Анатоль: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=2198424'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>sergun83 &#064; <time class="tag-quote__quoted-time" datetime="2009-02-17T18:09:58+00:00">17.02.09, 18:09</time></span><div class='quote '>методы  для определения невокализованных участков. ЧОТ использовать не хочу. </div></div><br>
Энергия вокализованных звуков речи лежит в основном в низкочастотной области.<br>
Возьмите отношение (или разницу) энергии в низкочастотной полосе и высокочастотной.<br>
Например 100-600гц. и 4000-5500гц.]]></description>
        <author>Анатоль</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2198424</guid>
        <pubDate>Tue, 17 Feb 2009 18:09:58 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=2198424</link>
        <description><![CDATA[sergun83: Господа, подскажите, пожалуйста, методы (или ссылки на источники) для определения невокализованных участков. ЧОТ использовать не хочу.]]></description>
        <author>sergun83</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1957739</guid>
        <pubDate>Fri, 16 May 2008 10:45:39 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1957739</link>
        <description><![CDATA[Gron: Кто знает, где достать программу пофонемной сегментации при помощи вейвлет-анализа? Подскажите, пожалуйста.]]></description>
        <author>Gron</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1941467</guid>
        <pubDate>Mon, 28 Apr 2008 18:16:38 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1941467</link>
        <description><![CDATA[goodass: <strong class='tag-b'>china_630</strong><br>
<a class='tag-url' href='http://htk.eng.cam.ac.uk/' target='_blank'>HTK</a> вам в помощь. Линуховый вариант предоставляется в виде СИшных библиотек. Правда насчет коммерческого использования читайте условия.]]></description>
        <author>goodass</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1888344</guid>
        <pubDate>Tue, 04 Mar 2008 09:04:30 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1888344</link>
        <description><![CDATA[china_630: Всем привет.<br><br>Нет ли случайно у кого-нибудь MFCC на Delphi? Да в принципе и на С пойдет :-)]]></description>
        <author>china_630</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1887934</guid>
        <pubDate>Mon, 03 Mar 2008 17:48:35 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1887934</link>
        <description><![CDATA[nsh: Есть, но бяку лучше бросить :)<br><br>http://majority.wsnw.net/fft.zip]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1887889</guid>
        <pubDate>Mon, 03 Mar 2008 16:26:49 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1887889</link>
        <description><![CDATA[Fleur: Нет ли случайно программы построения спектрограмм на Delphi?]]></description>
        <author>Fleur</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1866756</guid>
        <pubDate>Wed, 13 Feb 2008 08:59:39 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1866756</link>
        <description><![CDATA[iitta: nsh: спасибо. Как я понял, это интернациональная забава специалистов в области речи.]]></description>
        <author>iitta</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1866136</guid>
        <pubDate>Tue, 12 Feb 2008 15:57:28 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1866136</link>
        <description><![CDATA[nsh: Ну да, прикольно было бы научиться, вот тут:<br>
<br>
http://home.cc.umanitoba.ca/~robh/<br>
<br>
даже соревнования проводятся - каждый месяц вывешивают спектрограмму и по ней надо понять, что за звук. Я вот думаю - не заняться ли читерством - написать прогу которая по спектрограмме звук делает :) <br>
<br>
<span class="tag-color tag-color-named" data-value="gray" style="color: gray"><span class='tag-size' data-value='7' style='font-size:7pt;'>Добавлено <time class="tag-mergetime" datetime="2008-02-12T16:00:38+00:00">12.02.08, 16:00</time></span></span><br>
iitta: кстати, там есть архив спектрограм, там везде объяснено, почему какая-то фонема выделена. Хотя это объяснения на объяснения Шерлока Холмса похожи, слишком вытянуты.<br>
<br>
http://home.cc.umanitoba.ca/~robh/archive.html]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1865706</guid>
        <pubDate>Tue, 12 Feb 2008 11:32:19 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1865706</link>
        <description><![CDATA[iitta: Лет десять назад я писал обзор по автоматическому распознаванию речи для одной фирмы, кусок из которого привожу:<br><br>...Считается, что для идентификации гласной достаточно двух первых формант, поэтому гласные часто изображают на плоскости F1,F2, где они образуют вытянутый треугольник. Возможно, третья форманта является дополнительным, избыточным признаком гласной. Некоторым подтверждением этой точки зрения является факт, что человек может научиться читать &quot;видимую речь&quot; (спектр в координатах ВРЕМЯ-ЧАСТОТА, где максимумы амплитуды спектра отображаются почернением или пиками для трехмерных изображений). Заранее отметим, что это умение никак не отразилось на создании систем автоматического распознавания речи. Либо виртуозы чтения не могут вербализовать правила, которыми они пользуются при чтении, то есть используются столь же мало познанные процессы зрительного восприятия, либо ошибки распознавания по видимой речи больше, чем в системах автоматического распознавания (уровень ошибок распознавания по видимой речи, насколько мне известно, никто не измерял)...<br><br>Может быть, кто-нибудь сделает upgrade высказанных соображений?]]></description>
        <author>iitta</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1865205</guid>
        <pubDate>Mon, 11 Feb 2008 22:56:54 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1865205</link>
        <description><![CDATA[Fleur: Спасибо за ссылки&#33;<br><br>Проблема заключается в распознавании речи именно по спектрограмме.<br><br>За Кривнову спасибо. <br>Есть ли у кого-нибудь работы Зиновьевой Н.В? Например, Зиновьева Н.В. Система акустических ключей к распознаванию фонетических единиц русского языка?]]></description>
        <author>Fleur</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1865202</guid>
        <pubDate>Mon, 11 Feb 2008 22:48:49 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1865202</link>
        <description><![CDATA[nsh: Надо установить плагин для IE или просмотрщик djvu:<br>
<br>
http://djvu.sourceforge.net/ <br>
<br>
<span class="tag-color tag-color-named" data-value="gray" style="color: gray"><span class='tag-size' data-value='7' style='font-size:7pt;'>Добавлено <time class="tag-mergetime" datetime="2008-02-11T22:54:59+00:00">11.02.08, 22:54</time></span></span><br>
Ну и вот это ещё стоит про спектрограммы поглядеть:<br>
<br>
http://cslu.cse.ogi.edu/tutordemos/SpectrogramReading/spectrogram_reading.html<br>
http://www.chass.utoronto.ca/~danhall/lin228/acoustics.html<br>
http://arse.sourceforge.net/examples.shtml<br>
<br>
И, если удастся:<br>
<br>
Ladefoged, Peter: A Course In Phonetics: Third Edition, page 60. Harcourt Brace College Publishers, 1993]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1865199</guid>
        <pubDate>Mon, 11 Feb 2008 22:42:13 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1865199</link>
        <description><![CDATA[Fleur: <strong class='tag-b'>nsh</strong>, спасибо за ссылки. Жаль, что все материалы на английском.<br>
Из второй ссылки книги Spoken Language Processing vol. 1 и 2 не открываются или это только у меня?]]></description>
        <author>Fleur</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1865194</guid>
        <pubDate>Mon, 11 Feb 2008 22:31:26 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1865194</link>
        <description><![CDATA[nsh: Ну как, про это целые книги написаны.<br>
<br>
Вводную информацию можно посмотреть в энциклопедиях и поискать в сети, вроде<br>
<br>
http://en.wikipedia.org/wiki/Speech_recognition<br>
<br>
А более подробно нужно изучать по книге, вроде SLP:<br>
<br>
http://festlang.berlios.de/docu/doku.php?id=speech_tech_faq&s=spoken <br>
<br>
<span class="tag-color tag-color-named" data-value="gray" style="color: gray"><span class='tag-size' data-value='7' style='font-size:7pt;'>Добавлено <time class="tag-mergetime" datetime="2008-02-11T22:39:47+00:00">11.02.08, 22:39</time></span></span><br>
А по спектрограмме специалист распознавать звуки может, конечно. Но для этого опыт нужен. Немного про это описано в <br>
книжке Кривновой &quot;Общая фонетика&quot;, например, из доступного в сети:<br>
<br>
http://www.philol.msu.ru/~otipl/SpeechGroup/publications/krivnova-2001-2004/glava11.doc<br>
<br>
ну и на английском литературы полно, например<br>
<br>
http://home.cc.umanitoba.ca/~robh/howto.html<br>
<br>
Вобщем, если вы проблему уточните, можно будет и литературу подходящую подыскать.]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1865183</guid>
        <pubDate>Mon, 11 Feb 2008 22:10:12 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1865183</link>
        <description><![CDATA[Fleur: Получается, что это мы сами пишем названия фонем. А я подумала, что программа сама выводит их, т.е. распознает. :o <br><br>Я изучаю вопрос распознавания речи по спектрограмме. Получила спектрограммы разных звуков, получается, что совершенно разные фонемы почти не отличаются друг от друга. Как тогда вообще распознавать?]]></description>
        <author>Fleur</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1865148</guid>
        <pubDate>Mon, 11 Feb 2008 21:39:59 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1865148</link>
        <description><![CDATA[nsh: Это ручное выделение, если Вас это интересует. В Wavesurfer на панели щёлкаете правой кнопкой мыши - Add Pane-&gt;Transcription. Добавляется полоска с транскрипцией. На ней щёлкаете - Insert Label, двигаете метку, потом снова правой кнопой - Save All Labels. Сохраняете транскрипцию. <br>
<br>
<span class="tag-color tag-color-named" data-value="gray" style="color: gray"><span class='tag-size' data-value='7' style='font-size:7pt;'>Добавлено <time class="tag-mergetime" datetime="2008-02-11T21:41:24+00:00">11.02.08, 21:41</time></span></span><br>
P.S. Ни одна программа так точно границы пока искать не может :) <br>
<br>
<span class="tag-color tag-color-named" data-value="gray" style="color: gray"><span class='tag-size' data-value='7' style='font-size:7pt;'>Добавлено <time class="tag-mergetime" datetime="2008-02-11T22:01:12+00:00">11.02.08, 22:01</time></span></span><br>
Хотя нет, не так точно, на картинке после с перед а слишком рано граница :)]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1865130</guid>
        <pubDate>Mon, 11 Feb 2008 21:19:23 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1865130</link>
        <description><![CDATA[Fleur: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=1865082'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>nsh &#064; <time class="tag-quote__quoted-time" datetime="2008-02-11T20:29:19+00:00">11.02.08, 20:29</time></span><div class='quote '>Ничего, что не в тему запостили  ;) ?<br>
<br>
Это не программа называется Raw Waveform, это окошко называется так. А программа какая-то наша самописная судя по всему. Гораздо проще скачать Wavesurfer, там всё такое же есть:<br>
<br>
http://www.speech.kth.se/wavesurfer/download.html</div></div><br>
Просто эта программа позволяет выделить фонемы (судя по указанным в этом окошке вверху фонемам &quot;Вы мне писали&quot;), я и подумала, что сюда можно писать. :huh: <br>
Есть у меня Wavesurfer, но как в ней получить разбиение слов на фонемы (как в том окошке вверху)?]]></description>
        <author>Fleur</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1865082</guid>
        <pubDate>Mon, 11 Feb 2008 20:29:19 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1865082</link>
        <description><![CDATA[nsh: Ничего, что не в тему запостили  ;) ?<br><br>Это не программа называется Raw Waveform, это окошко называется так. А программа какая-то наша самописная судя по всему. Гораздо проще скачать Wavesurfer, там всё такое же есть:<br><br>http://www.speech.kth.se/wavesurfer/download.html]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1864626</guid>
        <pubDate>Mon, 11 Feb 2008 14:34:49 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1864626</link>
        <description><![CDATA[Fleur: У кого-нибудь есть программа Raw Waveform?]]></description>
        <author>Fleur</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1841440</guid>
        <pubDate>Sun, 20 Jan 2008 10:13:46 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1841440</link>
        <description><![CDATA[kaa1: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=1841305'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>Hobbit &#064; <time class="tag-quote__quoted-time" datetime="2008-01-20T00:33:13+00:00">20.01.08, 00:33</time></span><div class='quote '>имелись ввиду первые 4-5</div></div><br>
<div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=1841305'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>Hobbit &#064; <time class="tag-quote__quoted-time" datetime="2008-01-20T00:33:13+00:00">20.01.08, 00:33</time></span><div class='quote '>в каком диапазоне частот АЧХ имеет максимумы? Не в области ли ВЧ по отношения к первой строке?</div></div><br>
Нет, не в этой области. Частота 4-5-й гармоники может совпадать с частотой второй форманты. А основной тон может находиться в той же частотной области, что и первая форманта, поэтому область формант не является более высокочастотной.<br>
<div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=1841305'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>Hobbit &#064; <time class="tag-quote__quoted-time" datetime="2008-01-20T00:33:13+00:00">20.01.08, 00:33</time></span><div class='quote '>Можно чуть подетальнее объяснить?</div></div><br>
Если Вы употребляете понятие &quot;область форманты&quot;, то значит Вы понимаете, что это такое, и у Вас не должно быть сложностей при вычислении средней частоты в этой области.]]></description>
        <author>kaa1</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1841305</guid>
        <pubDate>Sun, 20 Jan 2008 00:33:13 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1841305</link>
        <description><![CDATA[Hobbit: &quot;Гармоники основного тона уходят куда-то в район бесконечности&quot; - имелись ввиду первые 4-5.<br>&quot;частотные характеристики резонирующих полостей речевого тракта&quot; - в каком диапазоне частот АЧХ имеет максимумы? Не в области ли ВЧ по отношения к первой строке? - отсюда второе возможное определение<br>&quot;Второе – частотой форманты называют среднюю (средневзвешенную) частоту спектра в области соответствующей форманты.&quot; Можно чуть подетальнее объяснить?]]></description>
        <author>Hobbit</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1839554</guid>
        <pubDate>Fri, 18 Jan 2008 04:42:48 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1839554</link>
        <description><![CDATA[kaa1: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=1839399'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>Hobbit &#064; <time class="tag-quote__quoted-time" datetime="2008-01-17T20:16:47+00:00">17.01.08, 20:16</time></span><div class='quote '>имеется область частоты ОТ с гармониками и более ВЧ-область формант</div></div><br>
Гармоники основного тона уходят куда-то в район бесконечности, поэтому они не могут быть ниже по частоте, чем форманты.<br>
Есть, например, такая книга: Общая и прикладная фонетика: учеб. пособие / Л. В. Златоустова, Р. К. Потапова, В. В. Потапов, В. Н. Трунин-Донской.<br>
Выдержка из неё: &quot;Наряду с частотой основного тона немаловажными параметрами, характеризующими вокализованный речевой сигнал, являются частоты формант. На форму звуковой волны, исходящей от голосового источника, накладываются частотные характеристики резонирующих полостей речевого тракта. Собственные частоты резонаторов являются наиболее усиленными в акустической картине звука. Эти усиленные частоты называют формантами.<br>
На данный момент существует несколько определений частоты форманты. Первое – частотой форманты называют частоту полюса фильтрующей функции речевого тракта. Второе – частотой форманты называют среднюю (средневзвешенную) частоту спектра в области соответствующей форманты. Третье – за частоты формант принимают частоты максимумов спектра. Наиболее общепринятым является третий вариант определения.&quot;<br>
Частота основного тона напрямую зависит от частоты колебаний голосовых складок. Гармоники основного тона кратны по частоте основному тону. Я на этом форуме значения формант уже приводил.<br>
<div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=1839399'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>Hobbit &#064; <time class="tag-quote__quoted-time" datetime="2008-01-17T20:16:47+00:00">17.01.08, 20:16</time></span><div class='quote '>интересуют ссылки на публикации</div></div><br>
Есть в этом форуме прикреплённая тема про основной тон, там кое-что найдёте. А ещё есть классики, например, Рабинер.]]></description>
        <author>kaa1</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1839399</guid>
        <pubDate>Thu, 17 Jan 2008 20:16:47 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1839399</link>
        <description><![CDATA[Hobbit: Есть пара вопросов для уточнения, форманты: разные источники определяют несколько по-разному: 1- любой спектральный пик - форманта, 2- имеется область частоты ОТ с гармониками и более ВЧ-область формант, кто как понимает этот термин?<br><br>ПС Также изучаю вопрос о спектральных методах оценки ОТ. Поэтому интересуют ссылки на публикации.]]></description>
        <author>Hobbit</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1760541</guid>
        <pubDate>Mon, 12 Nov 2007 03:49:29 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1760541</link>
        <description><![CDATA[Skif: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=1732853'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>Lebedev &#064; <time class="tag-quote__quoted-time" datetime="2007-10-17T14:29:54+00:00">17.10.07, 14:29</time></span><div class='quote '>Как можно сказать по этим спектрограммам что это один звук?</div></div><br>
Нужно анализировать огибающую спектра. Для примера я прикрепил рисунок. Всплески на спектре кратны частоте основного тона (ОТ). А огибающая характеризует спектр резонаторов. В связи с тем что частота ОТ различная у разных дикторов точность определения огибающей меняется от диктора к диктору. У женских голосов частота ОТ максимальная и всвязи с этим огибающая получается не совсем точная. <br>
<br>
<span class="tag-color tag-color-named" data-value="gray" style="color: gray"><span class='tag-size' data-value='7' style='font-size:7pt;'>Добавлено <time class="tag-mergetime" datetime="2007-11-12T03:55:29+00:00">12.11.07, 03:55</time></span></span><br>
Ко всему прочему важно при выполнении преобразования фурье учитывать что длина окна для различных дикторов постоянна, т.е. нужно использовать одну и ту же длину окна БПФ, для получения одной и той же частотной шкалы в результатах БПФ. От фонеме к фонеме спектры огибающих будут меняться и для нахождения областей в которых спектры различных фонем не пересекаюстя это отдельная задача.]]></description>
        <author>Skif</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1760199</guid>
        <pubDate>Sun, 11 Nov 2007 14:40:45 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1760199</link>
        <description><![CDATA[kviper: Столкнулса вот с таким вопросом: опознавание тона (голоса) и формирование искуственного голоса по опознаним даним. <br>Может кто-нибуть что-нибуть посоветовать&#33; Буду благодарен за подходящую литературу. Спасибо&#33; :)]]></description>
        <author>kviper</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1736399</guid>
        <pubDate>Sat, 20 Oct 2007 07:47:40 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1736399</link>
        <description><![CDATA[nsh: Можно такое, только называется это не синтез а преобразование голоса (voice conversion/voice transformation). Записывается 30-40 предложений, строится матрица линейных пробразований, чтобы точно подгонять параметры мел-кепстра. Потом человек говорит, а его речь преобразуется в другой голос. Получается очень неплохо.<br><br>http://www.cs.cmu.edu/~awb/papers/icassp2005/0100009.pdf<br><br>Исходники этого дела есть внутри festvox.]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1736381</guid>
        <pubDate>Sat, 20 Oct 2007 05:49:56 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1736381</link>
        <description><![CDATA[Lebedev: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=1734708'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>neurofish &#064; <time class="tag-quote__quoted-time" datetime="2007-10-18T19:19:23+00:00">18.10.07, 19:19</time></span><div class='quote '>сомнителен этот способ не тем, что нельзя получить такой спектр, а тем, что пользы от этого занятия мало будет</div></div><br>
А если на основе набранной статистики (для конкретного диктора) по конкретной фонеме попробовать изменять параметры цифрового фильтра для синтеза спектра, полученно по статистике. Разве так нельзя добиться более хорошего кчества синтеза?]]></description>
        <author>Lebedev</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1735409</guid>
        <pubDate>Fri, 19 Oct 2007 10:39:38 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1735409</link>
        <description><![CDATA[Hobbit: Расчет спектра на времменом окне всегда дает лишь сечение спектрограммы, чтобы получить только классический компл. спектр, независимый от времени, надо взять фонограмму от минус бесконечности до плюс, что нереально.]]></description>
        <author>Hobbit</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1734708</guid>
        <pubDate>Thu, 18 Oct 2007 19:19:23 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1734708</link>
        <description><![CDATA[neurofish: <div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '><br>
Спектрлаб это что такое?<br>
</div></div><br>
Spectralab - популярная программа анализа спектра<br>
<br>
<div class='tag-quote'><span class='tag-quote-prefix'>Цитата</span> <div class='quote '><br>
Если это сомнительный способ, то как тогда эти какртинки авторы получали?<br>
</div></div><br>
сомнителен этот способ не тем, что нельзя получить такой спектр, а тем, что пользы от этого занятия мало будет]]></description>
        <author>neurofish</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1733320</guid>
        <pubDate>Thu, 18 Oct 2007 05:45:20 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1733320</link>
        <description><![CDATA[nsh: Да любая программа это умеет, Wavesurfer http://www.speech.kth.se/wavesurfer/download.html например:<br>
<br>
<img class='tag-img' src='http://nshmyrev.narod.ru/temp/wavesurfer-screen.png' alt='user posted image'><br>
<br>
Praat, конечно, продвинутее, но им пользоваться сложнее.]]></description>
        <author>nsh</author>
        <category>Речевые Технологии</category>
      </item>
	
      <item>
        <guid isPermaLink='true'>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1733225</guid>
        <pubDate>Thu, 18 Oct 2007 01:17:49 +0000</pubDate>
        <title>Фонемное распознавание речи</title>
        <link>https://forum.sources.ru/index.php?showtopic=145994&amp;view=findpost&amp;p=1733225</link>
        <description><![CDATA[Lebedev: <div class='tag-quote'><a class='tag-quote-link' href='https://forum.sources.ru/index.php?showtopic=145994&view=findpost&p=1732862'><span class='tag-quote-prefix'>Цитата</span></a> <span class='tag-quote__quote-info'>neurofish &#064; <time class="tag-quote__quoted-time" datetime="2007-10-17T14:38:09+00:00">17.10.07, 14:38</time></span><div class='quote '>это, скорее всего, возможно только для стационарных звуков. А их немного. Можно вычислять средний спектр (в спектралабе), но это сомнительный способ. Что касается картинки, то, судя по надписи, изображен то ли звук &quot;и&quot;, то ли звук &quot;ы&quot;. А они могут иметь несколько реализаций и быть нестационарными</div></div><br>
Спектрлаб это что такое?<br>
<br>
Просто в книжках для некоторых звуков приводятся такие картинки, но не для всех. Я вот и хочу попробовать получить для некоторых других.<br>
Если это сомнительный способ, то как тогда эти какртинки авторы получали?]]></description>
        <author>Lebedev</author>
        <category>Речевые Технологии</category>
      </item>
	
      </channel>
      </rss>
	