Фонемное распознавание речи
![]() |
Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
|
| ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
| [216.73.216.141] |
|
|
| Страницы: (15) « Первая ... 7 8 [9] 10 11 ... 14 15 все ( Перейти к последнему сообщению ) |
Фонемное распознавание речи
|
Сообщ.
#121
,
|
|
|
|
Первая гармоника - основной тон(F0). Допустим, что F0=100Гц, тогда вторая гармоника 2F0=200Гц. Между ними 100Гц. С учётом критических полос и т.д. можно отбросить частотную полосу порядка 50Гц, в которой интенсивность сигнала меньше порога слышимости для данной полосы частот.
Фильтры я не сам писал. На это нужно слишком много времени. А сейчас как раз сижу с этим разбираюсь досконально, чтобы написать соответствующий параграф в диссертацию. |
|
Сообщ.
#122
,
|
|
|
|
kaa1
Мне тоже интересен алгоритм РАО. radz на yandex'е. |
|
Сообщ.
#123
,
|
|
|
|
Он вам особо сильно не поможет, потому что во многом привязан к системе фильтров. Но всем, что опубликовано в открытой печати я готов поделиться.
|
|
Сообщ.
#124
,
|
|
|
|
Цитата grisania @ Пришлм мне статью про алгоритм определения ЧОТ из сборника РАО, если не трудно на мыло grisania@yandex.ru. а этой статье есть статья Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Адаптивный анализ голосового сигнала // Интеллектуальные системы в управлении, конструировании и образовании / Под ред. А.А. Шелупанова. – Томск: STT, 2004. - 216 с. – С.58-61. Можешь ее прислать. Если есть русские фонемы и их много, то я могу сделать и распознавание на вокализованные и невокализованные. Однако я запутался вокализованные - это гласные и сонорные согласные, т.е содержащие основной тон. Тогда что такое глухие и звонкие в книжке Сапожкова стр. 328. Там тоже глухие и звонкие делятся н эти классы в зависимости от наличия основного тона. Пока невоклизованные плохо распознаются энергетическим дискриминантым анализом. Но невоклизованные, которые не распознаюся, имеют большие всплески по амплтуде. Можно конечно их отсортировать (отсчетов всего 512) и убрать большие всплески по амплтуде, но как их устранить по науке? Может есть известные алгоритмы? |
|
Сообщ.
#125
,
|
|
|
|
Самое главное, что есть в этой статье, - описание системы фильтров. Чтобы взять эту статью нужно время. Есть более поздний вариант с примерным описанием фильтров.
К вокализованным относятся звуки с наличием основного тона (гласные, сонанты, звонкие), к невокализованным - без основного тона, т.е. в их образовании не участвуют голосовые складки (глухие). В речевом сигнале по суммарной энергии довольно тяжело осуществлять разбиение на эти два класса, особенно в слитной речи. Вполне возможно, что алгоритм работает правильно, а неверное определение класса - недостаток самого алгоритма, а не его работы. Часто энергия невокализованных звуков, например глухих смычных на участке самой смычки, превышает ту же характеристику у безударных гласных второго порядка, щелевых звонких и др. |
|
Сообщ.
#126
,
|
|
|
|
Цитата kaa1 @ Часто энергия невокализованных звуков, например глухих смычных на участке самой смычки, превышает ту же характеристику у безударных гласных второго порядка, щелевых звонких и др. Это действительно так, когда накладываешь окно, то распознавания улучшается. Значит, окно на краях убирает ударение. Но думаю, что окно не должно быть симметричным. Надо продумать вид такого окна. Оно очень важно, так как начало фонемы по любому нельзя точно определить, а окно будет сглаживать ошибки выбора начало фонем. Если к вокализованным относятся гласные, сонанты, звонкие, то это звонкие как в книжке Сапожкова. Но это замечательно, если есть алгоритм определения начало основного тона у вокализованных фонем, значит, можно сегментировать начало вокализованных фонем. Все же как убирать всплески энергии у невокализованных звуков? Я перед распознаванием каждую фонему растягиваю по максимальной амплитуде. Например, можно у всех фонем сделать максимальную амплитуду единицей. Но если есть всплеск по амплитуде, то он все портит. А у невокализованных фонем это часто бывает. Любопытно, как ухо человека убирает всплеск? Если никто ничего путного не посоветует, то буду химичить. 1 вариант. Отсортирую, и буду брать RMS, в который входит всплеск и сравнивать его с другими, если нет значительных изменений, то все в порядке - это не всплеск. 2 вариант. Найду всплеск, осмотрю рядом отсчеты, если там нет такого резкого изменения, то это всплеск - его надо убрать. Что любопытно, то это то, что в вокализованные звуки нельзя втащить всплеск. Мешает основной тон. Я пытался сам внести, проговаривая вокализованные звуки. Только увеличивается громкость вокализованного звука и все. |
|
Сообщ.
#127
,
|
|
|
|
Цитата grisania @ в вокализованные звуки нельзя втащить всплеск. У вокализованных это проявляется по другому. У звонких смычных происходит скачок частоты основного тона. Ударность гласного может быть определена за счёт скачка ЧОТ или увеличения длительности звука. Цитата grisania @ Любопытно, как ухо человека убирает всплеск? А вот это уже вопрос интересный. Возможно, ему не надо убирать этот всплеск, потому что это является характеристикой какого-либо класса глухих звуков по месту образования (пример со смычными глухими). Здесь главный вопрос - какие параметры использует слух для определения вокализации сегмента. Для выяснения этого и строятся различные модели. И у каждой модели есть свой потолок, определяемый степенью адекватности этой модели исследуемой системе. Соответсвенно и результаты имеют свой потолок. Я считаю, что подобрался к действительности довольно близко, используя как параметр наличие первых двух гармоник основного тона. Ошибки возникают только на звонких щелевых (ж,з) и н из-за небольшой относительной амплитуды второй гармоники. Её заглушают боковые составляющие первой гармоники (основоного тона) в связи с возникающей в сигнале модуляцией. Это моё личное мнение, но у Сорокина в "Теории речеобразования" есть таблица, из которой следует, что при маскировке белым шумом наиболее плохой процент распознавания именно у этих трёх фонем. На прикреплённом рисунке речевой сигнал после маскировки, которая осуществляется и в слуховой системе. По оси абсцисс - время, по оси ординат - частотные каналы (127 - 70 Гц, 0 - 2500 Гц, шкала - логарифмическая). Амплитуда двоичная: если данная точка спектра воспринимается слуховой системой, то амплитуда равна 1, и наоборот. Сегменты, на которых чётко видны две первые гармоники, вокализованы.Фраза "Это учебное". Прикреплённый файл Рисунок1.png (178.98 Кбайт, скачиваний: 793)
|
|
Сообщ.
#128
,
|
|
|
|
У одного человека основной тон может быть разным на различных фонемах?
|
|
Сообщ.
#129
,
|
|
|
|
Цитата У одного человека основной тон может быть разным на различных фонемах? Да, он может быть разным даже на одной фонеме. Это вообще вещи не связанные друг с другом. |
|
Сообщ.
#130
,
|
|
|
|
Цитата nsh @ Цитата У одного человека основной тон может быть разным на различных фонемах? Да, он может быть разным даже на одной фонеме. Это вообще вещи не связанные друг с другом.Ура кто-то ответил =) пожалуста если это не страшный боян скажите (сверху все я читал ругаться не надо ) что такое: 1. основной тон, 2. форманта. ибо до последнего времени я думал/прочитал, что форманта есть всплески энергии на спектре. |
|
Сообщ.
#131
,
|
|
|
|
Ну вобщем так и есть. В спектре речи часто (в спектре гласных, например) присутствуют максимумы. Они и называются формантами. Первая форманта - самый большой максимум и есть основной тон.
|
|
Сообщ.
#132
,
|
|
|
|
Цитата nsh @ Ну вобщем так и есть. В спектре речи часто (в спектре гласных, например) присутствуют максимумы. Они и называются формантами. Первая форманта - самый большой максимум и есть основной тон. Вот тут у меня 4 диктора произносят одну фонему, у всех разное количество формант. Как можно сказать по этим спектрограммам что это один звук? =) никак? |
|
Сообщ.
#133
,
|
|
|
|
Ну надо различать один звук и одну фонему. Звуки все говорят разные.
Если набрать статистику по диктору какие у него форманты к каким звукам относятся то гласные можно различать. И то не наверняка. |
|
Сообщ.
#134
,
|
|
|
|
Есть статья
Ямов С.И., Кабак И.С., Курочкин С.Н., Бродин А.Г. МНОГОУРОВНЕВАЯ СИСТЕМА РАСПОЗНАВАНИЯ РЕЧИ там про распознавание фонем только теория если надо кину Добавлено читаю глупо получилось: если надо кину, я людей не кидаю |
|
Сообщ.
#135
,
|
|
|
|
Цитата Ich_bin_Turisten @ Есть статья Ямов С.И., Кабак И.С., Курочкин С.Н., Бродин А.Г. МНОГОУРОВНЕВАЯ СИСТЕМА РАСПОЗНАВАНИЯ РЕЧИ там про распознавание фонем только теория если надо кину Добавлено читаю глупо получилось: если надо кину, я людей не кидаюКиньте пожалуйста если не трудно, yco1694[собачка]yandex.ru -Added Цитата nsh @ Ну надо различать один звук и одну фонему. Звуки все говорят разные. Если набрать статистику по диктору какие у него форманты к каким звукам относятся то гласные можно различать. И то не наверняка. Т.е. Вы говорите сейчас только о диктороЗависимом распозновании? |