Фонемное распознавание речи -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.217.58]

Модераторы: RaD, nsh

Новое голосование

Фонемное распознавание речи

kaa1

Сообщ. #121 , 08.08.06, 08:48

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Первая гармоника - основной тон(F0). Допустим, что F0=100Гц, тогда вторая гармоника 2F0=200Гц. Между ними 100Гц. С учётом критических полос и т.д. можно отбросить частотную полосу порядка 50Гц, в которой интенсивность сигнала меньше порога слышимости для данной полосы частот.
Фильтры я не сам писал. На это нужно слишком много времени. А сейчас как раз сижу с этим разбираюсь досконально, чтобы написать соответствующий параграф в диссертацию.

Сообщение отредактировано: kaa1 - 08.08.06, 08:51

RaD	Сообщ. #122 , 08.08.06, 10:58
Moderator Профиль · PM Поощрения: 24 Dgm Рейтинг (т): 23	kaa1 Мне тоже интересен алгоритм РАО. radz на yandex'е.

kaa1	Сообщ. #123 , 08.08.06, 11:03
Full Member Профиль · PM Поощрения: 1 Dgm Рейтинг (т): 9	Он вам особо сильно не поможет, потому что во многом привязан к системе фильтров. Но всем, что опубликовано в открытой печати я готов поделиться.

grisania

Сообщ. #124 , 15.08.06, 07:18

Member

Профиль · PM

Рейтинг (т): 3

Цитата grisania @ 08.08.06, 06:08

Пришлм мне статью про алгоритм определения ЧОТ из сборника РАО, если не трудно на мыло
grisania@yandex.ru.

а этой статье есть статья
Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Адаптивный анализ голосового сигнала // Интеллектуальные системы в управлении, конструировании и образовании / Под ред. А.А. Шелупанова. – Томск: STT, 2004. - 216 с. – С.58-61.
Можешь ее прислать.

Если есть русские фонемы и их много, то я могу сделать и распознавание на вокализованные и невокализованные.
Однако я запутался вокализованные - это гласные и сонорные согласные, т.е содержащие основной тон.
Тогда что такое глухие и звонкие в книжке Сапожкова стр. 328. Там тоже глухие и звонкие делятся н эти классы в зависимости от наличия основного тона.
Пока невоклизованные плохо распознаются энергетическим дискриминантым анализом. Но невоклизованные, которые не распознаюся, имеют большие всплески по амплтуде. Можно конечно их отсортировать (отсчетов всего 512) и убрать большие всплески по амплтуде, но как их устранить по науке? Может есть известные алгоритмы?

kaa1

Сообщ. #125 , 15.08.06, 16:29

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Самое главное, что есть в этой статье, - описание системы фильтров. Чтобы взять эту статью нужно время. Есть более поздний вариант с примерным описанием фильтров.
К вокализованным относятся звуки с наличием основного тона (гласные, сонанты, звонкие), к невокализованным - без основного тона, т.е. в их образовании не участвуют голосовые складки (глухие).
В речевом сигнале по суммарной энергии довольно тяжело осуществлять разбиение на эти два класса, особенно в слитной речи. Вполне возможно, что алгоритм работает правильно, а неверное определение класса - недостаток самого алгоритма, а не его работы. Часто энергия невокализованных звуков, например глухих смычных на участке самой смычки, превышает ту же характеристику у безударных гласных второго порядка, щелевых звонких и др.

grisania

Сообщ. #126 , 15.08.06, 19:17

Member

Профиль · PM

Рейтинг (т): 3

Цитата kaa1 @ 15.08.06, 16:29

Часто энергия невокализованных звуков, например глухих смычных на участке самой смычки, превышает ту же характеристику у безударных гласных второго порядка, щелевых звонких и др.

Это действительно так, когда накладываешь окно, то распознавания улучшается. Значит, окно на краях убирает ударение. Но думаю, что окно не должно быть симметричным. Надо продумать вид такого окна. Оно очень важно, так как начало фонемы по любому нельзя точно определить, а окно будет сглаживать ошибки выбора начало фонем.
Если к вокализованным относятся гласные, сонанты, звонкие, то это звонкие как в книжке Сапожкова.
Но это замечательно, если есть алгоритм определения начало основного тона у вокализованных фонем, значит, можно сегментировать начало вокализованных фонем.

Все же как убирать всплески энергии у невокализованных звуков? Я перед распознаванием каждую фонему растягиваю по максимальной амплитуде. Например, можно у всех фонем сделать максимальную амплитуду единицей. Но если есть всплеск по амплитуде, то он все портит. А у невокализованных фонем это часто бывает. Любопытно, как ухо человека убирает всплеск?
Если никто ничего путного не посоветует, то буду химичить.
1 вариант. Отсортирую, и буду брать RMS, в который входит всплеск и сравнивать его с другими, если нет значительных изменений, то все в порядке - это не всплеск.
2 вариант. Найду всплеск, осмотрю рядом отсчеты, если там нет такого резкого изменения, то это всплеск - его надо убрать.
Что любопытно, то это то, что в вокализованные звуки нельзя втащить всплеск. Мешает основной тон. Я пытался сам внести, проговаривая вокализованные звуки. Только увеличивается громкость вокализованного звука и все.

kaa1

Сообщ. #127 , 16.08.06, 08:41

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Цитата grisania @ 15.08.06, 19:17

в вокализованные звуки нельзя втащить всплеск.

У вокализованных это проявляется по другому. У звонких смычных происходит скачок частоты основного тона. Ударность гласного может быть определена за счёт скачка ЧОТ или увеличения длительности звука.

Цитата grisania @ 15.08.06, 19:17

Любопытно, как ухо человека убирает всплеск?

А вот это уже вопрос интересный. Возможно, ему не надо убирать этот всплеск, потому что это является характеристикой какого-либо класса глухих звуков по месту образования (пример со смычными глухими). Здесь главный вопрос - какие параметры использует слух для определения вокализации сегмента. Для выяснения этого и строятся различные модели. И у каждой модели есть свой потолок, определяемый степенью адекватности этой модели исследуемой системе. Соответсвенно и результаты имеют свой потолок.
Я считаю, что подобрался к действительности довольно близко, используя как параметр наличие первых двух гармоник основного тона. Ошибки возникают только на звонких щелевых (ж,з) и н из-за небольшой относительной амплитуды второй гармоники. Её заглушают боковые составляющие первой гармоники (основоного тона) в связи с возникающей в сигнале модуляцией. Это моё личное мнение, но у Сорокина в "Теории речеобразования" есть таблица, из которой следует, что при маскировке белым шумом наиболее плохой процент распознавания именно у этих трёх фонем.
На прикреплённом рисунке речевой сигнал после маскировки, которая осуществляется и в слуховой системе. По оси абсцисс - время, по оси ординат - частотные каналы (127 - 70 Гц, 0 - 2500 Гц, шкала - логарифмическая). Амплитуда двоичная: если данная точка спектра воспринимается слуховой системой, то амплитуда равна 1, и наоборот. Сегменты, на которых чётко видны две первые гармоники, вокализованы.Фраза "Это учебное".

Сообщение отредактировано: kaa1 - 16.08.06, 17:19

Прикреплённый файл

Рисунок1.png (178.98 Кбайт, скачиваний: 807)

navigator29	Сообщ. #128 , 20.05.07, 17:05
Newbie Профиль · PM Рейтинг (т): нет	У одного человека основной тон может быть разным на различных фонемах?

nsh	Сообщ. #129 , 21.05.07, 14:25
Moderator Профиль · PM	Цитата У одного человека основной тон может быть разным на различных фонемах? Да, он может быть разным даже на одной фонеме. Это вообще вещи не связанные друг с другом.

navigator29

Сообщ. #130 , 21.05.07, 15:45

Newbie

Профиль · PM

Рейтинг (т): нет

Цитата nsh @ 21.05.07, 14:25

Цитата

У одного человека основной тон может быть разным на различных фонемах?

Да, он может быть разным даже на одной фонеме.

Это вообще вещи не связанные друг с другом.

Ура кто-то ответил =)

пожалуста если это не страшный боян скажите (сверху все я читал ругаться не надо

)
что такое:

1. основной тон,
2. форманта.

ибо до последнего времени я думал/прочитал, что форманта есть
всплески энергии на спектре.

nsh	Сообщ. #131 , 21.05.07, 16:05
Moderator Профиль · PM	Ну вобщем так и есть. В спектре речи часто (в спектре гласных, например) присутствуют максимумы. Они и называются формантами. Первая форманта - самый большой максимум и есть основной тон.

navigator29

Сообщ. #132 , 21.05.07, 16:50

Newbie

Профиль · PM

Рейтинг (т): нет

Цитата nsh @ 21.05.07, 16:05

Ну вобщем так и есть. В спектре речи часто (в спектре гласных, например) присутствуют максимумы. Они и называются формантами. Первая форманта - самый большой максимум и есть основной тон.

Вот тут у меня 4 диктора произносят одну фонему, у всех разное количество формант. Как можно сказать по этим спектрограммам что это один звук? =)
никак?

nsh	Сообщ. #133 , 21.05.07, 16:55
Moderator Профиль · PM	Ну надо различать один звук и одну фонему. Звуки все говорят разные. Если набрать статистику по диктору какие у него форманты к каким звукам относятся то гласные можно различать. И то не наверняка.

Ich_bin_Turisten

Сообщ. #134 , 21.05.07, 16:56

Junior

Профиль · PM

Есть статья
Ямов С.И., Кабак И.С., Курочкин С.Н., Бродин А.Г.
МНОГОУРОВНЕВАЯ СИСТЕМА РАСПОЗНАВАНИЯ РЕЧИ
там про распознавание фонем
только теория
если надо кину

Добавлено 21.05.07, 16:57

читаю глупо получилось: если надо кину,

я людей не кидаю

navigator29

Сообщ. #135 , 21.05.07, 17:10

Newbie

Профиль · PM

Рейтинг (т): нет

Цитата Ich_bin_Turisten @ 21.05.07, 16:56

читаю глупо получилось: если надо кину,

я людей не кидаю

Киньте пожалуйста если не трудно, yco1694[собачка]yandex.ru

-Added 21.05.07, 17:10

Цитата nsh @ 21.05.07, 16:55

Ну надо различать один звук и одну фонему. Звуки все говорят разные.

Если набрать статистику по диктору какие у него форманты к каким звукам относятся то гласные можно различать. И то не наверняка.

Т.е. Вы говорите сейчас только о диктороЗависимом распозновании?

1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (15) « Первая ... 7 8 [9] 10 11 ... 14 15 все

[ Script execution time: 0.1034 ] [ 14 queries used ] [ Generated: 25.05.26, 07:33 GMT ]