Фонемное распознавание речи -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.217.58]

Модераторы: RaD, nsh

Новое голосование

Фонемное распознавание речи

Skif

Сообщ. #106 , 03.08.06, 17:08

Member

Профиль · PM

Рейтинг (т): 5

Цитата kaa1 @ 02.08.06, 18:18

Значения частот формант для гласных чуть ли не в каждой книге по распознаванию речи указаны.

Ну простите за, то что обозначения для частоты ОТ и для формантных частот не бьют с общепринятыми. Просто, в тех книжках, что я читал я встречал разные обозначения и не придавал этому этому знаячения. Спасибо за замечание.

Прошу заметить, что в книжках даны усредненные значения формантных частот. При разработке "распознавалки" нужно немножко больше чем усредненные параметры. Причем от книжки к книжке они меняются. В тех книжках где даны области, они пересекаются. А исходя из моих экспериментов, я могу сказать, что это не так. Просто для отличия фонем в зоне пересечения формантных частот необходимо анализировать большее число параметров. К примеру расстояние между F1 и F2.

Сообщение отредактировано: Skif - 03.08.06, 17:09

decan	Сообщ. #107 , 03.08.06, 17:27
Member Профиль · PM Рейтинг (т): нет	Skif Да, формантные частоты.... а ты шепотом фразу надиктуй и посмотри какие там формантные частоты...

Skif	Сообщ. #108 , 03.08.06, 18:24
Member Профиль · PM Рейтинг (т): 5	decan А по мне все в норме. Смотри прикрепленный рисунок. Может ты путаешь форманты с гармониками основного тона? Прикреплённый файлШепот.JPG (38.32 Кбайт, скачиваний: 748)

decan	Сообщ. #109 , 04.08.06, 08:12
Member Профиль · PM Рейтинг (т): нет	Skif Там шкал к сожалению нет, но я про то , что в шёпоте до 1000 гц по определению ничего нет.

RaD	Сообщ. #110 , 04.08.06, 13:36
Moderator Профиль · PM Поощрения: 24 Dgm Рейтинг (т): 23	Но что-то всё-таки в нём есть, раз мы понимаем то, что говориться шёпотом.

kaa1

Сообщ. #111 , 06.08.06, 17:46

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Не хочется писать большое сообщение, но надо. Рад, что мои замечания не остались незамеченными - это значит, что все здесь время от времени присутствующие хотят разобраться в проблеме.

1.Фонетическая литература,в которой в какой-то мере присутствует описание признаков фонем (хотя чуть ли не каждый признак можно попытаться оспорить):
а). Л.Л.Буланин. Фонетика современного русского языка.
б). Л.В.Златоустова,Р.К.Потапова,В.В.Потапов,В.Н.Трунин-Донской. Общая и прикладная фонетика.
в). Л.В.Бондарко. Звуковой строй современного русского языка.

2. По поводу частот формант. Для определения фонемы в основном используют 1-ю и 2-ю форманты. Сейчас, мне кажется, в основном все используют значения частот формант, определённых Фантом ещё в 60-х. На счёт этих частот существуют различные мнения. Вплоть до того, что они могут изменяться в зависимости от положения человека относительно микрофона. Здесь встаёт вопрос о том, что имеет большее влияние на определение звука: речеобразование или речевосприятие. Но это история длинная и я не хочу её затрагивать.

3. К филологии я отношение имею такое же как и вы. Я занимаюсь распознаванием речи. Из результатов могу озвучить, что выделяю ЧОТ с погрешностью менее 0,5%. Сегментация на вокализованные и невокализованные звуки осуществляется с точностью не менее 95%. Практически добился определения частот 1-й и 2-й форманты, используя определение форманты как максимума в спектре.

4. Как я понимаю, большая часть участников форума - аспиранты. Очень хотелось бы знать географию и научных руководителей, чтобы примерно оценить направления исследований. Я сам из Томска. Научный руководитель Бондаренко В.П.

grisania

Сообщ. #112 , 07.08.06, 05:51

Member

Профиль · PM

Рейтинг (т): 3

Цитата kaa1 @ 06.08.06, 17:46

К филологии я отношение имею такое же как и вы. Я занимаюсь распознаванием речи. Из результатов могу озвучить, что выделяю ЧОТ с погрешностью менее 0,5%.

Как делал, если при помощи авторегресии, то можно делать сегментацию, начало новой фонемы это разладка авторегресии. Про разладку авторегресси написано написанл масса статей.

Цитата kaa1 @ 06.08.06, 17:46

Сегментация на вокализованные и невокализованные звуки осуществляется с точностью не менее 95%. Практически добился определения частот 1-й и 2-й форманты, используя определение форманты как максимума в спектре.

вокализованные и невокализованные звуки - это шумные и нешумные?.

kaa1

Сообщ. #113 , 08.08.06, 05:03

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Авторегрессией у нас занимались более 10 лет назад и она не даёт хороших результатов.
Вокализованные (vocal) и невокализованные (nonvocal) - это звуки, образованные с участием голосового источника и без его участия соответственно.

grisania

Сообщ. #114 , 08.08.06, 05:30

Member

Профиль · PM

Рейтинг (т): 3

Цитата kaa1 @ 06.08.06, 17:46

К филологии я отношение имею такое же как и вы. Я занимаюсь распознаванием речи. Из результатов могу озвучить, что выделяю ЧОТ с погрешностью менее 0,5%. Сегментация на вокализованные и невокализованные звуки осуществляется с точностью не менее 95%. Практически добился определения частот 1-й и 2-й форманты, используя определение форманты как максимума в спектре.

Алгоритм известен или модификация старого или совершенно новый? На TIMIT проверял?

Добавлено 08.08.06, 05:37

Цитата kaa1 @ 08.08.06, 05:03

Вокализованные (vocal) и невокализованные (nonvocal) - это звуки, образованные с участием голосового источника и без его участия соответственно.

vocal переводится как звучный, а тогда nonvocal не звучный.
Почему плохо распознаются nonvocalic методом главных компанент, можешь объяснить
Fonem klasa "vocalic" raspoznano=>92.6613%
Fonem klasa "nonvocalic" raspoznano=>63.134%

kaa1

Сообщ. #115 , 08.08.06, 05:44

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

TIMITа у меня нет. Алгоритм выделения основного тона и гармоник новый. Примерное местоположение формант я определяю как максимальную по интенсивности гармонику в определённой полосе частот. Но с формантами всё это требует проверки. Хотя графики получаются довольно точно совпадающие с классическими.
Термины "вокализованный" и "невокализованный" также общеприменимы (см. пер. с англ. Фланаган "Анализ, синтез и восприятие речи", например).
Я не занимаюсь ни методом главных компонент, ни СММ, ни другими способами статистического распознавания. У меня всё базируется на фильтрах, соответствующих слуховой системе человека.
Могу предположить, что если речь слитная, то у глухих звуков есть увеличение интенсивности в районе ЧОТ вокализованных. Поэтому я определяю наличие основного тона по наличию двух первых гармоник. Примерный алгоритм определения ЧОТ описан в последнем сборнике РАО.

Сообщение отредактировано: kaa1 - 08.08.06, 06:03

grisania

Сообщ. #116 , 08.08.06, 06:08

Member

Профиль · PM

Рейтинг (т): 3

Цитата kaa1 @ 08.08.06, 05:44

TIMITа у меня нет. Алгоритм выделения основного тона и гармоник новый. Примерное местоположение формант я определяю как максимальное значение гармоники в определённой полосе частот. Но с формантами всё это требует проверки. Хотя графики получаются довольно точно совпадающие с классическими.
.........................
Могу предположить, что если речь слитная, то у глухих звуков есть увеличение интенсивности в районе ЧОТ вокализованных. Поэтому я определяю наличие основного тона по наличию двух первых гармоник. Примерный алгоритм определения ЧОТ описан в последнем сборнике РАО.

Я тут понял, вроде почему мой ftp глохнет. Нельзя для ftp помещать много маленьких файло, например как в TIMIT. Надо сжимать. Поэтому его востановлю еще раз и скажу тебе где скачать TIMIT. Только не скачивайте модемами - мой ftp ломается, он не любит малой скорости.
Пришлм мне статью про алгоритм определения ЧОТ из сборника РАО, если не трудно на мыло
grisania@yandex.ru.

Сообщение отредактировано: grisania - 08.08.06, 06:09

kaa1

Сообщ. #117 , 08.08.06, 06:26

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Отправил. Смысл в том, что после маскировки сигнала явно видна периодическая структура вокализованных звуков. Это даёт возможность создать набор масок. Сигнал сравнивается с каждой из масок. Если получившееся значение схожести сигнала и маски подпадает под ограничительный порог, то дискрета сигнала признаётся вокализованной. Дальше следуют определённые накрутки , чтобы исключить случайные погрешности, и всё работает.
Вероятность пропуска существующей границы 0,02.
Вероятность определения несуществующей границы 0,08.
Вероятность правильного определения временного значения границы равна 0,91 (при условии, что верное определение границы при погрешности 0,01с; при погрешности 0,02с - 0,94).
Эксперимент проводился на русской слитной речи. 10 дикторов (5-муж., 5-жен.).
Исследовано было 550 границ между вокализованными и невокализованными сегментами.
Эти результаты можно улучшить, но пока руки не дошли до новых экспериментов.

Сообщение отредактировано: kaa1 - 08.08.06, 06:33

grisania

Сообщ. #118 , 08.08.06, 06:55

Member

Профиль · PM

Рейтинг (т): 3

Цитата kaa1 @ 08.08.06, 06:26

Что такое маскировка - это удаление не нужных гармоник как в сжатии MPEG.
В своем дискриминантном анализе я ищу такие 2 фильтра для vocal и notvocal, которые имеют наименьшию энергию распознавания. Можно конечно искать такие два 2 фильтра только в частотной области, но так построенные фильтры плохо распознают.
Я предполагаю что после сжатия MPEG, то есть после маскирования такой дискриминантный анализ будет лучше, но я не умею делать маскирование, т.е сжатие MPEG. Может знаешь как это делать?

kaa1

Сообщ. #119 , 08.08.06, 07:03

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Маскировка - удаление из спектра несущественных для слуха человека компонент. При маскировке ни одна гармоника не удаляется. В статье есть рисунок, на котором приведён сигнал после одновременной (частотной) маскировки. По осям время и частота.
http://www.625-net.ru/archive/z0600/7.htm
Кое-что там есть.

Сообщение отредактировано: kaa1 - 08.08.06, 07:06

grisania

Сообщ. #120 , 08.08.06, 08:42

Member

Профиль · PM

Рейтинг (т): 3

Цитата kaa1 @ 08.08.06, 07:03

Маскировка - удаление из спектра несущественных для слуха человека компонент. При маскировке ни одна гармоника не удаляется.

Что-то не врубаюсь. :wall: