
![]() |
Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
|
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[216.73.216.3] |
![]() |
|
Страницы: (15) « Первая ... 6 7 [8] 9 10 ... 14 15 все ( Перейти к последнему сообщению ) |
Сообщ.
#106
,
|
|
|
Цитата kaa1 @ Значения частот формант для гласных чуть ли не в каждой книге по распознаванию речи указаны. Ну простите за, то что обозначения для частоты ОТ и для формантных частот не бьют с общепринятыми. Просто, в тех книжках, что я читал я встречал разные обозначения и не придавал этому этому знаячения. Спасибо за замечание. Прошу заметить, что в книжках даны усредненные значения формантных частот. При разработке "распознавалки" нужно немножко больше чем усредненные параметры. Причем от книжки к книжке они меняются. В тех книжках где даны области, они пересекаются. А исходя из моих экспериментов, я могу сказать, что это не так. Просто для отличия фонем в зоне пересечения формантных частот необходимо анализировать большее число параметров. К примеру расстояние между F1 и F2. |
Сообщ.
#107
,
|
|
|
Skif
Да, формантные частоты.... а ты шепотом фразу надиктуй и посмотри какие там формантные частоты... |
Сообщ.
#108
,
|
|
|
decan
А по мне все в норме. Смотри прикрепленный рисунок. Может ты путаешь форманты с гармониками основного тона? Прикреплённый файл ![]() |
Сообщ.
#109
,
|
|
|
Skif
Там шкал к сожалению нет, но я про то , что в шёпоте до 1000 гц по определению ничего нет. |
![]() |
Сообщ.
#110
,
|
|
Но что-то всё-таки в нём есть, раз мы понимаем то, что говориться шёпотом.
|
Сообщ.
#111
,
|
|
|
Не хочется писать большое сообщение, но надо. Рад, что мои замечания не остались незамеченными - это значит, что все здесь время от времени присутствующие хотят разобраться в проблеме.
1.Фонетическая литература,в которой в какой-то мере присутствует описание признаков фонем (хотя чуть ли не каждый признак можно попытаться оспорить): а). Л.Л.Буланин. Фонетика современного русского языка. б). Л.В.Златоустова,Р.К.Потапова,В.В.Потапов,В.Н.Трунин-Донской. Общая и прикладная фонетика. в). Л.В.Бондарко. Звуковой строй современного русского языка. 2. По поводу частот формант. Для определения фонемы в основном используют 1-ю и 2-ю форманты. Сейчас, мне кажется, в основном все используют значения частот формант, определённых Фантом ещё в 60-х. На счёт этих частот существуют различные мнения. Вплоть до того, что они могут изменяться в зависимости от положения человека относительно микрофона. Здесь встаёт вопрос о том, что имеет большее влияние на определение звука: речеобразование или речевосприятие. Но это история длинная и я не хочу её затрагивать. 3. К филологии я отношение имею такое же как и вы. Я занимаюсь распознаванием речи. Из результатов могу озвучить, что выделяю ЧОТ с погрешностью менее 0,5%. Сегментация на вокализованные и невокализованные звуки осуществляется с точностью не менее 95%. Практически добился определения частот 1-й и 2-й форманты, используя определение форманты как максимума в спектре. 4. Как я понимаю, большая часть участников форума - аспиранты. Очень хотелось бы знать географию и научных руководителей, чтобы примерно оценить направления исследований. Я сам из Томска. Научный руководитель Бондаренко В.П. |
Сообщ.
#112
,
|
|
|
Цитата kaa1 @ К филологии я отношение имею такое же как и вы. Я занимаюсь распознаванием речи. Из результатов могу озвучить, что выделяю ЧОТ с погрешностью менее 0,5%. Как делал, если при помощи авторегресии, то можно делать сегментацию, начало новой фонемы это разладка авторегресии. Про разладку авторегресси написано написанл масса статей. Цитата kaa1 @ Сегментация на вокализованные и невокализованные звуки осуществляется с точностью не менее 95%. Практически добился определения частот 1-й и 2-й форманты, используя определение форманты как максимума в спектре. вокализованные и невокализованные звуки - это шумные и нешумные?. |
Сообщ.
#113
,
|
|
|
Авторегрессией у нас занимались более 10 лет назад и она не даёт хороших результатов.
Вокализованные (vocal) и невокализованные (nonvocal) - это звуки, образованные с участием голосового источника и без его участия соответственно. |
Сообщ.
#114
,
|
|
|
Цитата kaa1 @ К филологии я отношение имею такое же как и вы. Я занимаюсь распознаванием речи. Из результатов могу озвучить, что выделяю ЧОТ с погрешностью менее 0,5%. Сегментация на вокализованные и невокализованные звуки осуществляется с точностью не менее 95%. Практически добился определения частот 1-й и 2-й форманты, используя определение форманты как максимума в спектре. Алгоритм известен или модификация старого или совершенно новый? На TIMIT проверял? Добавлено Цитата kaa1 @ Вокализованные (vocal) и невокализованные (nonvocal) - это звуки, образованные с участием голосового источника и без его участия соответственно. vocal переводится как звучный, а тогда nonvocal не звучный. Почему плохо распознаются nonvocalic методом главных компанент, можешь объяснить Fonem klasa "vocalic" raspoznano=>92.6613% Fonem klasa "nonvocalic" raspoznano=>63.134% |
Сообщ.
#115
,
|
|
|
TIMITа у меня нет. Алгоритм выделения основного тона и гармоник новый. Примерное местоположение формант я определяю как максимальную по интенсивности гармонику в определённой полосе частот. Но с формантами всё это требует проверки. Хотя графики получаются довольно точно совпадающие с классическими.
Термины "вокализованный" и "невокализованный" также общеприменимы (см. пер. с англ. Фланаган "Анализ, синтез и восприятие речи", например). Я не занимаюсь ни методом главных компонент, ни СММ, ни другими способами статистического распознавания. У меня всё базируется на фильтрах, соответствующих слуховой системе человека. Могу предположить, что если речь слитная, то у глухих звуков есть увеличение интенсивности в районе ЧОТ вокализованных. Поэтому я определяю наличие основного тона по наличию двух первых гармоник. Примерный алгоритм определения ЧОТ описан в последнем сборнике РАО. |
Сообщ.
#116
,
|
|
|
Цитата kaa1 @ TIMITа у меня нет. Алгоритм выделения основного тона и гармоник новый. Примерное местоположение формант я определяю как максимальное значение гармоники в определённой полосе частот. Но с формантами всё это требует проверки. Хотя графики получаются довольно точно совпадающие с классическими. ......................... Могу предположить, что если речь слитная, то у глухих звуков есть увеличение интенсивности в районе ЧОТ вокализованных. Поэтому я определяю наличие основного тона по наличию двух первых гармоник. Примерный алгоритм определения ЧОТ описан в последнем сборнике РАО. Я тут понял, вроде почему мой ftp глохнет. Нельзя для ftp помещать много маленьких файло, например как в TIMIT. Надо сжимать. Поэтому его востановлю еще раз и скажу тебе где скачать TIMIT. Только не скачивайте модемами - мой ftp ломается, он не любит малой скорости. Пришлм мне статью про алгоритм определения ЧОТ из сборника РАО, если не трудно на мыло grisania@yandex.ru. |
Сообщ.
#117
,
|
|
|
Отправил. Смысл в том, что после маскировки сигнала явно видна периодическая структура вокализованных звуков. Это даёт возможность создать набор масок. Сигнал сравнивается с каждой из масок. Если получившееся значение схожести сигнала и маски подпадает под ограничительный порог, то дискрета сигнала признаётся вокализованной. Дальше следуют определённые накрутки , чтобы исключить случайные погрешности, и всё работает.
Вероятность пропуска существующей границы 0,02. Вероятность определения несуществующей границы 0,08. Вероятность правильного определения временного значения границы равна 0,91 (при условии, что верное определение границы при погрешности 0,01с; при погрешности 0,02с - 0,94). Эксперимент проводился на русской слитной речи. 10 дикторов (5-муж., 5-жен.). Исследовано было 550 границ между вокализованными и невокализованными сегментами. Эти результаты можно улучшить, но пока руки не дошли до новых экспериментов. |
Сообщ.
#118
,
|
|
|
Цитата kaa1 @ Отправил. Смысл в том, что после маскировки сигнала явно видна периодическая структура вокализованных звуков. Это даёт возможность создать набор масок. Сигнал сравнивается с каждой из масок. Если получившееся значение схожести сигнала и маски подпадает под ограничительный порог, то дискрета сигнала признаётся вокализованной. Дальше следуют определённые накрутки , чтобы исключить случайные погрешности, и всё работает. Вероятность пропуска существующей границы 0,02. Вероятность определения несуществующей границы 0,08. Вероятность правильного определения временного значения границы равна 0,91 (при условии, что верное определение границы при погрешности 0,01с; при погрешности 0,02с - 0,94). Эксперимент проводился на русской слитной речи. 10 дикторов (5-муж., 5-жен.). Исследовано было 550 границ сегментов. . Что такое маскировка - это удаление не нужных гармоник как в сжатии MPEG. В своем дискриминантном анализе я ищу такие 2 фильтра для vocal и notvocal, которые имеют наименьшию энергию распознавания. Можно конечно искать такие два 2 фильтра только в частотной области, но так построенные фильтры плохо распознают. Я предполагаю что после сжатия MPEG, то есть после маскирования такой дискриминантный анализ будет лучше, но я не умею делать маскирование, т.е сжатие MPEG. Может знаешь как это делать? |
Сообщ.
#119
,
|
|
|
Маскировка - удаление из спектра несущественных для слуха человека компонент. При маскировке ни одна гармоника не удаляется. В статье есть рисунок, на котором приведён сигнал после одновременной (частотной) маскировки. По осям время и частота.
http://www.625-net.ru/archive/z0600/7.htm Кое-что там есть. |
Сообщ.
#120
,
|
|
|
Цитата kaa1 @ Маскировка - удаление из спектра несущественных для слуха человека компонент. При маскировке ни одна гармоника не удаляется. Что-то не врубаюсь. ![]() удаление из спектра несущественных для слуха человека компонент. При маскировке ни одна гармоника не удаляется |