Фонемное распознавание речи -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.43]

Модераторы: RaD, nsh

Новое голосование

Фонемное распознавание речи

DimmK

Сообщ. #91 , 25.07.06, 16:11

Member

Профиль · PM

Рейтинг (т): 1

to:Skif
Потом попробовал просто усреднить спектр - получается более красиво - форманты остаются на своих местах.
Так как правильно? Ты как думаешь?

Добавлено 25.07.06, 16:18

Цитата Skif @ 25.07.06, 14:37

Цитата (DimmK @ Сегодня, 08:35)
http://www.smolny.nw.ru/minerva/ch9/content9_4.html

Наши извинения...Элемент, который вы запросили, не существует на данном сервере, либо не может быть обслужен.
Пожалуйста, внимательно проверьте web адрес либо используйте поиск по сайту чтобы найти то, что ищете.
If you know you have the correct web address but are encountering an error, please contact the Управление сайтом.
Спасибо.
404 Not Found

Может логин и пароль нужен?
Очень хоца глянуть..

Ты смотрел мою прогу?

Ссылка у меня работает, попробуй обратиться в другое время.
Прогу смотрел - у тебя ОТ определяет точнее чем у меня.
Прологарифмируй интенсивность 20*log10(FFT) - график будет ярче на высоких частотах.
У меня в проге на высоких частотах почему-то пошло расхождение FFT с резонансными частотами.
Домножил вычисленные частоты на 1.015 - и вроде вычисленные резонансы попали в резонансы FFT.
Как думаешь почему такое может быть?
Прикреплённый файл

MAMA__usrednenie_spectra_.jpg (56.64 Кбайт, скачиваний: 633)

Skif

Сообщ. #92 , 25.07.06, 16:58

Member

Профиль · PM

Рейтинг (т): 5

Цитата DimmK @ 25.07.06, 16:09

сделал выделение формант через основной тон голоса - как ты советовал.
Получается что форманты изменяются при изменении высоты основного тона - а этого вроде быть не должно - или я не прав?

Да форманты могут менятся когда угодно и где угодно. Это косвенно связано и с ОТ.
1. При произесении гласных и сонорнх ротовой резонатор возбуждает импульсный сигнал идущий с голосовой связки и при изменении его спектра изменяется и спектр формант. Но это не влияет на частоту положения формант. Это только может влиять на амплитуду ВЧ составляющих.
2. При поизнесении гласных происходит незначительная перестройка ротовых резонаторов. Это одно из отличиельных признаков речи (ничто не стабильно в ее параметрах). Ты попробуй синтезировать речь. Как только один из параметров речи перестает колебаться около своего среднего значения резко падает распознаваемость фонемы.
3. Конечно есть ошибки рассчетов. См выше.
Fn это чатота приближенная к максимальной чатоте спектрограммы, в твоем случае это 8000Гц.
К примеру:
F1=100Гц,Fn=F80=8000 Ошибка = 0;
F1=120Гц,Fn=F66=7920 Ошибка = 80;
F1=140Гц,Fn=F57=7980 Ошибка = 20;
F1=160Гц,Fn=F50=8000 Ошибка = 0;
Короче с достаточной точностью можо принять что Fn=8000Гц.
Они тоже могут дать некоторые изменения положения формант.
4. Логические ошибки в алгоритме. Не всегда программа делает то, что ты хочеш от нее. Она делает то что ты написл

Skif

Сообщ. #93 , 25.07.06, 17:33

Member

Профиль · PM

Рейтинг (т): 5

Цитата DimmK @ 25.07.06, 16:11

Потом попробовал просто усреднить спектр - получается более красиво - форманты остаются на своих местах.
Так как правильно? Ты как думаешь?

Я думаю проблемы с выделением ОТ.

Цитата DimmK @ 25.07.06, 16:11

Прогу смотрел - у тебя ОТ определяет точнее чем у меня.

У меня шаг сонограммы не 15 а 3.9Гц сейчас.

Цитата DimmK @ 25.07.06, 16:11

Прологарифмируй интенсивность 20*log10(FFT) - график будет ярче на высоких частотах.

Да там логарифмический масштаб. Попробуй ползунок яркость повыше задрать. А может усиление микрофона слабое.

Цитата DimmK @ 25.07.06, 16:11

У меня в проге на высоких частотах почему-то пошло расхождение FFT с резонансными частотами.
Домножил вычисленные частоты на 1.015 - и вроде вычисленные резонансы попали в резонансы FFT.
Как думаешь почему такое может быть?

У меня подобное было. Помойму это был косяк в алгоритме. Я максимум неправильно находил. В условии стояло (x[i]>x[i-1] and x[i]>=x[i+1]) И иногда максиум определялся немножко раньше чем он есть. А еще у меня были ложные максимумы и я выбирал первый. Это тоже давало определение максимума раньше чем он есть.

См рисунок.

Сообщение отредактировано: Skif - 26.07.06, 14:58

Прикреплённый файл

max_detection.jpg (97.5 Кбайт, скачиваний: 615)

DimmK

Сообщ. #94 , 25.07.06, 19:51

Member

Профиль · PM

Рейтинг (т): 1

Усовершенствовал алгоритм - считаю ОТ как "центр масс", + окна хэмминга везде где идет усреднение по интервалу.
Почти совпадает с резонансными частотами

Не могу понять откуда взять первую, вторую и третью форманты?
Из спектра сформированного из значений резонансных частот?
И F1, F2, F3 - это первые три точки этого сформированного спектра, или первые три максимума?
Прикреплённый файл

аоуиыэ_аоуиыэ_аоуиыэ_3диктора__спектр_и_резонансы.jpg (180.35 Кбайт, скачиваний: 576)

DimmK	Сообщ. #95 , 25.07.06, 19:53
Member Профиль · PM Рейтинг (т): 1	аоуиыэ-аоуиыэ-аоуиыэ-3диктора--спектр_по_резонансам Прикреплённый файлаоуиыэ_аоуиыэ_аоуиыэ_3диктора__спектр_по_резонансам.jpg (118.17 Кбайт, скачиваний: 578)

DimmK	Сообщ. #96 , 25.07.06, 19:58
Member Профиль · PM Рейтинг (т): 1	аоуиыэ-аоуиыэ-аоуиыэ-3диктора--спектр_усредненный Прикреплённый файлаоуиыэ_аоуиыэ_аоуиыэ_3диктора__спектр_усредненный.jpg (64.02 Кбайт, скачиваний: 576)

DimmK	Сообщ. #97 , 26.07.06, 09:28
Member Профиль · PM Рейтинг (т): 1	http://audio.micronet.lv/books/AldoshinaPsychoacoustics.zip Ирина Алдошина Основы психоакустики. Читать всем!!! Хотя бы со страницы 110 Часть 17 Слух и речь.

Skif

Сообщ. #98 , 26.07.06, 15:34

Member

Профиль · PM

Рейтинг (т): 5

Цитата DimmK @ 25.07.06, 19:51

Всегда и все можо сделать еще лучше.Это хороший способ точного детектирования ОТ при низком разрешении спектрограммы.

Цитата DimmK @ 25.07.06, 19:51

В общем я считаю это нереально детектировать формантные частоты. Это стоппер. Задача которая кажется слишком простой. Но ты на решние ее можешь потратить жизнь. Это только мое личное мнение. Многие Ученые думают, пишут, что это проще пареной репы. Но......
Вот несколько проблем которые я встретил.
1. Каждый диктор имеет ложные формантные частоты свойственные только ему.
2. Не ложная форманта может превратится не в максимум а в перегиб функции спектра. Т.е. ее можно не отдетектировать.
3. Есть пересечения в частотах формант различных гласных. Это опсано почти везде.
4. Форманты И и Ы очень не стабильны.

Я предлагаю использовать всю функцию спектра для анализа. См рисунок.
Прикреплённый файл

Mask_Analyze.jpg (112.56 Кбайт, скачиваний: 608)

Skif	Сообщ. #99 , 30.07.06, 17:05
Member Профиль · PM Рейтинг (т): 5	Есть у кого идеи, как содавать маски по предложенному мной выше методу. Если у кого есть другие идеи по распознаанию полученнх спектов, то поделитесь плиз.

RaD

Сообщ. #100 , 31.07.06, 07:29

Moderator

Профиль · PM

Поощрения: 24 Dgm

Рейтинг (т): 23

Цитата Skif @ 16.07.06, 19:55

Если кому нужны исходники моего спектрального анализатора...
Пишите скину.. Просто мне нужно там код в порядок привести и коментарии расставить.
Лениво просто.Но если кто интересуется пишите, сделаю коментарии...

Подготавливай код, мне интересно.

Скачано, сразу не заметил.

Skif	Сообщ. #101 , 31.07.06, 20:27
Member Профиль · PM Рейтинг (т): 5	RAD Дай недельку. Я там выше сырец закинул. Сообщение отредактировано: Skif - 31.07.06, 20:29

kaa1

Сообщ. #102 , 02.08.06, 18:18

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Коллеги, читал я что здесь написано и не выдержал.
1.Основной тон не является формантой и его частота обозначается F0.
2.Не путайте гармоники основного тона с формантами. Гармоники обозначаются 2F0,3F0 и т.д., а форманты F1,F2 и т.д. Значения частот формант для гласных чуть ли не в каждой книге по распознаванию речи указаны. Если не будет единого обозначения вы друг друга не поймёте.
3.Зачем обидели Лию Васильевну Бондарко. Очень уважаемую в наших кругах женщину. Она доктор филологических наук, а не технических, поэтому не знаю чего вы ожидали, начиная читать её книгу (кучу формул что ли?). А лингвистика в распознавании играет огромную роль.
Спасибо за внимание.

RaD	Сообщ. #103 , 02.08.06, 18:33
Moderator Профиль · PM Поощрения: 24 Dgm Рейтинг (т): 23	За пункты 1 и 2 плюсик. А вот третий пункт я не понял, видать где-то упустил ссылку на книгу. Но мне простительно, я тут не постоянно нахожусь.

DimmK

Сообщ. #104 , 02.08.06, 20:18

Member

Профиль · PM

Рейтинг (т): 1

Цитата kaa1 @ 02.08.06, 18:18

Спасибо. - А то запутался из-за невнимательности.

decan	Сообщ. #105 , 03.08.06, 15:55
Member Профиль · PM Рейтинг (т): нет	kaa1 А Вы может, если имеете отношение к филологии, укажете литературу где конкретно описаны артикуляционные признаки фонем русской речи?

1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (15) « Первая ... 5 6 [7] 8 9 ... 14 15 все

[ Script execution time: 0,0385 ] [ 14 queries used ] [ Generated: 27.12.25, 15:20 GMT ]