
![]() |
Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
|
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[216.73.216.3] |
![]() |
|
Страницы: (15) « Первая ... 5 6 [7] 8 9 ... 14 15 все ( Перейти к последнему сообщению ) |
Сообщ.
#91
,
|
|
|
to:Skif
Потом попробовал просто усреднить спектр - получается более красиво - форманты остаются на своих местах. Так как правильно? Ты как думаешь? Добавлено Цитата Skif @ Цитата (DimmK @ Сегодня, 08:35) http://www.smolny.nw.ru/minerva/ch9/content9_4.html Наши извинения...Элемент, который вы запросили, не существует на данном сервере, либо не может быть обслужен. Пожалуйста, внимательно проверьте web адрес либо используйте поиск по сайту чтобы найти то, что ищете. If you know you have the correct web address but are encountering an error, please contact the Управление сайтом. Спасибо. 404 Not Found Может логин и пароль нужен? Очень хоца глянуть.. Ты смотрел мою прогу? Ссылка у меня работает, попробуй обратиться в другое время. Прогу смотрел - у тебя ОТ определяет точнее чем у меня. Прологарифмируй интенсивность 20*log10(FFT) - график будет ярче на высоких частотах. У меня в проге на высоких частотах почему-то пошло расхождение FFT с резонансными частотами. Домножил вычисленные частоты на 1.015 - и вроде вычисленные резонансы попали в резонансы FFT. Как думаешь почему такое может быть? Прикреплённый файл ![]() |
Сообщ.
#92
,
|
|
|
Цитата DimmK @ сделал выделение формант через основной тон голоса - как ты советовал. Получается что форманты изменяются при изменении высоты основного тона - а этого вроде быть не должно - или я не прав? Да форманты могут менятся когда угодно и где угодно. Это косвенно связано и с ОТ. 1. При произесении гласных и сонорнх ротовой резонатор возбуждает импульсный сигнал идущий с голосовой связки и при изменении его спектра изменяется и спектр формант. Но это не влияет на частоту положения формант. Это только может влиять на амплитуду ВЧ составляющих. 2. При поизнесении гласных происходит незначительная перестройка ротовых резонаторов. Это одно из отличиельных признаков речи (ничто не стабильно в ее параметрах). Ты попробуй синтезировать речь. Как только один из параметров речи перестает колебаться около своего среднего значения резко падает распознаваемость фонемы. 3. Конечно есть ошибки рассчетов. См выше. Fn это чатота приближенная к максимальной чатоте спектрограммы, в твоем случае это 8000Гц. К примеру: F1=100Гц,Fn=F80=8000 Ошибка = 0; F1=120Гц,Fn=F66=7920 Ошибка = 80; F1=140Гц,Fn=F57=7980 Ошибка = 20; F1=160Гц,Fn=F50=8000 Ошибка = 0; Короче с достаточной точностью можо принять что Fn=8000Гц. Они тоже могут дать некоторые изменения положения формант. 4. Логические ошибки в алгоритме. Не всегда программа делает то, что ты хочеш от нее. Она делает то что ты написл ![]() |
Сообщ.
#93
,
|
|
|
Цитата DimmK @ Потом попробовал просто усреднить спектр - получается более красиво - форманты остаются на своих местах. Так как правильно? Ты как думаешь? Я думаю проблемы с выделением ОТ. Цитата DimmK @ Прогу смотрел - у тебя ОТ определяет точнее чем у меня. У меня шаг сонограммы не 15 а 3.9Гц сейчас. Цитата DimmK @ Прологарифмируй интенсивность 20*log10(FFT) - график будет ярче на высоких частотах. Да там логарифмический масштаб. Попробуй ползунок яркость повыше задрать. А может усиление микрофона слабое. Цитата DimmK @ У меня в проге на высоких частотах почему-то пошло расхождение FFT с резонансными частотами. Домножил вычисленные частоты на 1.015 - и вроде вычисленные резонансы попали в резонансы FFT. Как думаешь почему такое может быть? У меня подобное было. Помойму это был косяк в алгоритме. Я максимум неправильно находил. В условии стояло (x[i]>x[i-1] and x[i]>=x[i+1]) И иногда максиум определялся немножко раньше чем он есть. А еще у меня были ложные максимумы и я выбирал первый. Это тоже давало определение максимума раньше чем он есть. См рисунок. Прикреплённый файл ![]() |
Сообщ.
#94
,
|
|
|
Усовершенствовал алгоритм - считаю ОТ как "центр масс", + окна хэмминга везде где идет усреднение по интервалу.
Почти совпадает с резонансными частотами ![]() Не могу понять откуда взять первую, вторую и третью форманты? Из спектра сформированного из значений резонансных частот? И F1, F2, F3 - это первые три точки этого сформированного спектра, или первые три максимума? Прикреплённый файл ![]() |
Сообщ.
#95
,
|
|
|
аоуиыэ-аоуиыэ-аоуиыэ-3диктора--спектр_по_резонансам
Прикреплённый файл ![]() |
Сообщ.
#96
,
|
|
|
аоуиыэ-аоуиыэ-аоуиыэ-3диктора--спектр_усредненный
Прикреплённый файл ![]() |
Сообщ.
#97
,
|
|
|
http://audio.micronet.lv/books/AldoshinaPsychoacoustics.zip
Ирина Алдошина Основы психоакустики. Читать всем!!! Хотя бы со страницы 110 Часть 17 Слух и речь. |
Сообщ.
#98
,
|
|
|
Цитата DimmK @ Усовершенствовал алгоритм - считаю ОТ как "центр масс", + окна хэмминга везде где идет усреднение по интервалу. Почти совпадает с резонансными частотами ![]() Всегда и все можо сделать еще лучше.Это хороший способ точного детектирования ОТ при низком разрешении спектрограммы. Цитата DimmK @ Не могу понять откуда взять первую, вторую и третью форманты? Из спектра сформированного из значений резонансных частот? И F1, F2, F3 - это первые три точки этого сформированного спектра, или первые три максимума? В общем я считаю это нереально детектировать формантные частоты. Это стоппер. Задача которая кажется слишком простой. Но ты на решние ее можешь потратить жизнь. Это только мое личное мнение. Многие Ученые думают, пишут, что это проще пареной репы. Но...... Вот несколько проблем которые я встретил. 1. Каждый диктор имеет ложные формантные частоты свойственные только ему. 2. Не ложная форманта может превратится не в максимум а в перегиб функции спектра. Т.е. ее можно не отдетектировать. 3. Есть пересечения в частотах формант различных гласных. Это опсано почти везде. 4. Форманты И и Ы очень не стабильны. Я предлагаю использовать всю функцию спектра для анализа. См рисунок. Прикреплённый файл ![]() |
Сообщ.
#99
,
|
|
|
Есть у кого идеи, как содавать маски по предложенному мной выше методу.
Если у кого есть другие идеи по распознаанию полученнх спектов, то поделитесь плиз. |
![]() |
![]() |
|
Цитата Skif @ Если кому нужны исходники моего спектрального анализатора... Пишите скину.. Просто мне нужно там код в порядок привести и коментарии расставить. Лениво просто.Но если кто интересуется пишите, сделаю коментарии... Подготавливай код, мне интересно. Скачано, сразу не заметил. |
Сообщ.
#101
,
|
|
|
RAD
Дай недельку. Я там выше сырец закинул. |
Сообщ.
#102
,
|
|
|
Коллеги, читал я что здесь написано и не выдержал.
1.Основной тон не является формантой и его частота обозначается F0. 2.Не путайте гармоники основного тона с формантами. Гармоники обозначаются 2F0,3F0 и т.д., а форманты F1,F2 и т.д. Значения частот формант для гласных чуть ли не в каждой книге по распознаванию речи указаны. Если не будет единого обозначения вы друг друга не поймёте. 3.Зачем обидели Лию Васильевну Бондарко. Очень уважаемую в наших кругах женщину. Она доктор филологических наук, а не технических, поэтому не знаю чего вы ожидали, начиная читать её книгу (кучу формул что ли?). А лингвистика в распознавании играет огромную роль. Спасибо за внимание. |
![]() |
Сообщ.
#103
,
|
|
За пункты 1 и 2 плюсик.
А вот третий пункт я не понял, видать где-то упустил ссылку на книгу. Но мне простительно, я тут не постоянно нахожусь. |
Сообщ.
#104
,
|
|
|
Цитата kaa1 @ Коллеги, читал я что здесь написано и не выдержал. 1.Основной тон не является формантой и его частота обозначается F0. 2.Не путайте гармоники основного тона с формантами. Гармоники обозначаются 2F0,3F0 и т.д., а форманты F1,F2 и т.д. Значения частот формант для гласных чуть ли не в каждой книге по распознаванию речи указаны. Если не будет единого обозначения вы друг друга не поймёте. Спасибо. - А то запутался из-за невнимательности. |
Сообщ.
#105
,
|
|
|
kaa1
А Вы может, если имеете отношение к филологии, укажете литературу где конкретно описаны артикуляционные признаки фонем русской речи? |