Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[34.231.180.210] |
|
Страницы: (3) 1 [2] 3 все ( Перейти к последнему сообщению ) |
Сообщ.
#16
,
|
|
|
корень в полярных координатах z=r*exp(a)
r - радиус фильтра, определяет ширину, частота f=(a / (2 * pi)) * F, F- частота квантования |
Сообщ.
#17
,
|
|
|
В matlab находят частоту как (arctg(Im(z)/Re(z))*F / (2 * pi)), z - комплексный корень полинома.
Насколько я понял, максимум частоты сопоставляется (представляется) как (2 * pi), и уже в зависимости от угла комплексного корня полинома находим частоту форманты. Но хочется услышать насчёт этого момента разумное объяснение (правильно ли рассуждение?). По возможности можно более детальней для понимания сути происходящего. Спасибо! |
Сообщ.
#18
,
|
|
|
Цитата Насколько я понял, максимум частоты сопоставляется (представляется) как (2 * pi), и уже в зависимости от угла комплексного корня полинома находим частоту форманты. Вы всё правильно поняли. Попробуйте разбираться в таких вещах самостоятельно, в будущем пригодится. |
Сообщ.
#19
,
|
|
|
ну я то понимаю как сделать, но не понимаю почему именно так. не хватает соответствующей подготовки (базовых знаний в данной тематике)
|
Сообщ.
#20
,
|
|
|
Можете пожалуйста дать совет!
Построил кепстрально-сглаженный логарифмический спектр и попытался сравнить найденные значения формант, полученные мной и программой Praat, и как то значения ну очень и очень отличаются. После нахождения кепстра изменял порядок коэффициентов для обнуления, но как то результатов особых не добился. Что в данной модели ещё можно изменить для корректного нахождения формант? Спасибо! |
Сообщ.
#21
,
|
|
|
Цитата Построил кепстрально-сглаженный логарифмический спектр и попытался сравнить найденные значения формант, полученные мной и программой Praat, и как то значения ну очень и очень отличаются. После нахождения кепстра изменял порядок коэффициентов для обнуления, но как то результатов особых не добился. Ну надо данные и код, наверное, показать. А то, как говорится, телепаты в отпуске. |
Сообщ.
#22
,
|
|
|
Исследовавал прикреплённый файл (произношение звука "а") на наличие формант с помощью PRAAT и Speech Analyzer
Прикреплённый файлsound_A.wav (16,46 Кбайт, скачиваний: 540) Между двумя программами вышло несоответствие: Speech Analyzer выдаёт результаты формант F1, F2, F3, F4, но в PRAAT выдаются эти же значения только F1, F3, F4, т.е. либо PRAAT не находит вторую форманту в прикреплённом файле, либо Speech Analyzer выдаёт "ложную" вторую форманту. Сравнение данных при 130 миллисекундах файла: PRAAT Speech Analyzer F1 F2 F3 F1 F2 F3 F4 668 2519 3169 678 1587 2580 3240 Можете пожалуйста подсказать, почему возникает несоответствие и какая из программ выдаёт правильные результаты, а какая нет. Также сам строил кепстрально сглаженный логарифмический спектр. После вычисления обратного преобразования Фурье от логарифма спектра, обнуляю коэффициенты с К до (N - K). При выборе К = 8 значения получаются уж слишком приближённые (не точные), что не позволяет точного нахождения формант. При выборе К = 20, результат получается значительно точнее, но в данном случае получаются лишние значения частот. часть из найденных частот - форманты, но не ясно как отделять форманты от лишних частот. Можете пожалуйста дать совет |
Сообщ.
#23
,
|
|
|
если это звук А - то редуцированный
начало больше похоже на Э конец на Ы или И в районе максимального пика энергии (в позиции 170мс) F1 около 660Hz F2 около 2950Hz F3/F4 около 7300Hz (можно рассматривать как F4, так как F3 на самом деле подходит очень близко в F2 и практически не видна. В динамике её можно было бы уследить в районе 4100Hz) в позиции 130мс: F1 ~ 630Hz F2 ~ 2700Hz F3 ~ 4560Hz |
Сообщ.
#24
,
|
|
|
а какой Вы программой пользовались для получения таких данных?
|
Сообщ.
#25
,
|
|
|
Сообщ.
#26
,
|
|
|
Цитата zamir @ F2 ~ 2700Hz Какая F2? Зачем Вы третью форманту за вторую выдаёте? Тогда уж напишите, что второй нет. И из литературы и из логики - вторая форманта у "А" находится около 1000 Гц или чуть выше. Цитата zamir @ если это звук А - то редуцированный Причём тут редукция? По звучанию и по параметрам вполне себе ударный звук, т.к. достигаются и удерживаются "эталонные" значения первой и второй формант для ударного "А". Здесь имеет место явная коартикуляция. Складывается ощущение, что звук вырезан из слитной речи, кроме стационарного участка "А", захватив участки коартикуляции с соседними звуками. После "А" явно идёт либо "и", либо мягкая согласная (например, "Ай"). На рисунке 1 не совсем форманты - там максимальные по интенсивности гармоники в двух частотных интервалах: до 800 Гц и от 800 до 2500 Гц. Красный цвет - гармоника, максимальная по значению интенсивности, чёрный - вторая по интенсивности. На интервале, где только чёрный цвет - невокализованный участок, поэтому гармоники не определяются. Второй рисунок - частота основного тона (на всякий случай). Прикреплённый файл1.jpg (100,21 Кбайт, скачиваний: 687) Прикреплённый файл2.jpg (79,11 Кбайт, скачиваний: 678) |
Сообщ.
#27
,
|
|
|
Я извиняюсь, читаю мало, мне казалось форманты свойственны не только речи но и другим звукам, поэтому у меня сложилось мнение что у них нет конкретных диапазонов частот...
Что касаемо моего слуха, видимо мой слух не оправдывает мою фамилию... вот что я слышу как А: http://upload.wikimedia.org/wikipedia/comm...unded_vowel.ogg car [kʰäː] http://upload.wikimedia.org/wikipedia/comm...unded_vowel.ogg nut [nɐt] вот то что мне больше Э напоминает http://upload.wikimedia.org/wikipedia/comm...unded_vowel.ogg bird [bɜːd] http://upload.wikimedia.org/wikipedia/comm...unded_vowel.ogg bed [bɛd] Соответсвенно звук который приложили мне больше напоминает Э Добавлено А вот распознаётся этот звук у меня не так как я его слышу... звук А наиболее хорошо распознаётся в промежудке 100мс-120мс (этот звук мы услушать не можем) затем этот звук больше напоминает О который начиная со 190мс постепенно переходит в А и максимально напоминает А в отметке 260мс после этого звук проходит в О (270мс - 390мс) и переходит в И на отметке 400мс наибольше скопление энергии в промежудке 190-260мс это как раз промежуток перехода звука из О в А Если верить моей распознавалке то в русском языке - это либо буква А либо буква О первой степени редукции http://upload.wikimedia.org/wikipedia/comm...unded_vowel.ogg p.s. слышу я всё равно Э, соответсвенно либо я глух, либо распознавка плохо обучена... |
Сообщ.
#28
,
|
|
|
Всем спасибо за ответы!
Построил кепстрально сглаженный логарифмический спектр. После вычисления обратного преобразования Фурье от логарифма спектра, обнуляю коэффициенты с К до (N - K). При выборе К = 8 значения получаются уж слишком приближённые (не точные), что не позволяет точного нахождения формант. При выборе К = 20, результат получается значительно точнее, но в данном случае получаются лишние значения частот. часть из найденных частот - форманты, но не ясно как отделять форманты от лишних частот. Можете пожалуйста дать совет |
Сообщ.
#29
,
|
|
|
Этот метод нахождения формант не даёт хорошего результата.
Самым лучшим способом мне видится LPC. Цитата При выборе К = 8 значения получаются уж слишком приближённые (не точные), что не позволяет точного нахождения формант. Если вам не нравится только точность - то вы можете увеличить колличество отсчётов Фурье перед обратным преобразованием. |
Сообщ.
#30
,
|
|
|
Цитата zamir @ p.s. слышу я всё равно Э Звуком "Э" здесь не пахнет, основываясь на частоте второй форманты. На рисунке один из вариантов усреднённых частот формант ударных гласных. Интереснее не сам звук, а контекст, из которого звук выдернут. А автор скрывает искомое слово. Прикреплённый файлformants.jpg (40,2 Кбайт, скачиваний: 743) |