На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (3) 1 [2] 3  все  ( Перейти к последнему сообщению )  
> Вычисление формант , Вычисление формант
    корень в полярных координатах z=r*exp(a)
    r - радиус фильтра, определяет ширину,
    частота f=(a / (2 * pi)) * F, F- частота квантования
    Сообщение отредактировано: nsh -
      В matlab находят частоту как (arctg(Im(z)/Re(z))*F / (2 * pi)), z - комплексный корень полинома.

      Насколько я понял, максимум частоты сопоставляется (представляется) как (2 * pi), и уже в зависимости от угла комплексного корня полинома находим частоту форманты.
      Но хочется услышать насчёт этого момента разумное объяснение (правильно ли рассуждение?). По возможности можно более детальней для понимания сути происходящего. Спасибо!
      Сообщение отредактировано: nsh -
        Цитата
        Насколько я понял, максимум частоты сопоставляется (представляется) как (2 * pi), и уже в зависимости от угла комплексного корня полинома находим частоту форманты.


        Вы всё правильно поняли. Попробуйте разбираться в таких вещах самостоятельно, в будущем пригодится.
          ну я то понимаю как сделать, но не понимаю почему именно так. не хватает соответствующей подготовки (базовых знаний в данной тематике)
            Можете пожалуйста дать совет!
            Построил кепстрально-сглаженный логарифмический спектр и попытался сравнить найденные значения формант, полученные мной и программой Praat, и как то значения ну очень и очень отличаются. После нахождения кепстра изменял порядок коэффициентов для обнуления, но как то результатов особых не добился.
            Что в данной модели ещё можно изменить для корректного нахождения формант?
            Спасибо!
              Цитата
              Построил кепстрально-сглаженный логарифмический спектр и попытался сравнить найденные значения формант, полученные мной и программой Praat, и как то значения ну очень и очень отличаются. После нахождения кепстра изменял порядок коэффициентов для обнуления, но как то результатов особых не добился.


              Ну надо данные и код, наверное, показать. А то, как говорится, телепаты в отпуске.
                Исследовавал прикреплённый файл (произношение звука "а") на наличие формант с помощью PRAAT и Speech Analyzer
                Прикреплённый файлПрикреплённый файлsound_A.wav (16,46 Кбайт, скачиваний: 540)

                Между двумя программами вышло несоответствие: Speech Analyzer выдаёт результаты формант F1, F2, F3, F4, но в PRAAT выдаются эти же значения только F1, F3, F4, т.е. либо PRAAT не находит вторую форманту в прикреплённом файле, либо Speech Analyzer выдаёт "ложную" вторую форманту.

                Сравнение данных при 130 миллисекундах файла:

                PRAAT Speech Analyzer
                F1 F2 F3 F1 F2 F3 F4
                668 2519 3169 678 1587 2580 3240

                Можете пожалуйста подсказать, почему возникает несоответствие и какая из программ выдаёт правильные результаты, а какая нет.

                Также сам строил кепстрально сглаженный логарифмический спектр. После вычисления обратного преобразования Фурье от логарифма спектра, обнуляю коэффициенты с К до (N - K). При выборе К = 8 значения получаются уж слишком приближённые (не точные), что не позволяет точного нахождения формант. При выборе К = 20, результат получается значительно точнее, но в данном случае получаются лишние значения частот. часть из найденных частот - форманты, но не ясно как отделять форманты от лишних частот. Можете пожалуйста дать совет
                  если это звук А - то редуцированный
                  начало больше похоже на Э конец на Ы или И
                  в районе максимального пика энергии (в позиции 170мс)
                  F1 около 660Hz
                  F2 около 2950Hz
                  F3/F4 около 7300Hz (можно рассматривать как F4, так как F3 на самом деле подходит очень близко в F2 и практически не видна. В динамике её можно было бы уследить в районе 4100Hz)

                  в позиции 130мс:
                  F1 ~ 630Hz
                  F2 ~ 2700Hz
                  F3 ~ 4560Hz
                  Сообщение отредактировано: zamir -
                    а какой Вы программой пользовались для получения таких данных?
                      SFSWin LPC 9 коэффициентов

                      Добавлено
                      http://www.phon.ucl.ac.uk/resource/sfs/
                        Цитата zamir @
                        F2 ~ 2700Hz

                        Какая F2? Зачем Вы третью форманту за вторую выдаёте? Тогда уж напишите, что второй нет.
                        И из литературы и из логики - вторая форманта у "А" находится около 1000 Гц или чуть выше.

                        Цитата zamir @
                        если это звук А - то редуцированный

                        Причём тут редукция? По звучанию и по параметрам вполне себе ударный звук, т.к. достигаются и удерживаются "эталонные" значения первой и второй формант для ударного "А". Здесь имеет место явная коартикуляция. Складывается ощущение, что звук вырезан из слитной речи, кроме стационарного участка "А", захватив участки коартикуляции с соседними звуками. После "А" явно идёт либо "и", либо мягкая согласная (например, "Ай").

                        На рисунке 1 не совсем форманты - там максимальные по интенсивности гармоники в двух частотных интервалах: до 800 Гц и от 800 до 2500 Гц. Красный цвет - гармоника, максимальная по значению интенсивности, чёрный - вторая по интенсивности. На интервале, где только чёрный цвет - невокализованный участок, поэтому гармоники не определяются. Второй рисунок - частота основного тона (на всякий случай).
                        Прикреплённый файлПрикреплённый файл1.jpg (100,21 Кбайт, скачиваний: 687)
                        Прикреплённый файлПрикреплённый файл2.jpg (79,11 Кбайт, скачиваний: 678)
                          Я извиняюсь, читаю мало, мне казалось форманты свойственны не только речи но и другим звукам, поэтому у меня сложилось мнение что у них нет конкретных диапазонов частот...

                          Что касаемо моего слуха, видимо мой слух не оправдывает мою фамилию...

                          вот что я слышу как А:
                          http://upload.wikimedia.org/wikipedia/comm...unded_vowel.ogg
                          car [kʰäː]
                          http://upload.wikimedia.org/wikipedia/comm...unded_vowel.ogg
                          nut [nɐt]

                          вот то что мне больше Э напоминает
                          http://upload.wikimedia.org/wikipedia/comm...unded_vowel.ogg
                          bird [bɜːd]
                          http://upload.wikimedia.org/wikipedia/comm...unded_vowel.ogg
                          bed [bɛd]

                          Соответсвенно звук который приложили мне больше напоминает Э

                          Добавлено
                          А вот распознаётся этот звук у меня не так как я его слышу...
                          звук А наиболее хорошо распознаётся в промежудке 100мс-120мс (этот звук мы услушать не можем)
                          затем этот звук больше напоминает О
                          который начиная со 190мс постепенно переходит в А и максимально напоминает А в отметке 260мс
                          после этого звук проходит в О (270мс - 390мс) и переходит в И на отметке 400мс

                          наибольше скопление энергии в промежудке 190-260мс
                          это как раз промежуток перехода звука из О в А

                          Если верить моей распознавалке то в русском языке - это либо буква А либо буква О первой степени редукции
                          http://upload.wikimedia.org/wikipedia/comm...unded_vowel.ogg

                          p.s. слышу я всё равно Э, соответсвенно либо я глух, либо распознавка плохо обучена...
                            Всем спасибо за ответы!

                            Построил кепстрально сглаженный логарифмический спектр. После вычисления обратного преобразования Фурье от логарифма спектра, обнуляю коэффициенты с К до (N - K). При выборе К = 8 значения получаются уж слишком приближённые (не точные), что не позволяет точного нахождения формант. При выборе К = 20, результат получается значительно точнее, но в данном случае получаются лишние значения частот. часть из найденных частот - форманты, но не ясно как отделять форманты от лишних частот. Можете пожалуйста дать совет
                              Этот метод нахождения формант не даёт хорошего результата.
                              Самым лучшим способом мне видится LPC.

                              Цитата
                              При выборе К = 8 значения получаются уж слишком приближённые (не точные), что не позволяет точного нахождения формант.

                              Если вам не нравится только точность - то вы можете увеличить колличество отсчётов Фурье перед обратным преобразованием.
                                Цитата zamir @
                                p.s. слышу я всё равно Э

                                Звуком "Э" здесь не пахнет, основываясь на частоте второй форманты. На рисунке один из вариантов усреднённых частот формант ударных гласных.
                                Интереснее не сам звук, а контекст, из которого звук выдернут. А автор скрывает искомое слово.
                                Прикреплённый файлПрикреплённый файлformants.jpg (40,2 Кбайт, скачиваний: 743)
                                0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                0 пользователей:
                                Страницы: (3) 1 [2] 3  все


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,0358 ]   [ 21 queries used ]   [ Generated: 8.09.24, 10:39 GMT ]