На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (15) « Первая ... 5 6 [7] 8 9 ...  14 15 все  ( Перейти к последнему сообщению )  
> Фонемное распознавание речи
    to:Skif
    Потом попробовал просто усреднить спектр - получается более красиво - форманты остаются на своих местах.
    Так как правильно? Ты как думаешь?

    Добавлено
    Цитата Skif @
    Цитата (DimmK @ Сегодня, 08:35)
    http://www.smolny.nw.ru/minerva/ch9/content9_4.html

    Наши извинения...Элемент, который вы запросили, не существует на данном сервере, либо не может быть обслужен.
    Пожалуйста, внимательно проверьте web адрес либо используйте поиск по сайту чтобы найти то, что ищете.
    If you know you have the correct web address but are encountering an error, please contact the Управление сайтом.
    Спасибо.
    404 Not Found

    Может логин и пароль нужен?
    Очень хоца глянуть..

    Ты смотрел мою прогу?

    Ссылка у меня работает, попробуй обратиться в другое время.
    Прогу смотрел - у тебя ОТ определяет точнее чем у меня.
    Прологарифмируй интенсивность 20*log10(FFT) - график будет ярче на высоких частотах.
    У меня в проге на высоких частотах почему-то пошло расхождение FFT с резонансными частотами.
    Домножил вычисленные частоты на 1.015 - и вроде вычисленные резонансы попали в резонансы FFT.
    Как думаешь почему такое может быть?
    Прикреплённый файлПрикреплённый файлMAMA__usrednenie_spectra_.jpg (56.64 Кбайт, скачиваний: 626)
      Цитата DimmK @
      сделал выделение формант через основной тон голоса - как ты советовал.
      Получается что форманты изменяются при изменении высоты основного тона - а этого вроде быть не должно - или я не прав?

      Да форманты могут менятся когда угодно и где угодно. Это косвенно связано и с ОТ.
      1. При произесении гласных и сонорнх ротовой резонатор возбуждает импульсный сигнал идущий с голосовой связки и при изменении его спектра изменяется и спектр формант. Но это не влияет на частоту положения формант. Это только может влиять на амплитуду ВЧ составляющих.
      2. При поизнесении гласных происходит незначительная перестройка ротовых резонаторов. Это одно из отличиельных признаков речи (ничто не стабильно в ее параметрах). Ты попробуй синтезировать речь. Как только один из параметров речи перестает колебаться около своего среднего значения резко падает распознаваемость фонемы.
      3.
      Конечно есть ошибки рассчетов. См выше.
      Fn это чатота приближенная к максимальной чатоте спектрограммы, в твоем случае это 8000Гц.
      К примеру:
      F1=100Гц,Fn=F80=8000 Ошибка = 0;
      F1=120Гц,Fn=F66=7920 Ошибка = 80;
      F1=140Гц,Fn=F57=7980 Ошибка = 20;
      F1=160Гц,Fn=F50=8000 Ошибка = 0;
      Короче с достаточной точностью можо принять что Fn=8000Гц.

      Они тоже могут дать некоторые изменения положения формант.
      4. Логические ошибки в алгоритме. Не всегда программа делает то, что ты хочеш от нее. Она делает то что ты написл :).
        Цитата DimmK @
        Потом попробовал просто усреднить спектр - получается более красиво - форманты остаются на своих местах.
        Так как правильно? Ты как думаешь?

        Я думаю проблемы с выделением ОТ.
        Цитата DimmK @
        Прогу смотрел - у тебя ОТ определяет точнее чем у меня.

        У меня шаг сонограммы не 15 а 3.9Гц сейчас.

        Цитата DimmK @
        Прологарифмируй интенсивность 20*log10(FFT) - график будет ярче на высоких частотах.

        Да там логарифмический масштаб. Попробуй ползунок яркость повыше задрать. А может усиление микрофона слабое.

        Цитата DimmK @
        У меня в проге на высоких частотах почему-то пошло расхождение FFT с резонансными частотами.
        Домножил вычисленные частоты на 1.015 - и вроде вычисленные резонансы попали в резонансы FFT.
        Как думаешь почему такое может быть?

        У меня подобное было. Помойму это был косяк в алгоритме. Я максимум неправильно находил. В условии стояло (x[i]>x[i-1] and x[i]>=x[i+1]) И иногда максиум определялся немножко раньше чем он есть. А еще у меня были ложные максимумы и я выбирал первый. Это тоже давало определение максимума раньше чем он есть.

        См рисунок.
        Сообщение отредактировано: Skif -

        Прикреплённый файлПрикреплённый файлmax_detection.jpg (97.5 Кбайт, скачиваний: 608)
          Усовершенствовал алгоритм - считаю ОТ как "центр масс", + окна хэмминга везде где идет усреднение по интервалу.
          Почти совпадает с резонансными частотами :)

          Не могу понять откуда взять первую, вторую и третью форманты?
          Из спектра сформированного из значений резонансных частот?
          И F1, F2, F3 - это первые три точки этого сформированного спектра, или первые три максимума?
          Прикреплённый файлПрикреплённый файлаоуиыэ_аоуиыэ_аоуиыэ_3диктора__спектр_и_резонансы.jpg (180.35 Кбайт, скачиваний: 568)
            аоуиыэ-аоуиыэ-аоуиыэ-3диктора--спектр_по_резонансам
            Прикреплённый файлПрикреплённый файлаоуиыэ_аоуиыэ_аоуиыэ_3диктора__спектр_по_резонансам.jpg (118.17 Кбайт, скачиваний: 570)
              аоуиыэ-аоуиыэ-аоуиыэ-3диктора--спектр_усредненный
              Прикреплённый файлПрикреплённый файлаоуиыэ_аоуиыэ_аоуиыэ_3диктора__спектр_усредненный.jpg (64.02 Кбайт, скачиваний: 566)
                http://audio.micronet.lv/books/AldoshinaPsychoacoustics.zip
                Ирина Алдошина
                Основы психоакустики.

                Читать всем!!!

                Хотя бы со страницы 110
                Часть 17 Слух и речь.
                  Цитата DimmK @
                  Усовершенствовал алгоритм - считаю ОТ как "центр масс", + окна хэмминга везде где идет усреднение по интервалу.
                  Почти совпадает с резонансными частотами :)

                  Всегда и все можо сделать еще лучше.Это хороший способ точного детектирования ОТ при низком разрешении спектрограммы.
                  Цитата DimmK @
                  Не могу понять откуда взять первую, вторую и третью форманты?
                  Из спектра сформированного из значений резонансных частот?
                  И F1, F2, F3 - это первые три точки этого сформированного спектра, или первые три максимума?

                  В общем я считаю это нереально детектировать формантные частоты. Это стоппер. Задача которая кажется слишком простой. Но ты на решние ее можешь потратить жизнь. Это только мое личное мнение. Многие Ученые думают, пишут, что это проще пареной репы. Но......
                  Вот несколько проблем которые я встретил.
                  1. Каждый диктор имеет ложные формантные частоты свойственные только ему.
                  2. Не ложная форманта может превратится не в максимум а в перегиб функции спектра. Т.е. ее можно не отдетектировать.
                  3. Есть пересечения в частотах формант различных гласных. Это опсано почти везде.
                  4. Форманты И и Ы очень не стабильны.

                  Я предлагаю использовать всю функцию спектра для анализа. См рисунок.
                  Прикреплённый файлПрикреплённый файлMask_Analyze.jpg (112.56 Кбайт, скачиваний: 598)
                    Есть у кого идеи, как содавать маски по предложенному мной выше методу.
                    Если у кого есть другие идеи по распознаанию полученнх спектов, то поделитесь плиз.
                      Цитата Skif @
                      Если кому нужны исходники моего спектрального анализатора...
                      Пишите скину.. Просто мне нужно там код в порядок привести и коментарии расставить.
                      Лениво просто.Но если кто интересуется пишите, сделаю коментарии...

                      Подготавливай код, мне интересно.

                      Скачано, сразу не заметил.
                        RAD
                        Дай недельку. Я там выше сырец закинул.
                        Сообщение отредактировано: Skif -
                          Коллеги, читал я что здесь написано и не выдержал.
                          1.Основной тон не является формантой и его частота обозначается F0.
                          2.Не путайте гармоники основного тона с формантами. Гармоники обозначаются 2F0,3F0 и т.д., а форманты F1,F2 и т.д. Значения частот формант для гласных чуть ли не в каждой книге по распознаванию речи указаны. Если не будет единого обозначения вы друг друга не поймёте.
                          3.Зачем обидели Лию Васильевну Бондарко. Очень уважаемую в наших кругах женщину. Она доктор филологических наук, а не технических, поэтому не знаю чего вы ожидали, начиная читать её книгу (кучу формул что ли?). А лингвистика в распознавании играет огромную роль.
                          Спасибо за внимание.
                            За пункты 1 и 2 плюсик.
                            А вот третий пункт я не понял, видать где-то упустил ссылку на книгу.
                            Но мне простительно, я тут не постоянно нахожусь.
                              Цитата kaa1 @
                              Коллеги, читал я что здесь написано и не выдержал.
                              1.Основной тон не является формантой и его частота обозначается F0.
                              2.Не путайте гармоники основного тона с формантами. Гармоники обозначаются 2F0,3F0 и т.д., а форманты F1,F2 и т.д. Значения частот формант для гласных чуть ли не в каждой книге по распознаванию речи указаны. Если не будет единого обозначения вы друг друга не поймёте.

                              Спасибо. - А то запутался из-за невнимательности.
                                kaa1
                                А Вы может, если имеете отношение к филологии, укажете литературу где конкретно описаны артикуляционные признаки фонем русской речи?
                                1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)
                                0 пользователей:
                                Страницы: (15) « Первая ... 5 6 [7] 8 9 ...  14 15 все


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,0378 ]   [ 14 queries used ]   [ Generated: 14.09.25, 12:47 GMT ]