На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (15) « Первая ... 11 12 [13] 14 15  все  ( Перейти к последнему сообщению )  
> Фонемное распознавание речи
    В источниках пишут, что для распознавания гласных звуков нужны первые две форманты: первая говорит о степени открытости-закрытости звука, вторая - о положении языка. Мне нужно написать такую программу в Матлабе.

    Насколько я понимаю, если имеется авторегрессионная модель, то форманты - это локальные максимумы.
    http://s51.radikal.ru/i132/0907/a5/bed119ca4e3c.gif

    Не могу понять, как можно их извлечь из авторегрессионной модели.

    Дополнено: этот вопрос снимается. Оказывается, функцию peaks нужно заменить на findpeaks.
    Скрытый текст

    Тут предлагается решение с использованием функции peaks, но оно выдаёт ошибку на последней из процитированных строк:

    ExpandedWrap disabled
      th = ar(x,n)        % auto-regressive model of voice
       
      [b,a] = th2tf(th)   % transfer function of vocal tract
       
      [h,w] = freqz(b,a); % frequency response of vocal tract
       
       
      f = w.*fs/(2*pi);
       
      semilogy(f,abs(h))              % semilogx and semilogy plot data
                                      % as logarithmic scales for the x- and y-axis,
                                      % respectively.
       
       
      xlabel('Frequeny (Hz)')
      ylabel('log scale frequency response')
      title('Auto-Regressive Model of Vocal Tract')
      hold on
       
      [floc,fmag] = peaks(abs(h));
      allfmnts = f(floc);    % ERROR - ??? Subscript indices must either be real positive integers or logicals. error


    И если имеется авторегрессионная модель, можно ли по ней полностью восстановить звук?
    Сообщение отредактировано: starn -
      Интересуюсь: алгоритмы есть, публикации есть, вроде как задача решена, так вот любопытно какой процент сейчас реально фонем распознается?
        Хотелось бы поднять и продолжить полезную тему. Прочитал всю, запасся огромным количеством разных ссылок, знаний и структуировал тот малый материал, который у меня пытается присутствовать :)

        Так и не понял, что такое гармоники. Форманты, понятно - всплески на спектре. А вот что такое гармоники? Такое впечатление, что тоже самое :) Скорее всего они наверное иногда совпадают, а иногда нет... Или совершенно не так?
          Цитата Black*Eternal @
          Так и не понял, что такое гармоники. Форманты, понятно - всплески на спектре

          Тональные звуки состоят из частот, кратных частоте основного тона (ЧОТ).
          Они и называются гармониками.
          Когда звучит струна или голосовые связки то кроме основного тона (самой низкой частоты) в звуке есть и кратные ей частоты (гармоники). Обычно уменьшающейся амплитуды с ростом частоты.

          Когда звук проходит через речевой аппарат человека, из за резонансных свойств речевых полостей некоторые частоты усиливаются (некоторые ослабляются). Резонансные максимумы речевого аппарата называют формантами.
          Частоты и амплитуды формант, их динамика отображают положения и динамику артикуляции, поэтому важны для распознавания звуков речи.

          На спектре звука мы можем наблюдать и гармоники и форманты.
          Для низкого голоса, или при малой ширине окна гармоник мы не увидим, только форманты. Это максимумы огибающей спектра.
            Цитата Анатоль @
            Тональные звуки состоят из частот, кратных частоте основного тона (ЧОТ). Они и называются гармониками.
            Когда звучит струна или голосовые связки то кроме основного тона (самой низкой частоты) в звуке есть и кратные ей частоты (гармоники).
            ....
            Когда звук проходит через речевой аппарат человека, из за резонансных свойств речевых полостей некоторые частоты усиливаются (некоторые ослабляются). Резонансные максимумы речевого аппарата называют формантами.

            Гармоники "по совместительству" также являются некоторыми из формант?
            Т.е. все высокие пики - это форманты, а гармониками являются из них те форманты, частоты которых кратны ЧОТу?
            Или форманты это максимальные, а гармоники выражены очень малой мощностью и не имеют ничего общего с формантами? Пытаюсь понять как они друг с другом связаны.. :)
              Цитата Black*Eternal
              Гармоники "по совместительству" также являются некоторыми из формант?
              Пытаюсь понять как они друг с другом связаны

              Представте себе гребёнку, у которой зубья спилили так, что их высота вписывается в нек. гладкую кривую.
              Представили?
              Ну так зубья - это гармоники, а максимумы этой гладкой кривой - форманты.
                Цитата Анатоль @
                Цитата Black*Eternal
                Гармоники "по совместительству" также являются некоторыми из формант?
                Пытаюсь понять как они друг с другом связаны

                Представте себе гребёнку, у которой зубья спилили так, что их высота вписывается в нек. гладкую кривую.
                Представили?
                Ну так зубья - это гармоники, а максимумы этой гладкой кривой - форманты.

                Клёвый пример :)

                Т.е. гармоники это сами составляющие (вот эти "вертикальные столбцы"), а форманты это локальные максимумы (этих столбцов)?
                  На рисунке всплески синего цвета это гармоники. Всплески красного цвета форманты.
                  Прикреплённый файлПрикреплённый файлБезымянный.PNG (9.94 Кбайт, скачиваний: 585)
                    Цитата Skif @
                    На рисунке всплески синего цвета это гармоники. Всплески красного цвета форманты.

                    О, спасибо за картинку!
                    А форманты это получается огибающая гормоники?
                      Цитата Black*Eternal @
                      А форманты это получается огибающая гормоники?

                      Именно так. Ну точнее сказать, что форманты огибающие гармоник. Первый синий всплеск это первая гармоика, ее частота равна частоте колебаний голосовых связок. Второй всплеск это вторая гармоника, частота второй гармоники в два раза больше первой. Третий всплеск это третья гармоника. Ее частота в три раза больше первой. Если к примеру обозначим частоту первой гармоники через F1 а вторую через F2 и так далее. F3, F4.... То справедливо записать F2=2*F1; F3=3*F1; F4=4*F1. Из этого следует что вычислив частоту первой гармоники мы можем вычислить все остальные гармоники и рассчитать огибающую гармоник которая является амплитудно частотной характеристикой формантного фильтра. Найдя максимумы амплитудно частотной характеристики формантного фильтра мы найдем формантные частоты.
                        Цитата Skif @
                        Из этого следует что вычислив частоту первой гармоники мы можем вычислить все остальные гармоники и рассчитать огибающую гармоник

                        По частоте первой гармоники мы можем вычислить частоты остальных гармоник, но не их амплитуды. Поэтому огибающей мы никак не получим из частоты первой гармоники.
                          Цитата Анатоль @
                          По частоте первой гармоники мы можем вычислить частоты остальных гармоник, но не их амплитуды. Поэтому огибающей мы никак не получим из частоты первой гармоники.

                          Я подразумевал что спектр сигнала анализируемого отрезка времени уже расчитан. Верное замечание. Для того чтобы расчитать огибающую нужно знать спектр.
                            Вот теперь я полностью понял, что имеется ввиду под гармониками и фонрмантами!

                            По поводу "рассчитать огибающую гармоник" я тоже не понял. Частоты найти, это понятно. Я уже поэкспериментировал со звуками, там действительно частота второй двое выше первой и далее частоты последующих гармоник ровно выше на разницу второй-первой. А вот получить мощности их наверное невозможно из первой.. Этож звучание изменится, нет разве? А может ли быть два разных звука с одинаковой первой гормоникой по частоте и мощности?

                            Кстати, а что такое обертон? Это другое название гармоник? :)
                              Цитата Black*Eternal @
                              Вот теперь я полностью понял, что имеется ввиду под гармониками и фонрмантами!

                              По поводу "рассчитать огибающую гармоник" я тоже не понял. Частоты найти, это понятно. Я уже поэкспериментировал со звуками, там действительно частота второй двое выше первой и далее частоты последующих гармоник ровно выше на разницу второй-первой. А вот получить мощности их наверное невозможно из первой.. Этож звучание изменится, нет разве? А может ли быть два разных звука с одинаковой первой гормоникой по частоте и мощности?

                              Кстати, а что такое обертон? Это другое название гармоник? :)

                              Оберто́ны (нем. Oberton — «верхний тон») в акустике — колебания полного объёма, а также различных частей какого-либо звучащего тела (струны, столба воздуха, мембраны, голосовых связок и т. д.). Обычно понятие обертона смешивается с понятием гармонических созвуков, однако несмотря на то, что любой гармонический созвук является обертоном, не любой обертон является гармоническим созвуком.

                              В общем обертон это то как звуччит инструмент. В нашем случае это звучание гласных речи. А инструментом является речеобразующий аппарат. человека :)

                              Расчиатать огибающую гармоник значит нарисовать красную линию. См рисунок выше. Соединить максимумы гармоник между собой.
                                Цитата Skif @
                                В общем обертон это то как звучит инструмент.

                                А набор гормоник ведь и определяет звучание инструмента?

                                Так получается, что форманты это точки максимумов гармоник, которые мы соединяем линией?
                                Ведь говорим мы во множественном числе "форманты", значит их много.. а огибающая одна :)
                                0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                0 пользователей:


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,0445 ]   [ 15 queries used ]   [ Generated: 18.09.24, 21:37 GMT ]