На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (15) « Первая ... 3 4 [5] 6 7 ...  14 15 все  ( Перейти к последнему сообщению )  
> Фонемное распознавание речи
    Цитата Skif @
    Я все проверил. Качается. Да... только архив получился странный. Внутри него как-бы файл непонятный а в нем файлики мои. Но WinRar все распаковал. Я проверил. Удачи. Видно чегото с файлами происходит при закачке. Я отправляю одно а скачваю другое. И размер разный..... Плиз сообщите если у вас все хорошо скачается. Ну и вообще жду любых отзывов.

    Я скачал и запускаю Project1.exe. Только окно и все.
    Советую добавить подсчет RMS во времени.
    http://citeseer.ifi.unizh.ch/cache/papers/cs/21996/http:zSzzSzspeech.iitm.ernet.inzSzMainzSzpublicationszSzMSTheseszSzSivaRamKrishnaThesis.pdf/rao00recognition.pdf
    Считать RMS где-то 5 мс. Пока не знаю сколько мс взять - 5 мс или меньше, чтобы считать этот кусочек звука импульсом.
    В этом дисере есть картинки по 10 мс, и видно что их нельзя считать импульсами. Это поможет увидеть начало атак, а это и должно быть началом фонем, по краней мере для переходов согласных в гласные Это точно так, когда кончается взрывная согласная и начинается гласная. Смотри это в этом дисере.
      Цитата Skif @
      Может я плохой математик,но у меня ничего не получается. Глазами четко все вижу, а практически сделать не могу, чтобы ОТ определялся так-же точно, как я его вжу на сонограмме. Я пытаюсь рисовать красные полоски на сонограмме которые должны четко идти по полоскам которые обрзуют гласные. Все вроде рабтает, да не так как мне хочется. Иногда я вижу периодичность, а программа дает сбой. И потом не могу одновременно анализировать жеские и мужские голоса. Из за большого разброса частоты ОТ.

      Поскольку спектр имеет периодический характер, то при взятии преобразования Фурье от него на полученном новом спектре мы должны иметь пик на частоте основного тона. Подробнее об это можно можно почитать в статье AN EFFICIENT PITCH-TRACKING ALGORITHM USING A COMBINATION OF FOURIER TRANSFORMS
        Цитата phoenix367 @
        Поскольку спектр имеет периодический характер, то при взятии преобразования Фурье от него на полученном новом спектре мы должны иметь пик на частоте основного тона.

        а еще лучше FFT(коффициенты автокорреляции(FFT(сигнал))) - основной тон виден как на ладони.

        Может кто подскажет как вычислить еще F2, F3, F4?
        Сообщение отредактировано: DimmK -
          Цитата

          а еще лучше FFT(коффициент автокорреляции(FFT(сигнал))) - основной тон виден как на ладони.

          эээ, один коэффициент или несколько? и сколько, если несколько?
            Цитата phoenix367 @
            Поскольку спектр имеет периодический характер, то при взятии преобразования Фурье от него на полученном новом спектре мы должны иметь пик на частоте основного тона.

            Проблема 1. Там будет много пиков и не всегда пик относящийся к частоте ОТ будет максимальным.
            Проблема 2. Низкая точность определения ОТ. Ошибка более 10%.
            Проблема 3. Для софта работающего в реалтайме выполнять многократно ффТ это проблема.

            Ну вот вроде и все. Я сегдня все же попробую. Может все и получится но пока я писсимистически смотрю на тако предложение.
              Цитата neurofish @
              эээ, один коэффициент или несколько? и сколько, если несколько?


              1. Делаешь FFT сигнала - получаешь например 256 коэффициентов FFT на отсчет.
              20*log10(abs(FFT))
              2. По ним считаешь коэффициент автокорреляции - получаешь 512 штук симетричных относительно середины.
              3. К коэффициентам автокорреляциии применяешь FFT получаешь 256 коэф.
              20*log10(abs(FFT))
              4. Выводишь график - на нем график вроде ПЕРИОДА основного тона (пока не разобрался) - из него обратным преобразованием надо получить ЧАСТОТУ.
              5. И еще можно сгладить график
              Сообщение отредактировано: DimmK -
                Цитата DimmK @
                Может кто подскажет как вычислить еще F2, F3, F4?

                Что ты имееш ввиду под F2, F3, F4?
                  Цитата DimmK @
                  1. Пелаешь FFT сигнала - получаешь например 256 коэффициентов FFT на отсчет.
                  2. По ним считаешь коэффициент автокорреляции - получаешь 512 штук симетричных относительно середины.
                  3. К коэффициентам автокорреляциии применяешь FFT получаешь 256 коэф.
                  4. Выводишь график - на нем график вроде ПЕРИОДА основного тона (пока не разобрался) - из него обратным преобразованием надо получить ЧАСТОТУ.
                  5. И еще можно сгладить график

                  Загрузил ты этими преобразования.... Надо почитать.. Я еще качаю то что ты порекомендовал.
                  Я по тупому сделал FFT и нашел максимум в области частот ОТ. Пока низкая точность определения ОТ.
                  Глянь..
                  И чем выше ОТ тем больше ошибка. В диапазоне 50-250Гц вполне неплохо. Но этого мало для женского голоса.
                  Сообщение отредактировано: Skif -
                    Добавлено
                    DimmK
                    Короче... если как ты говориш взять 512 отсчетов. Пусть разложим спектр от 0 до 3000 Гц. с шагом в пять Гц мы получим 600 точек... около 512.
                    преобразование фурье даст ряд амплитуд для частот 5 10 15 ... 1270.
                    т.е точность определения основного тона с частотой в Но это частота от спектра.
                    Знчит для определения реальной частоты всплеска нужно
                    512/pos где pos это позиция максимума в спетре спектра. Седовательно мы можнем получить позичию максимума с точностью...
                    пусть ОТ=100 ГЦ... 256/12*5=105 256/13*5=100 ошибка в пять герц.
                    ОТ=200 гц ... 256/6*5=210 256/7*5=185 уже 25 Гц
                    Формула используемая для расчета частоты ОТ
                    F=n/pos*5
                    n-число гармоник ... результат БПФ
                    pos- позиция максимума в спектре
                    5-шаг фильтров для построения сонограммы речи...
                    Слишком большая ошибка....

                    Добавлено
                    А так как спектр периодичен то при ошибке определения частоты ОТ в 25 Гц. для десятой гармоники ОТ ошибка будет 250 Гц это уже больше периода. Ты перескочиш через один всплеск в районе 2000Гц.
                    Сообщение отредактировано: Skif -
                      У меня вот что получилось:
                      1.Спектрограмма
                      Сообщение отредактировано: DimmK -

                      Прикреплённый файлПрикреплённый файлspektrogramma.jpg (101.71 Кбайт, скачиваний: 883)
                        2. FFT от FFT
                        Прикреплённый файлПрикреплённый файлFFT_ot_FFT.jpg (84.13 Кбайт, скачиваний: 673)
                          3. FFT - автокорреляция - FFT
                          Прикреплённый файлПрикреплённый файлFFT_avtokorrelyatsiya__FFT.jpg (118.2 Кбайт, скачиваний: 680)
                            FFT - автокорреляция - FFT - cсглаживание
                            Прикреплённый файлПрикреплённый файлFFT_avtokorrelyatsiya__FFT_sglazhivanie.jpg (91.06 Кбайт, скачиваний: 756)
                              Цитата DimmK @
                              FFT - автокорреляция - FFT - cсглаживание

                              Ок. Я только не понял чего ты по осям откладываеш? У тебя по оси частот 0-250 Это Гц/1?
                              И конечная картинка. Это не ОТ. Вот посмитри, что у меня получилось.
                              Судя по всему ты используеш FFT для построения спктрограммы. Много шума.
                              У меня фильтры все более гладкое. Я не говорю, что фльтры лучше. У всего есть + и -.
                              Классно ты с цветом придумал... Больший чем у мня динамический диапазон.
                              У тебя на спектрограмме логорифмический масштб ампитуды или линейный?
                              На чем пишеш программу?

                              Добавлено
                              Посмотри какая большая ошибка для женского голоса с частотой ОТ = 206 Гц.
                              Ну это можно устранить. Можеш показать свой результат в таком-же виде. Ато так не понятно...... Пока буду думать как определять ОТ для высоких частот. У меня в базе есть женские голоса с более высокой частотой ОТ. И они пока не детектятся.
                              Можно конечно сделать выбор пола пользователя для улучшения детектирования.
                              Прикреплённый файлПрикреплённый файлДетектирование_ОТ.jpg (49.02 Кбайт, скачиваний: 650)
                                http://www.dsp.sut.ru/rus/research/pda/pda.html
                                Цитата

                                Сайт содержит.
                                ТЕСТОВЫЕ ФАЙЛЫ ДЛЯ ОЦЕНКИ ПОМЕХОУСТОЙЧИВОСТИ ВЫДЕЛИТЕЛЕЙ ОСНОВНОГО ТОНА РЕЧИ.
                                Тестовые файлы содержащие речь дикторов
                                Тестовые файлы содержащие протяженные гласные звуки
                                Описание тестовых файлов для оценки помехоустойчивости выделителей ОТ.
                                Методика оценки помехоустойчивости выделителей ОТ речи изложена в докладе ПОМЕХОУСТОЙЧИВЫЙ ВЫДЕЛИТЕЛЬ ОСНОВНОГО ТОНА РЕЧИ, представленном на 7-й Международной Конференции и Выставке "Цифровая Обработка Сигналов и ее Применение" (DSPA-2005), проходившей в Москве 16-18 марта 2005 г.


                                Нужно оценивать качество выделения ОТ в тугриках. Просто так это абстракция. Картинки красивые но ошибка должна быть измерена в %. Это научный подход, а не подход а шару. Почитаю статью и скину результат. Кто может скиньте свои результаты. Заранее благодарен.
                                0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                0 пользователей:
                                Страницы: (15) « Первая ... 3 4 [5] 6 7 ...  14 15 все


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,0390 ]   [ 15 queries used ]   [ Generated: 14.09.25, 14:35 GMT ]