На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (15) « Первая ... 2 3 [4] 5 6 ...  14 15 все  ( Перейти к последнему сообщению )  
> Фонемное распознавание речи
    Цитата Skif @
    Ну хотя бы отличить глухие от звонких.

    наличие основного тона делает классификацию фонем на глухие и звонкие. Мы должны проверить две статистические гипотезы:
    1-ая гипотеза: есть основной тон;
    2-ая гипотеза: нет основного тона.
    Также есть алгоритмы, которые определяют начало основного тона. Если основной меняетя, то говорят, что произошла разладка случайного процесса.
    Если есть основной тон, то фонема стационарный марковский случайный процесс на длинном промежутке времени, значит, ее можно описать авторегрессией, а для авторегрессий придумано куча алгоритмов по разладке
      grisania
      М.А Сапожков: "Речевой сигнал в кибернетике и связи".
      Я не могу до сервака достучаться и книжку скачать... Что то случилось... Я вчера TIMIT качал, а сегодня даже он недоступен.. :wall:
        Если кому нужны исходники моего спектрального анализатора... Пишите скину.. Просто мне нужно там код в порядок привести и коментарии расставить. Лениво просто.Но если кто интересуется пишите, сделаю коментарии...
          Цитата Skif @
          Я не могу до сервака достучаться и книжку скачать... Что то случилось... Я вчера TIMIT качал, а сегодня даже он недоступен

          И я не достучаться. На этой неделе подниму его.
            Цитата Skif @
            grisania
            Убедил...

            Добавлено
            Ктонибудь выделяет периоды речи? Кто и какие алгоритмы использует. Какой диапазон изменения основного тона используется в программах.
            Я выделяю периодичность по спектру.
            Диапазон изменения 70-250Гц но этого недостаточно. В книжках даны средние значения, а в жизни разброс огромен 50-500Гц.

            Да, это и есть разброс основного тона (для различных людей, возрастов интонаций). Но обычно ограничиваются 80-400. Более крайние ну очень редки. Лучше выделяй тон, основываясь или на кепстральном подходе (на dsp-book в книжках он описан) или SIFT (LPC) (книжка Маркела и Грэя "Линейное предсказание речи).
              2Skif

              файл какой-то битый..

              по поводу ОТ - есть тут диссертация у меня по этой теме. Там приблизительно описаны существующие эффективные алгоритмы и новый, что автор разработал. Существующие могу написать, новый - только после защиты автора (хотя, у него верно публикации есть, посмотрю)
                Цитата neurofish @
                файл какой-то битый..

                neurofish
                Ты о чем?
                Плиз, скинь ежели чего накопаеш по ОТ.
                  Цитата

                  Ты о чем?

                  о файле project1.zip, который ты в этой ветке прикрепил. Мой архиватор говорит - неожиданный конец, видимо архиватор хотел большего, а что есть - то есть :)

                  по ОТ пишу цитатами из дисера, как всякие формулы писать и прочее не представляю, расскажите - напишу:
                  Цитата
                  Задача определения частоты основного тона 0 F периодического сигнала многие
                  годы привлекала внимание исследователей и изучается до сих пор. Частота основного
                  тона обратна периоду, который может быть определен как величина минимального не-
                  нулевого временного сдвига, оставляющего сигнал неизменным. В таком виде это оп-
                  ределение подходит только для идеально периодичного сигнала. Реальные сигналы,
                  представляющие практический интерес, не являются идеально периодичными.
                  В случае речевого сигнала под периодом основного тона подразумевается период
                  импульсов голосового источника, возникающих в результате колебаний голосовых
                  складок. Периодичность этих колебаний может нарушаться из-за изменения амплиту-
                  ды, частоты или формы этих колебаний (например, изменения соотношения длительно-
                  сти интервалов открытой и закрытой голосовой щели). Возможно возникновение хри-
                  пов, а также явления дифонии, при котором одновременно образуются два тона разной
                  высоты при произнесении одного звука. Степень периодичности самого речевого сиг-
                  нала может быть ещё ниже вследствие непостоянства формы голосового тракта и нали-
                  чия шума. Поэтому в случае реальных сигналов уместнее говорить не о периоде им-
                  пульсов, а об их длительностях, а под частотой основного тона 0 F понимать среднюю
                  оценку этой частоты на некоем интервале.


                  Цитата

                  Эти свойства речевого сигнала значительно затрудняют задачу определения 0 F , на
                  её решение и по сей день направлено большое количество усилий. При этом аналитиче-
                  ские подходы, которые основываются на строго сформулированных известных или
                  предполагаемых свойствах речевого сигнала, часто требуют введения в алгоритмы не-
                  кого эвристического блока, который должен компенсировать различие между учтен-
                  ными и неучтенными свойствами сигнала.
                  Обзоры различных подходов к решению задачи определения 0 F приводятся в рабо-
                  тах [71, 130]. Можно выделить два типа подходов: спектральные и временные. Спек-
                  тральные обычно основаны на извлечении спектральных пиков. Временные использу-
                  ют, как правило, автокорреляционный подход. В последнее время было предложено
                  несколько методов, которые по характеристикам превосходят традиционные методы.
                  Некоторые методы обладают большей точностью, некоторые – большей устойчивостью
                  к шумам. Например, метод YIN [57], основанный на автокорреляции, является одним
                  из наиболее точных методов оценки для сигнала с хорошим отношением сигнал-шум.
                  Shimamura предложил временной метод [142], устойчивый к белому Гауссовому шуму,
                  а Liu и Lin – спектральный [103].


                  Цитата

                  Также
                  недавно были предложены методы оценки 0 F для речи, переданной по телефонному
                  каналу [88, 151]. Спектральные методы DASH и REPS [115] обеспечивают высокую
                  точность оценки 0 F при искажении спектра сигнала и в присутствии шума.


                  Добавлено
                  Цитата

                  Устойчивый метод оценки 0 F дал бы ключ к решению широкого круга общих ре-
                  чевых задач. В системах синтеза речи по тексту информация о поведении 0 F служит
                  для построения интонационного контура. С помощью 0 F передается значительное ко-
                  личество семантической информации, лежащей выше фонетического и лексического
                  уровней. В тональных языках относительное изменение 0 F определяет лексическое
                  значение слова, и в этом случае системы распознавания речи должны использовать её
                  для избежания неоднозначности. Информация о частоте основного тона должна ис-
                  пользоваться в задаче идентификации диктора.
                  Во многих речевых задачах требуется помимо 0 F знать длительности и положения
                  импульсов голосового источника. Например, для решения обратной задачи (определе-
                  ние формы речевого тракта по сигналу) необходимо использовать резонансные часто-
                  ты, вычисленные на участках голосовых импульсов, где голосовые связки сомкнуты, т.
                  к. частоты, вычисленные на интервале открытой щели, испытывают влияние подсвя-
                  зочной области и могут отличаться от резонансных частот тракта на 20% [19]. Задача
                  вычисления длительностей и положений импульсов голосового источника принадле-
                  жит к классу принципиально более сложных задач по сравнению с определением 0 F .
                  До сих пор не было предложено удовлетворительного метода её решения. В этой задаче
                  недостаточно получить оценку 0 F в привычном смысле (т. е. среднюю на интервале),
                  необходимо учитывать особенности последовательности импульсов, связанные с на-
                  рушениями периодичности. Очевидно, что качество её решения напрямую зависит от
                  точности и устойчивости оценки 0 F . При этом не требуется высокая точность опреде-
                  ления 0 F , так как небольшая ошибка может быть компенсирована за счет использова-
                  ния энергетических характеристик сигнала. Однако грубые ошибки (например, 20% и
                  более) приведут к серьёзным сбоям при синхронном анализе. Такое же требование к
                  точности возникает в задаче сжатия речи с последующим ресинтезом: при ресинтезе
                  грубые ошибки в определении частоты основного тона не компенсируются человече-
                  ским слухом, а, напротив, подчеркиваются, и могут привести к значительному ухудше-
                  нию разборчивости. Поэтому имеет смысл при тестировании точности вычисления 0 F
                  акцентировать внимание именно на грубых ошибках.


                  Добавлено
                  это общие слова, дальше там разбор методов с формулами. Если конму-нибудь нужно, говорите как и куда
                    http://www.dialog-21.ru/Archive/2003/Bojkov.htm
                    Применение вейвлет-анализа сигнала в системе распознавания речи
                    Бойков Ф.Г. Старожилова Т.К.
                      http://www.fips.ru/cdfi/fips.dll?ty=49&docid=2268504&lb=1
                      патент
                      СПОСОБ РАСПОЗНАВАНИЯ ФОНЕМ РЕЧИ И УСТРОЙСТВО ДЛЯ РЕАЛИЗАЦИИ СПОСОБА

                      основываются на "биспектре"

                      Добавлено
                      http://www.ksu.ru/eng/science/fccl/issue001/conf_spe.97/egor_dub.pdf
                      Об анализе слуховых образов речевого сигнала
                        Не пойму проблем с выделением основного тона из фонемы. Если фонема сонорная, то она содержит основной тон.
                        Тогда фонема в начале содержит атаку - импульс, который возбуждает все частоты.
                        Далее смотрим текущий спектр, и как написано в книге Харкевич А.А. «Спектры и Анализ» стр. 102-103
                        Цитата
                        Спектр короткого промежутка процесса – за небольшое время от его начала – однороден, так как короткий отрезок любого процесса есть просто короткий импульс. Если в дальнейшем происходит повторение некоторого цикла явления, то в текущем спектре начинаёт сформироваться максимумы на основной частоте и ее гармониках . Эти максимумами становятся все более острыми высокими, а значения спектральной плотности в интервалах между максимумами все убывает и лишь в пределе вырождается в линейчатый спектр.

                        Ясно, что надо уметь считать текущий спектр, но его производная по времени является мгновенным спектром (Харкевич А.А. «Спектры и Анализ» стр. 105). Текущий спектр можно посчитать через БПФ. Зная призводную, можно востановить текущий спектр. Ну а дальше надо писать программы. Какие здесь трудности? Я только усматриваю, что трудность это сделать в реальном времени, но компы становятся все мощней
                          По непонятной причине project1.zip битый и никто не сказал. Вот он же но + исходники. Простите, за небрежный код, отсутстие коментариев и ошибки в коде. Но надеюсь все и так будет понятно. :)

                          Добавлено
                          Я все проверил. Качается. Да... только архив получился странный. Внутри него как-бы файл непонятный а в нем файлики мои. Но WinRar все распаковал. Я проверил. Удачи. Видно чегото с файлами происходит при закачке. Я отправляю одно а скачваю другое. И размер разный..... Плиз сообщите если у вас все хорошо скачается. Ну и вообще жду любых отзывов.
                          Прикреплённый файлПрикреплённый файлspectrum_analyzer.zip (194.87 Кбайт, скачиваний: 647)
                            Цитата grisania @
                            Не пойму проблем с выделением основного тона из фонемы. Y

                            Скачай мой спектральный анализатор, чтобы посмотреть тот спектральный сигнал, который я анализирую. Может я плохой математик,но у меня ничего не получается. Глазами четко все вижу, а практически сделать не могу, чтобы ОТ определялся так-же точно, как я его вжу на сонограмме. Я пытаюсь рисовать красные полоски на сонограмме которые должны четко идти по полоскам которые обрзуют гласные. Все вроде рабтает, да не так как мне хочется. Иногда я вижу периодичность, а программа дает сбой. И потом не могу одновременно анализировать жеские и мужские голоса. Из за большого разброса частоты ОТ.
                              2skif
                              скачал, работает красиво :) а чего так мало функциональности?
                                Цитата neurofish @
                                скачал, работает красиво :) а чего так мало функциональности?

                                У меня есть прога которая суперфункциональная и даже гласные распонает, но на 1с звука она тратит 60 сек обработки. Меня это сильно напрягает, вот сейчас занимаюсь оптимизацией. Скоро будет и функциональность. Просто я хочу улучшить алгоритм выделения ОТ. Идея одна появилась... Почитал теорию поля немножко. Как поверхности анализировать. Сейчас пишу нечто, что позволит отлаживать алгоритм. Просто тяжало искать логические ошибки. Скоро будет продолжение. Рад, что понравилось. :)
                                0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                0 пользователей:
                                Страницы: (15) « Первая ... 2 3 [4] 5 6 ...  14 15 все


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,0464 ]   [ 15 queries used ]   [ Generated: 4.05.24, 07:30 GMT ]