На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (15) « Первая ... 6 7 [8] 9 10 ...  14 15 все  ( Перейти к последнему сообщению )  
> Фонемное распознавание речи
    Цитата kaa1 @
    Значения частот формант для гласных чуть ли не в каждой книге по распознаванию речи указаны.

    Ну простите за, то что обозначения для частоты ОТ и для формантных частот не бьют с общепринятыми. Просто, в тех книжках, что я читал я встречал разные обозначения и не придавал этому этому знаячения. Спасибо за замечание.

    Прошу заметить, что в книжках даны усредненные значения формантных частот. При разработке "распознавалки" нужно немножко больше чем усредненные параметры. Причем от книжки к книжке они меняются. В тех книжках где даны области, они пересекаются. А исходя из моих экспериментов, я могу сказать, что это не так. Просто для отличия фонем в зоне пересечения формантных частот необходимо анализировать большее число параметров. К примеру расстояние между F1 и F2.
    Сообщение отредактировано: Skif -
      Skif
      Да, формантные частоты....
      а ты шепотом фразу надиктуй и посмотри какие там формантные частоты...
        decan
        А по мне все в норме. Смотри прикрепленный рисунок.
        Может ты путаешь форманты с гармониками основного тона?
        Прикреплённый файлПрикреплённый файлШепот.JPG (38.32 Кбайт, скачиваний: 734)
          Skif
          Там шкал к сожалению нет, но я про то , что в шёпоте до 1000 гц по определению ничего нет.
            Но что-то всё-таки в нём есть, раз мы понимаем то, что говориться шёпотом.
              Не хочется писать большое сообщение, но надо. Рад, что мои замечания не остались незамеченными - это значит, что все здесь время от времени присутствующие хотят разобраться в проблеме.

              1.Фонетическая литература,в которой в какой-то мере присутствует описание признаков фонем (хотя чуть ли не каждый признак можно попытаться оспорить):
              а). Л.Л.Буланин. Фонетика современного русского языка.
              б). Л.В.Златоустова,Р.К.Потапова,В.В.Потапов,В.Н.Трунин-Донской. Общая и прикладная фонетика.
              в). Л.В.Бондарко. Звуковой строй современного русского языка.

              2. По поводу частот формант. Для определения фонемы в основном используют 1-ю и 2-ю форманты. Сейчас, мне кажется, в основном все используют значения частот формант, определённых Фантом ещё в 60-х. На счёт этих частот существуют различные мнения. Вплоть до того, что они могут изменяться в зависимости от положения человека относительно микрофона. Здесь встаёт вопрос о том, что имеет большее влияние на определение звука: речеобразование или речевосприятие. Но это история длинная и я не хочу её затрагивать.

              3. К филологии я отношение имею такое же как и вы. Я занимаюсь распознаванием речи. Из результатов могу озвучить, что выделяю ЧОТ с погрешностью менее 0,5%. Сегментация на вокализованные и невокализованные звуки осуществляется с точностью не менее 95%. Практически добился определения частот 1-й и 2-й форманты, используя определение форманты как максимума в спектре.

              4. Как я понимаю, большая часть участников форума - аспиранты. Очень хотелось бы знать географию и научных руководителей, чтобы примерно оценить направления исследований. Я сам из Томска. Научный руководитель Бондаренко В.П.
                Цитата kaa1 @
                К филологии я отношение имею такое же как и вы. Я занимаюсь распознаванием речи. Из результатов могу озвучить, что выделяю ЧОТ с погрешностью менее 0,5%.

                Как делал, если при помощи авторегресии, то можно делать сегментацию, начало новой фонемы это разладка авторегресии. Про разладку авторегресси написано написанл масса статей.
                Цитата kaa1 @
                Сегментация на вокализованные и невокализованные звуки осуществляется с точностью не менее 95%. Практически добился определения частот 1-й и 2-й форманты, используя определение форманты как максимума в спектре.

                вокализованные и невокализованные звуки - это шумные и нешумные?.
                  Авторегрессией у нас занимались более 10 лет назад и она не даёт хороших результатов.
                  Вокализованные (vocal) и невокализованные (nonvocal) - это звуки, образованные с участием голосового источника и без его участия соответственно.
                    Цитата kaa1 @
                    К филологии я отношение имею такое же как и вы. Я занимаюсь распознаванием речи. Из результатов могу озвучить, что выделяю ЧОТ с погрешностью менее 0,5%. Сегментация на вокализованные и невокализованные звуки осуществляется с точностью не менее 95%. Практически добился определения частот 1-й и 2-й форманты, используя определение форманты как максимума в спектре.

                    Алгоритм известен или модификация старого или совершенно новый? На TIMIT проверял?

                    Добавлено
                    Цитата kaa1 @
                    Вокализованные (vocal) и невокализованные (nonvocal) - это звуки, образованные с участием голосового источника и без его участия соответственно.

                    vocal переводится как звучный, а тогда nonvocal не звучный.
                    Почему плохо распознаются nonvocalic методом главных компанент, можешь объяснить
                    Fonem klasa "vocalic" raspoznano=>92.6613%
                    Fonem klasa "nonvocalic" raspoznano=>63.134%
                      TIMITа у меня нет. Алгоритм выделения основного тона и гармоник новый. Примерное местоположение формант я определяю как максимальную по интенсивности гармонику в определённой полосе частот. Но с формантами всё это требует проверки. Хотя графики получаются довольно точно совпадающие с классическими.
                      Термины "вокализованный" и "невокализованный" также общеприменимы (см. пер. с англ. Фланаган "Анализ, синтез и восприятие речи", например).
                      Я не занимаюсь ни методом главных компонент, ни СММ, ни другими способами статистического распознавания. У меня всё базируется на фильтрах, соответствующих слуховой системе человека.
                      Могу предположить, что если речь слитная, то у глухих звуков есть увеличение интенсивности в районе ЧОТ вокализованных. Поэтому я определяю наличие основного тона по наличию двух первых гармоник. Примерный алгоритм определения ЧОТ описан в последнем сборнике РАО.
                      Сообщение отредактировано: kaa1 -
                        Цитата kaa1 @
                        TIMITа у меня нет. Алгоритм выделения основного тона и гармоник новый. Примерное местоположение формант я определяю как максимальное значение гармоники в определённой полосе частот. Но с формантами всё это требует проверки. Хотя графики получаются довольно точно совпадающие с классическими.
                        .........................
                        Могу предположить, что если речь слитная, то у глухих звуков есть увеличение интенсивности в районе ЧОТ вокализованных. Поэтому я определяю наличие основного тона по наличию двух первых гармоник. Примерный алгоритм определения ЧОТ описан в последнем сборнике РАО.


                        Я тут понял, вроде почему мой ftp глохнет. Нельзя для ftp помещать много маленьких файло, например как в TIMIT. Надо сжимать. Поэтому его востановлю еще раз и скажу тебе где скачать TIMIT. Только не скачивайте модемами - мой ftp ломается, он не любит малой скорости.
                        Пришлм мне статью про алгоритм определения ЧОТ из сборника РАО, если не трудно на мыло
                        grisania@yandex.ru.
                        Сообщение отредактировано: grisania -
                          Отправил. Смысл в том, что после маскировки сигнала явно видна периодическая структура вокализованных звуков. Это даёт возможность создать набор масок. Сигнал сравнивается с каждой из масок. Если получившееся значение схожести сигнала и маски подпадает под ограничительный порог, то дискрета сигнала признаётся вокализованной. Дальше следуют определённые накрутки , чтобы исключить случайные погрешности, и всё работает.
                          Вероятность пропуска существующей границы 0,02.
                          Вероятность определения несуществующей границы 0,08.
                          Вероятность правильного определения временного значения границы равна 0,91 (при условии, что верное определение границы при погрешности 0,01с; при погрешности 0,02с - 0,94).
                          Эксперимент проводился на русской слитной речи. 10 дикторов (5-муж., 5-жен.).
                          Исследовано было 550 границ между вокализованными и невокализованными сегментами.
                          Эти результаты можно улучшить, но пока руки не дошли до новых экспериментов.
                          Сообщение отредактировано: kaa1 -
                            Цитата kaa1 @
                            Отправил. Смысл в том, что после маскировки сигнала явно видна периодическая структура вокализованных звуков. Это даёт возможность создать набор масок. Сигнал сравнивается с каждой из масок. Если получившееся значение схожести сигнала и маски подпадает под ограничительный порог, то дискрета сигнала признаётся вокализованной. Дальше следуют определённые накрутки , чтобы исключить случайные погрешности, и всё работает.
                            Вероятность пропуска существующей границы 0,02.
                            Вероятность определения несуществующей границы 0,08.
                            Вероятность правильного определения временного значения границы равна 0,91 (при условии, что верное определение границы при погрешности 0,01с; при погрешности 0,02с - 0,94).
                            Эксперимент проводился на русской слитной речи. 10 дикторов (5-муж., 5-жен.).
                            Исследовано было 550 границ сегментов.
                            .

                            Что такое маскировка - это удаление не нужных гармоник как в сжатии MPEG.
                            В своем дискриминантном анализе я ищу такие 2 фильтра для vocal и notvocal, которые имеют наименьшию энергию распознавания. Можно конечно искать такие два 2 фильтра только в частотной области, но так построенные фильтры плохо распознают.
                            Я предполагаю что после сжатия MPEG, то есть после маскирования такой дискриминантный анализ будет лучше, но я не умею делать маскирование, т.е сжатие MPEG. Может знаешь как это делать?
                              Маскировка - удаление из спектра несущественных для слуха человека компонент. При маскировке ни одна гармоника не удаляется. В статье есть рисунок, на котором приведён сигнал после одновременной (частотной) маскировки. По осям время и частота.
                              http://www.625-net.ru/archive/z0600/7.htm
                              Кое-что там есть.
                              Сообщение отредактировано: kaa1 -
                                Цитата kaa1 @
                                Маскировка - удаление из спектра несущественных для слуха человека компонент. При маскировке ни одна гармоника не удаляется.

                                Что-то не врубаюсь. :wall: Нет ли противоречия в этой фразе:
                                удаление из спектра несущественных для слуха человека компонент. При маскировке ни одна гармоника не удаляется
                                1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)
                                0 пользователей:
                                Страницы: (15) « Первая ... 6 7 [8] 9 10 ...  14 15 все


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,0420 ]   [ 14 queries used ]   [ Generated: 14.09.25, 10:59 GMT ]