На главную
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (15) [1] 2 3 ...  14 15 все  ( Перейти к последнему сообщению )  
> Фонемное распознавание речи
    Фонемное распознавание речи – это естественная раскодировка речи, которая перед этим была закодирована в голосовом и носовом трактах человеком. Класики (Фант и др. ) доказали, что человек производит фонемы в голосовом и носовом трактах.

    Нам, кажется, что мы читаем не буквы, а слова. Однако фонемный анализ человек производит с большой скоростью - на уровне рефлексов. Например, машинистка печатает слова. Мозг машинистки их слышит, производит их фонемный анализ, и подает сигналы на ее пальцы. У меня была знакомая машинистка. Так старые компы не поспевали зе ее печатанием. Такая у нее былы скорсть раскодировки фонем на слова
    В книге Чистович, есть раздел - «ЭКСПЕРИМЕНТАЛЬНЫЕ ДОКАЗАТЕЛЬСТВА ВЫДЕЛЕНИЯ ОТРЕЗКОВ ГЛАСНЫХ ЗВУКОВ В РЕЧЕВОМ СИГНАЛЕ». В нем экспериментально доказывается, что человек умеет выделять гласные.
    Чистович, Венцов, Гранстрем, и др., Физиология речи. Восприятие речи человеком. Наука, 1976. Можно найти в Инете

    В данный момент практически решена задача выделения фонем из речи
    Фирма ”ИстраСофт” для русских фонем
    http://www.istrasoft.ru/speech.html#algorithm
    Американская Фирма Fast-Talk Communications для американских фонем:
    Цитата
    Американская Fast-Talk Communications представила новую технологию поиска текстовых фрагментов в звуковых файлах. Подобный инструментарий может оказаться весьма полезным для компаний, обрабатывающих значительные объемы речевой информации. Новая технология может пригодиться и журналистам, у которых отпадет необходимость в длительной и трудоемкой расшифровке интервью.

    http://www.compulenta.ru/2002/12/23/36553/
    http://www.russianamerica.com/common/arc/story.php?id_cat=18&id=30615&PHPSESSID=8ab6a3f14c82dc8d18a7eddbbf99ee7e

    Уже реально используется фонемный подход к распознаванию речи.
    Цитата
    Главный продукт Philips Speech Processing, ведущего мирового производителя систем распознавания речи в телефонии, — SpeechPearl — набор программных модулей, библиотек и утилит для разработки систем распознавания речи для телефонных приложений, включающий поддержку русского языка на основе русских фонем.

    http://celler.ru/forum/index-22/topic-4537.html
    http://www.telecomforum.ru/1sthand/2004/06/0901.htm

    Пофонемное распознавание 1.0
    http://softsearch.ru/programs/102-902-pofonemnoe-raspoznavanie-download.shtml

    Просьба к форумчанам, если кто знает материал по этой тематике, то пусть сообщит.
    Особенно интересны алгоритмы по выделению фонем из слов в реальном времени, а также свои соображения как это сделать.
    За этим подходом будущее - это верняк
    Сообщение отредактировано: grisania -
      Один из алгоритмов выделения фонем
      On the Relation Between Maximum Spectral Transition Positions and Phone Boundaries
        Несколько статей по фоненому распознаванию речи:

        http://www.seas.upenn.edu/~jan/Files/icasspFrictvs98.pdf
        http://www.catalyst-foundation.org/Recipients/Projects/U_Pen-1995-2001.html
        http://www.seas.upenn.edu/~jan/Files/ICASP01StopCns.pdf
        http://www.seas.upenn.edu/~jan/Files/Iscas99Speech.pdf

        Может будет интересно кому-нибудь
          Фонемы реально существую в разборчивой речи и их можно не только слышать, но и реально видеть в спектрограммах.
          Самое интересное, что распознавание фонем можно перевести в распознание зрительных образов. Это так называемые спектрограммы. На ней фонемы слов видны, т.е получается что-то типа азбуки Морзе.
          Р.В. Поль «Механика, акустика, и учение о теплоте» Москва, 1971, стр. 330.
          Там он пишет, что после достаточных упражнений ее можно читать. Вроде этот подход пытались использовать для восприятия звука глухонемыми. То есть использовать, известный факт, что человек слышит мгновенный спектр.

          Есть такая прога Wavesurfe. В ней есть возможность загрузить файл предложения из TIMIT из базы, разбитый на фонемы и эта прога сделает спектрограмму предложения. Внизу этой спектрограммы дается реальное разбиение слов на фонемы закаченное из отдельного файла TIMIT базы. Тогда на этой спектрограмме фонемы видны на ней самой и действительно, после достаточных упражнений слова можно читать по их спектрограмме.
          Если кто-то реально готов это обсуждать этот подход к распознаванию речи, то я могу указать, где лежит TIMIT база в инете. Прога Wavesurfe легко находится в инете. О таком подходе к распознаванию речи амеры написали кучу статей. Могу дать ссылки.
          В матлабе также можно видеть разбиение слов на фонемы закаченное из отдельного файла TIMIT базы. Но там есть только огибающая спектра.
          Я счас пытаюсь это связать со своим подходом.
            Если не трудно, подкиньте ссылку на TIMIT.
              Цитата phoenix367 @
              Если не трудно, подкиньте ссылку на TIMIT.

              Зачем тебе TIMIT?
                За тем же самым, что и тебе - для обучения и проверки системы распознавания речи. Меня так же инетерсует проблема пофонемного распознавания речи. Я хочу проверить применимость метода минимума информационного рассогласования для распознавания фонем. А для этого их сначала надо где-то взять.
                  Цитата phoenix367 @
                  За тем же самым, что и тебе - для обучения и проверки системы распознавания речи. Меня так же инетерсует проблема пофонемного распознавания речи. Я хочу проверить применимость метода минимума информационного рассогласования для распознавания фонем. А для этого их сначала надо где-то взять.

                  Что такое метод минимума информационного рассогласования для распознавания фонем?
                  Где взять TIMIT сообщу в личку.
                  Сообщение отредактировано: grisania -
                    В матлабе можно видеть разбиение слов на фонемы закаченное из отдельного файла TIMIT базы с раширением .phn.
                    Для этого можно скачать набор прог COLEA: A Matlab Software Tool for Speech Analysis
                    http://www.utdallas.edu/~loizou/speech/colea.htm

                    Там есть возможность отобразить разбиение слов на фонемы:
                    Displays time-aligned phonetic transcriptions (e.g., TIMIT's .phn files) - see example Figure above
                    Несколько модельных файлов .phn, показывающих как это делается, входят в набор COLEA.
                      Ссылок на статьи по критерию МИР у меня сейчас нет, так что поищи на яндексе по следующим названиям:
                      "Распознавание речевых сигналов на основе метода обеляющего фильтра"
                      "Распознавание речевых сигналов на основе корреляционного метода"
                      "Распознавание дикторов по методу обеляющего фильтра"
                      "Распознавание речевых сигналов на основе метода спектрального оценивания"
                      Могу прислать еще статьи, которые не опубликованы в интернете.
                      От себя добавлю, что наиболее эффективным является распознавание в частотной области, при использовании авторегрессионной модели и выборе в качестве эталонов усредненных по гармоническому закону всех спектров реализаций из обучающей выборки по каждому слову. Распознавание фонем можно производить аналогично тем методам, что применяются в указанных выше статьях. Главное - иметь эффективный метод выделения границ фонем. Мне обещали принести статью по новому методу распознавания фонем. Вроде бы что-то там у них получилось.
                      А пока идея следующая - написать программу, которая производит распознавание по уже размеченной фразе и проанализировать результаты.
                        Слушайте, а давайте всё таки вернёмся к последовательности действий и их обоснованию:

                        1. Акустический сигнал сигнал до частотной обработки в ухе, проходит амплитудную - АРУ , как защита от сверхуровней, ну и некоторая нелинейность обусловленная механо-анатомическими свойствами (функция более-менее известна).
                        2. Ухо, совершенно однозначно, производит построение спектрального представления акустического сигнала (тоже не очень важно с какой разрешающей способностью и какова нелинейность частотной шкалы - хотя более или менее известно)
                        3. Спектр поступает уже в мозг на дальнейшую обработку-интерпретацию.


                        Вот тут, в моём понимании, наступают сложности и нюансы:
                        Во-первых обрабатывается не мнгновенный спектр, а динамический так называемая сонограмма
                        Во-вторых информационно несущим является не сама частотная характеристика, а её оценка с очень разных точек зрения.
                        Пример: разрежем фотографию на полоски (спектр), конечно нельзя сказать что эти полоски не несут никакой информации, но какой-то элемент бывшего изображения мы можем увидеть только на сочетании нескольких полосок, и на основании этого его (предмет) узнать-идентифицировать.
                        Вот на что надо бросить мыслительные усилия - на выделение признаков несущих информацию

                        А работа с "усреднёнными спектрами" это извините бред. Я записал "ми" (зачем Вам база - с одной фонемой поработайте) четырёх сотрудников - спектры близко не лежали, ничего похожего (ну ни ничего, а мало).

                        А вот когда сочиним признаки, вот как их обсчитать это уже дело вкуса и принципиального значения не имеет.
                        Сообщение отредактировано: decan -
                        ...идя сзади, никогда не будешь впереди...
                        при фразе "...база данных для распознавания речи..." - рука тянется к кабуре....
                          2phoenix367
                          прислать прогу на матлабе, которая бьет ТIMIT на фонемы.
                          Задаешь каталоги, на которые надо рассортировать фонемы, например, звонкие и шумные в отдельные каталоги.
                          также могу выложить в ftp статью, в которой находится начало формант. Ее автор мой знакомый.

                          Добавлено
                          Цитата decan @
                          2. Ухо, совершенно однозначно, производит построение спектрального представления акустического сигнала (тоже не очень важно с какой разрешающей способностью и какова нелинейность частотной шкалы - хотя более или менее известно)


                          Тут вот нашел такое, прокоментируйте:
                          Цитата
                          По современным представлениям слух использует два разных алгоритма кодирования сигнала.
                          1. На частотах до 3-4 кГц кодируется форма сигнала. Нейроны имеют разные пороги срабатывания, поэтому сигнал кодируется номером нейрона с самым высоким порогом и числом сработавших нейронов. Однако частота следования импульсов в отдельно взятом нейроне не может превышать 300-400 Гц, т.к. на выделение медиатора и восстановление электрического равновесия уходит 1-2 мс. Поэтому на средних частотах близкорасположенные нейроны объединяются в группу (до 10 нейронов) и возбуждаются периодами сигнала по очереди (это положение называется теорией залпов). Этот алгоритм требует периодической структуры сигнала на протяжение порядка 10 периодов, что в частотной области означает узкополосный сигнал с шириной полосы около 300-400 Гц. Это обеспечивается функциональной фильтрацией сигнала в улитке. Таким образом, диапазон частот кодируемого сигнала достигает 3-4 кГц.
                          2. На частотах выше 4 кГц возможности организации последовательной работы нейронов исчерпываются, и кодируется не сам сигнал, а его огибающая. Сигнал нейрона уже не несет информации о частоте, частотная информация извлекается из точки его подключения к коритеву органу. Иными словами, для определения высоты тона используется положение максимума амплитуды бегущей волны на основной мембране.

                          В пользу изменения алгоритма определения частоты свидетельствует и тот факт, что музыкальный звукоряд простирается только до 4 кГц. Замена кодирования мгновенных значений сигнала на частотах выше 4 кГц кодированием огибающей имеет весьма важные последствия.

                          1. Разрешающая способность по частоте в диапазоне высоких частот заметно падает.
                          2. Наиболее важным становится наличие высокочастотного сигнала с определенной огибающей и не столь важно, какая у него частота заполнения (в пределах трети октавы).
                          3. Если огибающая высокочастотного сигнала является периодическим сигналом звуковой частоты, то ее частота и воспринимается в качестве высоты тона. В спектральной области это означает, что в качестве высоты тона воспринимается не какая-либо физически существующая частота, а период сложного сигнала.
                          3. Разделимость сигналов нескольких источников заметно падает, если они не содержат спектральных составляющих ниже 4 кГц. Если же низкочастотные составляющие присутствуют, то разделение, вероятно, производится "присоединением" высокочастотного призвука к низкочастотному сигналу со сходным поведением во времени.

                          Итого: до 4 кГц царство тонального звука (деревянные духовые, фортепиано), а выше - царство нетонального (атаки, щипки струн и т.д.)

                          http://inform-hifi.narod.ru/6.htm
                          Сообщение отредактировано: grisania -
                            [QUOTE=grisania,1152178494,1166415]Тут вот нашел такое, прокоментируйте:
                            [QUOTE]По современным представлениям слух использует два разных алгоритма кодирования сигнала.
                            1. На частотах до 3-4 кГц кодируется форма сигнала. Нейроны имеют разные пороги срабатывания, поэтому сигнал кодируется номером нейрона с самым высоким порогом и числом сработавших нейронов. Однако частота следования импульсов в отдельно взятом нейроне не может превышать 300-400 Гц, т.к. на выделение медиатора и восстановление электрического равновесия уходит 1-2 мс. Поэтому на средних частотах близкорасположенные нейроны объединяются в группу (до 10 нейронов) и возбуждаются периодами сигнала по очереди (это положение называется теорией залпов). Этот алгоритм требует периодической структуры сигнала на протяжение порядка 10 периодов, что в частотной области означает узкополосный сигнал с шириной полосы около 300-400 Гц. Это обеспечивается функциональной фильтрацией сигнала в улитке. Таким образом, диапазон частот кодируемого сигнала достигает 3-4 кГц.
                            2. На частотах выше 4 кГц возможности организации последовательной работы нейронов исчерпываются, и кодируется не сам сигнал, а его огибающая. Сигнал нейрона уже не несет информации о частоте, частотная информация извлекается из точки его подключения к коритеву органу. Иными словами, для определения высоты тона используется положение максимума амплитуды бегущей волны на основной мембране.[/QUOTE]


                            Что такое форма сигнала? Понятие "форма сигнала" уместно для временнОй области, а для частотной форма спектра. Ну а если кодируется форма спектра, это и понятно - спектр это суть форма его. Каким образом до мозга доносится форма спектра - по-моему абсолютно неважно, одним нейроном, сотней нейронов или ещё как, ычто нам это даёт.
                            Мне вообще кажется , что из моря информации, с которой приходится иметь дело, надо отфильтровывать всякую шелуху посвящённую диссертациям и отработкам грантов.
                            Касательно п.2 - то нас не интересует сигнал выше 3,5-4 кГц
                            Сообщение отредактировано: decan -
                            ...идя сзади, никогда не будешь впереди...
                            при фразе "...база данных для распознавания речи..." - рука тянется к кабуре....
                              Цитата decan @
                              Что такое форма сигнала? Понятие "форма сигнала" уместно для временнОй области, а для частотной форма спектра. Ну а если кодируется форма спектра, это и понятно - спектр это суть форма его. Каким образом до мозга доносится форма спектра - по-моему абсолютно неважно, одним нейроном, сотней нейронов или ещё как, ычто нам это даёт.

                              Я так понимаю, что временной области.
                              Я пока думаю как обезьяна. Истрасофт вроде все делает гребенкой адаптивных фильтров. Гребенка дает спектр разбитый на полосы, т.е. огибающая всего спектра апроксимируется ступеньками. Но это хорошо для шумовых фонем, а периодичевких звонких звуков как быть.
                              Здесь как мне кажется написано важная вещь, которая мне как математику ясная.
                              Цитата
                              Как известно, периодичность звонких звуков выражается в частотной области в том, что их спектр имеет линейчатый характер, причем соседние пики (спектральные максимумы) отчтоят друг от друга на интервал (в частотной области) равный частоте основного тона.. Поэтому, если гребенка фильтров такова, что гармоники основного тона (спектральные пики) попадают в полосы пропускания, то можно расссчитывать на повышение качества речевого сигнала.
                              http://www.ccas.ru/depart/chuchu/publics/Public_98.pdf

                              Мне кажется, что надо идти по пути всяких мпегов, которые уберают маскирующие гармоники, и делают максимуми спектров острыми.

                              Цитата
                              В настоящее время наиболее известны Audio MPEG, PASC и ATRAC. Все они
                              используют так называемое "кодирование воспринимаемого" (perceptual
                              coding) при котором из звукового сигнала удаляется информация, малозаметная для слуха. В результате, несмотря на изменение формы и спектра сигнала, его слуховое восприятие практически не меняется, а степень сжатия оправдывает незначительное уменьшение качества. Такое кодирование относится к методам сжатия с потерями (lossy compression), когда из сжатого сигнала уже невозможно точно восстановить исходную волновую форму.

                              Приемы удаления части информации базируются на особенности человеческого слуха, называемой маскированием: при наличии в спектре звука выраженных пиков (преобладающих гармоник) более слабые частотные составляющие в непосредственной близости от них слухом практически не воспринимаются (маскируются). При кодировании весь звуковой поток разбивается на мелкие кадры, каждый из которых преобразуется в спектральное представление и делится на ряд частотных полос. Внутри полос происходит определение и удаление маскируемых звуков, после чего каждый кадр подвергается адаптивному кодированию прямо в спектральной форме. Все эти операции позволяют значительно (в несколько раз) уменьшить объем данных при сохранении качества, приемлемого для большинства слушателей.

                              http://www.opennet.ru/base/muzfaq/DGAUDFAQ.TXT.txt.html
                              Ребята, создающие способы сжатия звкуа не пишут диссертации и не отработатывают гранты. Поэтому надо их знания использовать.
                              То есть я хочу фонемы сжимать мпегом, а потом подавать на распознавание.
                              Кстати, где прочитать про эти Audio MPEG, PASC и ATRAC.
                              Конечно, пока пишу все сумбурно.
                                Я, собственно, не очень понимаю, зачем чего-то чем-то сжимать. Вполне достаточно синтезировать фильтр или банк фильтров с соответсвующей АЧХ.

                                Добавлено
                                А товарищи из "ИстраСофт", думаю идут вот по какому пути: если изменение спектра и/или мощность сигнала больше какого-нибудь заданного значения, то значит мы достигли границы фонемы. Хотя эти границы не обязательно будут являться границами фонем, но для простого сжатия и так сойдет.
                                0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                0 пользователей:
                                Страницы: (15) [1] 2 3 ...  14 15 все


                                Рейтинг@Mail.ru
                                [ Script Execution time: 0,1364 ]   [ 16 queries used ]   [ Generated: 18.01.20, 05:27 GMT ]