На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
  
> Распознавание гласных звуков
    Уважаемые участники форума!

    Ответьте, пожалуйста, на следующий вопрос: реально ли создать систему распознавания гласных звуков
    по форме звуковой волны? и если нет, то почему? Был бы очень рад, если бы кто-то сказал, что этот
    метод применяется (поиск ничего не дал, или плохо искал).
      Сначала нужно понять, что такое "форма звуковой волны". Гармоники звука могут быть сдвинуты по фазе, при этом звук сам почти не изменится, а значения амплитуд изменятся существенно.

      В системах распознавания важно учитывать внутренние инварианты, такие как инвариантность к амплитуде, инвариантность к сдвигу. Без учёта инвариантов распознавание будет значительно менее надёжным.
        Принцип то вот какой подразумевается: есть запись звука [а], запись анализируется, так как звук гласный, то эта запись по большей
        части будет состоять из периодов, похожих друг на друга. Эти периоды выделяются и в дальнейшем используются для распознавания
        этого звука, произнесённого отдельно.
          Цитата
          Принцип то вот какой подразумевается: есть запись звука [а], запись анализируется, так как звук гласный, то эта запись по большей части будет состоять из периодов, похожих друг на друга. Эти периоды выделяются и в дальнейшем используются для распознавания этого звука, произнесённого отдельно.


          А форма звуковой волны тут причём?
            Форма звуковой волны эквивалентна временному представлению оцифрованного звукового сигнала.
            Разве не так?
            Поэтому если использовать описанный алгоритм, тогда распознавание как раз и выполняется по форме звуковой волны.
            Если бы сигнал преобразовывался в частотную область, тогда по спектру.
              immort001 А если я в ладоши хлопну или дверью, форма огибающей сигнала будет как у вас - что вы будете пытаться распознавать???
              Если же вы имеете ввиду распознавание по самому сигналу, то потребуются какие-то слепки с чем сравнивать. Например набор вейвлетов небольших функций разной формы. И придется опять же проходить этими вейвлетами по всему сигналу чтобы выяснить совпадение и развитие во времени той или иной формы в определенный момент.
              Сообщение отредактировано: TViT -
                Цитата immort001 @
                Поэтому если использовать описанный алгоритм, тогда распознавание как раз и выполняется по форме звуковой волны.

                Только алгоритм этот никуда не годится и работать не будет:
                Цитата nsh @
                Гармоники звука могут быть сдвинуты по фазе, при этом звук сам почти не изменится, а значения амплитуд изменятся существенно.

                То же самое немного другими словами и подробнее: форма звуковой волны НЕ ЯВЛЯЕТСЯ ИНВАРИАНТОМ. Проходя по каналам связи форма изменяется до неузнаваемости, а звуки не меняются. То есть человеческое ухо НЕ ВОСПРИНИМАЕТ ФАЗУ СПЕКТРАЛЬНЫХ КОМПОНЕНТ, ТОЛЬКО АМПЛИТУДУ (сам проверял). Природа этим пользуется и не заботится о форме волны. Так что любой алгоритм должен опираться на амплитудный спектр в той или иной форме (Фурье, КЛП, вейвлеты...)

                По сути задачи - бесполезная и бессмыссленная. Из-за коартикуляции в естественной речи результаты распознавания будут более-менее приличными только для ударных гласных.
                  Цитата TViT @


                  После хлопка дверью, конечно, звук [и] не появится.

                  Использование вейвлетов или Фурье, конечно же, подразумевалось (просто я забыл про это написать :( )

                  Добавлено
                  Цитата nsh @
                  В системах распознавания важно учитывать внутренние инварианты, такие как инвариантность к амплитуде, инвариантность к сдвигу. Без учёта инвариантов распознавание будет значительно менее надёжным.

                  т.е. нужно создать описание, которое будет инвариантно к изменению амплитуды?

                  а вот что вы подразумеваете под инвариантностью к сдвигу?
                    Цитата
                    После хлопка дверью, конечно, звук [и] не появится.

                    А никто и не говорил что хлопок дверью способен генерировать какие либо гласные, хотя если дверь упруго колеблется после хлопка, то что-то вроде звука "у" может получится.

                    Разговор шел про форму волны сигнала. Поэтому и сказано было что форма, но не частота или переходы вразные частоты в нутри сигнала, похожая на ту которую вы ждет и пытаетесь распознать может проявится от внешних факторов и наложений различных звуков.


                    Инвариантность нужно обеспечить максимально по всем изменяющимся не основным параметрам - во времени, к амплитуде в какой-то мере к частоте, потому как женщина скажет слово оно будет выше по частоте, чем у мужчины, но иметь вид примерно одинаковый, а может и координально отличатся например если голос зашумлен (кстати шумы и эхо нужно тоже учитывать как абстрагирование от основных параметров распознавания в своей системе) или хриплый и т.д. и т.п.
                    Сообщение отредактировано: TViT -
                      immort001, рекомендую Вам почитать статьи Шелепова В.Ю. Список его работ можно посмотреть тут. Большинство из них печатались в журнале "Искусственный интеллект" и их можно найти в архиве НАН Украины.

                      Автор предлагает достаточно простые в реализации методы детектирования гласных и голосовых согласных фонем и их распознавания как раз на основе анализа АВП сигнала. Первую задачу он решает путем поиска квазипериодичных участков в звуковом потоке. Вторую (распознавание) - с помощью полосовых фильтров и попарных классификаторов.
                      Пример распознавателя есть тут. Владислав Юрьевич написал монографию, где все эти методы изложены достаточно подробно. Возможно, она есть где-то в интернете.

                      У меня был практический опыт работы с этими методами и я согласен с предыдущими комментаторами в том, что качество таких методов напрямую зависит от условий записи.
                        Цитата immort001 @
                        так как звук гласный, то эта запись по большей
                        части будет состоять из периодов, похожих друг на друга.

                        надо гнать такие мысли из головы, если, конечно, не распознавание звуков только одного человека делаете.
                          Цитата panfilovss @


                          Спасибо! скачал, изучаю.

                          Цитата Haze @


                          А что, если не по осциллограмме сигнала это делать, а по спектрам периодов сигнала?
                            Цитата
                            А что, если не по осциллограмме сигнала это делать, а по спектрам периодов сигнала?


                            Будет получше. А если кепстр рассмотреть, ещё лучше будет.
                              Цитата nsh @
                              Цитата
                              А что, если не по осциллограмме сигнала это делать, а по спектрам периодов сигнала?


                              Будет получше. А если кепстр рассмотреть, ещё лучше будет.

                              а какой самый лучший способ?
                                Цитата
                                а какой самый лучший способ?


                                Лучшее враг хорошего.
                                  Цитата immort001 @
                                  Цитата (Haze @ 30 июля, 22:55)


                                  А что, если не по осциллограмме сигнала это делать, а по спектрам периодов сигнала?


                                  Делайте на основе MFCC и не изобретайте велосипед. Все делали -- у всех работает.
                                    Цитата nsh @
                                    Цитата
                                    а какой самый лучший способ?


                                    Лучшее враг хорошего.

                                    Хорошо, а какие тогда ещё можно использовать способы?
                                      Мел-кепстральные коэффициенты привязаны к конкретному голосу диктора. Этот метод лучше использовать в системах идентификации человека по голосу.
                                      В свое время я программно резал гласные на периоды и сравнивал на графике (нужна расяжка, тк период понемногу изменяется в соответствии с интонацией) и даже пытался вычитать периоды друг из друга. Для выделения границ фонем использовал временной сдвиг на 1 период и вычитание сигналов по всему файлов. В теории должно что-то получится, а на практике ничего не получилось. Если из значений звукового файла вычесть те же значения его копии, то получается 0, те сдвигаешь на 1 период и получаются всплески на границах и прямая линия на остальном участке. :) Лучше не пробовать.
                                      Сообщение отредактировано: webcoder88 -
                                        Цитата
                                        Мел-кепстральные коэффициенты привязаны к конкретному голосу диктора.

                                        Это не сильно мешает распознаванию гласных звуков. Усреднённые модели дают не плохой результат. Если в процессе распознавания адаптироваться к речевому тракту диктора, то результат распозвания гласных станет даже очень хорошим. В интернет есть результаты экспереминтов распознавания гласных при помощи формант при усреднении по всем дикторам и усреднении по распознаваемому диктору - результаты вполне причные, и это при том что признаков гораздо меньше чем в mfcc.
                                        Сообщение отредактировано: zamir -
                                        0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                        0 пользователей:


                                        Рейтинг@Mail.ru
                                        [ Script execution time: 0,0481 ]   [ 15 queries used ]   [ Generated: 8.09.24, 09:18 GMT ]