На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (7) « Первая ... 3 4 [5] 6 7  все  ( Перейти к последнему сообщению )  
> Алгоритм распознавания речи , выбор алгоритма
    Цитата walter-simons @
    независимо от помех и искажений

    Смотря какие помехи и искажения, если вызванные прохождением сигнала через телефонный тракт (или что-то подобное), то 90% точности - реальная число.
      Искажения типа: голос звучит издалека, идет фоном музыка негромкая или проезжают автомобили. Если это возможно, кто возьмется написать такой модуль, выхватывающий фонему?
        Ну это серьёзные искажения и помехи.
        При проезжающем автомобиле, из распознавателя будут "выстреливать" фонемы типа Ш, Щ, Ч, С, Х и т.д.
        При музыке - зависит от музыки, а если ещё и поёт кто-нибудь, то сами понимаете - много ложной тревоги будет, очень много. Провильность 90% - нереальный уровень. Я так думаю.
          walter-simons
          Цитата
          Так возможно написать маленький модуль, распознающий всего одну фонему но распознающий ее с 90% точностью независимо от пола, возраста, помех и искажений?

          конечно можно,любой человек на это способен.У спектра любой фонемы, есть набор признаков не зависящих от пола и тембра.Из этих признаков можно составить вектор(шаблон признаков фонемы),далее анализировать входящий спектр и если процент подобия векторов выше определённого уровня - значит найдена искомая фонема.
            Цитата
            При проезжающем автомобиле, из распознавателя будут "выстреливать" фонемы типа Ш, Щ, Ч, С, Х и т.д.


            Вы так думаете? Покрышки генерируют человеческие фонемы? или все таки есть разница?
            Даже если с акустической "точки зрения" разницы нет, мы же не принимаем к сведению шумовые "Ш, Щ, Ч.." Т.е. анализатор, конечно возбуждается, но высший отдел не принимает сигнал без контекста. Мы знаем, что автомобиль ничего нам не "скажет" и игнорируем шум.

            Я вот какое явление за собой заметил. Мне часто звонят по важным вопросам на мобильный. Мне очень важно не пропустить ни один звонок, поэтому я либо постоянно ношу с собой телефон, либо чутко прислушиваюсь. На мобильном простая мелодия (любая типа MIDI). Так вот, когда в другом источнике появляются отдельные звуки схожие по частоте с моим рингтонам, я сразу же каг-бы слышу что телефон звонил! Более того, когда есть источник сплошного шума (вода из крана) мне кажется, что телефон звонит. Клиника, однако? :) Нет, "курковая" зона мозга ловит все, что связано с рингтоном и бывает ошибается.
              Цитата walter-simons @
              анализатор, конечно возбуждается, но высший отдел не принимает сигнал без контекста


              Но сделать программный продукт сделать таким, чтобы он работал как высший отдел человека (тем более не до конца изученный на настоящее время) - это из области научной фантастики ;)

              Распознаватель фонем часто на месте импульсной помехи пишет "r". Разница вроде бы есть, но программный алгоритм её не видит.

              Или в слове "БЕТОН" последняя фонема определяется как "М", разница тоже есть, но если последний звук выделить и послушать отдельно от предыдущих, то можно и "М" услышать.

              Так и в вашем случае, если вырезать участок шума "Покрышки по песку" длительностью как фонема "Ш" в речи и дать наивному слушателю с вопросом: "какая фонема?". То он ответит "фонема "Ш", а не "это не фонема, это шум покрышек по песку".
              Программы работают гораздо хуже (пока ещё), чем способность распознавания у человека.
              Сообщение отредактировано: Haze -
                Можно применить статистическую коррекцию, допустим "М" но слова БЕТОМ нет, есть похожее БЕТОН (90%) следовательно "Бетон". Разумеется, человек еще включает контекстную коррекцию, если речь шла о стройматериалах, он без труда проглотит искажения, если о таре для жидкостей, то вполне воспримет, как "Бидон" :)

                Но в проводить такой анализ, такую дифференцировку не входит в задачи модуля-детектора фонем, пусть он ошибается, пусть дает ложные сигналы иногда.
                  Цитата walter-simons @
                  Можно применить статистическую коррекцию, допустим "М" но слова БЕТОМ нет, есть похожее БЕТОН (90%) следовательно "Бетон".

                  А если такое распознавание из-за искажения слова "Битум" или "Битым", тогда мы "удалимся" от этих слов, приминив стат. коррекцию.
                  А если диктор специально произносил слово "Бетом" (аббревиатура, спец. термин, жаргон, шифр), тогда мы потеряем такое слово.
                  А в случае слова "Кон" из-за ошибки распознавания получаем другое слово "Ком", стат. коррекция здесь не поможет.
                  :(
                    Да, возможно, но все это нюансы. Так есть такая программа, кто может написать, хотя бы ради эксперименты?
                      walter-simons
                      а зачем интересуетесь?
                        Честно? Хочу инициировать революцию в обработке информации. Без личной выгоды.
                          конечно без личной выгоды по чужим исходникам легко совершать революции.А вы незадумывались над тем что авторы оригинальных алгоритмов годами собирали по крупицам информацию,проводили бесчисленные опыты и наблюдения,тратили сотни человеко-часов,средства, ломали голову,не спали ночами ворочаясь и стыкуя в голове куски головоломки...и всё это для того чтобы отдать результат просто так?!
                          Сообщение отредактировано: MedEx -
                            Тут дело вот в чем. Рубеж уже близок, вычислительные мощности достаточны для решения этой задачи в "домашних условиях". Лавина уже назрела. Если не мы это сделаем, то сделают другие. Уважаемым авторам остается два пути, либо применить идеологию Open Sourse и стать именами мирового значения. Либо чахнуть над своими находками, пряча их под сукно, а когда необходимость в них отпадет, горестно вздыхать.
                              Цитата walter-simons @
                              Лавина уже назрела.

                              Специалистов в области речевых технологий не так уж и много, чтобы говорить о лавине. И с программой, которая "ловит" одну фонему в речи революции не сделать. Уже несколько лет в открытом доступе лежат разработки научных университетов, автоматическое распознавание всех фонем в речи с точностью не хуже 80%.
                                Ну, может и не так много. Я точно не один из них.
                                Просто попытался "незамыленным" взглядом посмотреть на проблему. Вот как я вижу решение:
                                Звуковой сигнал преобразуют в спектр частот, по аналогии с функцией улитки органа слуха.
                                Полученный поток одновременно предоставляют 43 модулям, каждый из которых настроен на свою фонему, как камертон на свою ноту.
                                Выходной сигнал каждого модуля подается на нейронную сеть ассоциативной памяти. Ну, а память выдает определенный сигал, отражающий данное акустическое явление и даже связь с предыдущими и предсказание последующего события.
                                Как то так.
                                0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                0 пользователей:
                                Страницы: (7) « Первая ... 3 4 [5] 6 7  все


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,0410 ]   [ 15 queries used ]   [ Generated: 28.04.24, 17:56 GMT ]