На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS

Дорогие друзья! Поздравляем вас с Новым 2025 годом!

Всем удачи, успеха и благополучия!

msm.ru
Модераторы: RaD, nsh
Страницы: (23) « Первая ... 5 6 [7] 8 9 ...  22 23  ( Перейти к последнему сообщению )  
> Работа с CMU Sphinx , Работа с CMU Sphinx 4.0
    Вопрос новичка к гуру:
    в чем существенная разница между CMUSphinx и HTK?
    отличаются ли они качеством?
    м.б. Sphinx более технологичен и доступен в освоении?

    Оба проекта - OpenSource,
    в основе, полагаю - HMM и общие процедуры обучения и распознавания,
    HTK - С (С++), версия 3.4 от 2006г. (не развивается)
    CMUSphinx - Java, вер.4 от 2011г.

    Отличаются ли форматы внешних файлов?

    Мне лично ближе реализация на Java (если она корректная), но и C (эталон) вполне приемлемо.
    Но вряд ли кто-то сразу лезет и правит ядро (если такое есть).
    Java перспективнее в плане переноса рез-тов под Android (PocketSphix)

    С уважением,
    dummy
      Цитата
      Вопрос новичка к гуру:
      в чем существенная разница между CMUSphinx и HTK?
      отличаются ли они качеством?


      Существенной разницы нет, есть разница в деталях реализации.

      Цитата
      м.б. Sphinx более технологичен и доступен в освоении?


      Да.

      Цитата
      Отличаются ли форматы внешних файлов?


      Да, но есть программы для преобразования.

      Цитата

      Мне лично ближе реализация на Java (если она корректная), но и C (эталон) вполне приемлемо.
      Но вряд ли кто-то сразу лезет и правит ядро (если такое есть).
      Java перспективнее в плане переноса рез-тов под Android (PocketSphix)


      Да
        Запустил Demo "Hello World" под CMUSphinx4 - впечатление весьма благоприятное :)
        На весьма среднем ноуте работает с задержкой 0.5 сек или меньше того.

        Вопросы новичка к гуру:
        как изменится время ответа для распознавателя на 100-1000-10000 слов?
        Понимаю, что и надежность распознавания снизится - вот только насколько?

        В Sphinx по сравнению c HTK все организовано стройнее и менее громоздко,
        я не ошибаюсь?

        Для HTK был написан оч.недурной manual, а похожий детальный manual для Sphinx есть?

        В материалах по HTK была кое-какая теория и описывались алгоритмы и структуры данных.

        Насколько содержательна документация по Sphinx?

        Какие проблемы существуют с построением распознавателей под Sphinx,
        их обучением, верификацией, тестированием в частности для русского языка?

        Насколько хороши русскоязычные базы для обучения (корпуса, модели)?

        Насколько хороши получаются распознаватели?

        В чем смысл конкурса распознавателей ЦРТ?

        Встречались мнения, что перспективу на конкурсе имеют лишь участники,
        к-рые вложили 2-3 и более чел./лет в разработку
        распознавателя. Что является наиболее трудоемким?
        Может, "слепить" распознаватель к след. конкурсу общими усилиями с качеством лучше 63%?
        Доступны ли материалы прошедшего конкурса от ЦРТ?

        Какие принципиальные трудности или ограничения существуют при построении распознавателей под Sphinx?

        Можно ли построить хороший распознаватель для мобил. тел. для диктовки и отправки SMS?
        А может, такой уже есть и какие у него возможности и ограничения,в т.ч. по качеству?

        В перспективе, хотелось бы построить систему генерации субтитров для английского (американского) и других языков.
        (личная проблема: преимущественно пассивное владение основными европейскими языками).
        Такую можно было бы подключать к современным телевизорам при приеме спутниковых каналов.

        Мне кажется, что в И-нет мне встречались на YouTube ролики со сгенерированными субтитрами.

        А вообще, такую систему субтитров можно было бы использовать для обучающих курсов coursera Станфордского университета,
        там хорошие курсы читают...

        В общем, идей много, но вот как с перспективами их реализации?
        Например, качество звуковой дорожки YouTube достаточно для распознавания или нет?

        Прошу извинить за многословность, буду рад получить
        ответы на основные вопросы и комментарии к остальному.

        С уважением,
        dummy
          Цитата
          как изменится время ответа для распознавателя на 100-1000-10000 слов?


          Время ответа зависит от мощности компьютера/кластера. В целом современные системы дают результат быстрее, чем Вы успеваете произнести текст.

          Цитата
          Понимаю, что и надежность распознавания снизится - вот только насколько?


          Для 100 слов ошибка 2%, для 1000 порядка 5-10, для 10000 около 15.

          Цитата
          В Sphinx по сравнению c HTK все организовано стройнее и менее громоздко, я не ошибаюсь?


          Нет

          Цитата
          Для HTK был написан оч.недурной manual, а похожий детальный manual для Sphinx есть?


          Объем руководства по HTK обусловлен сложностью самого HTK. Чтобы начать работать с CMUSphinx, достаточно прочесть http://cmusphinx.sourceforge.net/wiki/tutorial

          Цитата
          В материалах по HTK была кое-какая теория и описывались алгоритмы и структуры данных.


          Об этом лучше подробно прочитать в учебнике, а не урывками из документации.

          Цитата
          Насколько содержательна документация по Sphinx?


          На 146%

          Цитата
          Какие проблемы существуют с построением распознавателей под Sphinx,
          их обучением, верификацией, тестированием в частности для русского языка?


          Никаких

          Цитата
          Насколько хороши русскоязычные базы для обучения (корпуса, модели)?


          Современные разработчики не используют базы, а работают с реальным речевым материалом. Польза от баз, в том числе коммерческих, невелика.

          Цитата
          Насколько хороши получаются распознаватели?


          http://youtu.be/uItCqkpMU_k

          Цитата
          В чем смысл конкурса распознавателей ЦРТ?


          Других посмотреть, себя показать.

          Цитата
          Встречались мнения, что перспективу на конкурсе имеют лишь участники,
          к-рые вложили 2-3 и более чел./лет в разработку
          распознавателя.


          Сейчас незачем разрабатывать что-то, если можно взять готовое

          Цитата
          Что является наиболее трудоемким?


          Наиболее трудоемким является процесс получения знаний из целевой области.

          Цитата
          Может, "слепить" распознаватель к след. конкурсу общими усилиями с качеством лучше 63%?


          Почему бы нет

          Цитата
          Доступны ли материалы прошедшего конкурса от ЦРТ?


          Не по адресу

          Цитата
          Какие принципиальные трудности или ограничения существуют при построении распознавателей под Sphinx?


          Учиться надо, работать и думать.

          Цитата
          Можно ли построить хороший распознаватель для мобил. тел. для диктовки и отправки SMS?


          Можно

          Цитата
          А может, такой уже есть и какие у него возможности и ограничения,в т.ч. по качеству?


          Таких уже много. Достаточно один раз попробовать, чтобы встретиться с ограничениями.

          Цитата
          В перспективе, хотелось бы построить систему генерации субтитров для английского (американского) и других языков.
          (личная проблема: преимущественно пассивное владение основными европейскими языками).
          Такую можно было бы подключать к современным телевизорам при приеме спутниковых каналов.


          Замечательно

          Цитата
          Мне кажется, что в И-нет мне встречались на YouTube ролики со сгенерированными субтитрами.
          А вообще, такую систему субтитров можно было бы использовать для обучающих курсов coursera Станфордского университета,
          там хорошие курсы читают...


          Можно

          Цитата
          В общем, идей много, но вот как с перспективами их реализации?


          Перспективы зависят от Вас

          Цитата
          Например, качество звуковой дорожки YouTube достаточно для распознавания или нет?


          Да
          Сообщение отредактировано: nsh -
            Благодарю за ответы и комментарии!

            Судя по ним, проблема построения ASR с приходом Sphinx решена,
            но позволю себе в этом усомниться.

            Проблемы, видимо, существуют и остаются.

            Недаром ведь Google взял Hinton'а с помошниками, и те строят и обучают распознаватели
            на HMM + DBN (deep belief networks) c очень большими нейронными сетями.

            Правда, улучшения получаются сравнительно скромными по сравнению с "классическими"
            методами.

            Я пытался строить кустарные распознаватели только на нейронных сетях для отдельных фонем,
            но только до тех пор, пока не познакомился с подходом Рабинера (HMM).

            Так что background кое-какой есть...

            С уважением,
            dummy
              Цитата
              Так что background кое-какой есть...


              Отлично, значит пойдет по накатанной.
                Привет Вам Николай!

                Вопрос не по существу:
                Вы ведете любопытный blog, это стоит определенных трудов, а для кого он предназначен
                (в смысле интересов, категории или уровня компетентности)?

                Теперь, вопрос ближе к теме:
                не подскажите ли пример построения русскоязычного распознавателя под Sphinx
                типа Hello World! demo?
                М.б., также рекомендации по конфигурированию и использованию русскоязычных баз.

                Начинаю читать сначала тему "Работа с CMU Sphinx", надеюсь с помощью этого снизить
                число своих вопросов?

                С уважением,
                dummy
                  Цитата
                  Теперь, вопрос ближе к теме: не подскажите ли пример построения русскоязычного распознавателя под Sphinx типа Hello World! demo?


                  1. Скачать и установить pocketsphinx

                  2. Скачать модель

                  http://sourceforge.net/projects/cmusphinx/...tar.gz/download

                  3. Запустить распознавание

                  ExpandedWrap disabled
                    pocketsphinx_continuous -hmm model_parameters/msu_ru_nsh.cd_cont_1000_8gau_16000 -lm etc/msu_ru_nsh.lm.dmp -dict etc/msu_ru_nsh.dic


                  Цитата
                  М.б., также рекомендации по конфигурированию и использованию русскоязычных баз.


                  Прежде чем конфигурировать, нужно изучить алгоритмы, чтобы понимать значение параметров.

                  Цитата
                  Начинаю читать сначала тему "Работа с CMU Sphinx", надеюсь с помощью этого снизить
                  число своих вопросов?


                  Лучше сначала прочитать документацию

                  http://cmusphinx.sourceforge.net/wiki/tutorial
                  Сообщение отредактировано: nsh -
                    Привет Вам Николай!

                    Складывается впечатление, что докум на PocketSphinx очень слабая
                    (ее собственно нет - по тем малосвязанным обрывкам начать работать показалось затруднительно)

                    Взял и установил бинарники pocketsphinx и sphinxbase.
                    Этого достаточно для запуска распознавателя или надо еще что-то?

                    Вопросы:
                    1. можно ли использовать MSVS 6, а не 8 или 10 для компиляции HelloWorld?
                    2. не покажете ли командную строку для компиляции демо-примера
                    запуска распознавателя из документации под Windows и MSVS 6?
                    3. где взять звуковые файлы для тестирования распознавателя и вид командной строки запуска?

                    С уважением,
                    dummy

                    PS Такое впечатление, что реализации на Java и C связаны только алгоритмами (если бы еще так)
                      Цитата
                      Этого достаточно для запуска распознавателя или надо еще что-то?


                      Да

                      Цитата
                      1. можно ли использовать MSVS 6, а не 8 или 10 для компиляции HelloWorld?


                      Лучше скачать MSVS 10 Express, он бесплатный

                      Цитата
                      2. не покажете ли командную строку для компиляции демо-примера
                      запуска распознавателя из документации под Windows и MSVS 6?


                      В MSVS можно создать проект, добавить необходимые библиотеки, компилировать по нажатию кнопки.

                      Цитата
                      3. где взять звуковые файлы для тестирования распознавателя и вид командной строки запуска?


                      Файлы можно записать самому, строку запуска я написал в предыдущем ответе.

                      Цитата
                      PS Такое впечатление, что реализации на Java и C связаны только алгоритмами (если бы еще так)


                      Форматы моделей одинаковые.
                        Привет Вам Николай!

                        Пришдось повозиться с тестовым приложением для PS.
                        Но похоже, я еще на пол-пути к рез-ту:
                        приложение собрал и запустил,
                        идет загрузка данных,
                        отображается отчет, но работа прерывается и
                        приложение "жалуется" на отсутствие файла goforward.raw !?:(

                        Вопросы:
                        - где-нибудь описано или прокомментировано содержание отчета, к-рый я получаю при запуске?
                        - каких файлов нехватает приложению и можно ли их для начала "позаимствовать", а только потом
                        подготовить самому (с помощью ютилити в составе PS)?

                        Вопросы, надеюсь, уместные, поскольку ТАКОЙ "тестовый пример" встречается мне впервые!

                        IMHO, тестовый пример:
                        - должен быть ПОЛНЫМ по составу,
                        - должен собираться и запускаться "сам" или с минимальной настройкой,
                        - должен быть документированным,
                        - должен позволить пользователю убедиться в работоспособности его конфигурации,
                        и стать основой для движения вперед.

                        А тут надо "кувыркаться и кувыркаться" пока что-то не начнет получаться...

                        Разумеется, мои претензии не к Вам, а к "мудрым" разработчикам PS :)

                        С уважением,
                        dummy

                        Добавлено
                        Перечитал нашу переписку и понял, что "ушел в сторону" от Ваших рекомендаций.

                        Видимо, можно было сразу запустить "PS continuous" с [Вашей] русскоязычной моделью.
                        Эта версия PS, кажется, умеет работать прямо с микрофона... (в смысле, без предв. записанных звуковых файлов).

                        А я "завозился" с запуском "тестового" примера из документации с сайта, поск-ку пришлось восстанавливать
                        давно забытые навыки (С++ + MSVC), к-рые были к тому же весьма средними и ниже и на уровне MSVC 6.

                        Вы, оказывается, давно "в теме" - я увидел в модели даты 2006-2007гг. (msu - это МГУ?)

                        Могу ли спросить: куда и далеко ли от 2006г. продвинулся cmu со своми Sphinx'ами?
                        Кажется, разработка приостановилась в 2011г.?
                        Что у нас сегодня "передний край"?

                        Спрашиваю еще и потому, что у меня почему-то возникает ощущение, что Вам эта тема уже не очень интересна...

                        С уважением,
                        dummy
                          Цитата
                          приложение "жалуется" на отсутствие файла goforward.raw !?


                          Файл goforward.raw находится в архиве pocketsphinx.tar.gz в каталоге pocketsphinx/test/data

                          Цитата
                          Могу ли спросить: куда и далеко ли от 2006г. продвинулся cmu со своми Sphinx'ами?
                          Кажется, разработка приостановилась в 2011г.?
                          Что у нас сегодня "передний край"?


                          Увидеть последние новости разработки можно здесь:

                          http://cmusphinx.sourceforge.net
                            Благодарю за ссылки, демо-пример STT (диктовка) впечатляет!
                            Вы правы: ссылки совсем свежие - работы по Sphinx продолжаются

                            Вопрос: отчет при запуске pocketsphinx_continuous с Вашей моделью voxforge...
                            заканчивается сообщением:

                            Allocating 32 buffers of 2500 samples each
                            READY....

                            После чего возникает "пауза" и ничего на экран (в stderr?) не пишется.

                            Где-то мне попадалось сообщение, что запуск должен сопровождаться приглашением
                            сказать что-нибудь в микрофон...

                            Но у меня комп не реагирует на речь (в микрофон).

                            Все ли правильно отрабатывает у меня?
                            В чем м.б. проблема?

                            dummy
                              Цитата
                              Но у меня комп не реагирует на речь (в микрофон).


                              Запись звука не работает, может быть, уровень записи на нуле.
                                Вы правы: на ноуте дома распознавание через pocketsphinx с моделью voxforge-ru от микрофона заработало.

                                Впечатления:
                                1. ощутимая задержка в получении рез-та распознавания
                                (тест CMUSphinx был шустрее, но там был и словарь из 10 слов)
                                2. были ошибки распознавания (вместо "стоп" распозналось "что-то")
                                3. вывод от пакета в sysout идет в кодировке словаря (видимо, KOI-8 или что-то такое) и нечитабелен
                                в моей Windows (впрочем, если его направить в файл, то потом можно посмотреть в текст. редакторе)

                                Следующий мой шаг - запуск демо-программки с вызовами к pocketsphinx, к-рую я сваял под msvc10expr

                                Николай, у меня есть задачка, к-рую я когда-то обещал сделать для группы, к-рая занимается
                                программами обучения языку - это IstraSoft и их пакет "Professor Higgins".
                                Это "фонетическая транскрипция". В моем понимании (а общался я с группой только через eMail)
                                это распознавание фонем, произносимых учеником в процессе обучения артикуляции и правильному
                                произношению. Требуется распознавание, как отдельных фонем ("звуков", как принято выражаться в группе),
                                так и фонем при слитном произнесении - в словах.

                                Наивно и самонадеянно я пытался решить ее "в лоб" с использованием нейросетей.
                                Провозился пару-тройку месяцев и понял, что мой подход не заработает,
                                хотя определенные рез-ты были получены.

                                Вот тогда-то я и заинтересовался и занялся вплотную подходом (стат.моделирования) HMM и понял,
                                что это, IMHO, самый адекватный подход
                                к распознаванию речи, известный и доступный на сегодняшний день.

                                Не набросаете ли план решения задачки транскрипции?
                                Мне кажется, она должна хорошо решаться ср-вами Sphinx.

                                Не знаю, пригодится ли это решение IstraSoft, поск-ку у них все сделано по-своему
                                (я имею ввиду цифровую обработку входного сигнала (оцифровку, фильтрацию)).
                                При том, что в пакетах Sphinx и HTK используется своя уже стандарт-де-факто
                                система цифровой обработки и выделения признаков (features).

                                Впрочем, я спрошу у IstraSoft заинтересует ли их возможное решение задачки транскрипции
                                (или транскрибирования) средствами Sphinx.

                                Особенность их требований еще и в том, что на основе распознавания надо предложить оценку
                                качества произнесения фонемы или цепочки фонем учащимся (в сравнении с эталонным)
                                Сейчас они делают это довольно плохо (дают "нечеткие" (fuzzy)
                                оценки типа: "другой звук", "плохо", "хорошо", "отлично").
                                Я сам поработал с этим пакетом и увидел там изрядное число недостатков.
                                Учить произношению с его помощью можно, но у ученика должно быть оч. хорошее терпение, настойчивость и упорство.
                                Пакет же помогает ему довольно слабо (ну например, ученик должен или выдерживать длительность произнесения
                                как у обучающего (диктора) или в диалоговом окне должен ср-вами программы "подгонять" положение и размер waveform своего
                                произнесения к положению и размеру эталонной waveform от диктора, иначе его оценка всегда будет низкой.

                                Ну, а в целом я хотел бы спросить, что мне следовало бы сделать следующим шагом в освоении пакета от CMU?

                                Задачка подготовки к конкурсу ЦРТ в будущем году остается. Правда, я четко не представляю условий конкурса этого года.
                                Человек из ЦРТ на мой вопрос о доступе к конкурсному заданию этого года ответил, что они пока решают и
                                посоветовал следить за новостями от ЦРТ/

                                dummy
                                0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                0 пользователей:
                                Страницы: (23) « Первая ... 5 6 [7] 8 9 ...  22 23


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,0449 ]   [ 15 queries used ]   [ Generated: 16.01.25, 00:06 GMT ]