Работа с CMU Sphinx -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.14]

Модераторы: RaD, nsh

Новое голосование

Работа с CMU Sphinx , Работа с CMU Sphinx 4.0

dummyguy

Сообщ. #91 , 10.07.13, 11:55

Junior

Профиль · PM

Рейтинг (т): нет

Вопрос новичка к гуру:
в чем существенная разница между CMUSphinx и HTK?
отличаются ли они качеством?
м.б. Sphinx более технологичен и доступен в освоении?

Оба проекта - OpenSource,
в основе, полагаю - HMM и общие процедуры обучения и распознавания,
HTK - С (С++), версия 3.4 от 2006г. (не развивается)
CMUSphinx - Java, вер.4 от 2011г.

Отличаются ли форматы внешних файлов?

Мне лично ближе реализация на Java (если она корректная), но и C (эталон) вполне приемлемо.
Но вряд ли кто-то сразу лезет и правит ядро (если такое есть).
Java перспективнее в плане переноса рез-тов под Android (PocketSphix)

С уважением,
dummy

nsh

Сообщ. #92 , 10.07.13, 15:20

Moderator

Профиль · PM

Цитата

Вопрос новичка к гуру:
в чем существенная разница между CMUSphinx и HTK?
отличаются ли они качеством?

Существенной разницы нет, есть разница в деталях реализации.

Цитата

м.б. Sphinx более технологичен и доступен в освоении?

Да.

Цитата

Отличаются ли форматы внешних файлов?

Да, но есть программы для преобразования.

Цитата

Мне лично ближе реализация на Java (если она корректная), но и C (эталон) вполне приемлемо.
Но вряд ли кто-то сразу лезет и правит ядро (если такое есть).
Java перспективнее в плане переноса рез-тов под Android (PocketSphix)

Да

dummyguy

Сообщ. #93 , 10.07.13, 19:38

Junior

Профиль · PM

Рейтинг (т): нет

Запустил Demo "Hello World" под CMUSphinx4 - впечатление весьма благоприятное

На весьма среднем ноуте работает с задержкой 0.5 сек или меньше того.

Вопросы новичка к гуру:
как изменится время ответа для распознавателя на 100-1000-10000 слов?
Понимаю, что и надежность распознавания снизится - вот только насколько?

В Sphinx по сравнению c HTK все организовано стройнее и менее громоздко,
я не ошибаюсь?

Для HTK был написан оч.недурной manual, а похожий детальный manual для Sphinx есть?

В материалах по HTK была кое-какая теория и описывались алгоритмы и структуры данных.

Насколько содержательна документация по Sphinx?

Какие проблемы существуют с построением распознавателей под Sphinx,
их обучением, верификацией, тестированием в частности для русского языка?

Насколько хороши русскоязычные базы для обучения (корпуса, модели)?

Насколько хороши получаются распознаватели?

В чем смысл конкурса распознавателей ЦРТ?

Встречались мнения, что перспективу на конкурсе имеют лишь участники,
к-рые вложили 2-3 и более чел./лет в разработку
распознавателя. Что является наиболее трудоемким?
Может, "слепить" распознаватель к след. конкурсу общими усилиями с качеством лучше 63%?
Доступны ли материалы прошедшего конкурса от ЦРТ?

Какие принципиальные трудности или ограничения существуют при построении распознавателей под Sphinx?

Можно ли построить хороший распознаватель для мобил. тел. для диктовки и отправки SMS?
А может, такой уже есть и какие у него возможности и ограничения,в т.ч. по качеству?

В перспективе, хотелось бы построить систему генерации субтитров для английского (американского) и других языков.
(личная проблема: преимущественно пассивное владение основными европейскими языками).
Такую можно было бы подключать к современным телевизорам при приеме спутниковых каналов.

Мне кажется, что в И-нет мне встречались на YouTube ролики со сгенерированными субтитрами.

А вообще, такую систему субтитров можно было бы использовать для обучающих курсов coursera Станфордского университета,
там хорошие курсы читают...

В общем, идей много, но вот как с перспективами их реализации?
Например, качество звуковой дорожки YouTube достаточно для распознавания или нет?

Прошу извинить за многословность, буду рад получить
ответы на основные вопросы и комментарии к остальному.

С уважением,
dummy

nsh

Сообщ. #94 , 10.07.13, 22:30

Moderator

Профиль · PM

Цитата

как изменится время ответа для распознавателя на 100-1000-10000 слов?

Время ответа зависит от мощности компьютера/кластера. В целом современные системы дают результат быстрее, чем Вы успеваете произнести текст.

Цитата

Понимаю, что и надежность распознавания снизится - вот только насколько?

Для 100 слов ошибка 2%, для 1000 порядка 5-10, для 10000 около 15.

Цитата

В Sphinx по сравнению c HTK все организовано стройнее и менее громоздко, я не ошибаюсь?

Нет

Цитата

Для HTK был написан оч.недурной manual, а похожий детальный manual для Sphinx есть?

Объем руководства по HTK обусловлен сложностью самого HTK. Чтобы начать работать с CMUSphinx, достаточно прочесть http://cmusphinx.sourceforge.net/wiki/tutorial

Цитата

В материалах по HTK была кое-какая теория и описывались алгоритмы и структуры данных.

Об этом лучше подробно прочитать в учебнике, а не урывками из документации.

Цитата

Насколько содержательна документация по Sphinx?

На 146%

Цитата

Какие проблемы существуют с построением распознавателей под Sphinx,
их обучением, верификацией, тестированием в частности для русского языка?

Никаких

Цитата

Насколько хороши русскоязычные базы для обучения (корпуса, модели)?

Современные разработчики не используют базы, а работают с реальным речевым материалом. Польза от баз, в том числе коммерческих, невелика.

Цитата

Насколько хороши получаются распознаватели?

http://youtu.be/uItCqkpMU_k

Цитата

В чем смысл конкурса распознавателей ЦРТ?

Других посмотреть, себя показать.

Цитата

Встречались мнения, что перспективу на конкурсе имеют лишь участники,
к-рые вложили 2-3 и более чел./лет в разработку
распознавателя.

Сейчас незачем разрабатывать что-то, если можно взять готовое

Цитата

Что является наиболее трудоемким?

Наиболее трудоемким является процесс получения знаний из целевой области.

Цитата

Может, "слепить" распознаватель к след. конкурсу общими усилиями с качеством лучше 63%?

Почему бы нет

Цитата

Доступны ли материалы прошедшего конкурса от ЦРТ?

Не по адресу

Цитата

Какие принципиальные трудности или ограничения существуют при построении распознавателей под Sphinx?

Учиться надо, работать и думать.

Цитата

Можно ли построить хороший распознаватель для мобил. тел. для диктовки и отправки SMS?

Можно

Цитата

А может, такой уже есть и какие у него возможности и ограничения,в т.ч. по качеству?

Таких уже много. Достаточно один раз попробовать, чтобы встретиться с ограничениями.

Цитата

В перспективе, хотелось бы построить систему генерации субтитров для английского (американского) и других языков.
(личная проблема: преимущественно пассивное владение основными европейскими языками).
Такую можно было бы подключать к современным телевизорам при приеме спутниковых каналов.

Замечательно

Цитата

Мне кажется, что в И-нет мне встречались на YouTube ролики со сгенерированными субтитрами.
А вообще, такую систему субтитров можно было бы использовать для обучающих курсов coursera Станфордского университета,
там хорошие курсы читают...

Можно

Цитата

В общем, идей много, но вот как с перспективами их реализации?

Перспективы зависят от Вас

Цитата

Например, качество звуковой дорожки YouTube достаточно для распознавания или нет?

Да

Сообщение отредактировано: nsh - 10.07.13, 22:32

dummyguy

Сообщ. #95 , 11.07.13, 04:13

Junior

Профиль · PM

Рейтинг (т): нет

Благодарю за ответы и комментарии!

Судя по ним, проблема построения ASR с приходом Sphinx решена,
но позволю себе в этом усомниться.

Проблемы, видимо, существуют и остаются.

Недаром ведь Google взял Hinton'а с помошниками, и те строят и обучают распознаватели
на HMM + DBN (deep belief networks) c очень большими нейронными сетями.

Правда, улучшения получаются сравнительно скромными по сравнению с "классическими"
методами.

Я пытался строить кустарные распознаватели только на нейронных сетях для отдельных фонем,
но только до тех пор, пока не познакомился с подходом Рабинера (HMM).

Так что background кое-какой есть...

С уважением,
dummy

nsh	Сообщ. #96 , 11.07.13, 17:52
Moderator Профиль · PM	Цитата Так что background кое-какой есть... Отлично, значит пойдет по накатанной.

dummyguy

Сообщ. #97 , 12.07.13, 11:39

Junior

Профиль · PM

Рейтинг (т): нет

Привет Вам Николай!

Вопрос не по существу:
Вы ведете любопытный blog, это стоит определенных трудов, а для кого он предназначен
(в смысле интересов, категории или уровня компетентности)?

Теперь, вопрос ближе к теме:
не подскажите ли пример построения русскоязычного распознавателя под Sphinx
типа Hello World! demo?
М.б., также рекомендации по конфигурированию и использованию русскоязычных баз.

Начинаю читать сначала тему "Работа с CMU Sphinx", надеюсь с помощью этого снизить
число своих вопросов?

С уважением,
dummy

nsh

Сообщ. #98 , 12.07.13, 22:03

Moderator

Профиль · PM

Цитата

Теперь, вопрос ближе к теме: не подскажите ли пример построения русскоязычного распознавателя под Sphinx типа Hello World! demo?

1. Скачать и установить pocketsphinx

2. Скачать модель

http://sourceforge.net/projects/cmusphinx/...tar.gz/download

3. Запустить распознавание

pocketsphinx_continuous -hmm model_parameters/msu_ru_nsh.cd_cont_1000_8gau_16000 -lm etc/msu_ru_nsh.lm.dmp -dict etc/msu_ru_nsh.dic

Цитата

М.б., также рекомендации по конфигурированию и использованию русскоязычных баз.

Прежде чем конфигурировать, нужно изучить алгоритмы, чтобы понимать значение параметров.

Цитата

Начинаю читать сначала тему "Работа с CMU Sphinx", надеюсь с помощью этого снизить
число своих вопросов?

Лучше сначала прочитать документацию

http://cmusphinx.sourceforge.net/wiki/tutorial

Сообщение отредактировано: nsh - 12.07.13, 22:04

dummyguy

Сообщ. #99 , 14.07.13, 17:49

Junior

Профиль · PM

Рейтинг (т): нет

Привет Вам Николай!

Складывается впечатление, что докум на PocketSphinx очень слабая
(ее собственно нет - по тем малосвязанным обрывкам начать работать показалось затруднительно)

Взял и установил бинарники pocketsphinx и sphinxbase.
Этого достаточно для запуска распознавателя или надо еще что-то?

Вопросы:
1. можно ли использовать MSVS 6, а не 8 или 10 для компиляции HelloWorld?
2. не покажете ли командную строку для компиляции демо-примера
запуска распознавателя из документации под Windows и MSVS 6?
3. где взять звуковые файлы для тестирования распознавателя и вид командной строки запуска?

С уважением,
dummy

PS Такое впечатление, что реализации на Java и C связаны только алгоритмами (если бы еще так)

nsh

Сообщ. #100 , 14.07.13, 18:54

Moderator

Профиль · PM

Цитата

Этого достаточно для запуска распознавателя или надо еще что-то?

Да

Цитата

1. можно ли использовать MSVS 6, а не 8 или 10 для компиляции HelloWorld?

Лучше скачать MSVS 10 Express, он бесплатный

Цитата

2. не покажете ли командную строку для компиляции демо-примера
запуска распознавателя из документации под Windows и MSVS 6?

В MSVS можно создать проект, добавить необходимые библиотеки, компилировать по нажатию кнопки.

Цитата

3. где взять звуковые файлы для тестирования распознавателя и вид командной строки запуска?

Файлы можно записать самому, строку запуска я написал в предыдущем ответе.

Цитата

PS Такое впечатление, что реализации на Java и C связаны только алгоритмами (если бы еще так)

Форматы моделей одинаковые.

dummyguy

Сообщ. #101 , 17.07.13, 21:41

Junior

Профиль · PM

Рейтинг (т): нет

Привет Вам Николай!

Пришдось повозиться с тестовым приложением для PS.
Но похоже, я еще на пол-пути к рез-ту:
приложение собрал и запустил,
идет загрузка данных,
отображается отчет, но работа прерывается и
приложение "жалуется" на отсутствие файла goforward.raw !?

Вопросы:
- где-нибудь описано или прокомментировано содержание отчета, к-рый я получаю при запуске?
- каких файлов нехватает приложению и можно ли их для начала "позаимствовать", а только потом
подготовить самому (с помощью ютилити в составе PS)?

Вопросы, надеюсь, уместные, поскольку ТАКОЙ "тестовый пример" встречается мне впервые!

IMHO, тестовый пример:
- должен быть ПОЛНЫМ по составу,
- должен собираться и запускаться "сам" или с минимальной настройкой,
- должен быть документированным,
- должен позволить пользователю убедиться в работоспособности его конфигурации,
и стать основой для движения вперед.

А тут надо "кувыркаться и кувыркаться" пока что-то не начнет получаться...

Разумеется, мои претензии не к Вам, а к "мудрым" разработчикам PS

С уважением,
dummy

Добавлено 17.07.13, 22:21
Перечитал нашу переписку и понял, что "ушел в сторону" от Ваших рекомендаций.

Видимо, можно было сразу запустить "PS continuous" с [Вашей] русскоязычной моделью.
Эта версия PS, кажется, умеет работать прямо с микрофона... (в смысле, без предв. записанных звуковых файлов).

А я "завозился" с запуском "тестового" примера из документации с сайта, поск-ку пришлось восстанавливать
давно забытые навыки (С++ + MSVC), к-рые были к тому же весьма средними и ниже и на уровне MSVC 6.

Вы, оказывается, давно "в теме" - я увидел в модели даты 2006-2007гг. (msu - это МГУ?)

Могу ли спросить: куда и далеко ли от 2006г. продвинулся cmu со своми Sphinx'ами?
Кажется, разработка приостановилась в 2011г.?
Что у нас сегодня "передний край"?

Спрашиваю еще и потому, что у меня почему-то возникает ощущение, что Вам эта тема уже не очень интересна...

С уважением,
dummy

nsh

Сообщ. #102 , 18.07.13, 08:51

Moderator

Профиль · PM

Цитата

приложение "жалуется" на отсутствие файла goforward.raw !?

Файл goforward.raw находится в архиве pocketsphinx.tar.gz в каталоге pocketsphinx/test/data

Цитата

Могу ли спросить: куда и далеко ли от 2006г. продвинулся cmu со своми Sphinx'ами?
Кажется, разработка приостановилась в 2011г.?
Что у нас сегодня "передний край"?

Увидеть последние новости разработки можно здесь:

http://cmusphinx.sourceforge.net

dummyguy

Сообщ. #103 , 18.07.13, 11:31

Junior

Профиль · PM

Рейтинг (т): нет

Благодарю за ссылки, демо-пример STT (диктовка) впечатляет!
Вы правы: ссылки совсем свежие - работы по Sphinx продолжаются

Вопрос: отчет при запуске pocketsphinx_continuous с Вашей моделью voxforge...
заканчивается сообщением:

Allocating 32 buffers of 2500 samples each
READY....

После чего возникает "пауза" и ничего на экран (в stderr?) не пишется.

Где-то мне попадалось сообщение, что запуск должен сопровождаться приглашением
сказать что-нибудь в микрофон...

Но у меня комп не реагирует на речь (в микрофон).

Все ли правильно отрабатывает у меня?
В чем м.б. проблема?

dummy

nsh	Сообщ. #104 , 18.07.13, 17:46
Moderator Профиль · PM	Цитата Но у меня комп не реагирует на речь (в микрофон). Запись звука не работает, может быть, уровень записи на нуле.

dummyguy

Сообщ. #105 , 18.07.13, 21:13

Junior

Профиль · PM

Рейтинг (т): нет

Вы правы: на ноуте дома распознавание через pocketsphinx с моделью voxforge-ru от микрофона заработало.

Впечатления:
1. ощутимая задержка в получении рез-та распознавания
(тест CMUSphinx был шустрее, но там был и словарь из 10 слов)
2. были ошибки распознавания (вместо "стоп" распозналось "что-то")
3. вывод от пакета в sysout идет в кодировке словаря (видимо, KOI-8 или что-то такое) и нечитабелен
в моей Windows (впрочем, если его направить в файл, то потом можно посмотреть в текст. редакторе)

Следующий мой шаг - запуск демо-программки с вызовами к pocketsphinx, к-рую я сваял под msvc10expr

Николай, у меня есть задачка, к-рую я когда-то обещал сделать для группы, к-рая занимается
программами обучения языку - это IstraSoft и их пакет "Professor Higgins".
Это "фонетическая транскрипция". В моем понимании (а общался я с группой только через eMail)
это распознавание фонем, произносимых учеником в процессе обучения артикуляции и правильному
произношению. Требуется распознавание, как отдельных фонем ("звуков", как принято выражаться в группе),
так и фонем при слитном произнесении - в словах.

Наивно и самонадеянно я пытался решить ее "в лоб" с использованием нейросетей.
Провозился пару-тройку месяцев и понял, что мой подход не заработает,
хотя определенные рез-ты были получены.

Вот тогда-то я и заинтересовался и занялся вплотную подходом (стат.моделирования) HMM и понял,
что это, IMHO, самый адекватный подход
к распознаванию речи, известный и доступный на сегодняшний день.

Не набросаете ли план решения задачки транскрипции?
Мне кажется, она должна хорошо решаться ср-вами Sphinx.

Не знаю, пригодится ли это решение IstraSoft, поск-ку у них все сделано по-своему
(я имею ввиду цифровую обработку входного сигнала (оцифровку, фильтрацию)).
При том, что в пакетах Sphinx и HTK используется своя уже стандарт-де-факто
система цифровой обработки и выделения признаков (features).

Впрочем, я спрошу у IstraSoft заинтересует ли их возможное решение задачки транскрипции
(или транскрибирования) средствами Sphinx.

Особенность их требований еще и в том, что на основе распознавания надо предложить оценку
качества произнесения фонемы или цепочки фонем учащимся (в сравнении с эталонным)
Сейчас они делают это довольно плохо (дают "нечеткие" (fuzzy)
оценки типа: "другой звук", "плохо", "хорошо", "отлично").
Я сам поработал с этим пакетом и увидел там изрядное число недостатков.
Учить произношению с его помощью можно, но у ученика должно быть оч. хорошее терпение, настойчивость и упорство.
Пакет же помогает ему довольно слабо (ну например, ученик должен или выдерживать длительность произнесения
как у обучающего (диктора) или в диалоговом окне должен ср-вами программы "подгонять" положение и размер waveform своего
произнесения к положению и размеру эталонной waveform от диктора, иначе его оценка всегда будет низкой.

Ну, а в целом я хотел бы спросить, что мне следовало бы сделать следующим шагом в освоении пакета от CMU?

Задачка подготовки к конкурсу ЦРТ в будущем году остается. Правда, я четко не представляю условий конкурса этого года.
Человек из ЦРТ на мой вопрос о доступе к конкурсному заданию этого года ответил, что они пока решают и
посоветовал следить за новостями от ЦРТ/

dummy

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (23) « Первая ... 5 6 [7] 8 9 ... 22 23

[ Script execution time: 0,0466 ] [ 15 queries used ] [ Generated: 31.03.26, 07:10 GMT ]