Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[3.17.181.181] |
|
Страницы: (23) « Первая ... 5 6 [7] 8 9 ... 22 23 ( Перейти к последнему сообщению ) |
Сообщ.
#91
,
|
|
|
Вопрос новичка к гуру:
в чем существенная разница между CMUSphinx и HTK? отличаются ли они качеством? м.б. Sphinx более технологичен и доступен в освоении? Оба проекта - OpenSource, в основе, полагаю - HMM и общие процедуры обучения и распознавания, HTK - С (С++), версия 3.4 от 2006г. (не развивается) CMUSphinx - Java, вер.4 от 2011г. Отличаются ли форматы внешних файлов? Мне лично ближе реализация на Java (если она корректная), но и C (эталон) вполне приемлемо. Но вряд ли кто-то сразу лезет и правит ядро (если такое есть). Java перспективнее в плане переноса рез-тов под Android (PocketSphix) С уважением, dummy |
Сообщ.
#92
,
|
|
|
Цитата Вопрос новичка к гуру: в чем существенная разница между CMUSphinx и HTK? отличаются ли они качеством? Существенной разницы нет, есть разница в деталях реализации. Цитата м.б. Sphinx более технологичен и доступен в освоении? Да. Цитата Отличаются ли форматы внешних файлов? Да, но есть программы для преобразования. Цитата Мне лично ближе реализация на Java (если она корректная), но и C (эталон) вполне приемлемо. Но вряд ли кто-то сразу лезет и правит ядро (если такое есть). Java перспективнее в плане переноса рез-тов под Android (PocketSphix) Да |
Сообщ.
#93
,
|
|
|
Запустил Demo "Hello World" под CMUSphinx4 - впечатление весьма благоприятное
На весьма среднем ноуте работает с задержкой 0.5 сек или меньше того. Вопросы новичка к гуру: как изменится время ответа для распознавателя на 100-1000-10000 слов? Понимаю, что и надежность распознавания снизится - вот только насколько? В Sphinx по сравнению c HTK все организовано стройнее и менее громоздко, я не ошибаюсь? Для HTK был написан оч.недурной manual, а похожий детальный manual для Sphinx есть? В материалах по HTK была кое-какая теория и описывались алгоритмы и структуры данных. Насколько содержательна документация по Sphinx? Какие проблемы существуют с построением распознавателей под Sphinx, их обучением, верификацией, тестированием в частности для русского языка? Насколько хороши русскоязычные базы для обучения (корпуса, модели)? Насколько хороши получаются распознаватели? В чем смысл конкурса распознавателей ЦРТ? Встречались мнения, что перспективу на конкурсе имеют лишь участники, к-рые вложили 2-3 и более чел./лет в разработку распознавателя. Что является наиболее трудоемким? Может, "слепить" распознаватель к след. конкурсу общими усилиями с качеством лучше 63%? Доступны ли материалы прошедшего конкурса от ЦРТ? Какие принципиальные трудности или ограничения существуют при построении распознавателей под Sphinx? Можно ли построить хороший распознаватель для мобил. тел. для диктовки и отправки SMS? А может, такой уже есть и какие у него возможности и ограничения,в т.ч. по качеству? В перспективе, хотелось бы построить систему генерации субтитров для английского (американского) и других языков. (личная проблема: преимущественно пассивное владение основными европейскими языками). Такую можно было бы подключать к современным телевизорам при приеме спутниковых каналов. Мне кажется, что в И-нет мне встречались на YouTube ролики со сгенерированными субтитрами. А вообще, такую систему субтитров можно было бы использовать для обучающих курсов coursera Станфордского университета, там хорошие курсы читают... В общем, идей много, но вот как с перспективами их реализации? Например, качество звуковой дорожки YouTube достаточно для распознавания или нет? Прошу извинить за многословность, буду рад получить ответы на основные вопросы и комментарии к остальному. С уважением, dummy |
Сообщ.
#94
,
|
|
|
Цитата как изменится время ответа для распознавателя на 100-1000-10000 слов? Время ответа зависит от мощности компьютера/кластера. В целом современные системы дают результат быстрее, чем Вы успеваете произнести текст. Цитата Понимаю, что и надежность распознавания снизится - вот только насколько? Для 100 слов ошибка 2%, для 1000 порядка 5-10, для 10000 около 15. Цитата В Sphinx по сравнению c HTK все организовано стройнее и менее громоздко, я не ошибаюсь? Нет Цитата Для HTK был написан оч.недурной manual, а похожий детальный manual для Sphinx есть? Объем руководства по HTK обусловлен сложностью самого HTK. Чтобы начать работать с CMUSphinx, достаточно прочесть http://cmusphinx.sourceforge.net/wiki/tutorial Цитата В материалах по HTK была кое-какая теория и описывались алгоритмы и структуры данных. Об этом лучше подробно прочитать в учебнике, а не урывками из документации. Цитата Насколько содержательна документация по Sphinx? На 146% Цитата Какие проблемы существуют с построением распознавателей под Sphinx, их обучением, верификацией, тестированием в частности для русского языка? Никаких Цитата Насколько хороши русскоязычные базы для обучения (корпуса, модели)? Современные разработчики не используют базы, а работают с реальным речевым материалом. Польза от баз, в том числе коммерческих, невелика. Цитата Насколько хороши получаются распознаватели? http://youtu.be/uItCqkpMU_k Цитата В чем смысл конкурса распознавателей ЦРТ? Других посмотреть, себя показать. Цитата Встречались мнения, что перспективу на конкурсе имеют лишь участники, к-рые вложили 2-3 и более чел./лет в разработку распознавателя. Сейчас незачем разрабатывать что-то, если можно взять готовое Цитата Что является наиболее трудоемким? Наиболее трудоемким является процесс получения знаний из целевой области. Цитата Может, "слепить" распознаватель к след. конкурсу общими усилиями с качеством лучше 63%? Почему бы нет Цитата Доступны ли материалы прошедшего конкурса от ЦРТ? Не по адресу Цитата Какие принципиальные трудности или ограничения существуют при построении распознавателей под Sphinx? Учиться надо, работать и думать. Цитата Можно ли построить хороший распознаватель для мобил. тел. для диктовки и отправки SMS? Можно Цитата А может, такой уже есть и какие у него возможности и ограничения,в т.ч. по качеству? Таких уже много. Достаточно один раз попробовать, чтобы встретиться с ограничениями. Цитата В перспективе, хотелось бы построить систему генерации субтитров для английского (американского) и других языков. (личная проблема: преимущественно пассивное владение основными европейскими языками). Такую можно было бы подключать к современным телевизорам при приеме спутниковых каналов. Замечательно Цитата Мне кажется, что в И-нет мне встречались на YouTube ролики со сгенерированными субтитрами. А вообще, такую систему субтитров можно было бы использовать для обучающих курсов coursera Станфордского университета, там хорошие курсы читают... Можно Цитата В общем, идей много, но вот как с перспективами их реализации? Перспективы зависят от Вас Цитата Например, качество звуковой дорожки YouTube достаточно для распознавания или нет? Да |
Сообщ.
#95
,
|
|
|
Благодарю за ответы и комментарии!
Судя по ним, проблема построения ASR с приходом Sphinx решена, но позволю себе в этом усомниться. Проблемы, видимо, существуют и остаются. Недаром ведь Google взял Hinton'а с помошниками, и те строят и обучают распознаватели на HMM + DBN (deep belief networks) c очень большими нейронными сетями. Правда, улучшения получаются сравнительно скромными по сравнению с "классическими" методами. Я пытался строить кустарные распознаватели только на нейронных сетях для отдельных фонем, но только до тех пор, пока не познакомился с подходом Рабинера (HMM). Так что background кое-какой есть... С уважением, dummy |
Сообщ.
#96
,
|
|
|
Цитата Так что background кое-какой есть... Отлично, значит пойдет по накатанной. |
Сообщ.
#97
,
|
|
|
Привет Вам Николай!
Вопрос не по существу: Вы ведете любопытный blog, это стоит определенных трудов, а для кого он предназначен (в смысле интересов, категории или уровня компетентности)? Теперь, вопрос ближе к теме: не подскажите ли пример построения русскоязычного распознавателя под Sphinx типа Hello World! demo? М.б., также рекомендации по конфигурированию и использованию русскоязычных баз. Начинаю читать сначала тему "Работа с CMU Sphinx", надеюсь с помощью этого снизить число своих вопросов? С уважением, dummy |
Сообщ.
#98
,
|
|
|
Цитата Теперь, вопрос ближе к теме: не подскажите ли пример построения русскоязычного распознавателя под Sphinx типа Hello World! demo? 1. Скачать и установить pocketsphinx 2. Скачать модель http://sourceforge.net/projects/cmusphinx/...tar.gz/download 3. Запустить распознавание pocketsphinx_continuous -hmm model_parameters/msu_ru_nsh.cd_cont_1000_8gau_16000 -lm etc/msu_ru_nsh.lm.dmp -dict etc/msu_ru_nsh.dic Цитата М.б., также рекомендации по конфигурированию и использованию русскоязычных баз. Прежде чем конфигурировать, нужно изучить алгоритмы, чтобы понимать значение параметров. Цитата Начинаю читать сначала тему "Работа с CMU Sphinx", надеюсь с помощью этого снизить число своих вопросов? Лучше сначала прочитать документацию http://cmusphinx.sourceforge.net/wiki/tutorial |
Сообщ.
#99
,
|
|
|
Привет Вам Николай!
Складывается впечатление, что докум на PocketSphinx очень слабая (ее собственно нет - по тем малосвязанным обрывкам начать работать показалось затруднительно) Взял и установил бинарники pocketsphinx и sphinxbase. Этого достаточно для запуска распознавателя или надо еще что-то? Вопросы: 1. можно ли использовать MSVS 6, а не 8 или 10 для компиляции HelloWorld? 2. не покажете ли командную строку для компиляции демо-примера запуска распознавателя из документации под Windows и MSVS 6? 3. где взять звуковые файлы для тестирования распознавателя и вид командной строки запуска? С уважением, dummy PS Такое впечатление, что реализации на Java и C связаны только алгоритмами (если бы еще так) |
Сообщ.
#100
,
|
|
|
Цитата Этого достаточно для запуска распознавателя или надо еще что-то? Да Цитата 1. можно ли использовать MSVS 6, а не 8 или 10 для компиляции HelloWorld? Лучше скачать MSVS 10 Express, он бесплатный Цитата 2. не покажете ли командную строку для компиляции демо-примера запуска распознавателя из документации под Windows и MSVS 6? В MSVS можно создать проект, добавить необходимые библиотеки, компилировать по нажатию кнопки. Цитата 3. где взять звуковые файлы для тестирования распознавателя и вид командной строки запуска? Файлы можно записать самому, строку запуска я написал в предыдущем ответе. Цитата PS Такое впечатление, что реализации на Java и C связаны только алгоритмами (если бы еще так) Форматы моделей одинаковые. |
Сообщ.
#101
,
|
|
|
Привет Вам Николай!
Пришдось повозиться с тестовым приложением для PS. Но похоже, я еще на пол-пути к рез-ту: приложение собрал и запустил, идет загрузка данных, отображается отчет, но работа прерывается и приложение "жалуется" на отсутствие файла goforward.raw !? Вопросы: - где-нибудь описано или прокомментировано содержание отчета, к-рый я получаю при запуске? - каких файлов нехватает приложению и можно ли их для начала "позаимствовать", а только потом подготовить самому (с помощью ютилити в составе PS)? Вопросы, надеюсь, уместные, поскольку ТАКОЙ "тестовый пример" встречается мне впервые! IMHO, тестовый пример: - должен быть ПОЛНЫМ по составу, - должен собираться и запускаться "сам" или с минимальной настройкой, - должен быть документированным, - должен позволить пользователю убедиться в работоспособности его конфигурации, и стать основой для движения вперед. А тут надо "кувыркаться и кувыркаться" пока что-то не начнет получаться... Разумеется, мои претензии не к Вам, а к "мудрым" разработчикам PS С уважением, dummy Добавлено Перечитал нашу переписку и понял, что "ушел в сторону" от Ваших рекомендаций. Видимо, можно было сразу запустить "PS continuous" с [Вашей] русскоязычной моделью. Эта версия PS, кажется, умеет работать прямо с микрофона... (в смысле, без предв. записанных звуковых файлов). А я "завозился" с запуском "тестового" примера из документации с сайта, поск-ку пришлось восстанавливать давно забытые навыки (С++ + MSVC), к-рые были к тому же весьма средними и ниже и на уровне MSVC 6. Вы, оказывается, давно "в теме" - я увидел в модели даты 2006-2007гг. (msu - это МГУ?) Могу ли спросить: куда и далеко ли от 2006г. продвинулся cmu со своми Sphinx'ами? Кажется, разработка приостановилась в 2011г.? Что у нас сегодня "передний край"? Спрашиваю еще и потому, что у меня почему-то возникает ощущение, что Вам эта тема уже не очень интересна... С уважением, dummy |
Сообщ.
#102
,
|
|
|
Цитата приложение "жалуется" на отсутствие файла goforward.raw !? Файл goforward.raw находится в архиве pocketsphinx.tar.gz в каталоге pocketsphinx/test/data Цитата Могу ли спросить: куда и далеко ли от 2006г. продвинулся cmu со своми Sphinx'ами? Кажется, разработка приостановилась в 2011г.? Что у нас сегодня "передний край"? Увидеть последние новости разработки можно здесь: http://cmusphinx.sourceforge.net |
Сообщ.
#103
,
|
|
|
Благодарю за ссылки, демо-пример STT (диктовка) впечатляет!
Вы правы: ссылки совсем свежие - работы по Sphinx продолжаются Вопрос: отчет при запуске pocketsphinx_continuous с Вашей моделью voxforge... заканчивается сообщением: Allocating 32 buffers of 2500 samples each READY.... После чего возникает "пауза" и ничего на экран (в stderr?) не пишется. Где-то мне попадалось сообщение, что запуск должен сопровождаться приглашением сказать что-нибудь в микрофон... Но у меня комп не реагирует на речь (в микрофон). Все ли правильно отрабатывает у меня? В чем м.б. проблема? dummy |
Сообщ.
#104
,
|
|
|
Цитата Но у меня комп не реагирует на речь (в микрофон). Запись звука не работает, может быть, уровень записи на нуле. |
Сообщ.
#105
,
|
|
|
Вы правы: на ноуте дома распознавание через pocketsphinx с моделью voxforge-ru от микрофона заработало.
Впечатления: 1. ощутимая задержка в получении рез-та распознавания (тест CMUSphinx был шустрее, но там был и словарь из 10 слов) 2. были ошибки распознавания (вместо "стоп" распозналось "что-то") 3. вывод от пакета в sysout идет в кодировке словаря (видимо, KOI-8 или что-то такое) и нечитабелен в моей Windows (впрочем, если его направить в файл, то потом можно посмотреть в текст. редакторе) Следующий мой шаг - запуск демо-программки с вызовами к pocketsphinx, к-рую я сваял под msvc10expr Николай, у меня есть задачка, к-рую я когда-то обещал сделать для группы, к-рая занимается программами обучения языку - это IstraSoft и их пакет "Professor Higgins". Это "фонетическая транскрипция". В моем понимании (а общался я с группой только через eMail) это распознавание фонем, произносимых учеником в процессе обучения артикуляции и правильному произношению. Требуется распознавание, как отдельных фонем ("звуков", как принято выражаться в группе), так и фонем при слитном произнесении - в словах. Наивно и самонадеянно я пытался решить ее "в лоб" с использованием нейросетей. Провозился пару-тройку месяцев и понял, что мой подход не заработает, хотя определенные рез-ты были получены. Вот тогда-то я и заинтересовался и занялся вплотную подходом (стат.моделирования) HMM и понял, что это, IMHO, самый адекватный подход к распознаванию речи, известный и доступный на сегодняшний день. Не набросаете ли план решения задачки транскрипции? Мне кажется, она должна хорошо решаться ср-вами Sphinx. Не знаю, пригодится ли это решение IstraSoft, поск-ку у них все сделано по-своему (я имею ввиду цифровую обработку входного сигнала (оцифровку, фильтрацию)). При том, что в пакетах Sphinx и HTK используется своя уже стандарт-де-факто система цифровой обработки и выделения признаков (features). Впрочем, я спрошу у IstraSoft заинтересует ли их возможное решение задачки транскрипции (или транскрибирования) средствами Sphinx. Особенность их требований еще и в том, что на основе распознавания надо предложить оценку качества произнесения фонемы или цепочки фонем учащимся (в сравнении с эталонным) Сейчас они делают это довольно плохо (дают "нечеткие" (fuzzy) оценки типа: "другой звук", "плохо", "хорошо", "отлично"). Я сам поработал с этим пакетом и увидел там изрядное число недостатков. Учить произношению с его помощью можно, но у ученика должно быть оч. хорошее терпение, настойчивость и упорство. Пакет же помогает ему довольно слабо (ну например, ученик должен или выдерживать длительность произнесения как у обучающего (диктора) или в диалоговом окне должен ср-вами программы "подгонять" положение и размер waveform своего произнесения к положению и размеру эталонной waveform от диктора, иначе его оценка всегда будет низкой. Ну, а в целом я хотел бы спросить, что мне следовало бы сделать следующим шагом в освоении пакета от CMU? Задачка подготовки к конкурсу ЦРТ в будущем году остается. Правда, я четко не представляю условий конкурса этого года. Человек из ЦРТ на мой вопрос о доступе к конкурсному заданию этого года ответил, что они пока решают и посоветовал следить за новостями от ЦРТ/ dummy |