Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[98.84.18.52] |
|
Сообщ.
#1
,
|
|
|
Хочу запустить примеры использования движка pocketshinx для Windows по инструкции на страничке http://cmusphinx.sourceforge.net/wiki/tutorialpocketsphinx
вот один из примеров использования bin/Release/pocketsphinx_continuous.exe -infile test/data/goforward.raw -hmm model/en-us/en-us -lm model/en-us/en-us.lm.dmp -dict model/en-us/cmudict-en-us.dict Когда я его запускаю программа выдает следующее: инф. во вложенном файле outConsole.txt Как я понял ошибка в файле акустической модели, но файл mdef в папке model/en-us/en-us присутствует. Кратко опишу что я делал с самого начала: Я попытался скачать исходники Sphinxbase и Pocketsphinx с первых двух ссылок на этой страничке: http://cmusphinx.sourceforge.net/wiki/download&usg, но заметил странное обстоятельство, обе ссылки указывают на один и тот же архив Pocketsphinx, а архива с Sphinxbase там нету. Тогда я скачал Sphinxbase отсюда: https://github.com/cmusphinx/sphinxbase далее по инструкции распаковал оба архива в одной папке и переименовал папки соответственно Sphinxbase и Pocketsphinx. Запустил Sln файлы в обоих и выполнил сборку в релизе. Да еще при сборке pocketshinx VS2013 ругалось на отсутствие sphinxbase.lib тогда я его скопировал в \pocketsphinx\win32\pocketsphinx\, \pocketsphinx\win32\pocketsphinx_batch, \pocketsphinx\win32\pocketsphinx_continuous и проект собрался. Подскажите в чем моя ошибка? Прикреплённый файлoutConsole.txt (4,67 Кбайт, скачиваний: 396) |
Сообщ.
#2
,
|
|
|
Получилось нужно было просто прописывать полный путь...
цитата из мануала - Unlike on Linux, the path to the model is not preconfigured in Windows, so you have to specify pocketsphinx_continuous where to find the model with -hmm, -lm and -dict options. Change to pocketsphinx folder and run А вот строка которая меня осчастливила pocketsphinx_continuous.exe -infile c:/Users/admn2/Downloads/popitka3/pocketsphinx/test/data/goforward.raw -hmm c:/Users/admn2/Downloads/popitka3/pocketsphinx/model/en-us/en-us -lm c:/Users/admn2/Downloads/popitka3/pocketsphinx/model/en-us/en-us.lm.dmp -dict c:/Users/admn2/Downloads/popitka3/pocketsphinx/model/en-us/cmudict-en-us.dict |
Сообщ.
#3
,
|
|
|
Не могу скачать движок pocketsphinx и документацию к нему.
Выдает: The sourceforge.net website is temporarily in static offline mode. Only a very limited set of project pages are available until the main website returns to service. Если кто поделится, буду благодарен |
Сообщ.
#5
,
|
|
|
По примеру paulboxer собрал pocketsphinx для Windows. Если записываю файл и потом конвертирую его в формат 16000 Hz, 16 bit, то на выходе получаю весьма хороший результат. А вот если включаю распознавание напрямую с микрофона
pocketsphinx_continuous.exe -hmm c:\zero_ru.cd_cont_4000 -dict c:\ru.dic -lm c:\ru.lm -inmic yes то результат абсолютно отрицательный, выводит полную ерунду. Прикреплённый файлOutWave.txt (3,59 Кбайт, скачиваний: 448) Подскажите новичку, что не так делаю? |
Сообщ.
#6
,
|
|
|
Добавьте ключ -rawlogdir <dir>, pocketsphinx станет сохранять raw файлы. Выложите файлы для анализа или прослушайте самостоятельно в audacity, чтобы оценить качество записи с микрофона.
|
Сообщ.
#7
,
|
|
|
nsh, спасибо Вам, за то что помогаете! Купил на днях микрофон, качество распознавания значительно улучшилось, но все же оставляет желать лучшего. По Вашему совету добавил ключ -rawlogdir. Вот результаты:
- произносил в микрофон: Люблю грозу в начале мая Когда весенний первый гром Как бы резвяся и играя Грохочет в небе голубом. - вот что получилось на выходе: Прикреплённый файлtest.txt (3,17 Кбайт, скачиваний: 383) - вот raw файл (из-за размера пришлось конвертировать в mp3): Прикреплённый файл000000000.mp3 (69,88 Кбайт, скачиваний: 685) При прослушивании слышно, что в конце начались какие то сбои записи. Что не так делаю? Или может фраза слишком длинная? Да и еще, данная фраза распознавалась, после произношения секунд 20-25 (выдавались сообщения с пометкой INFO:, а уже потом результат), это нормально или можно ускорить процесс? Может есть возможность отключить вывод на экран этих самых сообщений с пометкой INFO:, или это не ускорит процесс распознавания? И еще вопросик, хочу попробовать провести адаптацию акустической модели с официального сайта CMU Sphinx под названием zero_ru_cont_8k_v3, под свой голос. С какими параметрами проводить обучение 8000Hz или 16000Hz? |
Сообщ.
#8
,
|
|
|
Цитата - вот raw файл (из-за размера пришлось конвертировать в mp3): Прикреплённый файлПрикреплённый файл000000000.mp3 (69,88 Кбайт, скачиваний: 8) Преобразование в mp3 теряет данные. Вы можете выложить файл на Google Drive или Dropbox и дать здесь ссылку. Цитата При прослушивании слышно, что в конце начались какие то сбои записи. Что не так делаю? Или может фраза слишком длинная? Да и еще, данная фраза распознавалась, после произношения секунд 20-25 (выдавались сообщения с пометкой INFO:, а уже потом результат), это нормально или можно ускорить процесс? Может есть возможность отключить вывод на экран этих самых сообщений с пометкой INFO:, или это не ускорит процесс распознавания? Скорее всего декодер стал пропускать запись из-за особенностей Windows и слишком медленной работы. Для быстрого декодирования лучше использовать модель PTM, не cont. Мы рекомендуем PTM по умолчанию. Цитата И еще вопросик, хочу попробовать провести адаптацию акустической модели с официального сайта CMU Sphinx под названием zero_ru_cont_8k_v3, под свой голос. С какими параметрами проводить обучение 8000Hz или 16000Hz? Для zero_ru 8000. |