Работа с CMU Sphinx -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.14]

Модераторы: RaD, nsh

Новое голосование

Работа с CMU Sphinx , Работа с CMU Sphinx 4.0

zamir	Сообщ. #31 , 06.09.11, 14:42
Full Member Профиль · PM Поощрения: 1 Dgm Рейтинг (т): 9	откомпиленная версия pocketsphinx кстати на sf.net лежит http://sourceforge.net/projects/cmusphinx/files/pocketsphinx/0.7/pocketsphinx-0.7-win32.zip/download Сообщения были разделены в тему "Sphinxtrain с пользовательскими признаками"

0xNiL

Сообщ. #32 , 06.02.12, 11:30

Unregistered

Здравствуйте!

Подскажите как создавать собственные словари с транскрипциями на основе скриптов https://github.com/zamiron/ru4sphinx/tree/master/text2dict
В каком формате должны быть входные текстовики? У меня при вызове под Windows 7

perl dict2transcript.pl my_dictionary my_dictionary_out

появляются два пустых файла: my_dictionary, my_dictionary.accent. В чем беда?

zamir

Сообщ. #33 , 06.02.12, 17:26

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

при таком запуске должен создаться файл my_dictionary_out а не my_dictionary
на вход можно подавать текст - не обязательно словарь
под windows я не пробовал запускать - наверное беда где-то в этом месте

ну или my_dictionary у вас изначально пустой файл
еще следует обратить внимание что всё заточно под работу в utf8

0xNiL

Сообщ. #34 , 06.02.12, 19:53

Unregistered

Цитата zamir @ 06.02.12, 17:26

при таком запуске должен создаться файл my_dictionary_out а не my_dictionary

Да, это просто опечатка вышла.

Перекодировка в UTF-8 помогла - спасибо! Но что-то не работает акустическая модель - на 8Кгц сигнале (взятого с Voxforge и ресемплированного) даже на словаре, составленном из тех же слов, pocketsphinx выдает ерунду.. Модель языка взята отсюда https://github.com/zamiron/ru4sphinx/tree/master/addons
у меня складывается ощущения что где-то что-то не срослось с параметрами.. есть ли где-нибудь пример config-файла + тестового аудио файла, на котором все заведомо должно работать с этой акустической и языковой моделями? я только недавно начал разбираться со сфинксами, поэтому вполне могу предположить, что делаю что-то не так - поэтому нужна точка опоры

zamir

Сообщ. #35 , 07.02.12, 06:03

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

не пойму зачем вы генерили новый словарь если брали собранную модель
по этой ссылке лежит и модель и словарь
проверять надо при помощи pocketsphinx_batch
при проверке с помощью pocketsphinx_continuous надо несколько раз дикторовать фразу - pocketsphinx_continuous я так понимаю подстраивает нормализатор после первой попытки что-то распознать
скрипт на bash для тестирования с морфологической моделью лежит здесь:
http://z1.prolink.ru/sphinx/ru_morf_cd_cont_8kHz_v1.tar.gz
что бы не качать лишего, вот он:

#!/bin/sh

# This is a simple example decoder

# Please note, that recognize the file should be single-channel with sample rate 8kHz

# decoder-test.wav: RIFF (little-endian) data, WAVE audio, Microsoft PCM, 16 bit, mono 8000 Hz

# Expected recognition: ил -ья ильф евген -ий петр -ов золот -ой тел -ёнок

DECODER="pocketsphinx_batch"

# uncomment for testing old version decoder (cmu sphinx 3)

# DECODER="sphinx3_decode"

VM=msu_ru_zero.cd_cont_2000

DIC=msu_ru_zero.dic

LM=msu_ru_zero.lm.dmp

FILE=decoder-test

echo "$FILE" > msu_ru_zero_test

$DECODER \

-hmm $VM \

-dict $DIC \

-lm $LM \

-ctl msu_ru_zero_test \

-adcin yes \

-adchdr 44 \

-cepdir . \

-cepext .wav \

rm msu_ru_zero_test

надо сказать sphinx гораздо лучше справляется с языковыми моделями построенными на базе слов, поэтому морфологическая мало подходит для распознования текста

0xNiL

Сообщ. #36 , 07.02.12, 08:07

Unregistered

Спасибо, действительно, в этом варианте все стало работать! Хотя я полагал что pocketsphinx_continuous и pocketsphinx_batch отличаются только интерфейсной частью, движок у них один и тот же... видимо, надо глубже разбираться, что к чему.

По поводу морфологических моделей: почему вы считаете, что они мало подходят для распознавания текста? В чем их принципиальное отличие от словесных с точки зрения работы декодера? И где можно почитать поподробнее про структуру непосредственно этой морфологической модели?

zamir

Сообщ. #37 , 07.02.12, 08:33

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Может я и не прав относительно морфологии.
Но насколько я понял распознование в sphinx построено на теории вероятности/статистики.
чем больше дробишь слово тем больше появляется связей и тем меньше становится фонемный набор - мало того тем больше появляется вариаций фонемного набора части слова - статистика уже не даёт такого хоршего результата - к тому же нигде не учитывается статистика вариаций фонемного набора.
В обшем если делать морфологию то делать её более уравновешенно со статистикой.
Морфологию в том виде которая есть сейчас было бы не плохо потестировать с моделями 5gramm, но sphinx поддерживает только 3gramm.
При этом мою модель 3gramm в формате arpa pocketsphinx не смог обработать (смог обработать sphinx3). а колличество n-gramm > 3 sphinx не поддерживает (julius вроде должен поддерживать)

axi01

Сообщ. #38 , 19.03.12, 08:24

Unregistered

Имею проблему следующего вида:
написал на C++/CLI "обертку" для pocketsphinx чтобы работала в dotnet.

управление pocketsphinx делал как в исходниках pocketsphinc_continue.

голосовые модели брал с voxforge.

словарь урезал до 20 команд.

возникли проблемы:
1. распознавание идет порядка 3-5 секунд
2. в моем компе запись с микрофона меньше чем на 44,1 кГц не возможна. в том как работает модуль потокового распознавания не разбирался, но не думаю что он ресемплирует входной поток.

вопрос КАК заставить сфинка работать быстрее и как научить его понимать поток в 44,1 кГц?

спасибо

nsh	Сообщ. #39 , 19.03.12, 21:45
Moderator Профиль · PM	Цитата вопрос КАК заставить сфинка работать быстрее Компьютер помощнее купить Цитата и как научить его понимать поток в 44,1 кГц? -samprate 44100

NegroFinn	Сообщ. #40 , 20.03.12, 06:57
Member Профиль · PM Поощрения: 1 Dgm Рейтинг (т): нет	zamir кстать как там пятиграммы пожывають?... ты вроде верил, что с ними распознавалка будет выдавать только осмысленный техт.

zamir

Сообщ. #41 , 20.03.12, 07:08

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Оптимизация производительности описана здесь:
http://cmusphinx.sourceforge.net/wiki/pocketsphinxhandhelds

Для ресемлирования на сколько я понял можно манипулировать параметром frate

5-ти граммы sphinx не поддерживается пока. вроде был roadmap на эту тему если меня не проглючело на сайте cmu sphinx

есть идеи разложения звука на составляющие которые его создают (горло,нос, зубы, губы) выделение шума и его вычитания - должно работать быстрее и качественне, пока нет времени это попроверить...

axi01

Сообщ. #42 , 21.03.12, 16:33

Unregistered

Есть задача:
научить сфинкс с вероятность 95% (не хуже) понимать фразы из 1-4 слов.
Общее количество разных слов порядка 50-100.

пробовал "резать" словарь модели voxforge:
- не понимает слово "интернет"
- слова "развернуть" и "свернуть" - не различает...

у меня дикция не дикторская, но меня понимают.

есть ли смысл при такой задаче делать СВОЮ модель?

zamir

Сообщ. #43 , 21.03.12, 16:47

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Попробуйте модели отсюда:
http://sourceforge.net/projects/cmusphinx/...phology%20Zero/

словарь сгенерить при помощи вот этого:
https://github.com/zamiron/ru4sphinx/tree/master/text2dict

sample rate в моделях 8000 обратите внимание
если не поможет - попробуйте адаптацию этой модели к вашей речи сделать
если у вас есть материал можете и собственную модель сделать

и ещё качество гораздо выше при использовании режима _bath (_continue не поддерживает нормализацию)
результаты если не сложно сообщите пожалуйста когда попробуете

axi01	Сообщ. #44 , 22.03.12, 05:57
Unregistered	я не использую не _batch не _continue. я pocketsphinx подключаю в качестве библиотеки в своем проекте. насколько понимаю нормальзация - это нормальная функция pocketsphinx. модели проверю - отпишусь

axi01	Сообщ. #45 , 22.03.12, 18:07
Unregistered	вероятно я что-то не так настраиваю, но с вашей моделью программа: 1. "ест" много больше памяти 2. работает очень медленно...

1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (23) 1 2 [3] 4 5 ... 22 23

[ Script execution time: 0,0661 ] [ 14 queries used ] [ Generated: 31.03.26, 02:55 GMT ]