Работа с CMU Sphinx -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.14]

Модераторы: RaD, nsh

Новое голосование

Работа с CMU Sphinx , Работа с CMU Sphinx 4.0

zamir

Сообщ. #136 , 21.08.13, 04:48

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Цитата

Не порекомендуете, что надо посмотреть в Вашем проекте, как пример реализации
подхода?

морфологический разбор делался на коленке полуручным методом
ничего готового нет
посмотрите morfessor http://www.cis.hut.fi/projects/morpho/
для подготовки данных для морфессора есть скрипт
https://github.com/zamiron/ru4sphinx/blob/m...ta4morfessor.pl

Цитата

Догадываюсь, что описания реализации не существует

берёте слова и разбиваете их на части, если слово собирается из других слов (или составных частей слов)
вручную или автоматически разбивате слова для получения новых составных частей
подход был такой

dummyguy

Сообщ. #137 , 21.08.13, 06:25

Junior

Профиль · PM

Рейтинг (т): нет

2 zamir

Благодарю за пояснения!

Вопрос:
- возможно ли и имеет ли смысл использовать для распознавателя "настоящий"
русский морфологический анализатор?

Вопросы общего плана:
- каково состояние русскоязычного распознавателя (ruSphinx)в целом,
развивается, усовершенствуется ли он или изменения уже не вносятся?
- какие направления развития (или тестирования) видятся перспективными?

Надеюсь, мои вопросы не утомили еще?
Они возникают в связи с задачкой построения речевого ввода SMS,
к-рая остается актуальной.
Для этой задачки не требуется "настоящая" синтаксическая языковая модель,
а достаточно хорошего распознавания отдельных слов, IMHO

dummy

zamir

Сообщ. #138 , 21.08.13, 12:54

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Цитата

- возможно ли и имеет ли смысл использовать для распознавателя "настоящий"
русский морфологический анализатор?

возможно имеет

Цитата

- каково состояние русскоязычного распознавателя в целом,
развивается, усовершенствуется ли он или изменения уже не вносятся?

CMU Sphinx - развивается.
проект ru4sphinx - нет. планирую только исправить ошибки.

Цитата

- какие направления развития (или тестирования) видятся перспективными?

любые которые позволят увеличить качество распознавания

dummyguy

Сообщ. #139 , 07.09.13, 18:26

Junior

Профиль · PM

Рейтинг (т): нет

2 zamir

Привет Вам после небольшого перерыва!

Перечитывал книжки и возился с базовыми алгоритмами, появились
новые вопросы по русской модели rus4sphinx, если позволите:

использованная классификация русских звуков (linguistic_questions)
собственная или заимствованная?

возможно ли выполнить алгоритмически транскрипцию слов в звуки
по указанной классификации (или правила нечеткие и требуется
вручную править рез-т алгоритмической транскрипции)?

В описании (readme) указано, что Вы использовали для построения акустической модели
аудиокнигу (или книги) - не поясните детали процедуры?
- был ли использован "параллельный" текст аудиокниги или предложения набирались
вручную?

А вот как шла работа дальше?

Выполнялось ли разделение звуковых файлов на на предложения и слова с соответствии
с текстом?

Как я понял, над словами текста выполнялся квази-морфологический анализ
(мне встречался термин стемнирование - выделеление основы (незменяемой части))

Как было устроено обучение системы?

Sphinx настроен на использование "зенонов" (3-х фазных звуков)
т.е. на каждый звук он строит HMM с 5 состояниями?

А потом они "склеиваются" для квазиоснов и афиксов (флексий)?

Т.е. после квазиморф. анализа его рез-ты получали звуковую траскрипцию.

А как сопоставить рез-там квазиморф. анализа фрагменты звуковых файлов
(чтобы потом учить HMM)?

Прошу извинить за возможные ошибки и ляпы, но у меня пока не сложилось
четкой картины работы со Sphinx при подготовке моделей, обучении и
распознавании.

Можно, конечно, провести reversengeneering системы, но это на крайний
случай, а пока я надеюсь приобщиться к опыту "гуру", к-рые знакомы с ней
уже немало лет.

Правильно ли я понимаю "механику" полного цикла подготовки данных
и обучения Sphinx?

Буду признателен за разъяснения,
с уважением,
dummy

Сообщение отредактировано: dummyguy - 07.09.13, 18:28

zamir

Сообщ. #140 , 09.09.13, 05:57

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Цитата

использованная классификация русских звуков (linguistic_questions)
собственная или заимствованная?

Существующие научные труды + описание "неизвестных" науке фонем + немного своих измышлений.

Цитата

возможно ли выполнить алгоритмически транскрипцию слов в звуки
по указанной классификации (или правила нечеткие и требуется
вручную править рез-т алгоритмической транскрипции)?

Для sphinx или в вообще?
Если вообще - то полагаю это не обязательный или далеко не полный файл.

Цитата

В описании (readme) указано, что Вы использовали для построения акустической модели
аудиокнигу (или книги) - не поясните детали процедуры?
- был ли использован "параллельный" текст аудиокниги или предложения набирались
вручную?

Известная текстовка использовалась.

Цитата

А вот как шла работа дальше?

Исправление ошибок и расстановка ударения почти до потери зрения.

Цитата

Выполнялось ли разделение звуковых файлов на на предложения и слова с соответствии
с текстом?

В этом и есть конечная цель проекта ru4sphinx.

Цитата

Как я понял, над словами текста выполнялся квази-морфологический анализ
(мне встречался термин стемнирование - выделеление основы (незменяемой части))

Как было устроено обучение системы?

Я не понял о чём вы. Если снова про морфологию - то я на это уже отвечал.

Цитата

Sphinx настроен на использование "зенонов" (3-х фазных звуков)
т.е. на каждый звук он строит HMM с 5 состояниями?

От 3-х до 5 состояний.

Цитата

А потом они "склеиваются" для квазиоснов и афиксов (флексий)?

Т.е. после квазиморф. анализа его рез-ты получали звуковую траскрипцию.

А как сопоставить рез-там квазиморф. анализа фрагменты звуковых файлов
(чтобы потом учить HMM)?

Обучать модели и на том что есть, а затем сегментировать при помощи созданных моделей - думаю так.

Цитата

Правильно ли я понимаю "механику" полного цикла подготовки данных
и обучения Sphinx?

С вероятностью 50% правильно

dummyguy	Сообщ. #141 , 09.09.13, 06:45
Junior Профиль · PM Рейтинг (т): нет	2 zamir Благодарю за пояснения! Новых вопросов не задаю, попытаюсь сформулировать их четче. С уважением,

DancingGir

Сообщ. #142 , 26.09.13, 16:52

Unregistered

Здравствуйте. У меня возник вопрос по грамматике CMU Sphinx. Получается, что распознаются только целиком грамматические конструкции. А мне надо, чтобы посреди конструкции можно было остановиться, подумать и продолжить чтение в соответствии с грамматикой. Т.е. идет набор текста, имеющего определенную структуру, описываемую грамматикой. На практике получается пользователь не увидит ничего пока не дочитает текст до конца. Можно ли в Sphinx как-то работать с правилами грамматики, отслеживать что происходит на этапе синтаксического анализа?

nsh

Сообщ. #143 , 26.09.13, 19:56

Moderator

Профиль · PM

Цитата

Получается, что распознаются только целиком грамматические конструкции.

Во время распознавания можно получать результаты немедленно. Например, как на этом видео

http://www.youtube.com/watch?v=OEUeJb6Pwt4

Цитата

На практике получается пользователь не увидит ничего пока не дочитает текст до конца.

Грамматика не должна быть слишком ограничивающей, напротив, чем свободнее грамматика, тем лучше. В хорошей грамматике контекст меньше 3 слов, можно использовать n-граммные модели языка.

Цитата

Можно ли в Sphinx как-то работать с правилами грамматики

Грамматику можно обновлять на лету

Цитата

отслеживать что происходит на этапе синтаксического анализа

Этапа синтаксического анализа нет существует.

DancingGir	Сообщ. #144 , 28.09.13, 13:54
Unregistered	Спасибо большое за ответы! У меня еще один вопрос. Цитата nsh @ 26.09.13, 19:56 Во время распознавания можно получать результаты немедленно. Как получить результат распознавания немедленно? Это настраивается в xml?

nsh

Сообщ. #145 , 30.09.13, 20:29

Moderator

Профиль · PM

Цитата

Как получить результат распознавания немедленно? Это настраивается в xml?

Зависит от декодера - sphinx4 или pocketsphinx.

В sphinx4 в классе Decoder есть ResultListener и свойство featureBlockSize. После обработки блока признаков ResultListener получает результат декодирования.

В pocketsphinx можно вызывать ps_get_hyp после каждого вызова ps_process_data

DancingGir

Сообщ. #146 , 06.10.13, 10:44

Unregistered

Спасибо! Теперь я получаю результат даже если фраза не была договорена до конца. Проблема в том, что когда наступает тишина(пользователь думает что сказать дальше) Sphinx4 считает это концом команды и начинает искать подходящую грамматическую конструкцию, но не находит, потому что предложение не было озвучено до конца. Мне нужно, чтобы пользователь мог продолжить говорить с того же места, где остановился(т.е. чтобы учитывались все предыдущие озвученные слова). Это возможно?

Цитата nsh @ 26.09.13, 19:56

В хорошей грамматике контекст меньше 3 слов

Даже если там по 3 слова, получается эти тройки никак между собой не связаны?

serious911	Сообщ. #147 , 06.10.13, 11:58
Unregistered	извините за оффтоп... А CMU Sphinx может распознать человека по голосу или только распознает речь?

DancingGir	Сообщ. #148 , 06.10.13, 13:09
Unregistered	Цитата serious911 @ 06.10.13, 11:58 А CMU Sphinx может распознать человека по голосу или только распознает речь? Распознать человека не может, только речь.

DancingGir	Сообщ. #149 , 24.10.13, 14:02
Unregistered	Можно ли использовать автоматную грамматику в Sphinx4? В примере с an4 используется fst. Как его получить?

nsh

Сообщ. #150 , 24.10.13, 19:57

Moderator

Профиль · PM

Цитата

Можно ли использовать автоматную грамматику в Sphinx4?

Можно

Цитата

В примере с an4 используется fst. Как его получить?

Создать из программы/написать в текстовом редакторе. В формате разобраться можно, если понимать, что такое автомат.

Сообщение отредактировано: nsh - 24.10.13, 19:58

1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (23) « Первая ... 8 9 [10] 11 12 ... 22 23

[ Script execution time: 0,0465 ] [ 14 queries used ] [ Generated: 31.03.26, 08:47 GMT ]