Возможны ли динамические n-граммы в CMU sphinx? -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.5]

Модераторы: RaD, nsh

Новое голосование

Возможны ли динамические n-граммы в CMU sphinx?

w3264	Сообщ. #31 , 03.02.16, 17:02
Junior Профиль · PM Рейтинг (т): нет	хехе, пофиг, все наоборот, добавка даже одного фрейма ухудшает какчество распознавания

w3264

Сообщ. #32 , 13.02.16, 06:58

Junior

Профиль · PM

Рейтинг (т): нет

а нет, нормальненько так какие-то лишние 5-6 фреймов спереди улучшают детект первого слова на порядок ...

вы собираетесь фиксить это в ближайшее время или мне самому у себя подкрутить?

Сообщение отредактировано: w3264 - 13.02.16, 06:58

w3264	Сообщ. #33 , 19.02.16, 07:45
Junior Профиль · PM Рейтинг (т): нет	добрый день) есть ли где-нибудь описание маркеров фонем? типа чем отличается а от aa, от ay ... чем отличается r от rr ...

zamir	Сообщ. #34 , 19.02.16, 18:49
Full Member Профиль · PM Поощрения: 1 Dgm Рейтинг (т): 9	Добрый вечер https://github.com/zamiron/ru4sphinx/blob/m...istic_questions https://en.wikipedia.org/wiki/Formant https://ru.wikipedia.org/wiki/%D0%A0%D1%83%...%B8%D0%BA%D0%B0

w3264	Сообщ. #35 , 19.02.16, 20:05
Junior Профиль · PM Рейтинг (т): нет	спасибо)

w3264

Сообщ. #36 , 10.03.16, 11:03

Junior

Профиль · PM

Рейтинг (т): нет

добрый день)

как можно оптимизировать детект ключевых слов?

одно ключевое слово, задается через ключ -keyphrase
при -kws_threshold 1e-10 много пропусков слова, которое есть в потоке - много несрабатываний
при -kws_threshold 1e-30 много ложных детектов
середина указанного диапазона не приносит морального удовлетворения тоже)

что можно сделать?

пс. тестирование ведется в зашумленной обстановке

Сообщение отредактировано: w3264 - 10.03.16, 11:41

nsh	Сообщ. #37 , 11.03.16, 08:20
Moderator Профиль · PM	Ключевое слово подлиннее придумать

w3264	Сообщ. #38 , 14.03.16, 08:03
Junior Профиль · PM Рейтинг (т): нет	Цитата nsh @ 11.03.16, 08:20 Ключевое слово подлиннее придумать могу скинуть .wav, около 3 секунд, в тишине очетливо произносится слово, kws не детектится

nsh	Сообщ. #39 , 14.03.16, 10:35
Moderator Профиль · PM	Это можно было сделать ещё 10 марта.

w3264	Сообщ. #40 , 14.03.16, 12:05
Junior Профиль · PM Рейтинг (т): нет	10 марта я надеялся на лучшее), а только уже сегодня решил поплотнее глянуть на внутренность kws_search.c и то что там творится https://yadi.sk/d/nvkFC8EqqATo5

nsh

Сообщ. #41 , 14.03.16, 13:01

Moderator

Профиль · PM

pocketsphinx_continuous -infile robot_failed.wav -keyphrase "робот" -kws_threshold 1e-10 \

-hmm zero_ru_cont_8k_v3/zero_ru.cd_cont_4000 -dict zero_ru_cont_8k_v3/ru.dic -samprate 8000

INFO: cmn_prior.c(131): cmn_prior_update: from < 11.64 0.15 -0.04 0.17 -0.40 -0.03 -0.50 -0.13 -0.33 -0.11 -0.19 -0.10 -0.24 >

INFO: cmn_prior.c(149): cmn_prior_update: to < 8.24 0.41 -0.08 0.02 -0.21 -0.10 -0.29 -0.17 -0.22 -0.11 -0.14 -0.07 -0.05 >

INFO: kws_search.c(658): kws 0.12 CPU 0.045 xRT

INFO: kws_search.c(660): kws 0.13 wall 0.045 xRT

робот

INFO: cmn_prior.c(131): cmn_prior_update: from < 8.24 0.41 -0.08 0.02 -0.21 -0.10 -0.29 -0.17 -0.22 -0.11 -0.14 -0.07 -0.05 >

INFO: cmn_prior.c(149): cmn_prior_update: to < 8.24 0.41 -0.08 0.02 -0.21 -0.10 -0.29 -0.17 -0.22 -0.11 -0.14 -0.07 -0.05 >

INFO: kws_search.c(467): TOTAL kws 0.12 CPU 0.045 xRT

INFO: kws_search.c(470): TOTAL kws 0.13 wall 0.045 xRT

w3264

Сообщ. #42 , 14.03.16, 13:28

Junior

Профиль · PM

Рейтинг (т): нет

извиняюсь, сразу не сказал

тестирую без параметра kws_threshold, т.е. с его значением по умолчанию равным 1

наговариваю последовательно слово, детект идет с таким значением порога вполне нормальный, в какой-то момент он пропадает, совершенно необъяснимым образом

попробую тоже самое сделать с порогом 1e-10, возможно получится воспроизвести поток с недетектом

пс. недетектов при пороге 1e-10 на порядок меньше, да, и что самое плохое - они плохо воспроизводятся если из поток поднимать из записанного файла - ибо конечно кое-что уже меняется, подстройки того же cnm ... погоняю еще, если получится воспроизвести - отпишусь

в любом случае - спасибо за ответы)

Сообщение отредактировано: w3264 - 14.03.16, 13:50

w3264

Сообщ. #43 , 22.03.16, 05:35

Junior

Профиль · PM

Рейтинг (т): нет

увеличил на слог ключевое слово, стал хороший детект почти без ложных срабатываний даже на 1e-20, спасибо), правда нужно еще поглядеть на работу в разных акустических условиях ...

интересно, есть ли опыт генерации языковой модели?
скажем, текст для обучения в основном состоит из нагенеренных n-грамм.

насколько это эффективно?
есть ли методики описывающие, как лучше формировать языковую модель таким образом?
интересует также возможность подключения статистики по n-граммам

w3264	Сообщ. #44 , 29.03.16, 10:44
Junior Профиль · PM Рейтинг (т): нет	добрый день) есть ли в планах на текущий момент интеграция dnn?

nsh	Сообщ. #45 , 29.03.16, 10:49
Moderator Профиль · PM	Цитата есть ли в планах на текущий момент интеграция dnn? Нет

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (4) 1 2 [3] 4 все

[ Script execution time: 0,2369 ] [ 15 queries used ] [ Generated: 4.11.25, 02:26 GMT ]