
![]() |
Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
|
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[18.97.9.175] |
![]() |
|
Страницы: (4) 1 2 [3] 4 все ( Перейти к последнему сообщению ) |
Сообщ.
#31
,
|
|
|
хехе, пофиг, все наоборот, добавка даже одного фрейма ухудшает какчество распознавания
|
Сообщ.
#32
,
|
|
|
а нет, нормальненько так какие-то лишние 5-6 фреймов спереди улучшают детект первого слова на порядок ...
вы собираетесь фиксить это в ближайшее время или мне самому у себя подкрутить? |
Сообщ.
#33
,
|
|
|
добрый день)
есть ли где-нибудь описание маркеров фонем? типа чем отличается а от aa, от ay ... чем отличается r от rr ... |
Сообщ.
#34
,
|
|
|
Сообщ.
#35
,
|
|
|
спасибо)
|
Сообщ.
#36
,
|
|
|
добрый день)
как можно оптимизировать детект ключевых слов? одно ключевое слово, задается через ключ -keyphrase при -kws_threshold 1e-10 много пропусков слова, которое есть в потоке - много несрабатываний при -kws_threshold 1e-30 много ложных детектов середина указанного диапазона не приносит морального удовлетворения тоже) что можно сделать? пс. тестирование ведется в зашумленной обстановке |
![]() |
Сообщ.
#37
,
|
|
Ключевое слово подлиннее придумать
|
Сообщ.
#38
,
|
|
|
Цитата nsh @ Ключевое слово подлиннее придумать могу скинуть .wav, около 3 секунд, в тишине очетливо произносится слово, kws не детектится |
![]() |
Сообщ.
#39
,
|
|
Это можно было сделать ещё 10 марта.
|
Сообщ.
#40
,
|
|
|
10 марта я надеялся на лучшее), а только уже сегодня решил поплотнее глянуть на внутренность kws_search.c и то что там творится
https://yadi.sk/d/nvkFC8EqqATo5 |
![]() |
Сообщ.
#41
,
|
|
![]() ![]() pocketsphinx_continuous -infile robot_failed.wav -keyphrase "робот" -kws_threshold 1e-10 \ -hmm zero_ru_cont_8k_v3/zero_ru.cd_cont_4000 -dict zero_ru_cont_8k_v3/ru.dic -samprate 8000 .. INFO: cmn_prior.c(131): cmn_prior_update: from < 11.64 0.15 -0.04 0.17 -0.40 -0.03 -0.50 -0.13 -0.33 -0.11 -0.19 -0.10 -0.24 > INFO: cmn_prior.c(149): cmn_prior_update: to < 8.24 0.41 -0.08 0.02 -0.21 -0.10 -0.29 -0.17 -0.22 -0.11 -0.14 -0.07 -0.05 > INFO: kws_search.c(658): kws 0.12 CPU 0.045 xRT INFO: kws_search.c(660): kws 0.13 wall 0.045 xRT робот INFO: cmn_prior.c(131): cmn_prior_update: from < 8.24 0.41 -0.08 0.02 -0.21 -0.10 -0.29 -0.17 -0.22 -0.11 -0.14 -0.07 -0.05 > INFO: cmn_prior.c(149): cmn_prior_update: to < 8.24 0.41 -0.08 0.02 -0.21 -0.10 -0.29 -0.17 -0.22 -0.11 -0.14 -0.07 -0.05 > INFO: kws_search.c(467): TOTAL kws 0.12 CPU 0.045 xRT INFO: kws_search.c(470): TOTAL kws 0.13 wall 0.045 xRT |
Сообщ.
#42
,
|
|
|
извиняюсь, сразу не сказал
тестирую без параметра kws_threshold, т.е. с его значением по умолчанию равным 1 наговариваю последовательно слово, детект идет с таким значением порога вполне нормальный, в какой-то момент он пропадает, совершенно необъяснимым образом попробую тоже самое сделать с порогом 1e-10, возможно получится воспроизвести поток с недетектом пс. недетектов при пороге 1e-10 на порядок меньше, да, и что самое плохое - они плохо воспроизводятся если из поток поднимать из записанного файла - ибо конечно кое-что уже меняется, подстройки того же cnm ... погоняю еще, если получится воспроизвести - отпишусь в любом случае - спасибо за ответы) |
Сообщ.
#43
,
|
|
|
увеличил на слог ключевое слово, стал хороший детект почти без ложных срабатываний даже на 1e-20, спасибо), правда нужно еще поглядеть на работу в разных акустических условиях ...
интересно, есть ли опыт генерации языковой модели? скажем, текст для обучения в основном состоит из нагенеренных n-грамм. насколько это эффективно? есть ли методики описывающие, как лучше формировать языковую модель таким образом? интересует также возможность подключения статистики по n-граммам |
Сообщ.
#44
,
|
|
|
добрый день)
есть ли в планах на текущий момент интеграция dnn? |
![]() |
Сообщ.
#45
,
|
|
Цитата есть ли в планах на текущий момент интеграция dnn? Нет |