На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (4) 1 2 [3] 4  все  ( Перейти к последнему сообщению )  
> Возможны ли динамические n-граммы в CMU sphinx?
    хехе, пофиг, все наоборот, добавка даже одного фрейма ухудшает какчество распознавания
      а нет, нормальненько так какие-то лишние 5-6 фреймов спереди улучшают детект первого слова на порядок ...

      вы собираетесь фиксить это в ближайшее время или мне самому у себя подкрутить?
      Сообщение отредактировано: w3264 -
        добрый день)

        есть ли где-нибудь описание маркеров фонем?
        типа чем отличается а от aa, от ay ... чем отличается r от rr ...
            спасибо)
              добрый день)

              как можно оптимизировать детект ключевых слов?

              одно ключевое слово, задается через ключ -keyphrase
              при -kws_threshold 1e-10 много пропусков слова, которое есть в потоке - много несрабатываний
              при -kws_threshold 1e-30 много ложных детектов
              середина указанного диапазона не приносит морального удовлетворения тоже)

              что можно сделать?

              пс. тестирование ведется в зашумленной обстановке
              Сообщение отредактировано: w3264 -
                Ключевое слово подлиннее придумать
                  Цитата nsh @
                  Ключевое слово подлиннее придумать

                  могу скинуть .wav, около 3 секунд, в тишине очетливо произносится слово, kws не детектится
                    Это можно было сделать ещё 10 марта.
                      10 марта я надеялся на лучшее), а только уже сегодня решил поплотнее глянуть на внутренность kws_search.c и то что там творится

                      https://yadi.sk/d/nvkFC8EqqATo5
                        ExpandedWrap disabled
                          pocketsphinx_continuous -infile robot_failed.wav -keyphrase "робот" -kws_threshold 1e-10 \
                          -hmm zero_ru_cont_8k_v3/zero_ru.cd_cont_4000 -dict zero_ru_cont_8k_v3/ru.dic  -samprate 8000
                          ..
                          INFO: cmn_prior.c(131): cmn_prior_update: from < 11.64  0.15 -0.04  0.17 -0.40 -0.03 -0.50 -0.13 -0.33 -0.11 -0.19 -0.10 -0.24 >
                          INFO: cmn_prior.c(149): cmn_prior_update: to   <  8.24  0.41 -0.08  0.02 -0.21 -0.10 -0.29 -0.17 -0.22 -0.11 -0.14 -0.07 -0.05 >
                          INFO: kws_search.c(658): kws 0.12 CPU 0.045 xRT
                          INFO: kws_search.c(660): kws 0.13 wall 0.045 xRT
                          робот
                          INFO: cmn_prior.c(131): cmn_prior_update: from <  8.24  0.41 -0.08  0.02 -0.21 -0.10 -0.29 -0.17 -0.22 -0.11 -0.14 -0.07 -0.05 >
                          INFO: cmn_prior.c(149): cmn_prior_update: to   <  8.24  0.41 -0.08  0.02 -0.21 -0.10 -0.29 -0.17 -0.22 -0.11 -0.14 -0.07 -0.05 >
                          INFO: kws_search.c(467): TOTAL kws 0.12 CPU 0.045 xRT
                          INFO: kws_search.c(470): TOTAL kws 0.13 wall 0.045 xRT
                          извиняюсь, сразу не сказал

                          тестирую без параметра kws_threshold, т.е. с его значением по умолчанию равным 1

                          наговариваю последовательно слово, детект идет с таким значением порога вполне нормальный, в какой-то момент он пропадает, совершенно необъяснимым образом

                          попробую тоже самое сделать с порогом 1e-10, возможно получится воспроизвести поток с недетектом

                          пс. недетектов при пороге 1e-10 на порядок меньше, да, и что самое плохое - они плохо воспроизводятся если из поток поднимать из записанного файла - ибо конечно кое-что уже меняется, подстройки того же cnm ... погоняю еще, если получится воспроизвести - отпишусь

                          в любом случае - спасибо за ответы)
                          Сообщение отредактировано: w3264 -
                            увеличил на слог ключевое слово, стал хороший детект почти без ложных срабатываний даже на 1e-20, спасибо), правда нужно еще поглядеть на работу в разных акустических условиях ...

                            интересно, есть ли опыт генерации языковой модели?
                            скажем, текст для обучения в основном состоит из нагенеренных n-грамм.

                            насколько это эффективно?
                            есть ли методики описывающие, как лучше формировать языковую модель таким образом?
                            интересует также возможность подключения статистики по n-граммам
                              добрый день)

                              есть ли в планах на текущий момент интеграция dnn?
                                Цитата
                                есть ли в планах на текущий момент интеграция dnn?


                                Нет
                                0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                0 пользователей:
                                Страницы: (4) 1 2 [3] 4  все


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,2732 ]   [ 15 queries used ]   [ Generated: 27.04.24, 12:29 GMT ]