На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
  
> Модель для Kaldi
    Недавно выложили русскую модель для распознавания речи с Kaldi (500 Мб)

    goo.gl/Rg8ynd

    Модель довольно точная, натренирована на больших данных.
      Николай, спасибо большое!

      Мой маленький тест модель проходит блестяще :)
      Модель на rate 8кГц
      Кто-нибудь пробовал запустить эту модель совместно вот с эти проектом?
      https://github.com/andrenatal/asr-server

      Проект подразумевает использование моделей 16кГц
      Я сделал небольшие правки, но результат орицательный (на выходе пустая строка)
      Есть-ли у кого-нибудь желание помочь или разобраться? :)

      --- asr-server.16kHz/src/OnlineDecoder.cc 2017-09-20 21:11:56.000000000 +0300
      +++ asr-server/src/OnlineDecoder.cc 2017-09-21 11:03:34.699170211 +0300
      @@ -19,7 +19,7 @@
      namespace apiai {

      #define PAD_SIZE 400
      -#define AUDIO_DATA_FREQUENCY 16000
      +#define AUDIO_DATA_FREQUENCY 8000
      kaldi::BaseFloat padVector[PAD_SIZE];


      --- asr-server.16kHz/src/RequestRawReader.h 2017-09-20 21:11:56.000000000 +0300
      +++ asr-server/src/RequestRawReader.h 2017-09-21 00:56:04.211189212 +0300
      @@ -39,7 +39,7 @@
      current_chunk_ = NULL;

      is_ = is;
      - frequency_ = 16000;
      + frequency_ = 8000;
      bytes_per_sample_ = 16 / 8;
      channels_ = 1;
      channel_index_ = 0;
        Там надо OnlineNnet2FeaturePipeline на OnlineNnetFeaturePipeline менять, не очень тривиальная задача.
          zamir Привет, слушай, вопрос мб не совсем по теме, но нужна помощь, не мог бы подсказать как можно использовать калди с этой моделью в своем проекте на плюсах или C#
            Привет
            Я не специалист в этом вопросе.
            Лучше обращаться ко всем или к Николаю. В этом случае вероятность получения ответа резко возрастает ;)
            А вопрос технический или юридический?
            Если технический, то kaldi написан на C++, поэтому вопрос интеграции - это вопрос умения работать на C++ с использованием сторонынних библиотек.
            Если вопрос юридический, то предлагаю прочитать лицензию :)
            Вроде ответил, но почему-то есть сомнение, что чем-то помог :)
              Как-то подзабыл про наш форум. Недавно выложил kaldi-ru-0.7

              https://alphacephei.com/kaldi/kaldi-ru-0.7.tar.gz (1.9Gb)

              Изменения в новый версии:

              Больше модель, натренирована больше эпох + specaugment (не особо полезен)
              Больше языковая модель, натренирована на большом корпусе текстов

              Оценки процента ошибок распознавания:

              Данные с https://github.com/snakers4/open_stt с исправлениями (в папке openstt-ref)

              ExpandedWrap disabled
                | Model                 |  v0.6 WER  |  v0.7 WER  |
                |-----------------------|------------|------------|
                | asr_calls_2_val       |    54.47   |    47.05   |
                | public_youtube700_val |    37.55   |    30.13   |
                | audiobooks(our)       |    8.86    |    6.61    |


              Попробовать через vosk-api или докер:

              ExpandedWrap disabled
                docker run -p 2700:2700 alphacep/kaldi-ru
                Выложил kaldi-ru-0.9

                https://alphacephei.com/kaldi/kaldi-ru-0.9.tar.gz (2.5Gb)

                Натренировал RNNLM

                ExpandedWrap disabled
                  ## WER estimates
                   
                  | Model                                    |  v0.6 WER  |  v0.7 WER  |  v0.8 WER  |  v0.9 WER  |
                  |------------------------------------------|------------|------------|------------|------------|
                  | asr_calls_2_val (snakers4/open_stt)      |    54.47   |    47.05   |   41.81    |    40.15   |
                  | public_youtube700_val (snakers4/open_stt)|    37.55   |    30.13   |   27.46    |    26.20   |
                  | audiobooks (snakers4/open_stt)           |            |            |   17.13    |    16.26   |
                  | audiobooks (our)                         |    8.86    |    6.61    |   6.48     |    5.71    |


                docker не обновлял, vosk-server не поддерживает ещё rnnlm. rnnlm-ка плохо для русского пошла - большой словарь слишком и модель тренируется плохо. Embeddingи под 3гб. Интересный у нас язык. Но всё равно рекомендуется, так как результат получается гораздо более читаемый. Падежи лучше согласуются и так далее.

                Сообщения были разделены в тему "spam"
                0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                0 пользователей:


                Рейтинг@Mail.ru
                [ Script execution time: 0,0321 ]   [ 16 queries used ]   [ Generated: 19.03.24, 08:48 GMT ]