Версия для печати
Нажмите сюда для просмотра этой темы в оригинальном формате
Форум на Исходниках.RU > Речевые Технологии > Модель для Kaldi


Автор: nsh 20.09.17, 11:38
Недавно выложили русскую модель для распознавания речи с Kaldi (500 Мб)

goo.gl/Rg8ynd

Модель довольно точная, натренирована на больших данных.

Автор: zamir 21.09.17, 08:14
Николай, спасибо большое!

Мой маленький тест модель проходит блестяще :)
Модель на rate 8кГц
Кто-нибудь пробовал запустить эту модель совместно вот с эти проектом?
https://github.com/andrenatal/asr-server

Проект подразумевает использование моделей 16кГц
Я сделал небольшие правки, но результат орицательный (на выходе пустая строка)
Есть-ли у кого-нибудь желание помочь или разобраться? :)

--- asr-server.16kHz/src/OnlineDecoder.cc 2017-09-20 21:11:56.000000000 +0300
+++ asr-server/src/OnlineDecoder.cc 2017-09-21 11:03:34.699170211 +0300
@@ -19,7 +19,7 @@
namespace apiai {

#define PAD_SIZE 400
-#define AUDIO_DATA_FREQUENCY 16000
+#define AUDIO_DATA_FREQUENCY 8000
kaldi::BaseFloat padVector[PAD_SIZE];


--- asr-server.16kHz/src/RequestRawReader.h 2017-09-20 21:11:56.000000000 +0300
+++ asr-server/src/RequestRawReader.h 2017-09-21 00:56:04.211189212 +0300
@@ -39,7 +39,7 @@
current_chunk_ = NULL;

is_ = is;
- frequency_ = 16000;
+ frequency_ = 8000;
bytes_per_sample_ = 16 / 8;
channels_ = 1;
channel_index_ = 0;

Автор: nsh 21.09.17, 15:19
Там надо OnlineNnet2FeaturePipeline на OnlineNnetFeaturePipeline менять, не очень тривиальная задача.

Автор: Excalib 25.05.18, 12:34
zamir Привет, слушай, вопрос мб не совсем по теме, но нужна помощь, не мог бы подсказать как можно использовать калди с этой моделью в своем проекте на плюсах или C#

Автор: zamir 25.05.18, 12:45
Привет
Я не специалист в этом вопросе.
Лучше обращаться ко всем или к Николаю. В этом случае вероятность получения ответа резко возрастает ;)
А вопрос технический или юридический?
Если технический, то kaldi написан на C++, поэтому вопрос интеграции - это вопрос умения работать на C++ с использованием сторонынних библиотек.
Если вопрос юридический, то предлагаю прочитать лицензию :)
Вроде ответил, но почему-то есть сомнение, что чем-то помог :)

Автор: nsh 23.03.20, 16:22
Как-то подзабыл про наш форум. Недавно выложил kaldi-ru-0.7

https://alphacephei.com/kaldi/kaldi-ru-0.7.tar.gz (1.9Gb)

Изменения в новый версии:

Больше модель, натренирована больше эпох + specaugment (не особо полезен)
Больше языковая модель, натренирована на большом корпусе текстов

Оценки процента ошибок распознавания:

Данные с https://github.com/snakers4/open_stt с исправлениями (в папке openstt-ref)

<{CODE_COLLAPSE_OFF}><{CODE_WRAP_OFF}>
    | Model                 |  v0.6 WER  |  v0.7 WER  |
    |-----------------------|------------|------------|
    | asr_calls_2_val       |    54.47   |    47.05   |
    | public_youtube700_val |    37.55   |    30.13   |
    | audiobooks(our)       |    8.86    |    6.61    |


Попробовать через vosk-api или докер:

<{CODE_COLLAPSE_OFF}><{CODE_WRAP_OFF}>
    docker run -p 2700:2700 alphacep/kaldi-ru

Автор: nsh 21.04.20, 10:22
Выложил kaldi-ru-0.9

https://alphacephei.com/kaldi/kaldi-ru-0.9.tar.gz (2.5Gb)

Натренировал RNNLM

<{CODE_COLLAPSE_OFF}><{CODE_WRAP_OFF}>
    ## WER estimates
     
    | Model                                    |  v0.6 WER  |  v0.7 WER  |  v0.8 WER  |  v0.9 WER  |
    |------------------------------------------|------------|------------|------------|------------|
    | asr_calls_2_val (snakers4/open_stt)      |    54.47   |    47.05   |   41.81    |    40.15   |
    | public_youtube700_val (snakers4/open_stt)|    37.55   |    30.13   |   27.46    |    26.20   |
    | audiobooks (snakers4/open_stt)           |            |            |   17.13    |    16.26   |
    | audiobooks (our)                         |    8.86    |    6.61    |   6.48     |    5.71    |


docker не обновлял, vosk-server не поддерживает ещё rnnlm. rnnlm-ка плохо для русского пошла - большой словарь слишком и модель тренируется плохо. Embeddingи под 3гб. Интересный у нас язык. Но всё равно рекомендуется, так как результат получается гораздо более читаемый. Падежи лучше согласуются и так далее.

Сообщения были разделены в тему "spam"

Powered by Invision Power Board (https://www.invisionboard.com)
© Invision Power Services (https://www.invisionpower.com)