Модель для Kaldi -> Форум на Исходниках.RU [Powered by Invision Power Board]

Версия для печати
Нажмите сюда для просмотра этой темы в оригинальном формате

Форум на Исходниках.RU > Речевые Технологии > Модель для Kaldi

Автор: nsh 20.09.17, 11:38

Недавно выложили русскую модель для распознавания речи с Kaldi (500 Мб)

goo.gl/Rg8ynd

Модель довольно точная, натренирована на больших данных.

Автор: zamir 21.09.17, 08:14

Николай, спасибо большое!

Мой маленький тест модель проходит блестяще

Модель на rate 8кГц
Кто-нибудь пробовал запустить эту модель совместно вот с эти проектом?
https://github.com/andrenatal/asr-server

Проект подразумевает использование моделей 16кГц
Я сделал небольшие правки, но результат орицательный (на выходе пустая строка)
Есть-ли у кого-нибудь желание помочь или разобраться?

--- asr-server.16kHz/src/OnlineDecoder.cc 2017-09-20 21:11:56.000000000 +0300
+++ asr-server/src/OnlineDecoder.cc 2017-09-21 11:03:34.699170211 +0300
@@ -19,7 +19,7 @@
namespace apiai {

#define PAD_SIZE 400
-#define AUDIO_DATA_FREQUENCY 16000
+#define AUDIO_DATA_FREQUENCY 8000
kaldi::BaseFloat padVector[PAD_SIZE];

--- asr-server.16kHz/src/RequestRawReader.h 2017-09-20 21:11:56.000000000 +0300
+++ asr-server/src/RequestRawReader.h 2017-09-21 00:56:04.211189212 +0300
@@ -39,7 +39,7 @@
current_chunk_ = NULL;

is_ = is;
- frequency_ = 16000;
+ frequency_ = 8000;
bytes_per_sample_ = 16 / 8;
channels_ = 1;
channel_index_ = 0;

Автор: nsh 21.09.17, 15:19

Там надо OnlineNnet2FeaturePipeline на OnlineNnetFeaturePipeline менять, не очень тривиальная задача.

Автор: Excalib 25.05.18, 12:34

zamir Привет, слушай, вопрос мб не совсем по теме, но нужна помощь, не мог бы подсказать как можно использовать калди с этой моделью в своем проекте на плюсах или C#

Автор: zamir 25.05.18, 12:45

Привет
Я не специалист в этом вопросе.
Лучше обращаться ко всем или к Николаю. В этом случае вероятность получения ответа резко возрастает

А вопрос технический или юридический?
Если технический, то kaldi написан на C++, поэтому вопрос интеграции - это вопрос умения работать на C++ с использованием сторонынних библиотек.
Если вопрос юридический, то предлагаю прочитать лицензию

Вроде ответил, но почему-то есть сомнение, что чем-то помог

Автор: nsh 23.03.20, 16:22

Как-то подзабыл про наш форум. Недавно выложил kaldi-ru-0.7

https://alphacephei.com/kaldi/kaldi-ru-0.7.tar.gz (1.9Gb)

Изменения в новый версии:

Больше модель, натренирована больше эпох + specaugment (не особо полезен)
Больше языковая модель, натренирована на большом корпусе текстов

Оценки процента ошибок распознавания:

Данные с https://github.com/snakers4/open_stt с исправлениями (в папке openstt-ref)

<{CODE_COLLAPSE_OFF}><{CODE_WRAP_OFF}>

| Model | v0.6 WER | v0.7 WER |

|-----------------------|------------|------------|

| asr_calls_2_val | 54.47 | 47.05 |

| public_youtube700_val | 37.55 | 30.13 |

| audiobooks(our) | 8.86 | 6.61 |

Попробовать через vosk-api или докер:

<{CODE_COLLAPSE_OFF}><{CODE_WRAP_OFF}>

docker run -p 2700:2700 alphacep/kaldi-ru

Автор: nsh 21.04.20, 10:22

Выложил kaldi-ru-0.9

https://alphacephei.com/kaldi/kaldi-ru-0.9.tar.gz (2.5Gb)

Натренировал RNNLM

<{CODE_COLLAPSE_OFF}><{CODE_WRAP_OFF}>

## WER estimates

|------------------------------------------|------------|------------|------------|------------|

| asr_calls_2_val (snakers4/open_stt) | 54.47 | 47.05 | 41.81 | 40.15 |

| public_youtube700_val (snakers4/open_stt)| 37.55 | 30.13 | 27.46 | 26.20 |

| audiobooks (snakers4/open_stt) | | | 17.13 | 16.26 |

| audiobooks (our) | 8.86 | 6.61 | 6.48 | 5.71 |

docker не обновлял, vosk-server не поддерживает ещё rnnlm. rnnlm-ка плохо для русского пошла - большой словарь слишком и модель тренируется плохо. Embeddingи под 3гб. Интересный у нас язык. Но всё равно рекомендуется, так как результат получается гораздо более читаемый. Падежи лучше согласуются и так далее.

Сообщения были разделены в тему "spam"