Модель для Kaldi -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.52]

Модераторы: RaD, nsh

Новое голосование

Модель для Kaldi

nsh	Сообщ. #1 , 20.09.17, 11:38
Moderator Профиль · PM	Недавно выложили русскую модель для распознавания речи с Kaldi (500 Мб) goo.gl/Rg8ynd Модель довольно точная, натренирована на больших данных.

zamir

Сообщ. #2 , 21.09.17, 08:14

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Николай, спасибо большое!

Мой маленький тест модель проходит блестяще

Модель на rate 8кГц
Кто-нибудь пробовал запустить эту модель совместно вот с эти проектом?
https://github.com/andrenatal/asr-server

Проект подразумевает использование моделей 16кГц
Я сделал небольшие правки, но результат орицательный (на выходе пустая строка)
Есть-ли у кого-нибудь желание помочь или разобраться?

--- asr-server.16kHz/src/OnlineDecoder.cc 2017-09-20 21:11:56.000000000 +0300
+++ asr-server/src/OnlineDecoder.cc 2017-09-21 11:03:34.699170211 +0300
@@ -19,7 +19,7 @@
namespace apiai {

#define PAD_SIZE 400
-#define AUDIO_DATA_FREQUENCY 16000
+#define AUDIO_DATA_FREQUENCY 8000
kaldi::BaseFloat padVector[PAD_SIZE];

--- asr-server.16kHz/src/RequestRawReader.h 2017-09-20 21:11:56.000000000 +0300
+++ asr-server/src/RequestRawReader.h 2017-09-21 00:56:04.211189212 +0300
@@ -39,7 +39,7 @@
current_chunk_ = NULL;

is_ = is;
- frequency_ = 16000;
+ frequency_ = 8000;
bytes_per_sample_ = 16 / 8;
channels_ = 1;
channel_index_ = 0;

nsh	Сообщ. #3 , 21.09.17, 15:19
Moderator Профиль · PM	Там надо OnlineNnet2FeaturePipeline на OnlineNnetFeaturePipeline менять, не очень тривиальная задача.

Excalib	Сообщ. #4 , 25.05.18, 12:34
Newbie Профиль · PM Рейтинг (т): нет	zamir Привет, слушай, вопрос мб не совсем по теме, но нужна помощь, не мог бы подсказать как можно использовать калди с этой моделью в своем проекте на плюсах или C#

zamir

Сообщ. #5 , 25.05.18, 12:45

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Привет
Я не специалист в этом вопросе.
Лучше обращаться ко всем или к Николаю. В этом случае вероятность получения ответа резко возрастает

А вопрос технический или юридический?
Если технический, то kaldi написан на C++, поэтому вопрос интеграции - это вопрос умения работать на C++ с использованием сторонынних библиотек.
Если вопрос юридический, то предлагаю прочитать лицензию

Вроде ответил, но почему-то есть сомнение, что чем-то помог

nsh

Сообщ. #6 , 23.03.20, 16:22

Moderator

Профиль · PM

Как-то подзабыл про наш форум. Недавно выложил kaldi-ru-0.7

https://alphacephei.com/kaldi/kaldi-ru-0.7.tar.gz (1.9Gb)

Изменения в новый версии:

Больше модель, натренирована больше эпох + specaugment (не особо полезен)
Больше языковая модель, натренирована на большом корпусе текстов

Оценки процента ошибок распознавания:

Данные с https://github.com/snakers4/open_stt с исправлениями (в папке openstt-ref)

| Model | v0.6 WER | v0.7 WER |

|-----------------------|------------|------------|

| asr_calls_2_val | 54.47 | 47.05 |

| public_youtube700_val | 37.55 | 30.13 |

| audiobooks(our) | 8.86 | 6.61 |

Попробовать через vosk-api или докер:

docker run -p 2700:2700 alphacep/kaldi-ru

nsh

Сообщ. #7 , 21.04.20, 10:22

Moderator

Профиль · PM

Выложил kaldi-ru-0.9

https://alphacephei.com/kaldi/kaldi-ru-0.9.tar.gz (2.5Gb)

Натренировал RNNLM

## WER estimates

|------------------------------------------|------------|------------|------------|------------|

| asr_calls_2_val (snakers4/open_stt) | 54.47 | 47.05 | 41.81 | 40.15 |

| public_youtube700_val (snakers4/open_stt)| 37.55 | 30.13 | 27.46 | 26.20 |

| audiobooks (snakers4/open_stt) | | | 17.13 | 16.26 |

| audiobooks (our) | 8.86 | 6.61 | 6.48 | 5.71 |

docker не обновлял, vosk-server не поддерживает ещё rnnlm. rnnlm-ка плохо для русского пошла - большой словарь слишком и модель тренируется плохо. Embeddingи под 3гб. Интересный у нас язык. Но всё равно рекомендуется, так как результат получается гораздо более читаемый. Падежи лучше согласуются и так далее.

Сообщения были разделены в тему "spam"

1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)

0 пользователей:

[ Script execution time: 0,0283 ] [ 14 queries used ] [ Generated: 4.07.25, 21:25 GMT ]