Определение языка голоса -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.52]

Модераторы: RaD, nsh

Новое голосование

Определение языка голоса

Abraziv

Сообщ. #1 , 14.03.17, 13:42

Junior

Профиль · PM

Рейтинг (т): нет

Доброго времени суток, необходимо разработать модель способную отличить один язык от другого, их всего два. Модель просто должна говорить, что это язык A или же это язык B. Собственно сам вопрос: можно ли получать MFCC всего из всего аудио файла целиком, т.е. без разбиения на кадры, будут ли получившиеся коэффициенты характеризовать принадлежность к языку или же это будет каша, если каша то как лучше поступить?

nsh

Сообщ. #2 , 14.03.17, 14:00

Moderator

Профиль · PM

Цитата

можно ли получать MFCC всего из всего аудио файла целиком, т.е. без разбиения на кадры, будут ли получившиеся

Это будет каша

Цитата

или же это будет каша, если каша то как лучше поступить?

Получить последовательность и натренировать нейросеть рекуррентную. Они обрабатывают последовательности и дают хорошие результаты.

http://www.isca-speech.org/archive/Intersp...6/pdfs/0686.PDF

для тренировки можно keras использовать.

Abraziv	Сообщ. #3 , 14.03.17, 14:03
Junior Профиль · PM Рейтинг (т): нет	Спасибо. Завтра займусь этим.

Abraziv	Сообщ. #4 , 31.05.17, 11:23
Junior Профиль · PM Рейтинг (т): нет	nsh Здравствуйте. Можете объяснить, что такое i-vectors, как их вычислить и как применить их для распознавания речи?

nsh

Сообщ. #5 , 02.06.17, 14:17

Moderator

Профиль · PM

Цитата Abraziv @ 31.05.17, 11:23

Можете объяснить, что такое i-vectors, как их вычислить и как применить их для распознавания речи?

Вот в этой презентации более-менее понятно расписано, но вообще это большая тема

http://people.csail.mit.edu/sshum/talks/iv...h_27Aug2011.pdf

вычислять вектора не просто, лучше готовую библиотеку использовать - kaldi.

Abraziv

Сообщ. #6 , 01.07.17, 09:12

Junior

Профиль · PM

Рейтинг (т): нет

nsh
Использую 3-слойную нейросеть: входной слой: 16 MFCC - 16 delta MFCC - 16 delta delta MFCC; скрытый слой содержит 300 юнитов типа LSTM; выходной слой содержит 2 обычных нейрона с сигмоидальной активационной функцией. Делаю распознавание одного языка от другого. Скажите пожалуйста, добавив 4 слой (между скрытым и выходным) с скажем 100 юнитами LSTM, можно ли увеличить точность распознавания?
Заранее спасибо.
Либо, как можно улучшить предложенную мной архитектуру ???

nsh

Сообщ. #7 , 04.07.17, 12:33

Moderator

Профиль · PM

Цитата Abraziv @ 01.07.17, 09:12

Либо, как можно улучшить предложенную мной архитектуру ???

Для LID все SDC дельты используют, а не обычные, гораздо лучше получается:

Approaches to Language Identification using Gaussian Mixture Models and Shifted Delta Cepstral Features
https://pdfs.semanticscholar.org/d3a3/7f74f...14057dc53b8.pdf

Цитата

Скажите пожалуйста, добавив 4 слой (между скрытым и выходным) с скажем 100 юнитами LSTM, можно ли увеличить точность распознавания?

Такие вещи легче попробовать самому. Результаты тренировки сетей зависят от наличия данных больше, если данных нет, то и натренировать не получится.

Abraziv

Сообщ. #8 , 05.07.17, 10:19

Junior

Профиль · PM

Рейтинг (т): нет

nsh
Спасибо Вам огромное, за то что отвечаете и даёте действительно полезные советы и направляете меня. По Вашим советам достиг значительных успехов.
SDC и использую.
Жаль, что не существует нормальной теоретической подпитки, всё приходится делать методом тыка.
Кстати оптимизировать RNN очень не просто (((((

Столкнулся с тем, что в результате обучения достиг 90% правильных ответов (из 1200 аудио файлов, по 50% каждого языка), а на некоторых группах аудио файлов точность всего 5%, хотя качество хорошее. Может MFCC, не катит здесь, может AGC надо поставить, может слой добавить, может обучающая выборка маловата.

Добавлено 05.07.17, 10:20
А вообще, без глубокого обучения (без семантики, чисто на ЦОСе можно добиться стоящих результатов ?

1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)

0 пользователей:

[ Script execution time: 0,0211 ] [ 14 queries used ] [ Generated: 8.07.25, 14:06 GMT ]