
![]() |
Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
|
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[3.21.158.34] |
![]() |
|
Сообщ.
#1
,
|
|
|
Доброго времени суток, необходимо разработать модель способную отличить один язык от другого, их всего два. Модель просто должна говорить, что это язык A или же это язык B. Собственно сам вопрос: можно ли получать MFCC всего из всего аудио файла целиком, т.е. без разбиения на кадры, будут ли получившиеся коэффициенты характеризовать принадлежность к языку или же это будет каша, если каша то как лучше поступить?
|
![]() |
Сообщ.
#2
,
|
|
Цитата можно ли получать MFCC всего из всего аудио файла целиком, т.е. без разбиения на кадры, будут ли получившиеся Это будет каша Цитата или же это будет каша, если каша то как лучше поступить? Получить последовательность и натренировать нейросеть рекуррентную. Они обрабатывают последовательности и дают хорошие результаты. http://www.isca-speech.org/archive/Intersp...6/pdfs/0686.PDF для тренировки можно keras использовать. |
Сообщ.
#3
,
|
|
|
Спасибо. Завтра займусь этим.
|
Сообщ.
#4
,
|
|
|
nsh
Здравствуйте. Можете объяснить, что такое i-vectors, как их вычислить и как применить их для распознавания речи? |
![]() |
Сообщ.
#5
,
|
|
Цитата Abraziv @ Можете объяснить, что такое i-vectors, как их вычислить и как применить их для распознавания речи? Вот в этой презентации более-менее понятно расписано, но вообще это большая тема http://people.csail.mit.edu/sshum/talks/iv...h_27Aug2011.pdf вычислять вектора не просто, лучше готовую библиотеку использовать - kaldi. |
Сообщ.
#6
,
|
|
|
nsh
Использую 3-слойную нейросеть: входной слой: 16 MFCC - 16 delta MFCC - 16 delta delta MFCC; скрытый слой содержит 300 юнитов типа LSTM; выходной слой содержит 2 обычных нейрона с сигмоидальной активационной функцией. Делаю распознавание одного языка от другого. Скажите пожалуйста, добавив 4 слой (между скрытым и выходным) с скажем 100 юнитами LSTM, можно ли увеличить точность распознавания? Заранее спасибо. Либо, как можно улучшить предложенную мной архитектуру ??? |
![]() |
Сообщ.
#7
,
|
|
Цитата Abraziv @ Либо, как можно улучшить предложенную мной архитектуру ??? Для LID все SDC дельты используют, а не обычные, гораздо лучше получается: Approaches to Language Identification using Gaussian Mixture Models and Shifted Delta Cepstral Features https://pdfs.semanticscholar.org/d3a3/7f74f...14057dc53b8.pdf Цитата Скажите пожалуйста, добавив 4 слой (между скрытым и выходным) с скажем 100 юнитами LSTM, можно ли увеличить точность распознавания? Такие вещи легче попробовать самому. Результаты тренировки сетей зависят от наличия данных больше, если данных нет, то и натренировать не получится. |
Сообщ.
#8
,
|
|
|
nsh
Спасибо Вам огромное, за то что отвечаете и даёте действительно полезные советы и направляете меня. По Вашим советам достиг значительных успехов. SDC и использую. Жаль, что не существует нормальной теоретической подпитки, всё приходится делать методом тыка. Кстати оптимизировать RNN очень не просто ((((( Столкнулся с тем, что в результате обучения достиг 90% правильных ответов (из 1200 аудио файлов, по 50% каждого языка), а на некоторых группах аудио файлов точность всего 5%, хотя качество хорошее. Может MFCC, не катит здесь, может AGC надо поставить, может слой добавить, может обучающая выборка маловата. Добавлено А вообще, без глубокого обучения (без семантики, чисто на ЦОСе можно добиться стоящих результатов ? |