На главную
ПРАВИЛА FAQ Помощь Участники Календарь Избранное DigiMania RSS
msm.ru
Модераторы: RaD, nsh
  
> Определение языка голоса
    Доброго времени суток, необходимо разработать модель способную отличить один язык от другого, их всего два. Модель просто должна говорить, что это язык A или же это язык B. Собственно сам вопрос: можно ли получать MFCC всего из всего аудио файла целиком, т.е. без разбиения на кадры, будут ли получившиеся коэффициенты характеризовать принадлежность к языку или же это будет каша, если каша то как лучше поступить?
      Цитата
      можно ли получать MFCC всего из всего аудио файла целиком, т.е. без разбиения на кадры, будут ли получившиеся


      Это будет каша

      Цитата
      или же это будет каша, если каша то как лучше поступить?


      Получить последовательность и натренировать нейросеть рекуррентную. Они обрабатывают последовательности и дают хорошие результаты.

      http://www.isca-speech.org/archive/Intersp...6/pdfs/0686.PDF

      для тренировки можно keras использовать.
      http://nshmyrev.blogspot.com
        Спасибо. Завтра займусь этим.
          nsh
          Здравствуйте. Можете объяснить, что такое i-vectors, как их вычислить и как применить их для распознавания речи?
            Цитата Abraziv @
            Можете объяснить, что такое i-vectors, как их вычислить и как применить их для распознавания речи?


            Вот в этой презентации более-менее понятно расписано, но вообще это большая тема

            http://people.csail.mit.edu/sshum/talks/iv...h_27Aug2011.pdf

            вычислять вектора не просто, лучше готовую библиотеку использовать - kaldi.
            http://nshmyrev.blogspot.com
              nsh
              Использую 3-слойную нейросеть: входной слой: 16 MFCC - 16 delta MFCC - 16 delta delta MFCC; скрытый слой содержит 300 юнитов типа LSTM; выходной слой содержит 2 обычных нейрона с сигмоидальной активационной функцией. Делаю распознавание одного языка от другого. Скажите пожалуйста, добавив 4 слой (между скрытым и выходным) с скажем 100 юнитами LSTM, можно ли увеличить точность распознавания?
              Заранее спасибо.
              Либо, как можно улучшить предложенную мной архитектуру ???
                Цитата Abraziv @
                Либо, как можно улучшить предложенную мной архитектуру ???


                Для LID все SDC дельты используют, а не обычные, гораздо лучше получается:

                Approaches to Language Identification using Gaussian Mixture Models and Shifted Delta Cepstral Features
                https://pdfs.semanticscholar.org/d3a3/7f74f...14057dc53b8.pdf

                Цитата
                Скажите пожалуйста, добавив 4 слой (между скрытым и выходным) с скажем 100 юнитами LSTM, можно ли увеличить точность распознавания?


                Такие вещи легче попробовать самому. Результаты тренировки сетей зависят от наличия данных больше, если данных нет, то и натренировать не получится.
                http://nshmyrev.blogspot.com
                  nsh
                  Спасибо Вам огромное, за то что отвечаете и даёте действительно полезные советы и направляете меня. По Вашим советам достиг значительных успехов.
                  SDC и использую.
                  Жаль, что не существует нормальной теоретической подпитки, всё приходится делать методом тыка.
                  Кстати оптимизировать RNN очень не просто (((((

                  Столкнулся с тем, что в результате обучения достиг 90% правильных ответов (из 1200 аудио файлов, по 50% каждого языка), а на некоторых группах аудио файлов точность всего 5%, хотя качество хорошее. Может MFCC, не катит здесь, может AGC надо поставить, может слой добавить, может обучающая выборка маловата.

                  Добавлено
                  А вообще, без глубокого обучения (без семантики, чисто на ЦОСе можно добиться стоящих результатов ?
                  1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)
                  0 пользователей:


                  Рейтинг@Mail.ru
                  [ Script Execution time: 0,0868 ]   [ 14 queries used ]   [ Generated: 21.10.17, 10:06 GMT ]