На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
  
> Как работать с MFCC? , Способы сравнения MFCC
    Привет!

    Интересуюсь темой распознавания речи. Хочу сделать программку для определения диктора, в качестве задачи на летнюю практику.
    Уже научился вычислять MFCC для записи.

    Не могу понять несколько вещей:
    1) Как мне обработать записи диктора для использования их в качестве образцов речи
    2) Как сравнить образцы с записью? Применим ли в этом случае алгоритм DTW? Эффективен ли он? или стоит выбрать другой?
      Цитата eugeny.anik @
      Привет!

      Интересуюсь темой распознавания речи. Хочу сделать программку для определения диктора, в качестве задачи на летнюю практику.
      Уже научился вычислять MFCC для записи.

      Не могу понять несколько вещей:
      1) Как мне обработать записи диктора для использования их в качестве образцов речи
      2) Как сравнить образцы с записью? Применим ли в этом случае алгоритм DTW? Эффективен ли он? или стоит выбрать другой?

      Цитата
      Как мне обработать записи диктора для использования их в качестве образцов речи


      Тишину отрезать, саму речь лучше не трогать

      Цитата
      2) Как сравнить образцы с записью? Применим ли в этом случае алгоритм DTW? Эффективен ли он? или стоит выбрать другой?


      Можно DTW применять. Сейчас он не особо популярен. Последний писк что-то вроде такого c нейросетями:

      https://arxiv.org/pdf/1509.08062.pdf
        Цитата nsh @
        Тишину отрезать, саму речь лучше не трогать


        А если у меня несколько образцов голоса? Я же не могу просто взять средние значения коэффициентов, даже если я выберу за основу DTW. Особенно, если в них будут разные фразы (тексто-независимая идентификация).

        В некоторых статьях находил советы сравнивать со всеми образцами по очереди, но это приведет к замедлению при увеличении количества образцов.

        Цитата nsh @
        Можно DTW применять. Сейчас он не особо популярен.


        А почему не популярен? Не популярен именно в сфере идентификации? Или в работе с речью в целом?

        Цитата nsh @
        Последний писк что-то вроде такого c нейросетями:

        https://arxiv.org/pdf/1509.08062.pdf


        Спасибо! Уже начал читать!
          Цитата eugeny.anik @
          В некоторых статьях находил советы сравнивать со всеми образцами по очереди, но это приведет к замедлению при увеличении количества образцов.


          Cовет правильный, замедление несущественно, так как DTW быстрый алгоритм.

          Цитата
          А почему не популярен?


          Точность маленькая, так как алгоритм не только отслеживает характеристики голоса, но и учитывает манеру произнесения. Если интонацию изменить, совпадения не будет. Более сложные алгоритмы интонацию нормализуют.
            Спасибо, буду погружаться ;)
            0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
            0 пользователей:


            Рейтинг@Mail.ru
            [ Script execution time: 0,0217 ]   [ 15 queries used ]   [ Generated: 19.03.24, 04:33 GMT ]