На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
  
> Идентификация диктора (MFCC)
    Передо мной стоит задача идентифицации говорящего. Я пишу небольшую программу для вычисления MFCC записей речи. В ходе написания возникло несколько вопросов:
    1. Значения отсчетов сигнала я делю на максимальное по модулю значение во всем сигнале, чтобы эти значения уложить в диапазон [-1; 1]. Сильно ли повлияет, и повлиет ли вообще на точность распознания нормализация по максимальному значению только среди отчетов в отдельном кадре, а не во всем сигнале?
    2. Можно ли использовать в качестве выходного вектора признаков среднее значение коэффициентов для всех кадров, или же лучше применять более изощренные методы?
    3. Речевая база для тестирования была собрана с частотой дискретизации 16384 Гц, но в дальнешем пришлось разработку вести с использованием фреймворка, который не обрабатывает такие файлы. Если я искусственно повышу частоту дискретизации до, скажем, 22050 Гц, как это отразится на результатах? Я понимаю, что эти частоты в записи не появятся, но в таком случае файлы обрабатываются нормально.
      3. Можно до 8000 понизить, для речи этого хватит. Или до 11025. Вообще, повышение ЧД не должено влиять на результат, но зачем вам лишние цифры?
      0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
      0 пользователей:


      Рейтинг@Mail.ru
      [ Script execution time: 0,0154 ]   [ 15 queries used ]   [ Generated: 27.04.24, 07:40 GMT ]