Версия для печати
Нажмите сюда для просмотра этой темы в оригинальном формате
Форум на Исходниках.RU > Речевые Технологии > Идентификация диктора (MFCC)


Автор: uptys 15.04.13, 16:37
Передо мной стоит задача идентифицации говорящего. Я пишу небольшую программу для вычисления MFCC записей речи. В ходе написания возникло несколько вопросов:
  1. Значения отсчетов сигнала я делю на максимальное по модулю значение во всем сигнале, чтобы эти значения уложить в диапазон [-1; 1]. Сильно ли повлияет, и повлиет ли вообще на точность распознания нормализация по максимальному значению только среди отчетов в отдельном кадре, а не во всем сигнале?
  2. Можно ли использовать в качестве выходного вектора признаков среднее значение коэффициентов для всех кадров, или же лучше применять более изощренные методы?
  3. Речевая база для тестирования была собрана с частотой дискретизации 16384 Гц, но в дальнешем пришлось разработку вести с использованием фреймворка, который не обрабатывает такие файлы. Если я искусственно повышу частоту дискретизации до, скажем, 22050 Гц, как это отразится на результатах? Я понимаю, что эти частоты в записи не появятся, но в таком случае файлы обрабатываются нормально.

Автор: Haze 16.04.13, 18:41
3. Можно до 8000 понизить, для речи этого хватит. Или до 11025. Вообще, повышение ЧД не должено влиять на результат, но зачем вам лишние цифры?

Powered by Invision Power Board (https://www.invisionboard.com)
© Invision Power Services (https://www.invisionpower.com)