|
Передо мной стоит задача идентифицации говорящего. Я пишу небольшую программу для вычисления MFCC записей речи. В ходе написания возникло несколько вопросов: - Значения отсчетов сигнала я делю на максимальное по модулю значение во всем сигнале, чтобы эти значения уложить в диапазон [-1; 1]. Сильно ли повлияет, и повлиет ли вообще на точность распознания нормализация по максимальному значению только среди отчетов в отдельном кадре, а не во всем сигнале?
- Можно ли использовать в качестве выходного вектора признаков среднее значение коэффициентов для всех кадров, или же лучше применять более изощренные методы?
- Речевая база для тестирования была собрана с частотой дискретизации 16384 Гц, но в дальнешем пришлось разработку вести с использованием фреймворка, который не обрабатывает такие файлы. Если я искусственно повышу частоту дискретизации до, скажем, 22050 Гц, как это отразится на результатах? Я понимаю, что эти частоты в записи не появятся, но в таком случае файлы обрабатываются нормально.
|