Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[34.231.180.210] |
|
Страницы: (2) 1 [2] все ( Перейти к последнему сообщению ) |
Сообщ.
#16
,
|
|
|
Цитата immort001 @ Цитата (Haze @ 30 июля, 22:55) А что, если не по осциллограмме сигнала это делать, а по спектрам периодов сигнала? Делайте на основе MFCC и не изобретайте велосипед. Все делали -- у всех работает. |
Сообщ.
#17
,
|
|
|
Хорошо, а какие тогда ещё можно использовать способы? |
Сообщ.
#18
,
|
|
|
Мел-кепстральные коэффициенты привязаны к конкретному голосу диктора. Этот метод лучше использовать в системах идентификации человека по голосу.
В свое время я программно резал гласные на периоды и сравнивал на графике (нужна расяжка, тк период понемногу изменяется в соответствии с интонацией) и даже пытался вычитать периоды друг из друга. Для выделения границ фонем использовал временной сдвиг на 1 период и вычитание сигналов по всему файлов. В теории должно что-то получится, а на практике ничего не получилось. Если из значений звукового файла вычесть те же значения его копии, то получается 0, те сдвигаешь на 1 период и получаются всплески на границах и прямая линия на остальном участке. Лучше не пробовать. |
Сообщ.
#19
,
|
|
|
Цитата Мел-кепстральные коэффициенты привязаны к конкретному голосу диктора. Это не сильно мешает распознаванию гласных звуков. Усреднённые модели дают не плохой результат. Если в процессе распознавания адаптироваться к речевому тракту диктора, то результат распозвания гласных станет даже очень хорошим. В интернет есть результаты экспереминтов распознавания гласных при помощи формант при усреднении по всем дикторам и усреднении по распознаваемому диктору - результаты вполне причные, и это при том что признаков гораздо меньше чем в mfcc. |