MFCC -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.207]

Модераторы: RaD, nsh

Новое голосование

MFCC

TViT

Сообщ. #31 , 03.09.12, 07:08

Member

Профиль · PM

Рейтинг (т): 0

Народ а подскажите в чем смысл DCT. Читал про MFCC там на графиках показано что LPC, MFCC после DCT это коэффициенты которые огибают спектр что-то типа усреднения. Экспериментировал у себя по всякому после гребенки фильтров DCT, получается либо какой-то градиент, либо просто коэффициенты не похожие на спектр огибания. Да и примеры сколько не скачивал по DCT тоже спектр там не получается всегда квантуется или фильтруется и потом инверсное DCT.
В чем проблема нужно делать квантование после DCT и потом инверсное DCT ? Чтобы получить как бы сжатые данные, информации о спектре?

А если LPC и MFCC коэффициенты это упрощение и усреднение спектра для уменьшения данных, то почему не сделать просто скользящее среднее по спектру получится таже самая огибиющая спектра?
Я правильно мыслю?

Вот картинка от сюда ->
Aldebaro Klautau - 11/22/05
How are MFCCs used in speech recognition
Прикреплённый файл

Coeffs.JPG (71,56 Кбайт, скачиваний: 608)

Сообщение отредактировано: TViT - 03.09.12, 17:01

zamir

Сообщ. #32 , 04.09.12, 08:23

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Квантование - вами выбрано правильное слово
Задача DCT сделать квантование
Получаем например 13 коэффициентов квантования
Если будем смотреть только первый коэффициент - видим изменение большого кванта энергии
Следующий коэффициент - квант энергии меньшего размера (второй наиболее значимый признак)
и т.д.

MFCC часто сравнивают с PCA - т.е. в обоих случаях выделяются главные компоненты которые упорядочены в порядке уменьшения их значимости

Упорядоченные признаки нужны системе распознавания

Сообщение отредактировано: zamir - 04.09.12, 08:31

TViT

Сообщ. #33 , 04.09.12, 09:06

Member

Профиль · PM

Рейтинг (т): 0

zamir ну тык инверсное DCT делать нужно??? Чтобы обратно к спектру вернуться, только с потерей информации. А если инверсное DCT не делать, то огибающей спектра не получится, будут просто коэффициенты косинусного преобразования.
Первый самый значащий коэффициент, а остальные менее значащие, если обнулить, то будет соответственно уровень сжатия с потерей начальных спектральных данных. И всегда коэффициент первый самый главный, а остальные можно обнулять это влияет на сжатие и потерю информации о спектре. Это же не огибающая спектра получится. Вот инверсное DCT вернет обратно в спектр и получится спектральная информация, только сжатая с потерей качества.

А 13 первых коэффициентов, это при условии что 20 фильтров во временном окне, например слово делиться тоже на 20 временных окон, тайм слотов? Если фильтров например 30 то нужно первые 20 коэффициентов брать? Иначе потери информации о спектре будут сильными при сжатии.

Сообщение отредактировано: TViT - 04.09.12, 09:07

zamir

Сообщ. #34 , 04.09.12, 09:36

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Цитата

ну тык инверсное DCT делать нужно??? Чтобы обратно к спектру вернуться, только с потерей информации.

Если хотите визуализировать или синтезировать, можно сделать
Но для распознавания - не нужно

Цитата

А если инверсное DCT не делать, то огибающей спектра не получится, будут просто коэффициенты косинусного преобразования.

да, просто коэфициенты, которые являются упорядоченными принципиальными компонентами - это именно то что нужно системе распознавания

Цитата

А 13 первых коэффициентов, это при условии что 20 фильтров во временном окне, например слово делиться тоже на 20 временных окон, тайм слотов? Если фильтров например 30 то нужно первые 20 коэффициентов брать

13 принципиальных компонент берётся потому что практикой доказано, что остальные (маленькие кванты энергии) не несут существенной информации
13 коэффициентов берётся на окно например в 30мс.
Как влияет число фильтров на необходимое количество DCT коэффициентов не скажу.

MoonDancer13

Сообщ. #35 , 26.03.13, 18:20

Unregistered

Вопрос мб немного не в тему но все же
нужно ли обрезать сигнал во временной области перед обработкой в частотной?

Прикреплённый файл

FIgure1.jpg (24,05 Кбайт, скачиваний: 675)
то что есть

Прикреплённый файл

FIgure1___копия.jpg (40,75 Кбайт, скачиваний: 622)
полезная часть

если да то как?(ведь размерность должна оставаться одинаковой что в базе( эталонов) что в входном сигнале который сравнивается и эталонами)

zamir

Сообщ. #36 , 28.03.13, 09:19

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

если вы будете делать преобразование Фурье то вам всё равно нужны все отчёты
поэтому удаление надо интерпретировать как фильтрацию (убрать аплитуду там где вы считаете сигнала нет) - тогда я не вижу препятстивий для вашей задумки

1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (3) 1 2 [3] все

[ Script execution time: 0,0447 ] [ 17 queries used ] [ Generated: 18.07.25, 01:21 GMT ]