Как работать с MFCC? -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [18.222.67.251]

Модераторы: RaD, nsh

Новое голосование

Как работать с MFCC? , Способы сравнения MFCC

eugeny.anik

Сообщ. #1 , 26.05.17, 18:25

Newbie

Профиль · PM

Рейтинг (т): нет

Привет!

Интересуюсь темой распознавания речи. Хочу сделать программку для определения диктора, в качестве задачи на летнюю практику.
Уже научился вычислять MFCC для записи.

Не могу понять несколько вещей:
1) Как мне обработать записи диктора для использования их в качестве образцов речи
2) Как сравнить образцы с записью? Применим ли в этом случае алгоритм DTW? Эффективен ли он? или стоит выбрать другой?

nsh

Сообщ. #2 , 27.05.17, 16:44

Moderator

Профиль · PM

Цитата eugeny.anik @ 26.05.17, 18:25

Цитата

Как мне обработать записи диктора для использования их в качестве образцов речи

Тишину отрезать, саму речь лучше не трогать

Цитата

2) Как сравнить образцы с записью? Применим ли в этом случае алгоритм DTW? Эффективен ли он? или стоит выбрать другой?

Можно DTW применять. Сейчас он не особо популярен. Последний писк что-то вроде такого c нейросетями:

https://arxiv.org/pdf/1509.08062.pdf

eugeny.anik

Сообщ. #3 , 28.05.17, 14:01

Newbie

Профиль · PM

Рейтинг (т): нет

Цитата nsh @ 27.05.17, 16:44

Тишину отрезать, саму речь лучше не трогать

А если у меня несколько образцов голоса? Я же не могу просто взять средние значения коэффициентов, даже если я выберу за основу DTW. Особенно, если в них будут разные фразы (тексто-независимая идентификация).

В некоторых статьях находил советы сравнивать со всеми образцами по очереди, но это приведет к замедлению при увеличении количества образцов.

Цитата nsh @ 27.05.17, 16:44

Можно DTW применять. Сейчас он не особо популярен.

А почему не популярен? Не популярен именно в сфере идентификации? Или в работе с речью в целом?

Цитата nsh @ 27.05.17, 16:44

Последний писк что-то вроде такого c нейросетями:

https://arxiv.org/pdf/1509.08062.pdf

Спасибо! Уже начал читать!

nsh

Сообщ. #4 , 28.05.17, 20:28

Moderator

Профиль · PM

Цитата eugeny.anik @ 28.05.17, 14:01

В некоторых статьях находил советы сравнивать со всеми образцами по очереди, но это приведет к замедлению при увеличении количества образцов.

Cовет правильный, замедление несущественно, так как DTW быстрый алгоритм.

Цитата

А почему не популярен?

Точность маленькая, так как алгоритм не только отслеживает характеристики голоса, но и учитывает манеру произнесения. Если интонацию изменить, совпадения не будет. Более сложные алгоритмы интонацию нормализуют.

eugeny.anik	Сообщ. #5 , 29.05.17, 16:48
Newbie Профиль · PM Рейтинг (т): нет	Спасибо, буду погружаться

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

[ Script execution time: 0,0194 ] [ 16 queries used ] [ Generated: 23.04.24, 21:28 GMT ]