С чего начать делать VAD? -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.62]

Модераторы: RaD, nsh

Новое голосование

С чего начать делать VAD? , Определить наличие голоса в сигнале

powitoju

Сообщ. #1 , 18.10.16, 12:04

Newbie

Профиль · PM

VAD - Voice Activity Detection обычно применяется в телефонии, чтобы резать все что на речь не похоже и не захламлять канал. Мне же надо как можно точнее разметить звуковой файл. Границы слов, мелкие паузы и придыхания не интересуют, надо как-то уметь отделять звук речи от звуков музыки или шумов. Шумы - это посторонние звуки, а не белый шум.

Пробовал смотреть на спектрограмму. Русская и японская речь достаточно сильно отличаются, а если ее еще пропустить через пару-тройку фильтров, то уши продолжают устойчиво распознавать речь, но на спектрограмме глазами уже ничего не разобрать.

Имеет ли задача решение? Разбирал реализации из WebRTC (считается лучшим), Speex и Audacity. Во всех фактически идет проверка на некую амплитуду сигнала, а не именно на речь. Некие фильтры есть в реализации из WebRTC, но чего-то полезного от нее я не смог добиться.

nsh	Сообщ. #2 , 18.10.16, 13:03
Moderator Профиль · PM	Нужно классификатор тренировать, можно с помощью scikit-learn. Базу музыки и шумов для обучения можно скачать тут: http://www.openslr.org/17/ Описание тут: https://arxiv.org/pdf/1510.08484v1.pdf

powitoju

Сообщ. #3 , 20.10.16, 10:11

Newbie

Профиль · PM

nsh
можно с помощью scikit-learn.
А можно поподробнее? Какие классификаторы использовать, какие фичи из семплов вытаскивать, да и как семплы вообще готовить? Голые звуки, FFT или MFCC скармливать? Может что-то еще? Или что-то уже из них?

Какая длительность семплов? Потому что гласная вполне может оказаться каким-то музыкальным инструментом, если окошко короткое. Должны ли окошки перекрываться?

Как потом проводить поиск? На выходе будет какая-то матрица для перемножения весовых коэфициентов или что-то еще? В приведенной PDF предлагается сделать классификатор на шум и музыку отдельно, а может быть стоит все ненужное вместе слепить?