Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[3.133.12.172] |
|
Сообщ.
#1
,
|
|
|
Я новичок в этом вопросе, так что сильно не бейте, ладно? Начал разбираться с Microsoft Speech SDK и вот какой вопрос возник. Как они сами говорят, процесс распознавания строится в 2 этапа - на первом из аудиоинформации извлекаются фонемы, на втором из фонем строится текст. Меня интересует первый этап, то есть хочется получить именно фонемы из текста. Но как это сделать? Кто-нибудь в курсе?
|
Сообщ.
#2
,
|
|
|
Я что-то получал, но вроде не фонемы...
Я выделял кусок со словом по уровню сигнала. Получал кэпстр с помощью БПФ, преобразовывал кепстр в вектора (Mel Scaled) и с помощью DTW производил поиск по базе шаблонов. Всё это - технологии середины прошлого века, но работало |
Сообщ.
#3
,
|
|
|
2 All - А сейчас лучше?
Мол DTW работает гораздо хуже, а всё имеющееся просто великолепно? Я вообще теряю надежду, что любые алгоритмы основанные на спектральном анализе не могут дать высокие результаты (в смысле качества). Если кто-то в корне не согласен, пусть обоснует его. 2RaD Как работает Microsoft Speech? И Rpl - это что подстава? Я сколь не пытался не смог запустьть HMM. Некоторые функции просто не работают. |
Сообщ.
#4
,
|
|
|
Насчёт RPL
Обоснование результатов алгоритмов на спектральном анализе есть в спец. литературе, я тут ни чем не помогу! Но по моему, лучшего варианта просто нет. Все алгоритмы так или иначе работают со спектром (даже Microsoft Speech API использует это дело . А вот на Intel RPL я потратил немало времени. Я никак не смог добиться нормальной работы с приложениями написанными на Borland C++Builder 4. Проги компилировались, отрабатывали некоторые функции, например, начальная фильтрация сигнала (не помню как называется), а потом фатальная ошибка на какой-нибудь навороченной функции RPL. И всё... в итоге всё писал сам. |
Сообщ.
#5
,
|
|
|
У меня таже история и как SAPI
Да, обоснования имеются, и они все абсолютно понятны. Но это не решает проблемы. У меня складывается мнение, что применение нейро сетей вызвано исключительно аналогией : слуховая система человека - "спектральный анализ" и мозг - нейро сеть. Так можно всё решать и практически не думая. А с Rpl у меня таже история. Одну функцию я всё таки смог "включить" присоеденив Sig.Proc.Lib тойже фирмы. Что-то они мутят. А Как SAPI работает?? |
Сообщ.
#6
,
|
|
|
С SAPI особых проблем нет
Я правда не смог запустить модуль распознавания речи, но это была моя трабла... я тогда не умел (да и щас не лучше) работать с COM объектами. Меня хватило на подключения модуля синтеза речи. Всё работало без проблем! |