А вот насчет фонем... -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [3.133.12.172]

Модераторы: RaD, nsh

Новое голосование

А вот насчет фонем...

Ampersand

Сообщ. #1 , 19.04.02, 13:56

Unregistered

Я новичок в этом вопросе, так что сильно не бейте, ладно? Начал разбираться с Microsoft Speech SDK и вот какой вопрос возник. Как они сами говорят, процесс распознавания строится в 2 этапа - на первом из аудиоинформации извлекаются фонемы, на втором из фонем строится текст. Меня интересует первый этап, то есть хочется получить именно фонемы из текста. Но как это сделать? Кто-нибудь в курсе?

RaD

Сообщ. #2 , 21.04.02, 13:15

Unregistered

Я что-то получал, но вроде не фонемы...
Я выделял кусок со словом по уровню сигнала. Получал кэпстр с помощью БПФ, преобразовывал кепстр в вектора (Mel Scaled) и с помощью DTW производил поиск по базе шаблонов. Всё это - технологии середины прошлого века, но работало

Роман

Сообщ. #3 , 25.04.02, 19:27

Unregistered

2 All - А сейчас лучше?
Мол DTW работает гораздо хуже, а всё имеющееся просто великолепно? Я вообще теряю надежду, что любые алгоритмы основанные на спектральном анализе не могут дать высокие результаты (в смысле качества).
Если кто-то в корне не согласен, пусть обоснует его.
2RaD
Как работает Microsoft Speech?
И Rpl - это что подстава? Я сколь не пытался не смог запустьть HMM. Некоторые функции просто не работают.

RaD

Сообщ. #4 , 26.04.02, 04:52

Unregistered

Насчёт RPL
Обоснование результатов алгоритмов на спектральном анализе есть в спец. литературе, я тут ни чем не помогу! Но по моему, лучшего варианта просто нет. Все алгоритмы так или иначе работают со спектром (даже Microsoft Speech API использует это дело

.
А вот на Intel RPL я потратил немало времени. Я никак не смог добиться нормальной работы с приложениями написанными на Borland C++Builder 4. Проги компилировались, отрабатывали некоторые функции, например, начальная фильтрация сигнала (не помню как называется), а потом фатальная ошибка на какой-нибудь навороченной функции RPL. И всё... в итоге всё писал сам.

Роман

Сообщ. #5 , 26.04.02, 12:32

Unregistered

У меня таже история и как SAPI
Да, обоснования имеются, и они все абсолютно понятны. Но это не решает проблемы. У меня складывается мнение, что применение нейро сетей вызвано исключительно аналогией : слуховая система человека - "спектральный анализ" и мозг - нейро сеть. Так можно всё решать и практически не думая.
А с Rpl у меня таже история. Одну функцию я всё таки смог "включить" присоеденив Sig.Proc.Lib тойже фирмы. Что-то они мутят.
А Как SAPI работает??

RaD

Сообщ. #6 , 27.04.02, 05:04

Unregistered

С SAPI особых проблем нет
Я правда не смог запустить модуль распознавания речи, но это была моя трабла... я тогда не умел (да и щас не лучше) работать с COM объектами.
Меня хватило на подключения модуля синтеза речи. Всё работало без проблем!

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

[ Script execution time: 0,0188 ] [ 15 queries used ] [ Generated: 30.04.24, 15:42 GMT ]