На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
  
> А вот насчет фонем...
    Я новичок в этом вопросе, так что сильно не бейте, ладно? Начал разбираться с Microsoft Speech SDK и вот какой вопрос возник. Как они сами говорят, процесс распознавания строится в 2 этапа - на первом из аудиоинформации извлекаются фонемы, на втором из фонем строится текст. Меня интересует первый этап, то есть хочется получить именно фонемы из текста. Но как это сделать? Кто-нибудь в курсе?
      Я что-то получал, но вроде не фонемы...
      Я выделял кусок со словом по уровню сигнала. Получал кэпстр с помощью БПФ, преобразовывал кепстр в вектора (Mel Scaled) и с помощью DTW производил поиск по базе шаблонов. Всё это - технологии середины прошлого века, но работало :)
        2 All - А сейчас лучше?
        Мол DTW работает гораздо хуже, а всё имеющееся просто великолепно? Я вообще теряю надежду, что любые алгоритмы основанные на спектральном анализе не могут дать высокие результаты (в смысле качества).
        Если кто-то в корне не согласен, пусть обоснует его.
        2RaD
        Как работает Microsoft Speech?
        И Rpl - это что подстава? Я сколь не пытался не смог запустьть HMM. Некоторые функции просто не работают.
          Насчёт RPL
          Обоснование результатов алгоритмов на спектральном анализе есть в спец. литературе, я тут ни чем не помогу! Но по моему, лучшего варианта просто нет. Все алгоритмы так или иначе работают со спектром (даже Microsoft Speech API использует это дело :).
          А вот на Intel RPL я потратил немало времени. Я никак не смог добиться нормальной работы с приложениями написанными на Borland C++Builder 4. Проги компилировались, отрабатывали некоторые функции, например, начальная фильтрация сигнала (не помню как называется), а потом фатальная ошибка на какой-нибудь навороченной функции RPL. И всё... в итоге всё писал сам.
            У меня таже история и как SAPI
            Да, обоснования имеются, и они все абсолютно понятны. Но это не решает проблемы. У меня складывается мнение, что применение нейро сетей вызвано исключительно аналогией : слуховая система человека - "спектральный анализ" и мозг - нейро сеть. Так можно всё решать и практически не думая.
            А с Rpl у меня таже история. Одну функцию я всё таки смог "включить" присоеденив Sig.Proc.Lib тойже фирмы. Что-то они мутят.
            А Как SAPI работает??
              С SAPI особых проблем нет
              Я правда не смог запустить модуль распознавания речи, но это была моя трабла... я тогда не умел (да и щас не лучше) работать с COM объектами.
              Меня хватило на подключения модуля синтеза речи. Всё работало без проблем!
              0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
              0 пользователей:


              Рейтинг@Mail.ru
              [ Script execution time: 0,0188 ]   [ 15 queries used ]   [ Generated: 30.04.24, 15:42 GMT ]