На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
  
> Новая распознавалка , В исходниках Google Android
    Кстати, недавно произошло знаменательное событие - Google выпустил исходники Android, в состав которого входит распознавалка речи для встраиваимых устройств, написанная не кем нибудь, а Nuance. Скачать можно тут

    http://git.source.android.com/?p=platform/external/srec.git;a=snapshot;h=HEAD;sf=tgz

    Достаточно интересна документация внутри, описывающая систему.
      любопытно, а что это значит - "Cepstral-mean normalization is applied on the LDA transformed features."?
      откуда они взяли декорелляционную матрицу?
        Рассчитали при тренировке модели. Так вроде все и делают.
          А у меня вот какой вопрос возник - в каком пространсве это все работает?

          В 4.1 CA_FrontEnd читаем, что используется 12 MFCC + delta + delta2 = 36 значений. Применяя LDA, SREC из 36 параметров удерживает только 24

          В 4.2 SR_AcousticModels читаем, что применяя LDA, мы нашли 28 наиболее лучших параметров, т.е. акустическая модель подразумевает пространтво размерности 28

          В конце того же 4.2 SR_AcousticModels читаем опять про 36 параметров в акустической модели.

          Так в каком же пронстранстве это все работает?
          Сообщение отредактировано: KoPoBuH -
            В 4.1 ошибка (опечатка).

            В моделях 28 элементов (третий и чётвёртый байты 0x1C, см. 4.4). Изначально 36 параметров, столько же в LDA (на самом деле там какой-то не совсем обычный IMELDA: https://eprints.kfupm.edu.sa/35863/1/35863.pdf ) матрице (первый и второй байт 0x24 как описано в 4.7, а также MAX_CHAN_DIM 36).

            P.S. На ссылке скобку надо было в конце убрать.
            Сообщение отредактировано: nsh -
              Понятно, будем читать дальше.
              PDF по ссылке не открывается - 404 File not found. Там наверно логиниться нужно
                Цитата nsh @
                В моделях 28 элементов (третий и чётвёртый байты 0x1C, см. 4.4)

                Смотрим generic.swiarb согласно 4.4 Что-то там ничего не видно:

                ExpandedWrap disabled
                  00000000: 48 8D A3 00 F4 A7 52 00 18 6D A5 00 5A 01 00 00 |H.....R..m..Z...|
                  00000010: 80 0D A4 00 48 06 0C 03 60 7B A5 00 FF 00 FF 00 |....H...`{......|
                   
                  48 8d a3 00    image point
                  f4 a7          image size (file size)
                  52 00          number of phonemes (82)
                  18 6d a5 00    phoneme ptr
                  5a 01          questions (346)
                  00 00 80 0d    question ptr
                  a4 00          HMM states (164)
                  48 06          HMMs (1608)
                  ...

                Ладно, бог с ними. Для меня оказалось сюрпризом, что они не включают энергию пространство фич.
                Сообщение отредактировано: KoPoBuH -
                  Кто-нить пробовал это компилировать?
                    Тут недавно подарили телефон на андроиде. Попробовал систему распознавания речи.

                    Впечатления: Это просто охрененно!

                    На фоне достаточно громко играющей музыки распознаёт русский текст, который я диктую в скайп в канал Django разработчиков (т.е. со специфической терминологией).

                    Вот теперь я точно уверен, что большому брату не составляет труда следить за нашим базаром :)
                      RaD
                      Без обучения,все слова и знаки препинания?
                        Цитата MedEx @
                        Без обучения,все слова и знаки препинания?
                        Вот именно!
                        Правда некоторые слова неправильно подставляет, но очень близкие по звучанию. В целом технология работает, а какие-то 5..10% ошибок погоду уже не делают.
                        Сообщение отредактировано: RaD -
                          про знаки препинания не скажу, но sphinx без знаков препинания по моим наблюдениям даёт лучший результат (сравнивал 8кГц звук, где впринципе шумы не просто отбросить)
                          задиктуйте фразу "вот так как-то так"
                          на фоне шума и музыки - согласен, google распознаёт лучше
                          распознаёт в собственно не андройд а google online сервис
                          думаю качество распознования для google это всё-лишь вопрос экономии ресурсов
                          Сообщение отредактировано: zamir -
                            Цитата RaD @
                            Тут недавно подарили телефон на андроиде. Попробовал систему распознавания речи.

                            А что за телефон, если не секрет?
                              zamir: без проблем распознал указанную фразу.


                              Korisk: samsung s5830 с андроидом 2.3.3.
                                Лениво лезть в код srec, но я предполагаю, что на "вектора" раскладывает речь движок в телефоне, а вот поиск по базе идёт уже на сервере.
                                  web сервис google принимает два формата звукового файла
                                  тоесть по мои данным передаётся звук в сжатом формате
                                    А для десктопов потестить - есть вариант? Или в браузере чтобы набирало текст?
                                      если речь идёт о google voice, то да. в google chrome эта возможность встроенна.
                                      из исходников google chrome эта ссылка была найдена


                                      p.s.
                                      или chromium вместо google chome, я уже не помню
                                      ссылка на api через которую я расспознавал
                                      https://www.google.com/speech-api/v1/recognize?xjerr=1&client=chromium&lang=ru-RU
                                      формат отправлял flac

                                      Сообщения были разделены в тему "Обсуждение"

                                        А эта лавочка еще не прикрылась?
                                        А то "Сигнал посылаем мы, что это там,-А нас посылают обратно..."
                                        И в Хроме надо сперва прокричать:" Славься Гугл , славься Гугл!" :)
                                          вопрос немного не в тему: а кто может посоветовать прогу для распознавания голоса, чтобы рукописный текст вручную не набирать?
                                              Что-то тест нифига не распознает :(
                                              0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                              0 пользователей:


                                              Рейтинг@Mail.ru
                                              [ Script execution time: 0,0472 ]   [ 15 queries used ]   [ Generated: 1.05.24, 10:51 GMT ]