Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[18.205.56.209] |
|
Страницы: (2) [1] 2 все ( Перейти к последнему сообщению ) |
Сообщ.
#1
,
|
|
|
Кстати, недавно произошло знаменательное событие - Google выпустил исходники Android, в состав которого входит распознавалка речи для встраиваимых устройств, написанная не кем нибудь, а Nuance. Скачать можно тут
http://git.source.android.com/?p=platform/external/srec.git;a=snapshot;h=HEAD;sf=tgz Достаточно интересна документация внутри, описывающая систему. |
Сообщ.
#2
,
|
|
|
любопытно, а что это значит - "Cepstral-mean normalization is applied on the LDA transformed features."?
откуда они взяли декорелляционную матрицу? |
Сообщ.
#3
,
|
|
|
Рассчитали при тренировке модели. Так вроде все и делают.
|
Сообщ.
#4
,
|
|
|
А у меня вот какой вопрос возник - в каком пространсве это все работает?
В 4.1 CA_FrontEnd читаем, что используется 12 MFCC + delta + delta2 = 36 значений. Применяя LDA, SREC из 36 параметров удерживает только 24 В 4.2 SR_AcousticModels читаем, что применяя LDA, мы нашли 28 наиболее лучших параметров, т.е. акустическая модель подразумевает пространтво размерности 28 В конце того же 4.2 SR_AcousticModels читаем опять про 36 параметров в акустической модели. Так в каком же пронстранстве это все работает? |
Сообщ.
#5
,
|
|
|
В 4.1 ошибка (опечатка).
В моделях 28 элементов (третий и чётвёртый байты 0x1C, см. 4.4). Изначально 36 параметров, столько же в LDA (на самом деле там какой-то не совсем обычный IMELDA: https://eprints.kfupm.edu.sa/35863/1/35863.pdf ) матрице (первый и второй байт 0x24 как описано в 4.7, а также MAX_CHAN_DIM 36). P.S. На ссылке скобку надо было в конце убрать. |
Сообщ.
#6
,
|
|
|
Понятно, будем читать дальше.
PDF по ссылке не открывается - 404 File not found. Там наверно логиниться нужно |
Сообщ.
#7
,
|
|
|
Цитата nsh @ В моделях 28 элементов (третий и чётвёртый байты 0x1C, см. 4.4) Смотрим generic.swiarb согласно 4.4 Что-то там ничего не видно: 00000000: 48 8D A3 00 F4 A7 52 00 18 6D A5 00 5A 01 00 00 |H.....R..m..Z...| 00000010: 80 0D A4 00 48 06 0C 03 60 7B A5 00 FF 00 FF 00 |....H...`{......| 48 8d a3 00 image point f4 a7 image size (file size) 52 00 number of phonemes (82) 18 6d a5 00 phoneme ptr 5a 01 questions (346) 00 00 80 0d question ptr a4 00 HMM states (164) 48 06 HMMs (1608) ... Ладно, бог с ними. Для меня оказалось сюрпризом, что они не включают энергию пространство фич. |
Сообщ.
#8
,
|
|
|
Кто-нить пробовал это компилировать?
|
Сообщ.
#9
,
|
|
|
Тут недавно подарили телефон на андроиде. Попробовал систему распознавания речи.
Впечатления: Это просто охрененно! На фоне достаточно громко играющей музыки распознаёт русский текст, который я диктую в скайп в канал Django разработчиков (т.е. со специфической терминологией). Вот теперь я точно уверен, что большому брату не составляет труда следить за нашим базаром |
Сообщ.
#10
,
|
|
|
RaD
Без обучения,все слова и знаки препинания? |
Сообщ.
#11
,
|
|
|
Цитата MedEx @ Вот именно!Без обучения,все слова и знаки препинания? Правда некоторые слова неправильно подставляет, но очень близкие по звучанию. В целом технология работает, а какие-то 5..10% ошибок погоду уже не делают. |
Сообщ.
#12
,
|
|
|
про знаки препинания не скажу, но sphinx без знаков препинания по моим наблюдениям даёт лучший результат (сравнивал 8кГц звук, где впринципе шумы не просто отбросить)
задиктуйте фразу "вот так как-то так" на фоне шума и музыки - согласен, google распознаёт лучше распознаёт в собственно не андройд а google online сервис думаю качество распознования для google это всё-лишь вопрос экономии ресурсов |
Сообщ.
#13
,
|
|
|
Цитата RaD @ Тут недавно подарили телефон на андроиде. Попробовал систему распознавания речи. А что за телефон, если не секрет? |
Сообщ.
#14
,
|
|
|
zamir: без проблем распознал указанную фразу.
Korisk: samsung s5830 с андроидом 2.3.3. |
Сообщ.
#15
,
|
|
|
Лениво лезть в код srec, но я предполагаю, что на "вектора" раскладывает речь движок в телефоне, а вот поиск по базе идёт уже на сервере.
|