Новая распознавалка -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.220]

Модераторы: RaD, nsh

Новое голосование

Новая распознавалка , В исходниках Google Android

nsh

Сообщ. #1 , 23.10.08, 15:39

Moderator

Профиль · PM

Кстати, недавно произошло знаменательное событие - Google выпустил исходники Android, в состав которого входит распознавалка речи для встраиваимых устройств, написанная не кем нибудь, а Nuance. Скачать можно тут

http://git.source.android.com/?p=platform/external/srec.git;a=snapshot;h=HEAD;sf=tgz

Достаточно интересна документация внутри, описывающая систему.

neurofish	Сообщ. #2 , 24.10.08, 11:57
Member Профиль · PM Рейтинг (т): 3	любопытно, а что это значит - "Cepstral-mean normalization is applied on the LDA transformed features."? откуда они взяли декорелляционную матрицу?

nsh	Сообщ. #3 , 24.10.08, 15:17
Moderator Профиль · PM	Рассчитали при тренировке модели. Так вроде все и делают.

KoPoBuH

Сообщ. #4 , 28.10.08, 21:30

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 4

А у меня вот какой вопрос возник - в каком пространсве это все работает?

В 4.1 CA_FrontEnd читаем, что используется 12 MFCC + delta + delta2 = 36 значений. Применяя LDA, SREC из 36 параметров удерживает только 24

В 4.2 SR_AcousticModels читаем, что применяя LDA, мы нашли 28 наиболее лучших параметров, т.е. акустическая модель подразумевает пространтво размерности 28

В конце того же 4.2 SR_AcousticModels читаем опять про 36 параметров в акустической модели.

Так в каком же пронстранстве это все работает?

Сообщение отредактировано: KoPoBuH - 28.10.08, 21:32

nsh

Сообщ. #5 , 28.10.08, 22:41

Moderator

Профиль · PM

В 4.1 ошибка (опечатка).

В моделях 28 элементов (третий и чётвёртый байты 0x1C, см. 4.4). Изначально 36 параметров, столько же в LDA (на самом деле там какой-то не совсем обычный IMELDA: https://eprints.kfupm.edu.sa/35863/1/35863.pdf ) матрице (первый и второй байт 0x24 как описано в 4.7, а также MAX_CHAN_DIM 36).

P.S. На ссылке скобку надо было в конце убрать.

Сообщение отредактировано: nsh - 29.10.08, 06:16

KoPoBuH	Сообщ. #6 , 28.10.08, 23:12
Full Member Профиль · PM Поощрения: 1 Dgm Рейтинг (т): 4	Понятно, будем читать дальше. PDF по ссылке не открывается - 404 File not found. Там наверно логиниться нужно

KoPoBuH

Сообщ. #7 , 29.10.08, 19:28

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 4

Цитата nsh @ 28.10.08, 22:41

В моделях 28 элементов (третий и чётвёртый байты 0x1C, см. 4.4)

Смотрим generic.swiarb согласно 4.4 Что-то там ничего не видно:

00000000: 48 8D A3 00 F4 A7 52 00 18 6D A5 00 5A 01 00 00 |H.....R..m..Z...|

00000010: 80 0D A4 00 48 06 0C 03 60 7B A5 00 FF 00 FF 00 |....H...`{......|

48 8d a3 00 image point

f4 a7 image size (file size)

52 00 number of phonemes (82)

18 6d a5 00 phoneme ptr

5a 01 questions (346)

00 00 80 0d question ptr

a4 00 HMM states (164)

48 06 HMMs (1608)

...

Ладно, бог с ними. Для меня оказалось сюрпризом, что они не включают энергию пространство фич.

Сообщение отредактировано: KoPoBuH - 29.10.08, 19:32

KoPoBuH	Сообщ. #8 , 07.11.08, 04:44
Full Member Профиль · PM Поощрения: 1 Dgm Рейтинг (т): 4	Кто-нить пробовал это компилировать?

RaD

Сообщ. #9 , 13.07.11, 11:43

Moderator

Профиль · PM

Поощрения: 24 Dgm

Рейтинг (т): 23

Тут недавно подарили телефон на андроиде. Попробовал систему распознавания речи.

Впечатления: Это просто охрененно!

На фоне достаточно громко играющей музыки распознаёт русский текст, который я диктую в скайп в канал Django разработчиков (т.е. со специфической терминологией).

Вот теперь я точно уверен, что большому брату не составляет труда следить за нашим базаром

MedEx	Сообщ. #10 , 13.07.11, 13:50
Senior Member Профиль · PM Рейтинг (т): 56	RaD Без обучения,все слова и знаки препинания?

RaD

Сообщ. #11 , 13.07.11, 14:13

Moderator

Профиль · PM

Поощрения: 24 Dgm

Рейтинг (т): 23

Цитата MedEx @ 13.07.11, 13:50

Без обучения,все слова и знаки препинания?

Вот именно!
Правда некоторые слова неправильно подставляет, но очень близкие по звучанию. В целом технология работает, а какие-то 5..10% ошибок погоду уже не делают.

Сообщение отредактировано: RaD - 13.07.11, 16:03

zamir

Сообщ. #12 , 15.07.11, 07:36

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

про знаки препинания не скажу, но sphinx без знаков препинания по моим наблюдениям даёт лучший результат (сравнивал 8кГц звук, где впринципе шумы не просто отбросить)
задиктуйте фразу "вот так как-то так"
на фоне шума и музыки - согласен, google распознаёт лучше
распознаёт в собственно не андройд а google online сервис
думаю качество распознования для google это всё-лишь вопрос экономии ресурсов

Сообщение отредактировано: zamir - 15.07.11, 10:24

Korisk	Сообщ. #13 , 20.07.11, 20:52
Newbie Профиль · PM	Цитата RaD @ 13.07.11, 11:43 Тут недавно подарили телефон на андроиде. Попробовал систему распознавания речи. А что за телефон, если не секрет?

RaD	Сообщ. #14 , 26.07.11, 19:07
Moderator Профиль · PM Поощрения: 24 Dgm Рейтинг (т): 23	zamir: без проблем распознал указанную фразу. Korisk: samsung s5830 с андроидом 2.3.3.

RaD	Сообщ. #15 , 27.07.11, 10:31
Moderator Профиль · PM Поощрения: 24 Dgm Рейтинг (т): 23	Лениво лезть в код srec, но я предполагаю, что на "вектора" раскладывает речь движок в телефоне, а вот поиск по базе идёт уже на сервере.

zamir	Сообщ. #16 , 31.07.11, 05:04
Full Member Профиль · PM Поощрения: 1 Dgm Рейтинг (т): 9	web сервис google принимает два формата звукового файла тоесть по мои данным передаётся звук в сжатом формате

Soul :)	Сообщ. #17 , 08.08.11, 12:43
Profi Профиль · PM Поощрения: 2 Dgm Рейтинг (т): 93	А для десктопов потестить - есть вариант? Или в браузере чтобы набирало текст?

zamir

Сообщ. #18 , 13.08.11, 06:34

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

если речь идёт о google voice, то да. в google chrome эта возможность встроенна.
из исходников google chrome эта ссылка была найдена

p.s.
или chromium вместо google chome, я уже не помню
ссылка на api через которую я расспознавал
https://www.google.com/speech-api/v1/recognize?xjerr=1&client=chromium&lang=ru-RU
формат отправлял flac

Сообщения были разделены в тему "Обсуждение"

Alexei	Сообщ. #19 , 19.09.14, 09:38
Profi Профиль · PM Рейтинг (т): 8	Цитата zamir @ 13.08.11, 06:34 https://www.google.com/speech-api/v1/recogn...mium&lang=ru-RU А эта лавочка еще не прикрылась? А то "Сигнал посылаем мы, что это там,-А нас посылают обратно..." И в Хроме надо сперва прокричать:" Славься Гугл , славься Гугл!"

falka	Сообщ. #20 , 19.09.14, 11:18
Newbie Профиль · PM Рейтинг (т): нет	вопрос немного не в тему: а кто может посоветовать прогу для распознавания голоса, чтобы рукописный текст вручную не набирать?

raxp	Сообщ. #21 , 19.09.14, 19:01
Full Member Профиль · PM Рейтинг (т): 19	http://www.youtube.com/playlist?list=PL8uz...c-f2AbkAIqhLHs- Базис "Описание API вызова библиотеки GoogleSpeechRecognizeAPI3.DLL"

Alexei	Сообщ. #22 , 20.09.14, 14:24
Profi Профиль · PM Рейтинг (т): 8	Что-то тест нифига не распознает

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

[ Script execution time: 0.1047 ] [ 15 queries used ] [ Generated: 15.06.26, 00:15 GMT ]