Open Source ASR -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [3.19.58.30]

Модераторы: RaD, nsh

Новое голосование

Open Source ASR , воскрешения Лазаря

Age

Сообщ. #1 , 05.08.04, 14:30

Junior

Профиль · PM

Рейтинг (т): 0

Смотрю форум,
вижу за громкими словами типа "СОЗДАЛ" очередную попытку реализовать алгоритм 40-летней давности, и то где-то в четверть его возможностей.
В то же время есть несколько реальных ЗАКОНЧЕННЫХ систем распознавания речи с ОТКРЫТЫМ ИСХОДНЫМ КОДОМ, где это все давно уже есть, и вообще говоря, пора бы двигаться дальше ...
Правда почти все они писаны под *nix, а я в нем не такой копенгаген, как хотелось бы.

Внимание вопрос: кто нить пытался собрать и настроить какую нибудь из готовых систем и что у вас из этого получилось?

Описание некотороых систем с адресами найдете здесь:
http://sf.irk.ru/pub/linux/redhat/redhat-7...O/software.html

RaD	Сообщ. #2 , 06.08.04, 07:23
Moderator Профиль · PM Поощрения: 24 Dgm Рейтинг (т): 23	А что ты сделал для хип-хопа? В *нихах, говоришь, не разбираешься? Так это тоже древняя операционка. Язык С/С++ сильно там отличается от использующегося на венде? Совет: Не раздражай! Покажи свои наработки!

Age

Сообщ. #3 , 06.08.04, 09:53

Junior

Профиль · PM

Рейтинг (т): 0

Цитата RaD,6.08.04, 10:23

В *нихах, говоришь, не разбираешься? Так это тоже древняя операционка.
Язык С/С++ сильно там отличается от использующегося на венде?

ну с Си ситуация не такая плохая:
я юзаю по возможности кроссплатформенные либы типа SndFile и стандартные средства, так что синтаксические расхождения в программах случаются только при ветвлении процессов и передаче данных между ними. Ну может быть еще работа со звуковым устройством. Концепутальных же расхождений не наблюдается совсем.
а вообще я программирую на матлабе, а он есть под обе операционки

Цитата RaD,6.08.04, 10:23

Покажи свои наработки!

я весь в вопросах информационно оптимального кодирования.
разрабатываю метод устойчивого линейного предсказания.
+ фильтрация в пространстве признаков. - позволяет вскрыть гармонический сигнала в условиях шумов 3-7 дБ (это много)

И все-таки по готовым системам: давайте соберем одну

RaD	Сообщ. #4 , 06.08.04, 10:06
Moderator Профиль · PM Поощрения: 24 Dgm Рейтинг (т): 23	Давай. Я координатором проекта быть не смогу. Времени мало. Но код писать умею и даже знаю про что Делай CVS, рассылочку и понеслись...

Age

Сообщ. #5 , 06.08.04, 10:29

Junior

Профиль · PM

Рейтинг (т): 0

Цитата RaD,6.08.04, 13:06

Давай. Я координатором проекта быть не смогу. Времени мало.
Но код писать умею и даже знаю про что

Делай CVS, рассылочку и понеслись...

Для начала Линукс поставить надобно ))))
CygWin уже надоел порядочно

думаю между Debian и Mandrake, со стороны приятель соблазняет LFS с нуля поставить ...
какой дистриб ты порекомендуешь?

RaD	Сообщ. #6 , 06.08.04, 10:42
Moderator Профиль · PM Поощрения: 24 Dgm Рейтинг (т): 23	Тот, спец по которому есть у тебя под рукой. Я использую обсизифленный AltLinux Compact 2.3.

nyquist

Сообщ. #7 , 06.08.04, 11:32

Junior

Профиль · PM

Рейтинг (т): 3

День добрый.
Я вот осмелюсь вмешаться в Ваш совместный диалог (конечно, жаль, что только диалог ;-( )

Хотел бы высказаться по поводу некоторых программ, реализованных под *nix системы, исходники которых я имел честь просматривать. Это такие проекты как:
CMU Sphinx
NICO ANN Toolkit
CVoiceControl/kVoiceControl
и некоторые другие, которые не указаны по ссылке от Age.

Сразу же бросается в глаза одна деталь - качество кода зачастую оставляет желать лучшего. Я говорю не о корректности реализации, а чисто о структурированности и т.п.

Порой бывает ну уж ОЧЕНЬ не просто разобраться в некорых моментах. А что же касается комментирования кода - так это вообще отдельная проблема (я говорю не о man'ах, а именно о комментировании кода).

О качестве работы программ судить сложно, т.к. зачастую они очень "сырые" и пользоваться ими крайне не удобно...

Да, прошу сразу не набрасываться на меня, т.к. высказал только собственную точку зрения.

RaD

Сообщ. #8 , 06.08.04, 13:50

Moderator

Профиль · PM

Поощрения: 24 Dgm

Рейтинг (т): 23

Я полностью согласен с тобой. Именно поэтому, учась в универе, я решил не доделывать чью-то разработку, а сделать свою, взяв самые простые алгоритмы.

Код надо не просто комментировать, а используя алгоритмы, давать в коде на них ссылки. Делать побольше описание о структуре проекта, какие модули и как между собой взаимодействуют. Это поможет самому найти неправильный подход в дизайне. Короче, UML рулит. Проект надо вести в Umbrello (под Linux) и параллельно описывать для девелоперов проект в DOCBOOK.

Для копания в коде я использую LXR, создаётся типа сайтика с перекрёстными ссылками. Удобно.

Age

Сообщ. #9 , 06.08.04, 20:42

Junior

Профиль · PM

Рейтинг (т): 0

2nyquist

Цитата nyquist,6.08.04, 14:32

О качестве работы программ судить сложно, т.к. зачастую они очень "сырые" и пользоваться ими крайне не удобно...

Значит ты их пытался возродить к жизни ? ))
Каковы успехи?

Добавлено в 06.08.04, 21:06:

Цитата RaD,6.08.04, 16:50

Я полностью согласен с тобой. Именно поэтому, учась в универе, я решил не доделывать чью-то разработку, а сделать свою, взяв самые простые алгоритмы.

ИМХО Можно изменять алгоритмы внутри модулей, но общая концепция представления форм знаний и их взаимодействие при принятии решений либо разрабатывается с нуля, либо заимствуется.
Так как быть с каркасом системы?
Анализ существующих систем и тест их потенциала -- разве не вариант?

Цитата RaD,6.08.04, 16:50

Код надо не просто комментировать, а используя алгоритмы, давать в коде на них ссылки. Делать побольше описание о структуре проекта, какие модули и как между собой взаимодействуют. Это поможет самому найти неправильный подход в дизайне. Короче, UML рулит. Проект надо вести в Umbrello (под Linux) и параллельно описывать для девелоперов проект в DOCBOOK.
Для копания в коде я использую LXR, создаётся типа сайтика с перекрёстными ссылками. Удобно.

Про UML я с тобой согласен. Правда Rational Rose дает большую функциональность, чем Umbrello, и он тоже есть под Линух.

Давайте напишем свое видение разработки:
* задачи распознавания (изолированные слова, слитная речь, ...),
* концепция системы (гибридная, типа классная доска, ...),
* перцептивная модель (вроде остановились на модели анализа через синтез)
* ведение проекта,
* используемый инструментарий (MSVC, .NET, Kylix, Intel_SPL, GSL, ... =))) )

ИМХО, это будет полезно всем
что скажет уважаемый all ? B)

RaD	Сообщ. #10 , 09.08.04, 06:52
Moderator Профиль · PM Поощрения: 24 Dgm Рейтинг (т): 23	Rational Rose - хорошая вещь, но платная и у меня её нет. Мне интересна перцептивная модель. Что ты понимаешь под "ведением проекта"?

Age

Сообщ. #11 , 09.08.04, 16:30

Junior

Профиль · PM

Рейтинг (т): 0

Цитата RaD,9.08.04, 09:52

Что ты понимаешь под "ведением проекта"?

Ты сам написал: "ПРОЕКТ надо вести...", а еще до этого сказал, что мол не против собрать и систему из исходных кодов, рассылку, ЦВС и вперед, только не можешь быть координатором ПРОЕКТА.
Вот я предложил каждому заинтересовавшемуся написать, как он понимает ведение этого проекта и какие задачи ставит.

Сам я вот как думаю:
* разработать архитектуру системы распознавания, которую использовать как каркас для проверки работы и встраивания реализуемых алгоритмов поиска сигнала, акустического процессора и т.п.
* для этого можно либо собрать и проанализировать одну из уже имеющихся систем, либо сделать это самостоятельно, целиком под себя
* если такая затея будет интересна нескольким людям, то их совместная разработка должна как-то быть организована.

- все идеи и комментарии на этот счет хотелось бы увидеть в этой теме

З.Ы. Сорри за бывшие козяблики... это Konquerror так глючит =)
Как ты понял, я поставил себе линух, конкретно Mandrake.
Правда есть траблы со звуком и кодировками =( сейчас вожусь исправляю.

Сообщение отредактировано: Age - 10.08.04, 07:20

RaD

Сообщ. #12 , 10.08.04, 09:22

Moderator

Профиль · PM

Поощрения: 24 Dgm

Рейтинг (т): 23

У меня нет своего сервака, чтобы сделать на нём CVS и прочее. Можно открыть проект на SF.net. Это я предоставлю координатору проекта, как и выбор названия

Через SF.net и будет организована совместная разработка.

Пишем на C++. На Windows желательно использовать GCC, это предложение.

Что у нас есть:

Звук: 1 - Windows Multimedia API, 2 - ALSA.
Поддержка захвата и воспроизведения. Полный дуплекс (пригодится).
Детектор речи: сильно зависит от используемого метода.
Преобразование в вектор: LPC, Mel-scaled, ...
Сравнение с шаблонами: DTW, HMM, Neuronets.
Синтез речи: Тема мне неизвестна...

Age

Сообщ. #13 , 10.08.04, 12:09

Junior

Профиль · PM

Рейтинг (т): 0

Цитата RaD @ 10.08.04, 12:22

Да, в алгоритмическом инструментарии мы подкованы

Еще вышел пакет SpeechPearl -- он вообще позволяет строить интерактивные системы распознавания.
Но!:
1. он заточен под применение специальной платы с предварительной обработкой сигнала (технология barge-in),
2. реализует принцип системы с ограниченным распознаванием по grammar в виде VoiceXML (по моему я не напутал)
оттуда можно много чего позаимствовать, но по большому счету, он не подходит.

Про синтез:два основных метода (может и больше, но я помню два) - по-фонемный синтез на основе сшивания фрагментов и вокодерное декодирование (фильтрация просодической последоватльности линейным фильтром коэффициентов линейного предсказания).
а ты для чего хочешь синтез включить? как проверку кодирования или просто к месту пришлось?

Перцептивная модель:Я щас ищу ссылки на первоисточники с CSA.RU ...
Тебе удалось прочесть на сайте про модель распознавания через синтез?

Задачи системы (как вижу их я):
-Распознавание слитной речи. Блоки семантической и прагматической обработки отсутствуют.
-Желательно дикторонезависимая, с настройкой на язык и основные характеристики произношения (без учета всяких девиаций)

Предлагаю попробоватьописать общую архитектуру, не вдаваясь в конкретные применяемые алгоритмы
Щас пока полезу на SF.net полюбопытствую

RaD

Сообщ. #14 , 12.08.04, 11:41

Moderator

Профиль · PM

Поощрения: 24 Dgm

Рейтинг (т): 23

Цитата

Да, в алгоритмическом инструментарии мы подкованы

Не зря гранит в универе грызли...

Цитата

Давай ссылку. Думаю, народ просто перенёс часть софта на плату, чтобы повысить цену продукта и привязать пользователей.

Цитата

Про синтез:два основных метода (может и больше, но я помню два) - по-фонемный синтез на основе сшивания фрагментов и вокодерное декодирование (фильтрация просодической последоватльности линейным фильтром коэффициентов линейного предсказания).
а ты для чего хочешь синтез включить? как проверку кодирования или просто к месту пришлось?

Синтез пригодится всегда. Сейчас у меня компьютер сообщает мне об интересующих меня событиях на английском через Flite, но для остальных домашних этот язык непонятен. Хочу сделать любой синтезатор, чтобы разобраться с проблемой и попытаться двинуться далее.

Цитата

Перцептивная модель:Я щас ищу ссылки на первоисточники с CSA.RU ...
Тебе удалось прочесть на сайте про модель распознавания через синтез?

У меня только что врубили инет на работе. А с дома я хожу по GPRS. Сайты смотреть очень дорого получается

Цитата

Задачи системы (как вижу их я):
-Распознавание слитной речи. Блоки семантической и прагматической обработки отсутствуют.
-Желательно дикторонезависимая, с настройкой на язык и основные характеристики произношения (без учета всяких девиаций)

Хорошие задачи.

Цитата

Предлагаю попробоватьописать общую архитектуру, не вдаваясь в конкретные применяемые алгоритмы.

Рисуй диаграмму на UML и выкладывай на SF.net.

Текущее состояние:
Читаю DSP Guide. Очень толстая и полезная книжка.
Пытаюсь заставить себя поработать вечерком на компе.
Но после работы это очень трудно сделать

Age

Сообщ. #15 , 12.08.04, 12:51

Junior

Профиль · PM

Рейтинг (т): 0

Ссылки на SpeechPearl:
http://www.comptek.ru/box/612
http://www.comptek.ru/box/611
http://www.comptek.ru/box/610
http://www.comptek.ru/box/609
там есть и про ЦСП-плату, и про barge-in, и про CSP, и про Speech-SDK

еще погляди сюда:
http://speechpro.ru/upload/322_SoundCleaner_rus.pdf
это система очистки звука SoundCleaner, считай акустический процессор системы распознавания. алгоритм очистки строится из модулей, как ЛЕГО по принципу Иерархической модели.

Проект на SF.NET:
есть одно условие для создания проекта -- наличие лицензии. рою экскаватором инфу по GPL, LGPL, QPL, .. как разберусь и создам проект -- дам знать.
тока с CVS возможно будут сложности, с WinCVS оболочкой я работал, а с Cervisia не доводилось еще. рассчитываю на твою помощь с настройкой.

UML-диаграммка:
в процессе. кинь сцылку на rpm Umbrello. поковыряю ее вместе с Rational или Together ...

Еще:
пора определиться с рабочей моделью взаимодействия модулей. ключевые слова: иерерхическая, гетероиерархическая, сетевая, целенаправленная, модель классной доски, ... Есть какие мысли ?

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (2) [1] 2 все

[ Script execution time: 0,0588 ] [ 15 queries used ] [ Generated: 17.05.24, 00:13 GMT ]