Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[3.19.58.30] |
|
Страницы: (2) [1] 2 все ( Перейти к последнему сообщению ) |
Сообщ.
#1
,
|
|
|
Смотрю форум,
вижу за громкими словами типа "СОЗДАЛ" очередную попытку реализовать алгоритм 40-летней давности, и то где-то в четверть его возможностей. В то же время есть несколько реальных ЗАКОНЧЕННЫХ систем распознавания речи с ОТКРЫТЫМ ИСХОДНЫМ КОДОМ, где это все давно уже есть, и вообще говоря, пора бы двигаться дальше ... Правда почти все они писаны под *nix, а я в нем не такой копенгаген, как хотелось бы. Внимание вопрос: кто нить пытался собрать и настроить какую нибудь из готовых систем и что у вас из этого получилось? Описание некотороых систем с адресами найдете здесь: http://sf.irk.ru/pub/linux/redhat/redhat-7...O/software.html |
Сообщ.
#2
,
|
|
|
А что ты сделал для хип-хопа?
В *нихах, говоришь, не разбираешься? Так это тоже древняя операционка. Язык С/С++ сильно там отличается от использующегося на венде? Совет: Не раздражай! Покажи свои наработки! |
Сообщ.
#3
,
|
|
|
Цитата RaD,6.08.04, 10:23 ну с Си ситуация не такая плохая:В *нихах, говоришь, не разбираешься? Так это тоже древняя операционка. Язык С/С++ сильно там отличается от использующегося на венде? я юзаю по возможности кроссплатформенные либы типа SndFile и стандартные средства, так что синтаксические расхождения в программах случаются только при ветвлении процессов и передаче данных между ними. Ну может быть еще работа со звуковым устройством. Концепутальных же расхождений не наблюдается совсем. а вообще я программирую на матлабе, а он есть под обе операционки Цитата RaD,6.08.04, 10:23 я весь в вопросах информационно оптимального кодирования.Покажи свои наработки! разрабатываю метод устойчивого линейного предсказания. + фильтрация в пространстве признаков. - позволяет вскрыть гармонический сигнала в условиях шумов 3-7 дБ (это много) И все-таки по готовым системам: давайте соберем одну |
Сообщ.
#4
,
|
|
|
Давай. Я координатором проекта быть не смогу. Времени мало.
Но код писать умею и даже знаю про что Делай CVS, рассылочку и понеслись... |
Сообщ.
#5
,
|
|
|
Цитата RaD,6.08.04, 13:06 Давай. Я координатором проекта быть не смогу. Времени мало. Но код писать умею и даже знаю про что Делай CVS, рассылочку и понеслись... Для начала Линукс поставить надобно )))) CygWin уже надоел порядочно думаю между Debian и Mandrake, со стороны приятель соблазняет LFS с нуля поставить ... какой дистриб ты порекомендуешь? |
Сообщ.
#6
,
|
|
|
Тот, спец по которому есть у тебя под рукой.
Я использую обсизифленный AltLinux Compact 2.3. |
Сообщ.
#7
,
|
|
|
День добрый.
Я вот осмелюсь вмешаться в Ваш совместный диалог (конечно, жаль, что только диалог ;-( ) Хотел бы высказаться по поводу некоторых программ, реализованных под *nix системы, исходники которых я имел честь просматривать. Это такие проекты как: CMU Sphinx NICO ANN Toolkit CVoiceControl/kVoiceControl и некоторые другие, которые не указаны по ссылке от Age. Сразу же бросается в глаза одна деталь - качество кода зачастую оставляет желать лучшего. Я говорю не о корректности реализации, а чисто о структурированности и т.п. Порой бывает ну уж ОЧЕНЬ не просто разобраться в некорых моментах. А что же касается комментирования кода - так это вообще отдельная проблема (я говорю не о man'ах, а именно о комментировании кода). О качестве работы программ судить сложно, т.к. зачастую они очень "сырые" и пользоваться ими крайне не удобно... Да, прошу сразу не набрасываться на меня, т.к. высказал только собственную точку зрения. |
Сообщ.
#8
,
|
|
|
Я полностью согласен с тобой. Именно поэтому, учась в универе, я решил не доделывать чью-то разработку, а сделать свою, взяв самые простые алгоритмы.
Код надо не просто комментировать, а используя алгоритмы, давать в коде на них ссылки. Делать побольше описание о структуре проекта, какие модули и как между собой взаимодействуют. Это поможет самому найти неправильный подход в дизайне. Короче, UML рулит. Проект надо вести в Umbrello (под Linux) и параллельно описывать для девелоперов проект в DOCBOOK. Для копания в коде я использую LXR, создаётся типа сайтика с перекрёстными ссылками. Удобно. |
Сообщ.
#9
,
|
|
|
2nyquist
Цитата nyquist,6.08.04, 14:32 О качестве работы программ судить сложно, т.к. зачастую они очень "сырые" и пользоваться ими крайне не удобно... Значит ты их пытался возродить к жизни ? )) Каковы успехи? Добавлено в : Цитата RaD,6.08.04, 16:50 ИМХО Можно изменять алгоритмы внутри модулей, но общая концепция представления форм знаний и их взаимодействие при принятии решений либо разрабатывается с нуля, либо заимствуется.Я полностью согласен с тобой. Именно поэтому, учась в универе, я решил не доделывать чью-то разработку, а сделать свою, взяв самые простые алгоритмы. Так как быть с каркасом системы? Анализ существующих систем и тест их потенциала -- разве не вариант? Цитата RaD,6.08.04, 16:50 Про UML я с тобой согласен. Правда Rational Rose дает большую функциональность, чем Umbrello, и он тоже есть под Линух.Код надо не просто комментировать, а используя алгоритмы, давать в коде на них ссылки. Делать побольше описание о структуре проекта, какие модули и как между собой взаимодействуют. Это поможет самому найти неправильный подход в дизайне. Короче, UML рулит. Проект надо вести в Umbrello (под Linux) и параллельно описывать для девелоперов проект в DOCBOOK. Для копания в коде я использую LXR, создаётся типа сайтика с перекрёстными ссылками. Удобно. Давайте напишем свое видение разработки: * задачи распознавания (изолированные слова, слитная речь, ...), * концепция системы (гибридная, типа классная доска, ...), * перцептивная модель (вроде остановились на модели анализа через синтез) * ведение проекта, * используемый инструментарий (MSVC, .NET, Kylix, Intel_SPL, GSL, ... =))) ) ИМХО, это будет полезно всем что скажет уважаемый all ? B) |
Сообщ.
#10
,
|
|
|
Rational Rose - хорошая вещь, но платная и у меня её нет.
Мне интересна перцептивная модель. Что ты понимаешь под "ведением проекта"? |
Сообщ.
#11
,
|
|
|
Цитата RaD,9.08.04, 09:52 Что ты понимаешь под "ведением проекта"? Ты сам написал: "ПРОЕКТ надо вести...", а еще до этого сказал, что мол не против собрать и систему из исходных кодов, рассылку, ЦВС и вперед, только не можешь быть координатором ПРОЕКТА. Вот я предложил каждому заинтересовавшемуся написать, как он понимает ведение этого проекта и какие задачи ставит. Сам я вот как думаю: * разработать архитектуру системы распознавания, которую использовать как каркас для проверки работы и встраивания реализуемых алгоритмов поиска сигнала, акустического процессора и т.п. * для этого можно либо собрать и проанализировать одну из уже имеющихся систем, либо сделать это самостоятельно, целиком под себя * если такая затея будет интересна нескольким людям, то их совместная разработка должна как-то быть организована. - все идеи и комментарии на этот счет хотелось бы увидеть в этой теме З.Ы. Сорри за бывшие козяблики... это Konquerror так глючит =) Как ты понял, я поставил себе линух, конкретно Mandrake. Правда есть траблы со звуком и кодировками =( сейчас вожусь исправляю. |
Сообщ.
#12
,
|
|
|
У меня нет своего сервака, чтобы сделать на нём CVS и прочее. Можно открыть проект на SF.net. Это я предоставлю координатору проекта, как и выбор названия Через SF.net и будет организована совместная разработка.
Пишем на C++. На Windows желательно использовать GCC, это предложение. Что у нас есть: Звук: 1 - Windows Multimedia API, 2 - ALSA. Поддержка захвата и воспроизведения. Полный дуплекс (пригодится). Детектор речи: сильно зависит от используемого метода. Преобразование в вектор: LPC, Mel-scaled, ... Сравнение с шаблонами: DTW, HMM, Neuronets. Синтез речи: Тема мне неизвестна... |
Сообщ.
#13
,
|
|
|
Цитата RaD @ 10.08.04, 12:22 У меня нет своего сервака, чтобы сделать на нём CVS и прочее. Можно открыть проект на SF.net. Это я предоставлю координатору проекта, как и выбор названия Через SF.net и будет организована совместная разработка. Пишем на C++. На Windows желательно использовать GCC, это предложение. Что у нас есть: Звук: 1 - Windows Multimedia API, 2 - ALSA. Поддержка захвата и воспроизведения. Полный дуплекс (пригодится). Детектор речи: сильно зависит от используемого метода. Преобразование в вектор: LPC, Mel-scaled, ... Сравнение с шаблонами: DTW, HMM, Neuronets. Синтез речи: Тема мне неизвестна... Да, в алгоритмическом инструментарии мы подкованы Еще вышел пакет SpeechPearl -- он вообще позволяет строить интерактивные системы распознавания. Но!: 1. он заточен под применение специальной платы с предварительной обработкой сигнала (технология barge-in), 2. реализует принцип системы с ограниченным распознаванием по grammar в виде VoiceXML (по моему я не напутал) оттуда можно много чего позаимствовать, но по большому счету, он не подходит. Про синтез:два основных метода (может и больше, но я помню два) - по-фонемный синтез на основе сшивания фрагментов и вокодерное декодирование (фильтрация просодической последоватльности линейным фильтром коэффициентов линейного предсказания). а ты для чего хочешь синтез включить? как проверку кодирования или просто к месту пришлось? Перцептивная модель:Я щас ищу ссылки на первоисточники с CSA.RU ... Тебе удалось прочесть на сайте про модель распознавания через синтез? Задачи системы (как вижу их я): -Распознавание слитной речи. Блоки семантической и прагматической обработки отсутствуют. -Желательно дикторонезависимая, с настройкой на язык и основные характеристики произношения (без учета всяких девиаций) Предлагаю попробоватьописать общую архитектуру, не вдаваясь в конкретные применяемые алгоритмы Щас пока полезу на SF.net полюбопытствую |
Сообщ.
#14
,
|
|
|
Цитата Да, в алгоритмическом инструментарии мы подкованы Не зря гранит в универе грызли... Цитата Еще вышел пакет SpeechPearl -- он вообще позволяет строить интерактивные системы распознавания. Но!: 1. он заточен под применение специальной платы с предварительной обработкой сигнала (технология barge-in), 2. реализует принцип системы с ограниченным распознаванием по grammar в виде VoiceXML (по моему я не напутал) оттуда можно много чего позаимствовать, но по большому счету, он не подходит. Давай ссылку. Думаю, народ просто перенёс часть софта на плату, чтобы повысить цену продукта и привязать пользователей. Цитата Про синтез:два основных метода (может и больше, но я помню два) - по-фонемный синтез на основе сшивания фрагментов и вокодерное декодирование (фильтрация просодической последоватльности линейным фильтром коэффициентов линейного предсказания). а ты для чего хочешь синтез включить? как проверку кодирования или просто к месту пришлось? Синтез пригодится всегда. Сейчас у меня компьютер сообщает мне об интересующих меня событиях на английском через Flite, но для остальных домашних этот язык непонятен. Хочу сделать любой синтезатор, чтобы разобраться с проблемой и попытаться двинуться далее. Цитата Перцептивная модель:Я щас ищу ссылки на первоисточники с CSA.RU ... Тебе удалось прочесть на сайте про модель распознавания через синтез? У меня только что врубили инет на работе. А с дома я хожу по GPRS. Сайты смотреть очень дорого получается Цитата Задачи системы (как вижу их я): -Распознавание слитной речи. Блоки семантической и прагматической обработки отсутствуют. -Желательно дикторонезависимая, с настройкой на язык и основные характеристики произношения (без учета всяких девиаций) Хорошие задачи. Цитата Предлагаю попробоватьописать общую архитектуру, не вдаваясь в конкретные применяемые алгоритмы. Рисуй диаграмму на UML и выкладывай на SF.net. Текущее состояние: Читаю DSP Guide. Очень толстая и полезная книжка. Пытаюсь заставить себя поработать вечерком на компе. Но после работы это очень трудно сделать |
Сообщ.
#15
,
|
|
|
Ссылки на SpeechPearl:
http://www.comptek.ru/box/612 http://www.comptek.ru/box/611 http://www.comptek.ru/box/610 http://www.comptek.ru/box/609 там есть и про ЦСП-плату, и про barge-in, и про CSP, и про Speech-SDK еще погляди сюда: http://speechpro.ru/upload/322_SoundCleaner_rus.pdf это система очистки звука SoundCleaner, считай акустический процессор системы распознавания. алгоритм очистки строится из модулей, как ЛЕГО по принципу Иерархической модели. Проект на SF.NET: есть одно условие для создания проекта -- наличие лицензии. рою экскаватором инфу по GPL, LGPL, QPL, .. как разберусь и создам проект -- дам знать. тока с CVS возможно будут сложности, с WinCVS оболочкой я работал, а с Cervisia не доводилось еще. рассчитываю на твою помощь с настройкой. UML-диаграммка: в процессе. кинь сцылку на rpm Umbrello. поковыряю ее вместе с Rational или Together ... Еще: пора определиться с рабочей моделью взаимодействия модулей. ключевые слова: иерерхическая, гетероиерархическая, сетевая, целенаправленная, модель классной доски, ... Есть какие мысли ? |