На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (2) [1] 2  все  ( Перейти к последнему сообщению )  
> Open Source ASR , воскрешения Лазаря
    Смотрю форум,
    вижу за громкими словами типа "СОЗДАЛ" очередную попытку реализовать алгоритм 40-летней давности, и то где-то в четверть его возможностей.
    В то же время есть несколько реальных ЗАКОНЧЕННЫХ систем распознавания речи с ОТКРЫТЫМ ИСХОДНЫМ КОДОМ, где это все давно уже есть, и вообще говоря, пора бы двигаться дальше ...
    Правда почти все они писаны под *nix, а я в нем не такой копенгаген, как хотелось бы.

    Внимание вопрос: кто нить пытался собрать и настроить какую нибудь из готовых систем и что у вас из этого получилось?

    Описание некотороых систем с адресами найдете здесь:
    http://sf.irk.ru/pub/linux/redhat/redhat-7...O/software.html
      А что ты сделал для хип-хопа?

      В *нихах, говоришь, не разбираешься? Так это тоже древняя операционка.
      Язык С/С++ сильно там отличается от использующегося на венде?

      Совет: Не раздражай! Покажи свои наработки!
        Цитата RaD,6.08.04, 10:23
        В *нихах, говоришь, не разбираешься? Так это тоже древняя операционка.
        Язык С/С++ сильно там отличается от использующегося на венде?
        ну с Си ситуация не такая плохая:
        я юзаю по возможности кроссплатформенные либы типа SndFile и стандартные средства, так что синтаксические расхождения в программах случаются только при ветвлении процессов и передаче данных между ними. Ну может быть еще работа со звуковым устройством. Концепутальных же расхождений не наблюдается совсем.
        а вообще я программирую на матлабе, а он есть под обе операционки

        Цитата RaD,6.08.04, 10:23
        Покажи свои наработки!
        я весь в вопросах информационно оптимального кодирования.
        разрабатываю метод устойчивого линейного предсказания.
        + фильтрация в пространстве признаков. - позволяет вскрыть гармонический сигнала в условиях шумов 3-7 дБ (это много)


        И все-таки по готовым системам: давайте соберем одну
          Давай. Я координатором проекта быть не смогу. Времени мало.
          Но код писать умею и даже знаю про что :)
          Делай CVS, рассылочку и понеслись...
            Цитата RaD,6.08.04, 13:06
            Давай. Я координатором проекта быть не смогу. Времени мало.
            Но код писать умею и даже знаю про что :)
            Делай CVS, рассылочку и понеслись...

            Для начала Линукс поставить надобно ))))
            CygWin уже надоел порядочно

            думаю между Debian и Mandrake, со стороны приятель соблазняет LFS с нуля поставить ...
            какой дистриб ты порекомендуешь?
              Тот, спец по которому есть у тебя под рукой.

              Я использую обсизифленный AltLinux Compact 2.3.
                День добрый.
                Я вот осмелюсь вмешаться в Ваш совместный диалог (конечно, жаль, что только диалог ;-( )

                Хотел бы высказаться по поводу некоторых программ, реализованных под *nix системы, исходники которых я имел честь просматривать. Это такие проекты как:
                CMU Sphinx
                NICO ANN Toolkit
                CVoiceControl/kVoiceControl
                и некоторые другие, которые не указаны по ссылке от Age.

                Сразу же бросается в глаза одна деталь - качество кода зачастую оставляет желать лучшего. Я говорю не о корректности реализации, а чисто о структурированности и т.п.

                Порой бывает ну уж ОЧЕНЬ не просто разобраться в некорых моментах. А что же касается комментирования кода - так это вообще отдельная проблема (я говорю не о man'ах, а именно о комментировании кода).

                О качестве работы программ судить сложно, т.к. зачастую они очень "сырые" и пользоваться ими крайне не удобно...

                Да, прошу сразу не набрасываться на меня, т.к. высказал только собственную точку зрения.
                  Я полностью согласен с тобой. Именно поэтому, учась в универе, я решил не доделывать чью-то разработку, а сделать свою, взяв самые простые алгоритмы.

                  Код надо не просто комментировать, а используя алгоритмы, давать в коде на них ссылки. Делать побольше описание о структуре проекта, какие модули и как между собой взаимодействуют. Это поможет самому найти неправильный подход в дизайне. Короче, UML рулит. Проект надо вести в Umbrello (под Linux) и параллельно описывать для девелоперов проект в DOCBOOK.

                  Для копания в коде я использую LXR, создаётся типа сайтика с перекрёстными ссылками. Удобно.
                    2nyquist
                    Цитата nyquist,6.08.04, 14:32
                    О качестве работы программ судить сложно, т.к. зачастую они очень "сырые" и пользоваться ими крайне не удобно...

                    Значит ты их пытался возродить к жизни ? ))
                    Каковы успехи?

                    Добавлено в :
                    Цитата RaD,6.08.04, 16:50
                    Я полностью согласен с тобой. Именно поэтому, учась в универе, я решил не доделывать чью-то разработку, а сделать свою, взяв самые простые алгоритмы.
                    ИМХО Можно изменять алгоритмы внутри модулей, но общая концепция представления форм знаний и их взаимодействие при принятии решений либо разрабатывается с нуля, либо заимствуется.
                    Так как быть с каркасом системы?
                    Анализ существующих систем и тест их потенциала -- разве не вариант?

                    Цитата RaD,6.08.04, 16:50
                    Код надо не просто комментировать, а используя алгоритмы, давать в коде на них ссылки. Делать побольше описание о структуре проекта, какие модули и как между собой взаимодействуют. Это поможет самому найти неправильный подход в дизайне. Короче, UML рулит. Проект надо вести в Umbrello (под Linux) и параллельно описывать для девелоперов проект в DOCBOOK.
                    Для копания в коде я использую LXR, создаётся типа сайтика с перекрёстными ссылками. Удобно.
                    Про UML я с тобой согласен. Правда Rational Rose дает большую функциональность, чем Umbrello, и он тоже есть под Линух.

                    Давайте напишем свое видение разработки:
                    * задачи распознавания (изолированные слова, слитная речь, ...),
                    * концепция системы (гибридная, типа классная доска, ...),
                    * перцептивная модель (вроде остановились на модели анализа через синтез)
                    * ведение проекта,
                    * используемый инструментарий (MSVC, .NET, Kylix, Intel_SPL, GSL, ... =))) )

                    ИМХО, это будет полезно всем
                    что скажет уважаемый all ? B)
                      Rational Rose - хорошая вещь, но платная и у меня её нет.

                      Мне интересна перцептивная модель.

                      Что ты понимаешь под "ведением проекта"?
                        Цитата RaD,9.08.04, 09:52
                        Что ты понимаешь под "ведением проекта"?

                        Ты сам написал: "ПРОЕКТ надо вести...", а еще до этого сказал, что мол не против собрать и систему из исходных кодов, рассылку, ЦВС и вперед, только не можешь быть координатором ПРОЕКТА.
                        Вот я предложил каждому заинтересовавшемуся написать, как он понимает ведение этого проекта и какие задачи ставит.

                        Сам я вот как думаю:
                        * разработать архитектуру системы распознавания, которую использовать как каркас для проверки работы и встраивания реализуемых алгоритмов поиска сигнала, акустического процессора и т.п.
                        * для этого можно либо собрать и проанализировать одну из уже имеющихся систем, либо сделать это самостоятельно, целиком под себя
                        * если такая затея будет интересна нескольким людям, то их совместная разработка должна как-то быть организована.

                        - все идеи и комментарии на этот счет хотелось бы увидеть в этой теме

                        З.Ы. Сорри за бывшие козяблики... это Konquerror так глючит =)
                        Как ты понял, я поставил себе линух, конкретно Mandrake.
                        Правда есть траблы со звуком и кодировками =( сейчас вожусь исправляю.
                        Сообщение отредактировано: Age -
                          У меня нет своего сервака, чтобы сделать на нём CVS и прочее. Можно открыть проект на SF.net. Это я предоставлю координатору проекта, как и выбор названия :) Через SF.net и будет организована совместная разработка.

                          Пишем на C++. На Windows желательно использовать GCC, это предложение.

                          Что у нас есть:

                          Звук: 1 - Windows Multimedia API, 2 - ALSA.
                          Поддержка захвата и воспроизведения. Полный дуплекс (пригодится).
                          Детектор речи: сильно зависит от используемого метода.
                          Преобразование в вектор: LPC, Mel-scaled, ...
                          Сравнение с шаблонами: DTW, HMM, Neuronets.
                          Синтез речи: Тема мне неизвестна...
                            Цитата RaD @ 10.08.04, 12:22
                            У меня нет своего сервака, чтобы сделать на нём CVS и прочее. Можно открыть проект на SF.net. Это я предоставлю координатору проекта, как и выбор названия :) Через SF.net и будет организована совместная разработка.

                            Пишем на C++. На Windows желательно использовать GCC, это предложение.

                            Что у нас есть:

                            Звук: 1 - Windows Multimedia API, 2 - ALSA.
                            Поддержка захвата и воспроизведения. Полный дуплекс (пригодится).
                            Детектор речи: сильно зависит от используемого метода.
                            Преобразование в вектор: LPC, Mel-scaled, ...
                            Сравнение с шаблонами: DTW, HMM, Neuronets.
                            Синтез речи: Тема мне неизвестна...

                            Да, в алгоритмическом инструментарии мы подкованы ;)
                            Еще вышел пакет SpeechPearl -- он вообще позволяет строить интерактивные системы распознавания.
                            Но!:
                            1. он заточен под применение специальной платы с предварительной обработкой сигнала (технология barge-in),
                            2. реализует принцип системы с ограниченным распознаванием по grammar в виде VoiceXML (по моему я не напутал)
                            оттуда можно много чего позаимствовать, но по большому счету, он не подходит.

                            Про синтез:два основных метода (может и больше, но я помню два) - по-фонемный синтез на основе сшивания фрагментов и вокодерное декодирование (фильтрация просодической последоватльности линейным фильтром коэффициентов линейного предсказания).
                            а ты для чего хочешь синтез включить? как проверку кодирования или просто к месту пришлось?

                            Перцептивная модель:Я щас ищу ссылки на первоисточники с CSA.RU ...
                            Тебе удалось прочесть на сайте про модель распознавания через синтез?

                            Задачи системы (как вижу их я):
                            -Распознавание слитной речи. Блоки семантической и прагматической обработки отсутствуют.
                            -Желательно дикторонезависимая, с настройкой на язык и основные характеристики произношения (без учета всяких девиаций)

                            Предлагаю попробоватьописать общую архитектуру, не вдаваясь в конкретные применяемые алгоритмы
                            Щас пока полезу на SF.net полюбопытствую :P
                              Цитата
                              Да, в алгоритмическом инструментарии мы подкованы

                              Не зря гранит в универе грызли...
                              Цитата
                              Еще вышел пакет SpeechPearl -- он вообще позволяет строить интерактивные системы распознавания.
                              Но!:
                              1. он заточен под применение специальной платы с предварительной обработкой сигнала (технология barge-in),
                              2. реализует принцип системы с ограниченным распознаванием по grammar в виде VoiceXML (по моему я не напутал)
                              оттуда можно много чего позаимствовать, но по большому счету, он не подходит.

                              Давай ссылку. Думаю, народ просто перенёс часть софта на плату, чтобы повысить цену продукта и привязать пользователей.
                              Цитата
                              Про синтез:два основных метода (может и больше, но я помню два) - по-фонемный синтез на основе сшивания фрагментов и вокодерное декодирование (фильтрация просодической последоватльности линейным фильтром коэффициентов линейного предсказания).
                              а ты для чего хочешь синтез включить? как проверку кодирования или просто к месту пришлось?

                              Синтез пригодится всегда. Сейчас у меня компьютер сообщает мне об интересующих меня событиях на английском через Flite, но для остальных домашних этот язык непонятен. Хочу сделать любой синтезатор, чтобы разобраться с проблемой и попытаться двинуться далее.
                              Цитата
                              Перцептивная модель:Я щас ищу ссылки на первоисточники с CSA.RU ...
                              Тебе удалось прочесть на сайте про модель распознавания через синтез?

                              У меня только что врубили инет на работе. А с дома я хожу по GPRS. Сайты смотреть очень дорого получается :)
                              Цитата
                              Задачи системы (как вижу их я):
                              -Распознавание слитной речи. Блоки семантической и прагматической обработки отсутствуют.
                              -Желательно дикторонезависимая, с настройкой на язык и основные характеристики произношения (без учета всяких девиаций)

                              Хорошие задачи.
                              Цитата
                              Предлагаю попробоватьописать общую архитектуру, не вдаваясь в конкретные применяемые алгоритмы.

                              Рисуй диаграмму на UML и выкладывай на SF.net.

                              Текущее состояние:
                              Читаю DSP Guide. Очень толстая и полезная книжка.
                              Пытаюсь заставить себя поработать вечерком на компе.
                              Но после работы это очень трудно сделать :)
                                Ссылки на SpeechPearl:
                                http://www.comptek.ru/box/612
                                http://www.comptek.ru/box/611
                                http://www.comptek.ru/box/610
                                http://www.comptek.ru/box/609
                                там есть и про ЦСП-плату, и про barge-in, и про CSP, и про Speech-SDK

                                еще погляди сюда:
                                http://speechpro.ru/upload/322_SoundCleaner_rus.pdf
                                это система очистки звука SoundCleaner, считай акустический процессор системы распознавания. алгоритм очистки строится из модулей, как ЛЕГО по принципу Иерархической модели.

                                Проект на SF.NET:
                                есть одно условие для создания проекта -- наличие лицензии. рою экскаватором инфу по GPL, LGPL, QPL, .. как разберусь и создам проект -- дам знать.
                                тока с CVS возможно будут сложности, с WinCVS оболочкой я работал, а с Cervisia не доводилось еще. рассчитываю на твою помощь с настройкой.

                                UML-диаграммка:
                                в процессе. кинь сцылку на rpm Umbrello. поковыряю ее вместе с Rational или Together ...

                                Еще:
                                пора определиться с рабочей моделью взаимодействия модулей. ключевые слова: иерерхическая, гетероиерархическая, сетевая, целенаправленная, модель классной доски, ... Есть какие мысли ?
                                0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                0 пользователей:


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,0588 ]   [ 15 queries used ]   [ Generated: 17.05.24, 00:13 GMT ]