На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
  
> Интересные ссылки
      1) Скачал книгу DSP Guide. Там в формулах вместо некоторых символов - прямоугольники :'( . Это у всех так?
      2) Какие разделы о распознавании речи?
        DSP Guide Стивена Смита? Всё там с pdf-ками нормально. Обновите AcrobatReader.

        Цитата Dovosheya @
        2) Какие разделы о распознавании речи?
        Никаких. Книга по обработке цифровых сигналов и частная задача распознавания речи там не затрагивается.
          Думаю очень интересная ссылка: dsp-book.narod.ru
            Eще две ссылки по DTW:

            Dan Ellis has implemented a simple DTW function using MATLAB at
            http://www.ee.columbia.edu/~dpwe/resources/matlab/dtw/

            A Java applet demo of DTW (with source) can be found at:
            http://www.isip.msstate.edu/projects/speech/software/demonstrations/applets/util/dynamic_time_warping/current/index.html
              C++ библиотеки для обработки сигнала: Info for speach & speaker recognition (с примерами) если договоритесь с автором, то и с исходниками.
                RaD, огромный сенк за линки!!!
                  http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html

                  Speech Processing Toolbox for MATLAB
                    Тезисы докладов, принятых на конференцию Теория и практика речевых исследований (АРСО-99)
                    Москва, МГУ им. М.В.Ломоносова, филологический факультет, 14-18 сентября 1999 г.
                    http://logos.philol.msu.ru/rus/gorn/arso/

                    Ссылки - методы обработки речи
                    http://nagor.narod.ru/links.html
                      http://auditech.ru/
                      Компания AudiTech, Ltd (ООО ”ОДИТЕК”) создана в 1991 году на базе отдела речевых исследований НПО “Дальняя связь” . Основу коллектива составляют высококвалифицированные специалисты в области распознавания, синтеза, кодирования речи, верификации и идентификации диктора и определения эмоционального статуса говорящего.

                      Книги и статьи по распознаванию речи
                      http://auditech.ru/books.htm
                      http://auditech.ru/read.htm

                      Основы психоакустики
                      http://auditech.ru/doc/psychoacoustics/index1.htm

                      ДЕМО-ПРОГРАММЫ Распознавания и обработки речи!!!
                      http://auditech.ru/demo.htm
                      Сообщение отредактировано: DimmK -
                        Основные методы, применяемые для распознавания рукописного текста
                        http://www.recognition.mccme.ru/pub/RecognitionLab.html/methods.html
                        Но и для распознавания речи вполне подходят
                          Международная Конференция "Речь и Компьютер" SPECOM-2006
                          http://www.specom.nw.ru
                          Архив конференции
                          http://www.specom.nw.ru/rus/ist.htm

                          Организатор конференции:
                          Группа речевой информатики Санкт-Петербургского института информатики и автоматизации Российской Академии Наук
                          http://www.spiiras.nw.ru/speech/index.html
                            Не думал, что такой ссылки нет...
                            http://sintezator.narod.ru/
                              http://mary.dfki.de
                              Text-to-speech synthesis system MARY

                              The landscape of open source speech synthesizers is growing richer. The German Research Centre for Artificial Intelligence (DFKI), partner in the Network of Excellence HUMAINE on emotion-oriented computing, has decided to release its emotional text-to-speech synthesis system MARY as open source.

                              The system can be downloaded from http://mary.dfki.de MARY is a multi-lingual (German, English, Tibetan) and multi-platform (Windows, Linux, MacOs X and Solaris) speech synthesis system. It comes with an easy-to-use installer - no technical expertise should be required for installation.
                                Для тех кто мечтает выделить существенные характеристические признаки фонем советую почитать:

                                Трубецкой Н.С.
                                ОСНОВЫ ФОНОЛОГИИ
                                http://www.auditorium.ru/books/2730/
                                  Вот любопытная прога для размеки речи речи на фонемы, работает под Windows
                                  "SLAM": Segmentation and Labelling Automatic Module
                                  http://www.pd.istc.cnr.it/pages/slam.htm

                                  Phonetic or phonemic labeling of speech signals is normally performed manually by phoneticians or speech communication experts. Even if various attractive graphic and acoustic tools are simultaneously available, there will always be some disagreement among skilled human labeling experts in the results of labeling the same waveform.
                                  ---------------------------------------------------------------------------------------------
                                  SLAM segmentation strategy is entirely based on the Multi-Level Segmentation (MLS) theory [4][5]. Speech is considered as a temporal sequence of quasi-stationary acoustic segments, and the points within such segments are more similar to each other than to the points in adjacent segments. Following this viewpoint, the segmentation problem can be simply reduced to a local clustering problem where the decision to be taken regards the similarity of any particular frame with the signal immediately preceding or following it. Using only relative measures of acoustic similarity, this technique should be quite independent of the speaker, vocabulary, and background noise. SLAM makes use of the Multi Level Segmentation (MLS) algorithm illustrated in the following Table (see this Figure too):
                                    Плохо сканированная книга - но для ознакомления пойдет

                                    http://www.bolshe.ru/unit/23/books/3017/s/1
                                    Автоматическое распознавание и синтез речевых сигналов.
                                    УДК 621.391
                                    Рассмотрены современныэ тенденции развития систем автоматического распознавания и синтеза речевых сигналов. Освещены проблемы построения алгоритмов распознавания в неадаптивных системах речевого управления. Описаны эксперименты по созданию систем автоматического речевого запроса экономической информации с элементами автоматического обучения.
                                    Книга рассчитана на научных работников, инженеров и студентов, специализирующихся по технической кибернетике и теории информации.
                                    Работу рецензировали и рекомендовали к изданию:
                                    академик АН СССР А.А.Дородницын кандидат физико-математических наук М.Н.Маричук©Издательство "Штиинца",1985 г.
                                    --------------------------------------------------------------------


                                    Добавлено
                                    «Конкурс Русских Инноваций» — 2003
                                    «Система активного диалога «человек-компьютер» с русскоязычным голосовым интерфейсом»
                                    http://www.trinitas.ru/rus/doc/0023/001a/00230004.htm

                                    Их сайт (фирма суперкомпьютерные системы)
                                    http://www.minitera.ru/srlab/rus/index.html

                                    Демонстрационные программы распознавания речи:
                                    http://www.minitera.ru/srlab/rus/download.html
                                    --------------------------------------------------------------------


                                    Лаборатория синтеза и распознавания речи - тоже из белорусии
                                    http://www.ssrlab.com/
                                    --------------------------------------------------------------------


                                    Development of multi-voice and multi-language Text-to-Speech (TTS) and
                                    Speech-to-Text (STT) conversion system (languages: Belarussian, Polish, Russian)
                                    http://www.spiiras.nw.ru/speech/intas/
                                    --------------------------------------------------------------------


                                    Демо-версия программы управления компьютером голосом и взглятом
                                    http://www.spiiras.nw.ru/speech/demo/assistive.html
                                    --------------------------------------------------------------------


                                    A.L. Ronzhin, A.A. Karpov, I.V. Lee. Automatic system for Russian speech recognition SIRIUS. Scientific-theoretical journal Artificial Intelligence, Donetsk, Ukraine, 2005. Vol.3. pp. 590-601. << pdf >>
                                    http://www.spiiras.nw.ru/speech/intas/Papers/ii.pdf
                                    Сообщение отредактировано: DimmK -
                                      http://lord-n.narod.ru/walla.html
                                      Гляньте резделы
                                      "Цифровая Обработка Сигналов и Цифровая Связь"
                                      "Цифровая и Аналоговая Фильтрация"
                                        Физиология человека Ред. Покровский В.М., Коротько Г.Ф.
                                        http://rita.volgmed.ru/biochem/e-library/sources/612/pokrovsky1997-1.djv
                                        http://rita.volgmed.ru/biochem/e-library/sources/612/pokrovsky1997-2.djv

                                        Физиология человека, Ред. Шмидт Р., Тевс Г.
                                        http://rita.volgmed.ru/biochem/e-library/sources/612/schmidt1996-1.djv
                                        http://rita.volgmed.ru/biochem/e-library/sources/612/schmidt1996-2.djv
                                        http://rita.volgmed.ru/biochem/e-library/sources/612/schmidt1996-3.djv

                                        Основы сенсорной физиологии Р. Шмидт
                                        http://www.medbook.net.ru/cgi-bin/download/download.pl?file=shmidt.djvu
                                        Рекомендую почитать главу 5....
                                        5. Физиология слуха
                                        - - 5.1. Анатомия органа слуха
                                        - - 5.2. Слух человека
                                        - - 5.3. Функции среднего и внутреннего уха
                                        - - 5.4. Слуховой нерв и высшие уровни слухового пути


                                        В этих книгах есть инфа про слух..
                                          По синтезу речи:
                                          A Short Introduction to Text-to-Speech Synthesis
                                          http://tcts.fpms.ac.be/synthesis/introtts_old.html

                                          The MBROLA Project: Towards a Freely Available Multilingual Speech Synthesizer
                                          http://www.tcts.fpms.ac.be/synthesis/

                                          Non-commercial TTS (Text-to-Speech ) systems and components compatible with MBROLA
                                          http://www.tcts.fpms.ac.be/synthesis/
                                            Если кого-то заинтересует могу выслать какие-либо статьи конференций:
                                            1. SPECOM'04
                                            2. SPECOM'06
                                            3. Российского акустического общества (РАО)'05 (http://rao.akin.ru/rao/public/r_s16_3.HTM)

                                            Содержание SPECOM'06 в теме "Новости речевых технологий"
                                            Сообщение отредактировано: kaa1 -

                                            Прикреплённый файлПрикреплённый файлSPECOM__04.doc (172.67 Кбайт, скачиваний: 2212)
                                              Книжка одного из создателей Palm-а
                                              Тематика очень близкая!
                                              O_intellekte-hokins_ru.doc
                                                Помогите с поиском стандартов STANAG 4591, 4198, 4209. А также MIL-STD 3005.

                                                Если кому надо имеются (вышлю на мыло):

                                                4195Eed01a3;
                                                4204Eed02a1;
                                                4285Eed01a2;
                                                4406E;
                                                4406Eed01;
                                                4444E;
                                                4479Eed01;
                                                4184d3e.

                                                Yanis.El@list.ru
                                                  Помогите найти ссылку на речевую базу данных TIMIT :wall:
                                                    Цитата Alek @
                                                    Помогите найти ссылку на речевую базу данных TIMIT :wall:

                                                    Alek, ты же не в той теме :)

                                                    Вот, скачай базу отсюда:

                                                    http://festvox.org/dbs/dbs_kdt.html

                                                    Arctic базы ещё лучше чем TIMIT

                                                    http://festvox.org/cmu_arctic/index.html
                                                      TIMIT спроси у grisania
                                                        Помогите найти следующую литературу,может кто встречал:

                                                        Помехоустойчивость и эффективность систем передачи информации / А.Г.Зюко, А.И.Фалько, И.П.Панфилов, В.Л.Банкет - М.: Радио и связь, 1985. – 272 с.

                                                        Модели источника ошибок в каналах передачи цифровой информации / Э.Л.Блох, О.В.Попов, В.Я.Турин – М.: Связь, 1971. – 312 с.
                                                        :wall: :wall: :wall:
                                                          Цитата nsh @
                                                          Цитата Alek @
                                                          Помогите найти ссылку на речевую базу данных TIMIT :wall:

                                                          Alek, ты же не в той теме :)

                                                          Вот, скачай базу отсюда:

                                                          http://festvox.org/dbs/dbs_kdt.html

                                                          Arctic базы ещё лучше чем TIMIT

                                                          http://festvox.org/cmu_arctic/index.html

                                                          Чем же лучше?

                                                          У TIMIT куча разных голосов, что очень важно.
                                                            АВТОМАТИЧЕСКИЙ ПОИСК КЛЮЧЕВЫХ СЛОВ В НЕПРЕРЫВНОМ ПОТОКЕ РЕЧИ НА ОСНОВЕ ТЕХНОЛОГИИ "РАСПОЗНАВАНИЕ ЧЕРЕЗ СИНТЕЗ"
                                                            http://www.dialog-21.ru/dialog2006/materials/html/Kiselov.htm

                                                            АНАЛИЗ ПАРАМЕТРОВ РЕЧЕВОГО СИГНАЛА СОЗДАЮЩИХ ВОСПРИЯТИЕ ЭЛЕМЕНТАРНЫХ ЗВУКОВ РЕЧИ
                                                            http://www.dialog-21.ru/dialog2006/materials/html/Kneller.htm

                                                            ФОНЕТИКО-АКУСТИЧЕСКАЯ БАЗА ДАННЫХ ДЛЯ МНОГОЯЗЫЧНОГО СИНТЕЗА РЕЧИ ПО ТЕКСТУ НА СЛАВЯНСКИХ ЯЗЫКАХ
                                                            http://www.dialog-21.ru/dialog2006/materials/html/Lobanov.htm

                                                            Все материалы международной конференции «Диалог 2006»
                                                            http://www.dialog-21.ru/dialog2006/materials.asp?type=reports
                                                            Сообщение отредактировано: kaa1 -
                                                              Speech recognition software and testing from NIST groups. Accuracy estimation like WER and other scoring

                                                              http://www.nist.gov/speech/tools/index.htm
                                                                Да, и как же мы без Praat, это must-have:

                                                                http://www.fon.hum.uva.nl/praat/
                                                                  На этой страничке должен побывать каждый.
                                                                  Lawrence Rabiner home page
                                                                    SAPI XML TTS для разработчиков прикладных программ. http://spacelib.narod.ru/xml_sapi.html
                                                                        Цитата RaD @
                                                                        Обработка речевых сигналов

                                                                        Не работает ссылка
                                                                          Для того, чтобы ориентироваться в направлениях речевых технологий, развиваемых на постсоветском пространстве, эти ссылки необходимы. Эти ссылки уже были на этом форуме или в неявном виде или в явном, но в других темах.
                                                                          http://www.uiip.bas-net.by/rus/l_rsr_about.html - Объединенный институт проблем информатики Национальной академии наук Беларуси, Лаборатория распознавания и синтеза речи
                                                                          http://www.istrasoft.ru/ - ИстраСофт
                                                                          http://speechpro.ru/ - Центр речевых технологий
                                                                          http://phonetics.pu.ru - кафедра фонетики и методики преподавания иностранных языков СПбГУ
                                                                          http://www.ccas.ru/ - ВЦ РАН
                                                                          http://www.stel.ru – СТЭЛ
                                                                          http://www.philol.msu.ru/~otipl/SpeechGroup/ - Речевая группа МГУ
                                                                          http://www.cognitive.ru/ - Cognitive Technologies
                                                                          http://sakrament.com - Сакрамент

                                                                          В этой теме есть ссылки ещё на несколько центров, занимающихся речевыми технологиями. У некоторых центров нет сайта, но большая их часть охвачена.
                                                                            Использование речевых технологий в прикладных программах: http://spacelib.narod.ru/p_exo.html , http://spacelib.narod.ru/p_rss.html .
                                                                              http://www.acnet.ge/ics/department2ru.htm - Отдел языковых и речевых систем института систем управления АН Грузии.
                                                                                Yamaha Vocaloid Demo
                                                                                http://websound.ru/sc.php?id=170&is=5
                                                                                  Так сказать полный список хорошего софта:

                                                                                  http://www.isca-students.org/freeware
                                                                                    Robust Speech Recognition and Understanding
                                                                                    http://s.i-techonline.com/Book/Robust-Spee...02613-08-0.html
                                                                                    Книжку можно скачать совершенно бесплатно.
                                                                                      http://zhenilo.narod.ru - Женило Валерий Романович. Один из лучших специалистов в России по криминалистической экспертизе речевых сигналов. Очень много полезной информации, включая его монографию "Компьютерная фоноскопия" и презентации по обработке речевого сигнала.
                                                                                        http://www.vocative.ru/ - очередная технология распознавания русской речи.
                                                                                          http://cslu.cse.ogi.edu/HLTsurvey/HLTsurvey.html - Survey of Human Language Technology (A 1996 high-level review of: spoken/written input, analysis and understanding, generation, speech output, discourse and dialogue, document processing, ...)
                                                                                          Сообщение отредактировано: forcety -
                                                                                            привет, подскажите пожалуйста какая хорошая софтина для конвертации речи в текст и где ее можно скачать???

                                                                                            заранее спасибо
                                                                                                Розалиев - ПОСТРОЕНИЕ МОДЕЛИ ЭМОЦИЙ ПО РЕЧИ ЧЕЛОВЕКА (стр.65-68): Известия Волгоградского государственного технического университета
                                                                                                    Видели достижение питерских разработчиков?
                                                                                                    http://www.mediainsight.ru/ru/main/

                                                                                                    Распознавание спонтанной слитной речи. Что думаете по этому поводу?
                                                                                                      Цитата
                                                                                                      Распознавание спонтанной слитной речи. Что думаете по этому поводу?


                                                                                                      А чего, молодцы разработчики! Давно бы так.
                                                                                                        http://shout-toolkit.sourceforge.net/index.html

                                                                                                        не пробовал, но проект живой
                                                                                                          Программа для морфологического анализа русского языка

                                                                                                          http://company.yandex.ru/technology/mystem/
                                                                                                          Сообщение отредактировано: zamir -
                                                                                                            Лекции для начинающих в области распознавания речи

                                                                                                            http://video.google.com/videoplay?docid=5887057215376119802&hl=en#
                                                                                                            http://www.slideshare.net/Tatiana.lando/speech-technologies

                                                                                                            Добавлено
                                                                                                            Собственно оригинальный источник всех подобных семинаров:
                                                                                                            http://www.mathlingvo.ru/nlpseminar/archive
                                                                                                              много полезной информации на русском языке

                                                                                                              http://www.iai.dn.ua/public/JournalAI_2002_4/Razdel2/
                                                                                                                http://www.ims.uni-stuttgart.de/projekte/gramotron/SOFTWARE/SFST.html
                                                                                                                toolz @ finite state transducers - пока не ставил, мож полезное дело

                                                                                                                еще вопрос к мощщнейшим зубрам: верон ли я понял что надпись (q,x,y,r) означает , что переход трансдуцера с вершины ку на вершину ры соотв преобразованию строки х в строку у ? а то в базовых опр ниче такого нет. а из старых знаний помню ткоа скалярное произведение, но там тока 2 арг в кр скопках а тут 4
                                                                                                                Сообщение отредактировано: NegroFinn -
                                                                                                                  а мож это круче? http://www.openfst.org/
                                                                                                                    Цитата KoPoBuH @
                                                                                                                    Если кому интересно здесь лекции MIT по распознаванию речи

                                                                                                                    уже нет. хнач че то интерестное было
                                                                                                                      http://groups.csail.mit.edu/netmit/sFFT/ - новый алгоритм, работающий быстрее FFTW.
                                                                                                                        Думается, для того, чтобы им воспользоваться, надо точно знать, в каких частях спектра есть сигнал, а какие не нужны.
                                                                                                                            Может немного не в тему - очень хорошая библиотека с книгами о Языке и Речи, втч практически вся классика по распознавнию-
                                                                                                                            синтезу что есть на русском(?).ANTIC
                                                                                                                            ps - а искал всего лишь Сорокина - я начинающий, совсем ,,,
                                                                                                                              На хабре выложили перевод "Простой, но эффективный Voice Activity Detection алгоритм реального времени": http://habrahabr.ru/post/192954/
                                                                                                                                Задача изменения голоса. Часть 1. Что такое голос?
                                                                                                                                http://habrahabr.ru/company/ifree/blog/203946/

                                                                                                                                Описание проблем и процессов очень хорошо ложится в концепцию распознавания речи.
                                                                                                                                Задача натуральности звучания - в концепцию синтеза речи.
                                                                                                                                Часть картинок я уже видел, но прочитать в сжатом виде хорошо оформленную статью мне было интересно. Посему - рекомендую к прочтению.
                                                                                                                                Сообщение отредактировано: zamir -
                                                                                                                                  Шумопонижение в CMU Sphinx - http://habrahabr.ru/post/227099/
                                                                                                                                    Бонч спасибо за ссылку.
                                                                                                                                    не могу найти схемку на Allys Shrimp креведко, на трубках или конусах, если есть где то плиз ссылочку
                                                                                                                                    0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                                                                                                                    0 пользователей:


                                                                                                                                    Рейтинг@Mail.ru
                                                                                                                                    [ Script execution time: 0,1015 ]   [ 15 queries used ]   [ Generated: 15.07.24, 11:38 GMT ]