На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (5) 1 [2] 3 4 ... Последняя » все  ( Перейти к последнему сообщению )  
> Интересные ссылки
    Вот любопытная прога для размеки речи речи на фонемы, работает под Windows
    "SLAM": Segmentation and Labelling Automatic Module
    http://www.pd.istc.cnr.it/pages/slam.htm

    Phonetic or phonemic labeling of speech signals is normally performed manually by phoneticians or speech communication experts. Even if various attractive graphic and acoustic tools are simultaneously available, there will always be some disagreement among skilled human labeling experts in the results of labeling the same waveform.
    ---------------------------------------------------------------------------------------------
    SLAM segmentation strategy is entirely based on the Multi-Level Segmentation (MLS) theory [4][5]. Speech is considered as a temporal sequence of quasi-stationary acoustic segments, and the points within such segments are more similar to each other than to the points in adjacent segments. Following this viewpoint, the segmentation problem can be simply reduced to a local clustering problem where the decision to be taken regards the similarity of any particular frame with the signal immediately preceding or following it. Using only relative measures of acoustic similarity, this technique should be quite independent of the speaker, vocabulary, and background noise. SLAM makes use of the Multi Level Segmentation (MLS) algorithm illustrated in the following Table (see this Figure too):
      Плохо сканированная книга - но для ознакомления пойдет

      http://www.bolshe.ru/unit/23/books/3017/s/1
      Автоматическое распознавание и синтез речевых сигналов.
      УДК 621.391
      Рассмотрены современныэ тенденции развития систем автоматического распознавания и синтеза речевых сигналов. Освещены проблемы построения алгоритмов распознавания в неадаптивных системах речевого управления. Описаны эксперименты по созданию систем автоматического речевого запроса экономической информации с элементами автоматического обучения.
      Книга рассчитана на научных работников, инженеров и студентов, специализирующихся по технической кибернетике и теории информации.
      Работу рецензировали и рекомендовали к изданию:
      академик АН СССР А.А.Дородницын кандидат физико-математических наук М.Н.Маричук©Издательство "Штиинца",1985 г.
      --------------------------------------------------------------------


      Добавлено
      «Конкурс Русских Инноваций» — 2003
      «Система активного диалога «человек-компьютер» с русскоязычным голосовым интерфейсом»
      http://www.trinitas.ru/rus/doc/0023/001a/00230004.htm

      Их сайт (фирма суперкомпьютерные системы)
      http://www.minitera.ru/srlab/rus/index.html

      Демонстрационные программы распознавания речи:
      http://www.minitera.ru/srlab/rus/download.html
      --------------------------------------------------------------------


      Лаборатория синтеза и распознавания речи - тоже из белорусии
      http://www.ssrlab.com/
      --------------------------------------------------------------------


      Development of multi-voice and multi-language Text-to-Speech (TTS) and
      Speech-to-Text (STT) conversion system (languages: Belarussian, Polish, Russian)
      http://www.spiiras.nw.ru/speech/intas/
      --------------------------------------------------------------------


      Демо-версия программы управления компьютером голосом и взглятом
      http://www.spiiras.nw.ru/speech/demo/assistive.html
      --------------------------------------------------------------------


      A.L. Ronzhin, A.A. Karpov, I.V. Lee. Automatic system for Russian speech recognition SIRIUS. Scientific-theoretical journal Artificial Intelligence, Donetsk, Ukraine, 2005. Vol.3. pp. 590-601. << pdf >>
      http://www.spiiras.nw.ru/speech/intas/Papers/ii.pdf
      Сообщение отредактировано: DimmK -
        http://lord-n.narod.ru/walla.html
        Гляньте резделы
        "Цифровая Обработка Сигналов и Цифровая Связь"
        "Цифровая и Аналоговая Фильтрация"
          Физиология человека Ред. Покровский В.М., Коротько Г.Ф.
          http://rita.volgmed.ru/biochem/e-library/sources/612/pokrovsky1997-1.djv
          http://rita.volgmed.ru/biochem/e-library/sources/612/pokrovsky1997-2.djv

          Физиология человека, Ред. Шмидт Р., Тевс Г.
          http://rita.volgmed.ru/biochem/e-library/sources/612/schmidt1996-1.djv
          http://rita.volgmed.ru/biochem/e-library/sources/612/schmidt1996-2.djv
          http://rita.volgmed.ru/biochem/e-library/sources/612/schmidt1996-3.djv

          Основы сенсорной физиологии Р. Шмидт
          http://www.medbook.net.ru/cgi-bin/download/download.pl?file=shmidt.djvu
          Рекомендую почитать главу 5....
          5. Физиология слуха
          - - 5.1. Анатомия органа слуха
          - - 5.2. Слух человека
          - - 5.3. Функции среднего и внутреннего уха
          - - 5.4. Слуховой нерв и высшие уровни слухового пути


          В этих книгах есть инфа про слух..
            По синтезу речи:
            A Short Introduction to Text-to-Speech Synthesis
            http://tcts.fpms.ac.be/synthesis/introtts_old.html

            The MBROLA Project: Towards a Freely Available Multilingual Speech Synthesizer
            http://www.tcts.fpms.ac.be/synthesis/

            Non-commercial TTS (Text-to-Speech ) systems and components compatible with MBROLA
            http://www.tcts.fpms.ac.be/synthesis/
              Если кого-то заинтересует могу выслать какие-либо статьи конференций:
              1. SPECOM'04
              2. SPECOM'06
              3. Российского акустического общества (РАО)'05 (http://rao.akin.ru/rao/public/r_s16_3.HTM)

              Содержание SPECOM'06 в теме "Новости речевых технологий"
              Сообщение отредактировано: kaa1 -

              Прикреплённый файлПрикреплённый файлSPECOM__04.doc (172.67 Кбайт, скачиваний: 2212)
                Книжка одного из создателей Palm-а
                Тематика очень близкая!
                O_intellekte-hokins_ru.doc
                  Помогите с поиском стандартов STANAG 4591, 4198, 4209. А также MIL-STD 3005.

                  Если кому надо имеются (вышлю на мыло):

                  4195Eed01a3;
                  4204Eed02a1;
                  4285Eed01a2;
                  4406E;
                  4406Eed01;
                  4444E;
                  4479Eed01;
                  4184d3e.

                  Yanis.El@list.ru
                    Помогите найти ссылку на речевую базу данных TIMIT :wall:
                      Цитата Alek @
                      Помогите найти ссылку на речевую базу данных TIMIT :wall:

                      Alek, ты же не в той теме :)

                      Вот, скачай базу отсюда:

                      http://festvox.org/dbs/dbs_kdt.html

                      Arctic базы ещё лучше чем TIMIT

                      http://festvox.org/cmu_arctic/index.html
                        TIMIT спроси у grisania
                          Помогите найти следующую литературу,может кто встречал:

                          Помехоустойчивость и эффективность систем передачи информации / А.Г.Зюко, А.И.Фалько, И.П.Панфилов, В.Л.Банкет - М.: Радио и связь, 1985. – 272 с.

                          Модели источника ошибок в каналах передачи цифровой информации / Э.Л.Блох, О.В.Попов, В.Я.Турин – М.: Связь, 1971. – 312 с.
                          :wall: :wall: :wall:
                            Цитата nsh @
                            Цитата Alek @
                            Помогите найти ссылку на речевую базу данных TIMIT :wall:

                            Alek, ты же не в той теме :)

                            Вот, скачай базу отсюда:

                            http://festvox.org/dbs/dbs_kdt.html

                            Arctic базы ещё лучше чем TIMIT

                            http://festvox.org/cmu_arctic/index.html

                            Чем же лучше?

                            У TIMIT куча разных голосов, что очень важно.
                              АВТОМАТИЧЕСКИЙ ПОИСК КЛЮЧЕВЫХ СЛОВ В НЕПРЕРЫВНОМ ПОТОКЕ РЕЧИ НА ОСНОВЕ ТЕХНОЛОГИИ "РАСПОЗНАВАНИЕ ЧЕРЕЗ СИНТЕЗ"
                              http://www.dialog-21.ru/dialog2006/materials/html/Kiselov.htm

                              АНАЛИЗ ПАРАМЕТРОВ РЕЧЕВОГО СИГНАЛА СОЗДАЮЩИХ ВОСПРИЯТИЕ ЭЛЕМЕНТАРНЫХ ЗВУКОВ РЕЧИ
                              http://www.dialog-21.ru/dialog2006/materials/html/Kneller.htm

                              ФОНЕТИКО-АКУСТИЧЕСКАЯ БАЗА ДАННЫХ ДЛЯ МНОГОЯЗЫЧНОГО СИНТЕЗА РЕЧИ ПО ТЕКСТУ НА СЛАВЯНСКИХ ЯЗЫКАХ
                              http://www.dialog-21.ru/dialog2006/materials/html/Lobanov.htm

                              Все материалы международной конференции «Диалог 2006»
                              http://www.dialog-21.ru/dialog2006/materials.asp?type=reports
                              Сообщение отредактировано: kaa1 -
                                Speech recognition software and testing from NIST groups. Accuracy estimation like WER and other scoring

                                http://www.nist.gov/speech/tools/index.htm
                                0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                0 пользователей:


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,0434 ]   [ 15 queries used ]   [ Generated: 15.07.24, 10:55 GMT ]