Версия для печати
Нажмите сюда для просмотра этой темы в оригинальном формате
Форум на Исходниках.RU > Речевые Технологии > Интересные ссылки


Автор: RaD 01.09.04, 10:04
Книги по цифровой обработке сигнала
Русский для Festival
comp.speech FAQ
Speech Analysis by Tony Robinson
Speech Analysis Tutorial
Обработка речевых сигналов

Мой новый сайт

http://www.eee.bham.ac.uk/russellm/ee4r-ee5slp-2004.html
http://www.dialog-21.ru
http://leader.cs.msu.su/~luk/HMM_rus.html
Duke Speaks!
Курсы MIT по распознаванию речи
CMM
разыскивается нормальная теория по формантному синтезу в электронном виде!

Автор: Dovosheya 09.03.05, 16:14
1) Скачал книгу DSP Guide. Там в формулах вместо некоторых символов - прямоугольники :'( . Это у всех так?
2) Какие разделы о распознавании речи?

Автор: C300G 11.03.05, 10:37
DSP Guide Стивена Смита? Всё там с pdf-ками нормально. Обновите AcrobatReader.

Цитата Dovosheya @
2) Какие разделы о распознавании речи?
Никаких. Книга по обработке цифровых сигналов и частная задача распознавания речи там не затрагивается.

Автор: Vzhyk 19.04.05, 10:25
Думаю очень интересная ссылка: dsp-book.narod.ru

Автор: Vzhyk 11.05.05, 08:04
Eще две ссылки по DTW:

Dan Ellis has implemented a simple DTW function using MATLAB at
http://www.ee.columbia.edu/~dpwe/resources/matlab/dtw/

A Java applet demo of DTW (with source) can be found at:
http://www.isip.msstate.edu/projects/speech/software/demonstrations/applets/util/dynamic_time_warping/current/index.html

Автор: Sashenka 26.05.05, 09:26
C++ библиотеки для обработки сигнала: Info for speach & speaker recognition (с примерами) если договоритесь с автором, то и с исходниками.

Автор: Stelser 28.05.05, 22:17
RaD, огромный сенк за линки!!!

Автор: DimmK 31.08.05, 20:56
http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html

Speech Processing Toolbox for MATLAB

Автор: DimmK 10.01.06, 07:43
Тезисы докладов, принятых на конференцию Теория и практика речевых исследований (АРСО-99)
Москва, МГУ им. М.В.Ломоносова, филологический факультет, 14-18 сентября 1999 г.
http://logos.philol.msu.ru/rus/gorn/arso/

Ссылки - методы обработки речи
http://nagor.narod.ru/links.html

Автор: DimmK 15.01.06, 10:08
http://auditech.ru/
Компания AudiTech, Ltd (ООО ”ОДИТЕК”) создана в 1991 году на базе отдела речевых исследований НПО “Дальняя связь” . Основу коллектива составляют высококвалифицированные специалисты в области распознавания, синтеза, кодирования речи, верификации и идентификации диктора и определения эмоционального статуса говорящего.

Книги и статьи по распознаванию речи
http://auditech.ru/books.htm
http://auditech.ru/read.htm

Основы психоакустики
http://auditech.ru/doc/psychoacoustics/index1.htm

ДЕМО-ПРОГРАММЫ Распознавания и обработки речи!!!
http://auditech.ru/demo.htm

Автор: DimmK 24.01.06, 13:55
Основные методы, применяемые для распознавания рукописного текста
http://www.recognition.mccme.ru/pub/RecognitionLab.html/methods.html
Но и для распознавания речи вполне подходят

Автор: DimmK 24.01.06, 19:36
Международная Конференция "Речь и Компьютер" SPECOM-2006
http://www.specom.nw.ru
Архив конференции
http://www.specom.nw.ru/rus/ist.htm

Организатор конференции:
Группа речевой информатики Санкт-Петербургского института информатики и автоматизации Российской Академии Наук
http://www.spiiras.nw.ru/speech/index.html

Автор: Lebedev 01.02.06, 03:04
Не думал, что такой ссылки нет...
http://sintezator.narod.ru/

Автор: DimmK 24.02.06, 18:34
http://mary.dfki.de
Text-to-speech synthesis system MARY

The landscape of open source speech synthesizers is growing richer. The German Research Centre for Artificial Intelligence (DFKI), partner in the Network of Excellence HUMAINE on emotion-oriented computing, has decided to release its emotional text-to-speech synthesis system MARY as open source.

The system can be downloaded from http://mary.dfki.de MARY is a multi-lingual (German, English, Tibetan) and multi-platform (Windows, Linux, MacOs X and Solaris) speech synthesis system. It comes with an easy-to-use installer - no technical expertise should be required for installation.

Автор: DimmK 04.04.06, 18:33
Для тех кто мечтает выделить существенные характеристические признаки фонем советую почитать:

Трубецкой Н.С.
ОСНОВЫ ФОНОЛОГИИ
http://www.auditorium.ru/books/2730/

Автор: grisania 19.04.06, 05:17
Вот любопытная прога для размеки речи речи на фонемы, работает под Windows
"SLAM": Segmentation and Labelling Automatic Module
http://www.pd.istc.cnr.it/pages/slam.htm

Phonetic or phonemic labeling of speech signals is normally performed manually by phoneticians or speech communication experts. Even if various attractive graphic and acoustic tools are simultaneously available, there will always be some disagreement among skilled human labeling experts in the results of labeling the same waveform.
---------------------------------------------------------------------------------------------
SLAM segmentation strategy is entirely based on the Multi-Level Segmentation (MLS) theory [4][5]. Speech is considered as a temporal sequence of quasi-stationary acoustic segments, and the points within such segments are more similar to each other than to the points in adjacent segments. Following this viewpoint, the segmentation problem can be simply reduced to a local clustering problem where the decision to be taken regards the similarity of any particular frame with the signal immediately preceding or following it. Using only relative measures of acoustic similarity, this technique should be quite independent of the speaker, vocabulary, and background noise. SLAM makes use of the Multi Level Segmentation (MLS) algorithm illustrated in the following Table (see this Figure too):

Автор: DimmK 16.06.06, 17:34
Плохо сканированная книга - но для ознакомления пойдет

http://www.bolshe.ru/unit/23/books/3017/s/1
Автоматическое распознавание и синтез речевых сигналов.
УДК 621.391
Рассмотрены современныэ тенденции развития систем автоматического распознавания и синтеза речевых сигналов. Освещены проблемы построения алгоритмов распознавания в неадаптивных системах речевого управления. Описаны эксперименты по созданию систем автоматического речевого запроса экономической информации с элементами автоматического обучения.
Книга рассчитана на научных работников, инженеров и студентов, специализирующихся по технической кибернетике и теории информации.
Работу рецензировали и рекомендовали к изданию:
академик АН СССР А.А.Дородницын кандидат физико-математических наук М.Н.Маричук©Издательство "Штиинца",1985 г.
--------------------------------------------------------------------


Добавлено
«Конкурс Русских Инноваций» — 2003
«Система активного диалога «человек-компьютер» с русскоязычным голосовым интерфейсом»
http://www.trinitas.ru/rus/doc/0023/001a/00230004.htm

Их сайт (фирма суперкомпьютерные системы)
http://www.minitera.ru/srlab/rus/index.html

Демонстрационные программы распознавания речи:
http://www.minitera.ru/srlab/rus/download.html
--------------------------------------------------------------------


Лаборатория синтеза и распознавания речи - тоже из белорусии
http://www.ssrlab.com/
--------------------------------------------------------------------


Development of multi-voice and multi-language Text-to-Speech (TTS) and
Speech-to-Text (STT) conversion system (languages: Belarussian, Polish, Russian)
http://www.spiiras.nw.ru/speech/intas/
--------------------------------------------------------------------


Демо-версия программы управления компьютером голосом и взглятом
http://www.spiiras.nw.ru/speech/demo/assistive.html
--------------------------------------------------------------------


A.L. Ronzhin, A.A. Karpov, I.V. Lee. Automatic system for Russian speech recognition SIRIUS. Scientific-theoretical journal Artificial Intelligence, Donetsk, Ukraine, 2005. Vol.3. pp. 590-601. << pdf >>
http://www.spiiras.nw.ru/speech/intas/Papers/ii.pdf

Автор: Skif 22.08.06, 17:36
http://lord-n.narod.ru/walla.html
Гляньте резделы
"Цифровая Обработка Сигналов и Цифровая Связь"
"Цифровая и Аналоговая Фильтрация"

Автор: Skif 24.08.06, 18:24
Физиология человека Ред. Покровский В.М., Коротько Г.Ф.
http://rita.volgmed.ru/biochem/e-library/sources/612/pokrovsky1997-1.djv
http://rita.volgmed.ru/biochem/e-library/sources/612/pokrovsky1997-2.djv

Физиология человека, Ред. Шмидт Р., Тевс Г.
http://rita.volgmed.ru/biochem/e-library/sources/612/schmidt1996-1.djv
http://rita.volgmed.ru/biochem/e-library/sources/612/schmidt1996-2.djv
http://rita.volgmed.ru/biochem/e-library/sources/612/schmidt1996-3.djv

Основы сенсорной физиологии Р. Шмидт
http://www.medbook.net.ru/cgi-bin/download/download.pl?file=shmidt.djvu
Рекомендую почитать главу 5....
5. Физиология слуха
- - 5.1. Анатомия органа слуха
- - 5.2. Слух человека
- - 5.3. Функции среднего и внутреннего уха
- - 5.4. Слуховой нерв и высшие уровни слухового пути


В этих книгах есть инфа про слух..

Автор: grisania 27.08.06, 06:34
По синтезу речи:
A Short Introduction to Text-to-Speech Synthesis
http://tcts.fpms.ac.be/synthesis/introtts_old.html

The MBROLA Project: Towards a Freely Available Multilingual Speech Synthesizer
http://www.tcts.fpms.ac.be/synthesis/

Non-commercial TTS (Text-to-Speech ) systems and components compatible with MBROLA
http://www.tcts.fpms.ac.be/synthesis/

Автор: kaa1 28.08.06, 07:52
Если кого-то заинтересует могу выслать какие-либо статьи конференций:
1. SPECOM'04
2. SPECOM'06
3. Российского акустического общества (РАО)'05 (http://rao.akin.ru/rao/public/r_s16_3.HTM)

Содержание SPECOM'06 в теме "Новости речевых технологий"

Автор: Grumike 02.11.06, 11:05
Книжка одного из создателей Palm-а
Тематика очень близкая!
O_intellekte-hokins_ru.doc

Автор: Elehcodec 19.11.06, 07:39
Помогите с поиском стандартов STANAG 4591, 4198, 4209. А также MIL-STD 3005.

Если кому надо имеются (вышлю на мыло):

4195Eed01a3;
4204Eed02a1;
4285Eed01a2;
4406E;
4406Eed01;
4444E;
4479Eed01;
4184d3e.

Yanis.El@list.ru

Автор: Alek 23.11.06, 07:27
Помогите найти ссылку на речевую базу данных TIMIT :wall:

Автор: nsh 23.11.06, 16:30
Цитата Alek @
Помогите найти ссылку на речевую базу данных TIMIT :wall:

Alek, ты же не в той теме :)

Вот, скачай базу отсюда:

http://festvox.org/dbs/dbs_kdt.html

Arctic базы ещё лучше чем TIMIT

http://festvox.org/cmu_arctic/index.html

Автор: DimmK 24.11.06, 05:08
TIMIT спроси у grisania

Автор: Elehcodec 26.11.06, 19:11
Помогите найти следующую литературу,может кто встречал:

Помехоустойчивость и эффективность систем передачи информации / А.Г.Зюко, А.И.Фалько, И.П.Панфилов, В.Л.Банкет - М.: Радио и связь, 1985. – 272 с.

Модели источника ошибок в каналах передачи цифровой информации / Э.Л.Блох, О.В.Попов, В.Я.Турин – М.: Связь, 1971. – 312 с.
:wall: :wall: :wall:

Автор: elite 28.11.06, 10:41
Цитата nsh @
Цитата Alek @
Помогите найти ссылку на речевую базу данных TIMIT :wall:

Alek, ты же не в той теме :)

Вот, скачай базу отсюда:

http://festvox.org/dbs/dbs_kdt.html

Arctic базы ещё лучше чем TIMIT

http://festvox.org/cmu_arctic/index.html

Чем же лучше?

У TIMIT куча разных голосов, что очень важно.

Автор: kaa1 06.01.07, 06:10
АВТОМАТИЧЕСКИЙ ПОИСК КЛЮЧЕВЫХ СЛОВ В НЕПРЕРЫВНОМ ПОТОКЕ РЕЧИ НА ОСНОВЕ ТЕХНОЛОГИИ "РАСПОЗНАВАНИЕ ЧЕРЕЗ СИНТЕЗ"
http://www.dialog-21.ru/dialog2006/materials/html/Kiselov.htm

АНАЛИЗ ПАРАМЕТРОВ РЕЧЕВОГО СИГНАЛА СОЗДАЮЩИХ ВОСПРИЯТИЕ ЭЛЕМЕНТАРНЫХ ЗВУКОВ РЕЧИ
http://www.dialog-21.ru/dialog2006/materials/html/Kneller.htm

ФОНЕТИКО-АКУСТИЧЕСКАЯ БАЗА ДАННЫХ ДЛЯ МНОГОЯЗЫЧНОГО СИНТЕЗА РЕЧИ ПО ТЕКСТУ НА СЛАВЯНСКИХ ЯЗЫКАХ
http://www.dialog-21.ru/dialog2006/materials/html/Lobanov.htm

Все материалы международной конференции «Диалог 2006»
http://www.dialog-21.ru/dialog2006/materials.asp?type=reports

Автор: nsh 23.01.07, 06:59
Speech recognition software and testing from NIST groups. Accuracy estimation like WER and other scoring

http://www.nist.gov/speech/tools/index.htm

Автор: nsh 11.02.07, 22:31
Да, и как же мы без Praat, это must-have:

http://www.fon.hum.uva.nl/praat/

Автор: phoenix367 14.02.07, 19:12
На этой страничке должен побывать каждый.
Lawrence Rabiner home page

Автор: P_Igor 14.05.07, 05:11
SAPI XML TTS для разработчиков прикладных программ. http://spacelib.narod.ru/xml_sapi.html

Автор: kaa1 16.07.07, 17:03
http://www.bdi.spb.ru/arch/?id=25&a=632

Автор: MakedoneZ 24.07.07, 09:36
Цитата RaD @
Обработка речевых сигналов

Не работает ссылка

Автор: kaa1 09.08.07, 17:05
Для того, чтобы ориентироваться в направлениях речевых технологий, развиваемых на постсоветском пространстве, эти ссылки необходимы. Эти ссылки уже были на этом форуме или в неявном виде или в явном, но в других темах.
http://www.uiip.bas-net.by/rus/l_rsr_about.html - Объединенный институт проблем информатики Национальной академии наук Беларуси, Лаборатория распознавания и синтеза речи
http://www.istrasoft.ru/ - ИстраСофт
http://speechpro.ru/ - Центр речевых технологий
http://phonetics.pu.ru - кафедра фонетики и методики преподавания иностранных языков СПбГУ
http://www.ccas.ru/ - ВЦ РАН
http://www.stel.ru – СТЭЛ
http://www.philol.msu.ru/~otipl/SpeechGroup/ - Речевая группа МГУ
http://www.cognitive.ru/ - Cognitive Technologies
http://sakrament.com - Сакрамент

В этой теме есть ссылки ещё на несколько центров, занимающихся речевыми технологиями. У некоторых центров нет сайта, но большая их часть охвачена.

Автор: P_Igor 13.08.07, 01:54
Использование речевых технологий в прикладных программах: http://spacelib.narod.ru/p_exo.html , http://spacelib.narod.ru/p_rss.html .

Автор: kaa1 06.09.07, 04:26
http://www.acnet.ge/ics/department2ru.htm - Отдел языковых и речевых систем института систем управления АН Грузии.

Автор: RaD 18.10.07, 06:49
Yamaha Vocaloid Demo
http://websound.ru/sc.php?id=170&is=5

Автор: nsh 01.11.07, 06:05
Так сказать полный список хорошего софта:

http://www.isca-students.org/freeware

Автор: phoenix367 05.01.08, 18:58
Robust Speech Recognition and Understanding
http://s.i-techonline.com/Book/Robust-Spee...02613-08-0.html
Книжку можно скачать совершенно бесплатно.

Автор: kaa1 28.04.08, 19:29
http://zhenilo.narod.ru - Женило Валерий Романович. Один из лучших специалистов в России по криминалистической экспертизе речевых сигналов. Очень много полезной информации, включая его монографию "Компьютерная фоноскопия" и презентации по обработке речевого сигнала.

Автор: kaa1 13.07.08, 18:46
http://www.vocative.ru/ - очередная технология распознавания русской речи.

Автор: forcety 07.11.08, 08:18
http://cslu.cse.ogi.edu/HLTsurvey/HLTsurvey.html - Survey of Human Language Technology (A 1996 high-level review of: spoken/written input, analysis and understanding, generation, speech output, discourse and dialogue, document processing, ...)

Автор: vladsw 11.02.09, 12:09
привет, подскажите пожалуйста какая хорошая софтина для конвертации речи в текст и где ее можно скачать???

заранее спасибо

Автор: KoPoBuH 07.08.09, 13:53
Если кому интересно здесь лекции MIT по распознаванию речи

Автор: kaa1 14.10.09, 14:21
Розалиев - ПОСТРОЕНИЕ МОДЕЛИ ЭМОЦИЙ ПО РЕЧИ ЧЕЛОВЕКА (стр.65-68): Известия Волгоградского государственного технического университета

Автор: KoPoBuH 04.11.10, 23:32
SPEECH PROCESSING. A Dynamic and Optimization-Oriented Approach

Автор: Haze 08.12.10, 08:17
Видели достижение питерских разработчиков?
http://www.mediainsight.ru/ru/main/

Распознавание спонтанной слитной речи. Что думаете по этому поводу?

Автор: nsh 08.12.10, 14:19
Цитата
Распознавание спонтанной слитной речи. Что думаете по этому поводу?


А чего, молодцы разработчики! Давно бы так.

Автор: zamir 10.12.10, 11:48
http://shout-toolkit.sourceforge.net/index.html

не пробовал, но проект живой

Автор: zamir 14.01.11, 18:48
Программа для морфологического анализа русского языка

http://company.yandex.ru/technology/mystem/

Автор: zamir 28.01.11, 11:13
Лекции для начинающих в области распознавания речи

http://video.google.com/videoplay?docid=5887057215376119802&hl=en#
http://www.slideshare.net/Tatiana.lando/speech-technologies

Добавлено
Собственно оригинальный источник всех подобных семинаров:
http://www.mathlingvo.ru/nlpseminar/archive

Автор: zamir 25.05.11, 12:01
много полезной информации на русском языке

http://www.iai.dn.ua/public/JournalAI_2002_4/Razdel2/

Автор: NegroFinn 21.10.11, 10:11
http://www.ims.uni-stuttgart.de/projekte/gramotron/SOFTWARE/SFST.html
toolz @ finite state transducers - пока не ставил, мож полезное дело

еще вопрос к мощщнейшим зубрам: верон ли я понял что надпись (q,x,y,r) означает , что переход трансдуцера с вершины ку на вершину ры соотв преобразованию строки х в строку у ? а то в базовых опр ниче такого нет. а из старых знаний помню ткоа скалярное произведение, но там тока 2 арг в кр скопках а тут 4

Автор: NegroFinn 21.10.11, 11:37
а мож это круче? http://www.openfst.org/

Автор: NegroFinn 25.10.11, 23:38
Цитата KoPoBuH @
Если кому интересно здесь лекции MIT по распознаванию речи

уже нет. хнач че то интерестное было

Автор: RaD 20.01.12, 20:50
http://groups.csail.mit.edu/netmit/sFFT/ - новый алгоритм, работающий быстрее FFTW.

Автор: amk 21.01.12, 08:01
Думается, для того, чтобы им воспользоваться, надо точно знать, в каких частях спектра есть сигнал, а какие не нужны.

Автор: zamir 04.05.12, 06:38
Набор библиотек для работы с вокодерами hawksoft

Автор: sherr 26.07.12, 14:19
Может немного не в тему - очень хорошая библиотека с книгами о Языке и Речи, втч практически вся классика по распознавнию-
синтезу что есть на русском(?).ANTIC
ps - а искал всего лишь Сорокина - я начинающий, совсем ,,,

Автор: RaD 08.09.13, 17:39
На хабре выложили перевод "Простой, но эффективный Voice Activity Detection алгоритм реального времени": http://habrahabr.ru/post/192954/

Автор: zamir 11.12.13, 07:16
Задача изменения голоса. Часть 1. Что такое голос?
http://habrahabr.ru/company/ifree/blog/203946/

Описание проблем и процессов очень хорошо ложится в концепцию распознавания речи.
Задача натуральности звучания - в концепцию синтеза речи.
Часть картинок я уже видел, но прочитать в сжатом виде хорошо оформленную статью мне было интересно. Посему - рекомендую к прочтению.

Автор: RaD 25.06.14, 21:07
Шумопонижение в CMU Sphinx - http://habrahabr.ru/post/227099/

Автор: LorettaCheam 19.08.19, 12:59
Бонч спасибо за ссылку.
не могу найти схемку на Allys Shrimp креведко, на трубках или конусах, если есть где то плиз ссылочку

Powered by Invision Power Board (https://www.invisionboard.com)
© Invision Power Services (https://www.invisionpower.com)