Фонемное распознавание речи -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.217.58]

Модераторы: RaD, nsh

Новое голосование

Фонемное распознавание речи

decan

Сообщ. #31 , 11.07.06, 18:02

Member

Профиль · PM

Рейтинг (т): нет

grisania
могу предложить следующее:
Рабинер и Голд.Теория и применение цифровой обработки сигналов
Анализ речи .Тони Робинсон
Анализ, синтез и восприятие речи. Фланаган
Быстрые алгоритмы цифровой обработки сигналов.blahut
ВВЕДЕНИЕ В АНАЛИЗ РЕЧИ.Р. Якобсон, Г. М. Фант и М. Халле
Джозеф Пикони.Методы моделирования сигнала в распознавании речи
Линейное предсказание речи.Меркел_Грей
Применение вейвлет-анализа сигнала в системе распознавания речи
Применение цифровой обработки сигналов. Оппенгейм
Сигналы помехи ошибки_М_Финк
Теория и практика вейвлет-преобразования
Харкевич. Спектры и анализ
Цифровая обработка сигналов
Цифровые фильтры. М.В. Хемминг
есть и ещё.

Skif

Сообщ. #32 , 12.07.06, 17:49

Member

Профиль · PM

Рейтинг (т): 5

Ды.. Ну я понял тут есть с кем ообщаться..
Кстати вопрос... Кто и как детектирует первую гарминику гласных т.е основной тон голосовой связки?
Просто я при анализе гласных делаю следующее..
1. Построение сонограммы 0-7000Гц с шагом в пять Гц. 1400 точек по частоте. шаг по времени 1/250 cек. Т.е 250 точек за секунду.
2. Далее в этой матрице ищу периодические гамоники..
3. Нахожу максимумы с шагом равным частоте осноного тона...
4. Получившийся массив максимумов нормирую по частоте в массив из 140 точек. Т.Е. одна точка на 50Гц. Это маска гласной.
5. Я получаю 250 таких масок за секунду. Формирую нейросеть для анализа масок.

Добавлено 12.07.06, 18:06
Member
НУ и как двухядерный...? Стоит купить? Реально раза в два быстрее работает?
Я блин дома редко бываю... С нотебуком все время.. Мотаюсь по миру. А нотебуков двухядерных нет...

Тоже литературы много... Надо систематизировать.

Разделение гласных и сонорных основано на принципе сравнения уровней спектра в различных областях частотного диапазона с учетов фактора веса. Имеется таблица, где приведены ширины полос фильтров и фактор веса

Ты проверял? работает? Или только теория. Я пока все что подобное находил.. Для моей базы данных дикоров не подходит..
Вот кстати это вопрос.
Нужно создать речевую базу данных.
Как?
Какие фонемы и слова включить?
Ведь только своего голоса мало...
У меня только 5ть дикторов мужчин и 3-и женщины.. Этого мало. Мало образцов.
А вы откуда образцы для анализа берете?

Добавлено 12.07.06, 18:07
Ко всем
Нужно создать речевую базу данных.

phoenix367

Сообщ. #33 , 13.07.06, 06:37

Member

Профиль · PM

Рейтинг (т): 6

Цитата Skif @ 12.07.06, 17:49

Нужно создать речевую базу данных.

Создать речевую базу русского языка без дополнительного финансирования просто нереально. Посмотри как устроен TIMIT. Чтобы сделать что-то подобное надо найти хотя бы по сотне дикторов из каждого региона России (читай - федерального округа). Кто и на что этим будет заниматься? Но и это еще не все. Полученные треки надо будет разметить на фонемы. Где взять столько специалистов?
Все промежуточные варианты не дадут приемлемых результатов в том случае, если пытаться сделать дикторонезависимую систему распознавания.

decan

Сообщ. #34 , 13.07.06, 07:58

Member

Профиль · PM

Рейтинг (т): нет

phoenix367
Мало из разных регионов России, так ещё жующие бутерброд на правой стороне зубов, затем на левой , затем потягиваясь , затем почёсываясь -вот только тогда....
Бредни удивительные. Сделали такую английскую базу - нет результата и быть не может.
Ну подумайте головой - для того чтобы идентифицировать китайца , их всех нужно сфотографировать в разных позах? , блять, не могу нормативно выражаться...

Skif

Сообщ. #35 , 13.07.06, 15:58

Member

Профиль · PM

Рейтинг (т): 5

phoenix367:
TIMIT Я не видел. Если дадите ссылку на TIMIT , гляну.
Ну а по поводу содания базы даных. А нас в этом чате сколько человек? А У каждого есть парочка друзей. Давай начнем с малого...
В MP3 формате много весить не будет. Можно будет на серваке хранить. Ну а как анализировать речь без базы. Я только, как я говорил... с пяю дикторами играюсь... Давайте серьезно возьмемся за это.
Блин, вот я тормоз... Ники то выше... Я вместо ников какую-то ерунду вставлял...
decan
Я понимаю, что ты хочешь все сразу. Ну для начала может без бутербродов? Бутерброды лучше отложить на потом.
phoenix367
Цитата
Создать речевую базу русского языка без дополнительного финансирования просто нереально. Посмотри как устроен TIMIT. Чтобы сделать что-то подобное надо найти хотя бы по сотне дикторов из каждого региона России (читай - федерального округа). Кто и на что этим будет заниматься? Но и это еще не все. Полученные треки надо будет разметить на фонемы. Где взять столько специалистов?
Ну, а что мы не специалисты. Или тут никто не верит в создание распознавалки?
Про финансирование.... Дело не в деньгах.. Ну будут деньги и что? Ну дадут тебе 10тысяч долларов и ты сделаеш?
Ну нужно глянуть TIMIT. Хоть какойто образец.. Если я правильно понял, то это буржуйская речевая база данных...
Вы можете более детально результаты ваших работ описать. Ну или прислать откомпилированные файлы, как примеры.
Давайте начнем менятся хотябы exe-шниками. Пока нет доверия. Каждый с кровью и потом писал свои проги.. Ну а этот форум и создан чтобы меняться.

Вот мой спектральный анализатор который я использую для нализа речи. Если кого интересуют иходники, скину на мыло.
Пока он не супер, но для гласных пойдет. Да, кстати... Если CPU usage будет 100% то значит у вас слабый комп. У меня P4 1,7ГГц все работает...

Добавлено 13.07.06, 16:01
Да, и еще вопрос... Кто на чем пишет проги ил чего использует для анализа речи?
Я пишу на C++ Builder..
Ну C++ и WIN API оно всем кто с C++ знаком понятно будет...
Прикреплённый файл

Project1.zip (153.75 Кбайт, скачиваний: 560)

grisania

Сообщ. #36 , 13.07.06, 19:16

Member

Профиль · PM

Рейтинг (т): 3

Цитата Skif @ 13.07.06, 15:58

Ссылку на TIMIT я тебе дам в личку, и тогда, посмотришь, у тебя задора поубавится. Про эту базу см.:
http://www.ldc.upenn.edu/Catalog/readme_files/timit.readme.html

На этом форуме есть ветка
"Списки слов для речевых корпусов (словари для обучения систем распознавания речи)",
где это активно обсуждалось как силами энтузиастов это сделать.
Далее разметку этой базы на фонемы вообще-то нужно делать на компах фирмы Sun, где есть соответствующее матобеспечение для этого. Так это делает, например, какой-то очень известный институт по изучению речи в Германии (кажется им. Гумбольдта). Там я видел на картинках этот комп. Порывшись в инете можно найти. Далее для разбивки на фонемы амеры использовали прогу бьющую на фонемы, а потом уже вручную уточняли. У нас такой проги нет.
Почитай статьи других как они делали русскою речевую базу:
БАЗА РЕЧЕВЫХ ФРАГМЕНТОВ РУССКОГО ЯЗЫКА “ISABASE”
http://www.uran.donetsk.ua/~masters/2002/fvti/nikolaenko/dis/lib/article9.htm
Лепта в развитие речевых технологий в России
http://www.pcweek.ru/Year2002/N4/CP1251/Industrial_built-in/chapt4.htm
Эту базу уже сделали, но она вроде стоит 10 тыс. баков. И как говорят, что эта база даже TIMIT переплюнула, но TIMIT можно в США за копейки купить.
Речевые корпусы (опыт разработки и использование)
http://www.dialog-21.ru/Archive/2001/volume2/2_33.htm
Инструментальная система для исследования и обработки речевых сигналов и создания речевых баз данных.
http://www.philol.msu.ru/~otipl/SpeechGroup/publications/krivnova-2001-2004/krivnova_bogdanov_instrumentarij_2004.doc

Поэтому надо не морочить себе башку. Какая разница фонемы какого языка распознавать. Если твои идеи будут работать с TIMIT, то будут работать и с другим языком. Например, все восточные страны редко распознают свои языки, все мучают TIMIT. Даже япошки, индусы, китайцы.
TIMIT это классика и каждый может проверить на ней твои алгоритмы и сказать - да эта штука работает. А тогда можно и базу на русском делать или купить готовую.

Сообщение отредактировано: grisania - 13.07.06, 19:18

Skif

Сообщ. #37 , 14.07.06, 14:56

Member

Профиль · PM

Рейтинг (т): 5

grisania
Убедил...

Добавлено 14.07.06, 15:19
Ктонибудь выделяет периоды речи? Кто и какие алгоритмы использует. Какой диапазон изменения основного тона используется в программах.
Я выделяю периодичность по спектру.
Диапазон изменения 70-250Гц но этого недостаточно. В книжках даны средние значения, а в жизни разброс огромен 50-500Гц. А при увеличении диапазона изменеия частоты основного тона голоса надежность сисемы катастрофичеси падает. Help me.

Skif	Сообщ. #38 , 14.07.06, 17:26
Member Профиль · PM Рейтинг (т): 5	grisania Поповоду базы данных... Все же создавать надо. Покупать не по зубам. Согласен, что алгоритмы они для всех языков пойдут.... Пока можно все тестировать на TIMIT... Качаю пока.... Ну такого размера я не ожидал... Ну ничего...

grisania

Сообщ. #39 , 15.07.06, 06:20

Member

Профиль · PM

Рейтинг (т): 3

Цитата Skif @ 14.07.06, 14:56

Кто-нибудь выделяет периоды речи? Кто и какие алгоритмы использует. Какой диапазон изменения основного тона используется в программах.
Я выделяю периодичность по спектру.
Диапазон изменения 70-250Гц но этого недостаточно. В книжках даны средние значения, а в жизни разброс огромен 50-500Гц. А при увеличении диапазона изменеия частоты основного тона голоса надежность сисемы катастрофичеси падает. Help me.

Периодичность основного тона голоса от человека к человеку прыгает. Даже у конкретного человека она зависит от его настроения. Я приводил пример, как работают современные проги распознавания речи в зависимости от настроения.
Мой знакомый основным тоном занимается давно, я могу у него спросить, если он не в отпуске. Хотя бы ссылки даст. Да, если нужны статьи из серии IEEE, то я могу их скачать через него.
Нл для распознавания фонем важно определить его наличие. Например, это позволит делить фонемы на глухие и звонкие. Разделение производится по признаку наличия или отсутствия основного тона. Так как я сторонник фильтров, то надо их использовать их иерархически. Как написано, например, в книге М.А Сапожков: "Речевой сигнал в кибернетике и связи". В этой книжке она не закончена, но применяя динамические спектры это можно доделать. Например, у амеров таких разбиений куча. Есть иерархически. Но классификация в книге М.А Сапожков как-то разумно объясняется.
И вообще, я считаю, что человек все обрабатывает фильтрами. Сигналы несут энергию, которые за счет нее активно действует на нас. Человек только учится в башке плотины (фильтры) расставить для моря инфы из вне.
Далее, надо учитывать затухание, оно объективно есть, а это Прони.
Я сделал на ftp сервере папку для обмена информацией. Каждый активный участник может там открыть там свою папку и класть туда интересные статьи, книги, исходники. Адрес могу сообщить в личку.

Skif

Сообщ. #40 , 15.07.06, 14:30

Member

Профиль · PM

Рейтинг (т): 5

grisania
Давай.. Скинь адресок FTP. А там как с местом? Я сейчас все свои книжки систематизирую и в порядок привожу. Они все по частям закачаны и в разных форматах. Я все в PDF переделываю.. Части соединяю...
По поводу выделения основного тона... Я не могу найти готовые проги или хотябы оценку их надежности. Для того чтобы понять, то что сделал я это плохо или хорошо нужно с чем-то сравнить. А пока сравнить не с чем. Все говорят вот мол таким образом оценивалась погрешность и блок диаграмку рисуют.. А результатов исседований нет. Если не сложно то спроси у друга... Может литературу посоветует. Книжки это лучше всего...

decan	Сообщ. #41 , 15.07.06, 14:46
Member Профиль · PM Рейтинг (т): нет	Skif А список, пока, литературы можешь представить? Да, а почему такой интерес к основному тону? Ну несущая...? Сообщение отредактировано: decan - 15.07.06, 14:49

Skif

Сообщ. #42 , 15.07.06, 15:11

Member

Профиль · PM

Рейтинг (т): 5

decan
сообщение 41

Цитата

Да, а почему такой интерес к основному тону? Ну несущая...?

Я там выше project оставил. Так вот произнеси 'А' в микрофон и ты увидиш полоски образованные спектром 'А'.
Я выделяю основной тон и соединяю максимумы этих полосок прямой. И получившийся "гладкий" спектр использую как маску для данной фонемы. Для один раз произнесенной фонемы я получаю поядка 200 масок. И их анализирую. Если надо скину прогу в которой это можно посмотреть.

Добавлено 15.07.06, 15:42
1. Булинский, Ширяев. Теория случайных процессов
2. Ирина Алдошина. Основы психоакустики.
3. Бабкин В.В.Помехоустойчивый выделитель основного тона.
4. С.Н. Берштейн. Теория вероятностей.
5. Lawrence R. Bernard Gold. Теория и практика ЦОС
6. Трубецкой С.Т. Фонология и фонетика.
7. Дж. Бендат. А. Пирсол. Прикладной анализ случайных данных
8. Р.Блейхут. Быстрые алгоритмы ЦОС
9. Джеимс Л. Фланган. Анализ, синтез и восприятие речи.
10. М. Финк. Сигналы, помехи, ошибки.
11. Л.М Финк. Теория передачи дискретных сообщений.
12. А.А. Харкевич. Борьба с помехами.
13. Б.М. Лобанов. Анализ и синтез речи. Сборник научных трудов.
14. Д.Д.Маркел. А.Х.Грей. Линейное предсказание речи.
15. Юкио Сато. Обработка сигналов. Первое знакомство.
16. Дегтеренко А.Н. Кодирование речевых сигналов на основе систем с переменной структурой. (Диссертация магистрантская)
17. Дженкинс.Ваттс. Спектральный анализ и его приложения.
18. Кеносуки Фуканага. Введение в статистическую теорию распознавания образов.
19. Р.Брейсуэлл. Преобразование Хартли, теория и приложения.
20. Введение в цифровую фильтрацию. Под редакцией Богнера.

decan	Сообщ. #43 , 15.07.06, 15:55
Member Профиль · PM Рейтинг (т): нет	Skif мне Grisania ftr прислал, так что имеющуюся у меня литературу ятуда потихоньку сложу.

grisania	Сообщ. #44 , 15.07.06, 16:49
Member Профиль · PM Рейтинг (т): 3	Цитата decan @ 15.07.06, 14:46 Да, а почему такой интерес к основному тону? Ну несущая...? Почитай Сапожкова лежит там, где decan сказал. Места пока много. Где-то 30 гигов. Ну хотя бы отличить глухие от звонких.

Skif	Сообщ. #45 , 16.07.06, 10:50
Member Профиль · PM Рейтинг (т): 5	grisania Ну хотя бы отличить глухие от звонких. ???? Это ты о чем?

1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (15) 1 2 [3] 4 5 ... 14 15 все

[ Script execution time: 0.0809 ] [ 14 queries used ] [ Generated: 25.05.26, 06:50 GMT ]