Новая база для синтеза речи -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.90]

Модераторы: RaD, nsh

Новое голосование

Новая база для синтеза речи , и голос для festival

Igor730

Сообщ. #61 , 09.07.08, 02:41

Unregistered

Скажите как сгенерировать wav файл русской речи? Дело в том, что Festival при генерации wav файла из txt файла с русским текстом произносит только числительные на английском языке. При этом с воспроизведением русского текста из txt файла никаких проблем не возникает.

nsh

Сообщ. #62 , 09.07.08, 09:23

Moderator

Профиль · PM

Цитата

Дело в том, что Festival при генерации wav файла из txt файла с русским текстом произносит только числительные на английском языке. При этом с воспроизведением русского текста из txt файла никаких проблем не возникает.

Если Вы о text2wave, нужно добавить -eval '(voice_msu_ru_nsh_clunits)' или добавить эту строчку в festival/lib/siteinit.scm.

Igor730	Сообщ. #63 , 10.07.08, 02:24
Unregistered	Спасибо!wav файл с русской речью получил. Цитата Скачиваете программу WaveSurfer, в файлах кладёте вместе wav файл и lab файл, открываете файл в wavesurfer. wav файл я сгенерировал, а где мне для него взять файл транскрипций - *.lab

nsh	Сообщ. #64 , 10.07.08, 04:59
Moderator Профиль · PM	Цитата wav файл я сгенерировал, а где мне для него взять файл транскрипций - *.lab Файлы не нужно генерировать. Они лежат в подкаталоге скачанного голоса wav. Файлы с метками .lab лежат в подкаталоге lab.

Igor730

Сообщ. #65 , 10.07.08, 07:52

Unregistered

Если я правильно вас понял, то последовательность правильных действий для разметки текста такова:

1) Имеем txt файл с отрывком, который необходимо воспроизвести.

2) Для этого генерируем wav файл из нашего txt файла и слушаем, что нас в нем не устраивает. А именно: какие буквы(звуки) произносятся не так как нам хотелось бы.

3) Для этого нам нужно в программе WaveSurfer разметить этот wav файл. Такая разметка нужна для того, чтобы узнать какие звуки нас не устраивают.

4) После того, как выяснили какие звуки (буквы или дифоны) нас не устраивают, открываем какой-нибудь(или все?) файлы из каталога /festival/lib/voices/ru/msu_ru_nsh_clunits/wav в WaveSurfer с соответствующим lab файлом. Находим нужный звук и меняем его продолжительность. Пересохраняем lab файл и заново воспроизводим наш отрывок из txt файла.

Неужели это правда так? Если так, то это довольно сложно!
Я думал, что при создании нашего wav файла, должен генерироваться соответствующий lab файл и меняя границы в этом lab файле программой WaveSurfer изменялся бы и wav файл. Тогда можно было бы легко и просто изменять длительность некоторых звуков прямо из программы WaveSurfer.

Скажите как все-таки правильно?

nsh

Сообщ. #66 , 10.07.08, 09:51

Moderator

Профиль · PM

Цитата

Если я правильно вас понял, то последовательность правильных действий для разметки текста такова:

Нет, не так. Размечать нужно всё подряд из каталога wav, по порядку и методично. Искать отдельные звуки не оптимально, потому что после исправления в одном месте ошибка вылезет в другом. Берём файл, скажем, ru_0100, смотрим на каждый звук и подправляем границу, чтобы она точно указывала на границу звука. И так для всех звуков из файла. Затем сохраняем результат.

Igor730

Сообщ. #67 , 10.07.08, 10:56

Unregistered

Цитата

Нет, не так. Размечать нужно всё подряд из каталога wav, по порядку и методично.

Получается, что это еще сложнее чем я думал! wav файлов в каталоге-844. Для кажого wav файла есть lab файл, в котором указаны как я понял длительности различных звуков (~300 или 500 примерно). Это что получается, что нужно подправить около 844*500=422 000 звуков????????

Допустим у меня есть выражение ""Внимание, на установке АВТ 6 неисправны агрегаты с номерами №1 №2 №456". Не корректно произносятся имя устанвки АВТ 6 (оно как то проглатывается)(писал по разному и АВЭТЭ и АВЫТЭ- звук А очень короткий), у слова агрегаты ударение падает на букву Ы. Как мне это исправить?
Мне что для этого нужно всю базу звуков подправить? все 422 000 звуков??? Ведь мне то нужно исправить только в одной фразе!

nsh	Сообщ. #68 , 10.07.08, 13:09
Moderator Профиль · PM	Во всей базе 50000 звуков, а не 40000. По 10 минут на файл - 2 месяца работы Отдельную фразу поправить не так легко, но я посмотрю. Добавлено 10.07.08, 13:14 По поводу АВТ, нужно что-то вроде +АВЫТ+Э

Igor730

Сообщ. #69 , 11.07.08, 02:51

Unregistered

Да, конечно очень много работы! Желаю вам успехов в этом деле!
Я так понимаю, что синтезатор речи Festival сделан на основе художественной литературы, поэтому он и будет лучше воспроисводить художественный текст. А мне нужен синтезатор, который бы хорошо воспроизводил технический текст (специфические имена установок, числительные). Может быть вы знаете такие продукты для Unix систем? Все что я смог найти по этой теме сводится к тому, что качество Festival на данный момент лучшее из все систем синтеза речи для Unix систем.
Попробовал написать +АВЫТ+Э. При этом основная проблема в том, что первый звук А проглатывается, или проговаривается как то отрывисто и быстро, следующие звуки тоже говорятся как то быстро, так что при прослушивании не понимаешь, что за имя установки произнесено. Хотелось бы что бы это имя произносилось размеренно и плавно, по сути нужно просто сказать А, Вэ, Тэ.
Скажите а чтобы исправить ударения, нужно тоже всю базу звуков перебирать? или можно как то попроще сделать?

Iskanderus

Сообщ. #70 , 12.07.08, 12:18

Junior

Профиль · PM

Рейтинг (т): нет

to Igor730
Вы имеете в виду лучшее качество из свободного ПО? Вам принципиально бесплатное?
Open Source обычно всегда предполагает необходимость доработки "под себя".
Другое дело доработка бывает либо сложной, либо простой. В данном случае тема наукоёмкая.

Есть системы попроще настраиваемые, но синтезированный голос звучать будет более механически.

Если ваш браузер поддерживает тег <BGSOUND> можете послушать АВэТэ
http://www.bgpu.ru/lit/files/avete.html

там есть java апллет http://www.bgpu.ru/lit/files/sintese/appletic/sintese.html , но он цифры не понимает, напишите там "АВэ"Тэ

Сообщение отредактировано: Iskanderus - 12.07.08, 12:30

Aga	Сообщ. #71 , 13.07.08, 16:03
Unregistered	Может завести какой нибудь сорс контроль для лабов, а то жалко если над одним и тем же файлов будут несколько человек работать. Я, конечно, понимаю, что пока один человек только трудится, но вдруг кто начнет помогать

nsh

Сообщ. #72 , 13.07.08, 16:07

Moderator

Профиль · PM

Цитата

Может завести какой нибудь сорс контроль для лабов, а то жалко если над одним и тем же файлов будут несколько человек работать. Я, конечно, понимаю, что пока один человек только трудится, но вдруг кто начнет помогать

Спасибо за предложение, файлы разметки и база давно доступна и в системе хранения версий на voxforge.org.

Aga

Сообщ. #73 , 13.07.08, 16:37

Unregistered

Не совсем я понял, где там версии лабов лежал. Хотел посмотреть пример файла до разметки и после. Пытался послушать , ну чтоы помочь размечать, так и не понял, что хорошо, а что плохо, хотя медмедьмне по ушам не гулял. Например в 418 слово 'дверь' странно звучит, а в 13 нормально, транскрипция выглядит одинаково d vv ee r. Вообщем без ликбеза по разметке, врядли помочь смогу, это еще с учетом незнания правил транскрипции.

nsh

Сообщ. #74 , 13.07.08, 17:17

Moderator

Профиль · PM

Цитата

Не совсем я понял, где там версии лабов лежал.

http://www.dev.voxforge.org/projects/Russian/browser/Trunk/Audio/Original/16kHz_16bit/urp

Цитата

ну чтоы помочь размечать, так и не понял, что хорошо, а что плохо, хотя медмедьмне по ушам не гулял.

Вы меня не совсем правильно поняли. Нужно не звуки отмечать, а границы звуков. Например, сейчас в ru_0003 начало такое:

#
0.41200 125 pau
0.53200 125 s
0.56200 125 ay
0.64200 125 s
0.74200 125 p

а на деле оно должно быть таким:

#
0.429754 125 pau
0.520118 125 s
0.576858 125 ay
0.652512 125 s

алгоритм автоматической разметки неправильно определяет границы, нужно их подправить.

Добавлено 13.07.08, 17:27
И начните с простого, пошлите запись своего голоса в базу voxforge

Igor730

Сообщ. #75 , 14.07.08, 03:20

Unregistered

to Iskanderus

Прослушал пример синтеза. Конечно, услышать то чего хотелось не удалось.
Дело в том, что нужен синтезатор речи с качественным воспроизведением речи для применения в промышленном производстве. При этом не важно будет ли он платным или бесплатным.

1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (19) « Первая ... 3 4 [5] 6 7 ... 18 19 все

[ Script execution time: 0.0893 ] [ 14 queries used ] [ Generated: 27.06.26, 05:09 GMT ]