Новая база для синтеза речи -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.142]

Модераторы: RaD, nsh

Новое голосование

Новая база для синтеза речи , и голос для festival

nsh

Сообщ. #1 , 23.09.07, 09:15

Moderator

Профиль · PM

Выложил новую базу для синтеза речи. Два часа сбалансированного текста, записанного в студии диктором радио. База размечена автоматически и созданы голоса для Festival, вот образец синтеза:

http://nshmyrev.narod.ru/temp/example.wav

Скачать всё можно как обычно:

http://download.berlios.de/festlang/msu_ru_nsh_clunits-0.5.tar.bz2 (200 Mb)

Пока ещё осталось много направлений работы. Присоединяйтесь!

Сообщение отредактировано: nsh - 22.02.09, 07:14

Lebedev	Сообщ. #2 , 23.09.07, 09:39
Member Профиль · PM Рейтинг (т): 1	Я, к сожалению, пока с festival плохо знаком. Поясните как эта база в нём используется для синтеза.

nsh

Сообщ. #3 , 23.09.07, 16:37

Moderator

Профиль · PM

Ну как из базы выбираются куски с учётом двух функций - target cost (соответствие куска тому, что нужно синтезировать) и join cost (соответствие куска соседним кускам, выбранным из базы). Потом всё склеивается и получается синтезированный звук.

Подробнее об этом можно почитать в докуменации по Festival и в книжках, например в Spoken Language Processing (на dsp-book.narod.ru)

Сообщение отредактировано: nsh - 23.09.07, 16:38

nsh	Сообщ. #4 , 27.09.07, 18:50
Moderator Профиль · PM	Вот исправил кучу ошибок в базе, кое-где ударения проставил, транскрипцию обновил, сравните: http://nshmyrev.narod.ru/temp/example2.wav

king	Сообщ. #5 , 01.10.07, 14:47
Unregistered	nsh Следущее предложение:"Присылайте пожелания и предложения." из http://nshmyrev.narod.ru/temp/example2.wavклассно звучит. Вообще убрать щелчки, спотыкачки и будет , пожалуй, лучше мультимедийного Коли!

nsh	Сообщ. #6 , 01.10.07, 18:38
Moderator Профиль · PM	Ну так чтобы убрать спотыкачки, ручная разметка нужна. Она занимает 10 минут где-то одно предложение, а всего их 600. Сами посчитайте, сколько мне сидеть размечать.

king	Сообщ. #7 , 02.10.07, 03:18
Unregistered	А я думал, всё в авторежиме идёт. Значит ещё работать и работать...

RaD	Сообщ. #8 , 02.10.07, 07:35
Moderator Профиль · PM Поощрения: 24 Dgm Рейтинг (т): 23	Отличный синтез!!! Напомни, где написано, как эту базу подключать к стандартному festival'ю.

nsh	Сообщ. #9 , 02.10.07, 18:55
Moderator Профиль · PM	Установить 1.96. Распаковать в lib/voices/ru вместе с другими голосами. Запустить. Текст в кодировке utf-8.

RaD	Сообщ. #10 , 02.10.07, 20:48
Moderator Профиль · PM Поощрения: 24 Dgm Рейтинг (т): 23	В Debian Etch 4.0 есть такая версия: rad@nemo:~$ festival --version festival: Festival Speech Synthesis System: 1.4.3:release Jan 2003 Непонятно, что они имеют в виду цифрами 1.4.3.

RaD	Сообщ. #11 , 03.10.07, 17:42
Moderator Профиль · PM Поощрения: 24 Dgm Рейтинг (т): 23	На сайте http://www.cstr.ed.ac.uk/projects/festival/ написано, что у них есть только beta version of 2.0 (labelled 1.95-beta). Что за версия 1.96? Можно ли голос сконвертировать на 1.4.3?

Iskanderus

Сообщ. #12 , 04.10.07, 00:44

Junior

Профиль · PM

Рейтинг (т): нет

to nsh:
Вобще мне нравится фестивальный подход, он, наверное, действительно более перспективный в плане улучшения качества речи.
Однако чтобы разобраться в нём нужно потратить достаточно много времени, чтобы помогать вам его развивать.
Я два раза скачивал систему, но так и не решился в ней разобраться. Что-то отпугивало. Незавершенность какая-то чтоли...

Вы не обидитесь, если я приведу здесь для народа примеры аналогичной фразы моего синтезатора для сравнения
(три голоса, не бесплатный синтезатор, но пока и не платный, просто экспериментальный)?

фраза создается целиком автоматически из грамматического текста:

voice 0
voice 1
voice 2

Сообщение отредактировано: Iskanderus - 04.10.07, 01:42

RaD

Сообщ. #13 , 04.10.07, 05:41

Moderator

Профиль · PM

Поощрения: 24 Dgm

Рейтинг (т): 23

Синтез от nsh несравненно лучше. Без обид.
А насчёт замороченности festival, тут добавить ничего нельзя.
Вчера я попробовал засунуть голос от nsh в festival 1.4.3. Попробовал по структуре каталогов понять, куда это можно там "присобачить". Неполучилось.
nsh, тебе надо написать небольшую статью, что там да как делать.

Iskanderus

Сообщ. #14 , 04.10.07, 11:45

Junior

Профиль · PM

Рейтинг (т): нет

насколько я понимаю, nsh разметил вручную только часть сэмплов, в основном только те, которые относятся к данной фразе?
получается,что звуки в последних двух словах идеально сочетаются.
У меня было такое: когда отлаживаешь на какойнибудь фразе - на ней звучит очень хорошо, а когда потом эти сэмплы (дифоны, куски или как там их называть) компилируются в другой фразе - слышаться не совсем естесственно. Возможно такое в фестивале?
Или благодаря этим функциям target cost и join cost подбираются самые оптимальные по весу куски из базы?

nsh

Сообщ. #15 , 04.10.07, 15:18

Moderator

Профиль · PM

Цитата

насколько я понимаю, nsh разметил вручную только часть сэмплов, в основном только те, которые относятся к данной фразе?

Вы не совсем верно поняли, вернее совсем неверно.

Цитата

У меня было такое: когда отлаживаешь на какойнибудь фразе - на ней звучит очень хорошо, а когда потом эти сэмплы (дифоны, куски или как там их называть) компилируются в другой фразе - слышаться не совсем естесственно. Возможно такое в фестивале?
Или благодаря этим функциям target cost и join cost подбираются самые оптимальные по весу куски из базы?

Куски подбираются из базы оптимальные по минимальной ценовой функции, поэтому ошибки хоть и возможны, их не так много

Цитата

Вчера я попробовал засунуть голос от nsh в festival 1.4.3. Попробовал по структуре каталогов понять, куда это можно там "присобачить". Неполучилось.
nsh, тебе надо написать небольшую статью, что там да как делать.

Нужна более новая версия festival-1.96. Скачиваем следующие файлы:

http://www.speech.cs.cmu.edu/awb/fftest/speech_tools-1.2.96-beta.tar.gz

http://www.speech.cs.cmu.edu/awb/fftest/festival-1.96-beta.tar.gz

http://www.speech.cs.cmu.edu/awb/fftest/festlex_CMU.tar.gz

http://www.speech.cs.cmu.edu/awb/fftest/festlex_POSLEX.tar.gz

http://www.speech.cs.cmu.edu/awb/fftest/festvox_kallpc16k.tar.gz

Распаковываем в один каталог. Делаем следующие команды:

cd speech_tools
./configure
make
cd ../festival
./configure
make

Переходим в каталог festival/lib/voices
Создаём каталог ru

Кладём туда msu_ru_nsh_clunits-0.4.tar.gz, распаковываем

Переходим в каталог festival/bin

Делаем текст в кодировке utf-8 в файле test.txt

Запускаем ./festival

Пишем

(voice_msu_ru_nsh_clunits)

(tts_file "test.txt" nil)

Слушаем результат синтеза

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (19) [1] 2 3 ... 18 19 все

[ Script execution time: 0,0921 ] [ 15 queries used ] [ Generated: 1.04.26, 05:43 GMT ]