Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[3.21.159.215] |
|
Страницы: (19) [1] 2 3 ... 18 19 все ( Перейти к последнему сообщению ) |
Сообщ.
#1
,
|
|
|
Выложил новую базу для синтеза речи. Два часа сбалансированного текста, записанного в студии диктором радио. База размечена автоматически и созданы голоса для Festival, вот образец синтеза:
http://nshmyrev.narod.ru/temp/example.wav Скачать всё можно как обычно: http://download.berlios.de/festlang/msu_ru_nsh_clunits-0.5.tar.bz2 (200 Mb) Пока ещё осталось много направлений работы. Присоединяйтесь! |
Сообщ.
#2
,
|
|
|
Я, к сожалению, пока с festival плохо знаком. Поясните как эта база в нём используется для синтеза.
|
Сообщ.
#3
,
|
|
|
Ну как из базы выбираются куски с учётом двух функций - target cost (соответствие куска тому, что нужно синтезировать) и join cost (соответствие куска соседним кускам, выбранным из базы). Потом всё склеивается и получается синтезированный звук.
Подробнее об этом можно почитать в докуменации по Festival и в книжках, например в Spoken Language Processing (на dsp-book.narod.ru) |
Сообщ.
#4
,
|
|
|
Вот исправил кучу ошибок в базе, кое-где ударения проставил, транскрипцию обновил, сравните:
http://nshmyrev.narod.ru/temp/example2.wav |
Сообщ.
#5
,
|
|
|
nsh
Следущее предложение:"Присылайте пожелания и предложения." из http://nshmyrev.narod.ru/temp/example2.wavклассно звучит. Вообще убрать щелчки, спотыкачки и будет , пожалуй, лучше мультимедийного Коли! |
Сообщ.
#6
,
|
|
|
Ну так чтобы убрать спотыкачки, ручная разметка нужна. Она занимает 10 минут где-то одно предложение, а всего их 600. Сами посчитайте, сколько мне сидеть размечать.
|
Сообщ.
#7
,
|
|
|
А я думал, всё в авторежиме идёт. Значит ещё работать и работать...
|
Сообщ.
#8
,
|
|
|
Отличный синтез!!!
Напомни, где написано, как эту базу подключать к стандартному festival'ю. |
Сообщ.
#9
,
|
|
|
Установить 1.96. Распаковать в lib/voices/ru вместе с другими голосами. Запустить. Текст в кодировке utf-8.
|
Сообщ.
#10
,
|
|
|
В Debian Etch 4.0 есть такая версия:
rad@nemo:~$ festival --version festival: Festival Speech Synthesis System: 1.4.3:release Jan 2003 Непонятно, что они имеют в виду цифрами 1.4.3. |
Сообщ.
#11
,
|
|
|
На сайте http://www.cstr.ed.ac.uk/projects/festival/ написано, что у них есть только beta version of 2.0 (labelled 1.95-beta).
Что за версия 1.96? Можно ли голос сконвертировать на 1.4.3? |
Сообщ.
#12
,
|
|
|
to nsh:
Вобще мне нравится фестивальный подход, он, наверное, действительно более перспективный в плане улучшения качества речи. Однако чтобы разобраться в нём нужно потратить достаточно много времени, чтобы помогать вам его развивать. Я два раза скачивал систему, но так и не решился в ней разобраться. Что-то отпугивало. Незавершенность какая-то чтоли... Вы не обидитесь, если я приведу здесь для народа примеры аналогичной фразы моего синтезатора для сравнения (три голоса, не бесплатный синтезатор, но пока и не платный, просто экспериментальный)? фраза создается целиком автоматически из грамматического текста: voice 0 voice 1 voice 2 |
Сообщ.
#13
,
|
|
|
Синтез от nsh несравненно лучше. Без обид.
А насчёт замороченности festival, тут добавить ничего нельзя. Вчера я попробовал засунуть голос от nsh в festival 1.4.3. Попробовал по структуре каталогов понять, куда это можно там "присобачить". Неполучилось. nsh, тебе надо написать небольшую статью, что там да как делать. |
Сообщ.
#14
,
|
|
|
насколько я понимаю, nsh разметил вручную только часть сэмплов, в основном только те, которые относятся к данной фразе?
получается,что звуки в последних двух словах идеально сочетаются. У меня было такое: когда отлаживаешь на какойнибудь фразе - на ней звучит очень хорошо, а когда потом эти сэмплы (дифоны, куски или как там их называть) компилируются в другой фразе - слышаться не совсем естесственно. Возможно такое в фестивале? Или благодаря этим функциям target cost и join cost подбираются самые оптимальные по весу куски из базы? |
Сообщ.
#15
,
|
|
|
Цитата насколько я понимаю, nsh разметил вручную только часть сэмплов, в основном только те, которые относятся к данной фразе? Вы не совсем верно поняли, вернее совсем неверно. Цитата У меня было такое: когда отлаживаешь на какойнибудь фразе - на ней звучит очень хорошо, а когда потом эти сэмплы (дифоны, куски или как там их называть) компилируются в другой фразе - слышаться не совсем естесственно. Возможно такое в фестивале? Или благодаря этим функциям target cost и join cost подбираются самые оптимальные по весу куски из базы? Куски подбираются из базы оптимальные по минимальной ценовой функции, поэтому ошибки хоть и возможны, их не так много Цитата Вчера я попробовал засунуть голос от nsh в festival 1.4.3. Попробовал по структуре каталогов понять, куда это можно там "присобачить". Неполучилось. nsh, тебе надо написать небольшую статью, что там да как делать. Нужна более новая версия festival-1.96. Скачиваем следующие файлы: http://www.speech.cs.cmu.edu/awb/fftest/speech_tools-1.2.96-beta.tar.gz http://www.speech.cs.cmu.edu/awb/fftest/festival-1.96-beta.tar.gz http://www.speech.cs.cmu.edu/awb/fftest/festlex_CMU.tar.gz http://www.speech.cs.cmu.edu/awb/fftest/festlex_POSLEX.tar.gz http://www.speech.cs.cmu.edu/awb/fftest/festvox_kallpc16k.tar.gz Распаковываем в один каталог. Делаем следующие команды: cd speech_tools ./configure make cd ../festival ./configure make Переходим в каталог festival/lib/voices Создаём каталог ru Кладём туда msu_ru_nsh_clunits-0.4.tar.gz, распаковываем Переходим в каталог festival/bin Делаем текст в кодировке utf-8 в файле test.txt Запускаем ./festival Пишем (voice_msu_ru_nsh_clunits) (tts_file "test.txt" nil) Слушаем результат синтеза |