На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (19) [1] 2 3 ...  18 19 все  ( Перейти к последнему сообщению )  
> Новая база для синтеза речи , и голос для festival
    Выложил новую базу для синтеза речи. Два часа сбалансированного текста, записанного в студии диктором радио. База размечена автоматически и созданы голоса для Festival, вот образец синтеза:

    http://nshmyrev.narod.ru/temp/example.wav

    Скачать всё можно как обычно:

    http://download.berlios.de/festlang/msu_ru_nsh_clunits-0.5.tar.bz2 (200 Mb)

    Пока ещё осталось много направлений работы. Присоединяйтесь!
    Сообщение отредактировано: nsh -
      Я, к сожалению, пока с festival плохо знаком. Поясните как эта база в нём используется для синтеза.
        Ну как из базы выбираются куски с учётом двух функций - target cost (соответствие куска тому, что нужно синтезировать) и join cost (соответствие куска соседним кускам, выбранным из базы). Потом всё склеивается и получается синтезированный звук.

        Подробнее об этом можно почитать в докуменации по Festival и в книжках, например в Spoken Language Processing (на dsp-book.narod.ru)
        Сообщение отредактировано: nsh -
          Вот исправил кучу ошибок в базе, кое-где ударения проставил, транскрипцию обновил, сравните:

          http://nshmyrev.narod.ru/temp/example2.wav
            nsh
            Следущее предложение:"Присылайте пожелания и предложения." из http://nshmyrev.narod.ru/temp/example2.wavклассно звучит. Вообще убрать щелчки, спотыкачки и будет , пожалуй, лучше мультимедийного Коли!
              Ну так чтобы убрать спотыкачки, ручная разметка нужна. Она занимает 10 минут где-то одно предложение, а всего их 600. Сами посчитайте, сколько мне сидеть размечать.
                А я думал, всё в авторежиме идёт. Значит ещё работать и работать...
                  Отличный синтез!!!

                  Напомни, где написано, как эту базу подключать к стандартному festival'ю.
                    Установить 1.96. Распаковать в lib/voices/ru вместе с другими голосами. Запустить. Текст в кодировке utf-8.
                      В Debian Etch 4.0 есть такая версия:
                      rad@nemo:~$ festival --version
                      festival: Festival Speech Synthesis System: 1.4.3:release Jan 2003

                      Непонятно, что они имеют в виду цифрами 1.4.3.
                        На сайте http://www.cstr.ed.ac.uk/projects/festival/ написано, что у них есть только beta version of 2.0 (labelled 1.95-beta).
                        Что за версия 1.96? Можно ли голос сконвертировать на 1.4.3?
                          to nsh:
                          Вобще мне нравится фестивальный подход, он, наверное, действительно более перспективный в плане улучшения качества речи.
                          Однако чтобы разобраться в нём нужно потратить достаточно много времени, чтобы помогать вам его развивать.
                          Я два раза скачивал систему, но так и не решился в ней разобраться. Что-то отпугивало. Незавершенность какая-то чтоли...


                          Вы не обидитесь, если я приведу здесь для народа примеры аналогичной фразы моего синтезатора для сравнения
                          (три голоса, не бесплатный синтезатор, но пока и не платный, просто экспериментальный)?

                          фраза создается целиком автоматически из грамматического текста:

                          voice 0
                          voice 1
                          voice 2
                          Сообщение отредактировано: Iskanderus -
                            Синтез от nsh несравненно лучше. Без обид.
                            А насчёт замороченности festival, тут добавить ничего нельзя.
                            Вчера я попробовал засунуть голос от nsh в festival 1.4.3. Попробовал по структуре каталогов понять, куда это можно там "присобачить". Неполучилось.
                            nsh, тебе надо написать небольшую статью, что там да как делать.
                              насколько я понимаю, nsh разметил вручную только часть сэмплов, в основном только те, которые относятся к данной фразе?
                              получается,что звуки в последних двух словах идеально сочетаются.
                              У меня было такое: когда отлаживаешь на какойнибудь фразе - на ней звучит очень хорошо, а когда потом эти сэмплы (дифоны, куски или как там их называть) компилируются в другой фразе - слышаться не совсем естесственно. Возможно такое в фестивале?
                              Или благодаря этим функциям target cost и join cost подбираются самые оптимальные по весу куски из базы?
                                Цитата
                                насколько я понимаю, nsh разметил вручную только часть сэмплов, в основном только те, которые относятся к данной фразе?


                                Вы не совсем верно поняли, вернее совсем неверно.

                                Цитата
                                У меня было такое: когда отлаживаешь на какойнибудь фразе - на ней звучит очень хорошо, а когда потом эти сэмплы (дифоны, куски или как там их называть) компилируются в другой фразе - слышаться не совсем естесственно. Возможно такое в фестивале?
                                Или благодаря этим функциям target cost и join cost подбираются самые оптимальные по весу куски из базы?


                                Куски подбираются из базы оптимальные по минимальной ценовой функции, поэтому ошибки хоть и возможны, их не так много

                                Цитата
                                Вчера я попробовал засунуть голос от nsh в festival 1.4.3. Попробовал по структуре каталогов понять, куда это можно там "присобачить". Неполучилось.
                                nsh, тебе надо написать небольшую статью, что там да как делать.


                                Нужна более новая версия festival-1.96. Скачиваем следующие файлы:

                                http://www.speech.cs.cmu.edu/awb/fftest/speech_tools-1.2.96-beta.tar.gz

                                http://www.speech.cs.cmu.edu/awb/fftest/festival-1.96-beta.tar.gz

                                http://www.speech.cs.cmu.edu/awb/fftest/festlex_CMU.tar.gz

                                http://www.speech.cs.cmu.edu/awb/fftest/festlex_POSLEX.tar.gz

                                http://www.speech.cs.cmu.edu/awb/fftest/festvox_kallpc16k.tar.gz

                                Распаковываем в один каталог. Делаем следующие команды:

                                cd speech_tools
                                ./configure
                                make
                                cd ../festival
                                ./configure
                                make

                                Переходим в каталог festival/lib/voices
                                Создаём каталог ru

                                Кладём туда msu_ru_nsh_clunits-0.4.tar.gz, распаковываем

                                Переходим в каталог festival/bin

                                Делаем текст в кодировке utf-8 в файле test.txt

                                Запускаем ./festival

                                Пишем

                                (voice_msu_ru_nsh_clunits)

                                (tts_file "test.txt" nil)

                                Слушаем результат синтеза
                                0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                0 пользователей:
                                Страницы: (19) [1] 2 3 ...  18 19 все


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,0293 ]   [ 15 queries used ]   [ Generated: 21.12.24, 14:47 GMT ]