На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (19) « Первая ... 16 17 [18] 19  все  ( Перейти к последнему сообщению )  
> Новая база для синтеза речи , и голос для festival
    Цитата
    А известно, что нужно сделать, чтобы избавиться от "металлического" звука при синтезе?


    Известно, сделать голос для openmary из тех же данных:

    https://github.com/marytts/marytts/wiki/New-Language-Support

    Цитата
    Я бы мог заняться если наведете на задачи


    Займитесь
      Цитата nsh @
      Известно, сделать голос для openmary из тех же данных:
      https://github.com/marytts/marytts/wiki/New-Language-Support

      На странице http://mary.dfki.de:59125/ есть демо и для русского языка, но там звучание не отличается от festival. Проблема в голосе?
        Цитата
        Проблема в голосе?


        Какая проблема? Опишите проблему подробнее, опишите свои действия, что Вас беспокоит? Какой текст Вы пытаетесь синтезировать, что получается, что ожидается, что не нравится в результате.

        Любую проблему можно решить, нужно просто предоставить полную информацию.
          Цитата nsh @
          Какая проблема? Опишите проблему подробнее, опишите свои действия, что Вас беспокоит? Какой текст Вы пытаетесь синтезировать, что получается, что ожидается, что не нравится в результате.

          Синтезирую тестовую фразу "Добро пожаловать в мир синтеза речи!". Проверяю для openmary http://mary.dfki.de:59125/, проверяю для nuance http://www.nuance.com/vocalizer5/flash/index.html . Во втором случае качество речи ощутимо лучше, более плавное и натуральное. Каким образом достигается лучший результат? Новый голос для openmary решит задачу?
            Цитата
            Каким образом достигается лучший результат?


            Собирается более полная база, реализуются более точные алгоритмы. В этом примере, кстати, openmary неправильно ударения ставит. С правильными ударениями результат будет гораздо лучше.

            Цитата
            Новый голос для openmary решит задачу?


            Конечно
              Если будет время соберу с текущим голосом более качественный синтез для festival
              Только я вот точно не разберусь как этом языке (LISP?) сделать автоударение, поэтому ударение придётся вручную проставлять для синтеза (что многим не понравится)
              Кто-нубудь сможет автоударение прикрутить?
              festval может вызывать внешнюю програму для простановки ударения?
                И так. Нашлось время на эксперимент.
                Сначала мне показалось что результат не такой уже впечатляющий, но я сравнил с http://mary.dfki.de:59125/ - разница вполне ощутимая, хоть и не идеально конечно. (мне кажется нужно некоторое сглаживание - prosody modification?)

                Цитата
                Однажды, в студёную зимнюю пору, Я из лесу вышел; был сильный мороз. Гляжу, поднимается медленно в гору Лошадка, везущая хворосту воз. И, шествуя важно, в спокойствии чинном, Лошадку ведёт под уздцы мужичок. В больших сапогах, в полушубке овчинном, В больших рукавицах... а сам с ноготок!

                результат синтеза: http://z1.prolink.ru/sphinx/fest_demo_nekrasov.wav

                Цитата
                Маленький мальчик нашёл пулемёт, больше в деревне никто не живёт.

                результат синтеза: http://z1.prolink.ru/sphinx/fest_demo_tinyboy.wav

                ударения проставлял в ручную
                Скрытый текст
                М+аленький м+альчик наш+ёл пулем+ёт, б+ольше в дер+евне никт+о не жив+ёт.

                Одн+ажды, в студ+ёную з+имнюю п+ору, +Я +иЗ лесу в+ышел; б+ыл с+ильный мор+оз. Гляж+у, подним+ается м+едленно в г+ору Лош+адка, вез+ущая хв+оросту в+оз. +И, ш+ествуя в+ажно, в спок+ойствии ч+инном, Лош+адку вед+ёт под уздц+ы мужич+ок. В больш+их сапог+ах, в полуш+убке овч+инном, В больш+их рукав+ицах... а с+ам с ногот+ок!


                как проставить ударение в http://mary.dfki.de:59125/ - не разобрался. Николай, подскажите?

                Николай, поможете реализовать автопростановку ударения в festival ?
                  Здравствуйте! Подскажите пожалуйста, как собрать русскую базу для синтезатора flite? Из чего ее вообще собирать? Интересует именно flite, т.к. очень компактен и работает сейчас на недорогом микроконтроллере.
                    TTS для микроконтроллёров

                    Думаю Руслан в этой теме сейчас лучше всего разбирается.
                    Мне кажется начинать надо всё равно с громоздкого festvox
                      Хаха, вот и зациклились, вы на меня, я на вас :)

                      На самом деле МК STM32F10х освоены, сделал уже несколько девайсов разных, есть даже голосовой модуль, но пока на MP3. В планах забить в МК Flite, но пока даже примерно не знаю когда этим займусь.

                      user posted image
                      Сообщение отредактировано: RaD -
                        Ну дык я рассуждаю так:
                        если ты уже синтез к микроконтроллерам прикручиваешь, то на x86 архитектуре синтез тобой уже реализован с достаточно приемлимом качеством =)
                        Я не прав?
                          На x86 выгоднее пользоваться готовыми решениями. Коммерческими. Например, тот же cepstral даёт офигенное качество.
                            Здравствуйте уважаемые гуру синтеза.

                            Меня недавно заинтересовали технологии синтеза речи и я решил тоже сделать синтезатор на микроконтроллере.
                            За основу взял фонемную базу любительской программы Голос. Там около 680 фонем различной длины(столько влезло в 2МБ флешку).
                            Схема уже говорит. Но к сожалению есть проблемы. Фонемы записаны с различной громкостью и как признался автор в разных условиях. Я в редакторе подправляю косяки как могу. Но не все удается исправить.

                            Есть ли более качественные открытые и размеченные базы небольшого размера(5-10 мегабайт)?
                              Интересует формат файлов *.LAB, тех что идут вместе с базой.
                              Гугл толком ничего не сказал.

                              Допустим начало файла ru_0001.lab:
                              0x23 0x0A
                              "0.342000" - ну это ясно что позиция метки
                              0x20
                              "125" - что это?
                              0x20
                              "pay" - имя метки
                              0x0A

                              Если в Wavesurfer вручную размечаю транскрипцию и сохраняю, то сохраняет без "125".
                              В принципе пропарсить и так могу, но хотелось бы разобраться что да как.
                                Цитата
                                "125" - что это?


                                Второе поле - тип метки. Есть разные метки - для слов, аллофонов, слогов, интонационных событий, и так далее. В разметке на аллофоны используется 125.

                                Эти соглашения пошли из программы:

                                http://emu.sourceforge.net/

                                которая часто использовалась ранее для обработки речи.
                                0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                0 пользователей:


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,0437 ]   [ 16 queries used ]   [ Generated: 16.04.24, 17:04 GMT ]