На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (19) « Первая ... 3 4 [5] 6 7 ...  18 19 все  ( Перейти к последнему сообщению )  
> Новая база для синтеза речи , и голос для festival
    Скажите как сгенерировать wav файл русской речи? Дело в том, что Festival при генерации wav файла из txt файла с русским текстом произносит только числительные на английском языке. При этом с воспроизведением русского текста из txt файла никаких проблем не возникает.
      Цитата
      Дело в том, что Festival при генерации wav файла из txt файла с русским текстом произносит только числительные на английском языке. При этом с воспроизведением русского текста из txt файла никаких проблем не возникает.


      Если Вы о text2wave, нужно добавить -eval '(voice_msu_ru_nsh_clunits)' или добавить эту строчку в festival/lib/siteinit.scm.
        Спасибо!wav файл с русской речью получил.

        Цитата
        Скачиваете программу WaveSurfer, в файлах кладёте вместе wav файл и lab файл, открываете файл в wavesurfer.


        wav файл я сгенерировал, а где мне для него взять файл транскрипций - *.lab
          Цитата
          wav файл я сгенерировал, а где мне для него взять файл транскрипций - *.lab


          Файлы не нужно генерировать. Они лежат в подкаталоге скачанного голоса wav. Файлы с метками .lab лежат в подкаталоге lab.
            Если я правильно вас понял, то последовательность правильных действий для разметки текста такова:

            1) Имеем txt файл с отрывком, который необходимо воспроизвести.

            2) Для этого генерируем wav файл из нашего txt файла и слушаем, что нас в нем не устраивает. А именно: какие буквы(звуки) произносятся не так как нам хотелось бы.

            3) Для этого нам нужно в программе WaveSurfer разметить этот wav файл. Такая разметка нужна для того, чтобы узнать какие звуки нас не устраивают.

            4) После того, как выяснили какие звуки (буквы или дифоны) нас не устраивают, открываем какой-нибудь(или все?) файлы из каталога /festival/lib/voices/ru/msu_ru_nsh_clunits/wav в WaveSurfer с соответствующим lab файлом. Находим нужный звук и меняем его продолжительность. Пересохраняем lab файл и заново воспроизводим наш отрывок из txt файла.

            Неужели это правда так? Если так, то это довольно сложно!
            Я думал, что при создании нашего wav файла, должен генерироваться соответствующий lab файл и меняя границы в этом lab файле программой WaveSurfer изменялся бы и wav файл. Тогда можно было бы легко и просто изменять длительность некоторых звуков прямо из программы WaveSurfer.

            Скажите как все-таки правильно?
              Цитата
              Если я правильно вас понял, то последовательность правильных действий для разметки текста такова:


              Нет, не так. Размечать нужно всё подряд из каталога wav, по порядку и методично. Искать отдельные звуки не оптимально, потому что после исправления в одном месте ошибка вылезет в другом. Берём файл, скажем, ru_0100, смотрим на каждый звук и подправляем границу, чтобы она точно указывала на границу звука. И так для всех звуков из файла. Затем сохраняем результат.
                Цитата
                Нет, не так. Размечать нужно всё подряд из каталога wav, по порядку и методично.

                Получается, что это еще сложнее чем я думал! wav файлов в каталоге-844. Для кажого wav файла есть lab файл, в котором указаны как я понял длительности различных звуков (~300 или 500 примерно). Это что получается, что нужно подправить около 844*500=422 000 звуков????????

                Допустим у меня есть выражение ""Внимание, на установке АВТ 6 неисправны агрегаты с номерами №1 №2 №456". Не корректно произносятся имя устанвки АВТ 6 (оно как то проглатывается)(писал по разному и АВЭТЭ и АВЫТЭ- звук А очень короткий), у слова агрегаты ударение падает на букву Ы. Как мне это исправить?
                Мне что для этого нужно всю базу звуков подправить? все 422 000 звуков??? Ведь мне то нужно исправить только в одной фразе!
                  Во всей базе 50000 звуков, а не 40000. По 10 минут на файл - 2 месяца работы :)

                  Отдельную фразу поправить не так легко, но я посмотрю.

                  Добавлено
                  По поводу АВТ, нужно что-то вроде

                  +АВЫТ+Э
                    Да, конечно очень много работы! Желаю вам успехов в этом деле!
                    Я так понимаю, что синтезатор речи Festival сделан на основе художественной литературы, поэтому он и будет лучше воспроисводить художественный текст. А мне нужен синтезатор, который бы хорошо воспроизводил технический текст (специфические имена установок, числительные). Может быть вы знаете такие продукты для Unix систем? Все что я смог найти по этой теме сводится к тому, что качество Festival на данный момент лучшее из все систем синтеза речи для Unix систем.
                    Попробовал написать +АВЫТ+Э. При этом основная проблема в том, что первый звук А проглатывается, или проговаривается как то отрывисто и быстро, следующие звуки тоже говорятся как то быстро, так что при прослушивании не понимаешь, что за имя установки произнесено. Хотелось бы что бы это имя произносилось размеренно и плавно, по сути нужно просто сказать А, Вэ, Тэ.
                    Скажите а чтобы исправить ударения, нужно тоже всю базу звуков перебирать? или можно как то попроще сделать?
                      to Igor730
                      Вы имеете в виду лучшее качество из свободного ПО? Вам принципиально бесплатное?
                      Open Source обычно всегда предполагает необходимость доработки "под себя".
                      Другое дело доработка бывает либо сложной, либо простой. В данном случае тема наукоёмкая.

                      Есть системы попроще настраиваемые, но синтезированный голос звучать будет более механически.

                      Если ваш браузер поддерживает тег <BGSOUND> можете послушать АВэТэ
                      http://www.bgpu.ru/lit/files/avete.html

                      там есть java апллет http://www.bgpu.ru/lit/files/sintese/appletic/sintese.html , но он цифры не понимает, напишите там "АВэ"Тэ
                      Сообщение отредактировано: Iskanderus -
                        Может завести какой нибудь сорс контроль для лабов, а то жалко если над одним и тем же файлов будут несколько человек работать. Я, конечно, понимаю, что пока один человек только трудится, но вдруг кто начнет помогать
                          Цитата
                          Может завести какой нибудь сорс контроль для лабов, а то жалко если над одним и тем же файлов будут несколько человек работать. Я, конечно, понимаю, что пока один человек только трудится, но вдруг кто начнет помогать


                          Спасибо за предложение, файлы разметки и база давно доступна и в системе хранения версий на voxforge.org.
                            Не совсем я понял, где там версии лабов лежал. Хотел посмотреть пример файла до разметки и после. Пытался послушать , ну чтоы помочь размечать, так и не понял, что хорошо, а что плохо, хотя медмедьмне по ушам не гулял. Например в 418 слово 'дверь' странно звучит, а в 13 нормально, транскрипция выглядит одинаково d vv ee r. Вообщем без ликбеза по разметке, врядли помочь смогу, это еще с учетом незнания правил транскрипции.
                              Цитата
                              Не совсем я понял, где там версии лабов лежал.


                              http://www.dev.voxforge.org/projects/Russian/browser/Trunk/Audio/Original/16kHz_16bit/urp

                              Цитата
                              ну чтоы помочь размечать, так и не понял, что хорошо, а что плохо, хотя медмедьмне по ушам не гулял.


                              Вы меня не совсем правильно поняли. Нужно не звуки отмечать, а границы звуков. Например, сейчас в ru_0003 начало такое:

                              #
                              0.41200 125 pau
                              0.53200 125 s
                              0.56200 125 ay
                              0.64200 125 s
                              0.74200 125 p

                              а на деле оно должно быть таким:

                              #
                              0.429754 125 pau
                              0.520118 125 s
                              0.576858 125 ay
                              0.652512 125 s

                              алгоритм автоматической разметки неправильно определяет границы, нужно их подправить.

                              Добавлено
                              И начните с простого, пошлите запись своего голоса в базу voxforge :)
                                to Iskanderus

                                Прослушал пример синтеза. Конечно, услышать то чего хотелось не удалось.
                                Дело в том, что нужен синтезатор речи с качественным воспроизведением речи для применения в промышленном производстве. При этом не важно будет ли он платным или бесплатным.
                                0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                                0 пользователей:
                                Страницы: (19) « Первая ... 3 4 [5] 6 7 ...  18 19 все


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,0366 ]   [ 15 queries used ]   [ Generated: 22.12.24, 05:38 GMT ]