На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (19) « Первая ... 15 16 [17] 18 19  все  ( Перейти к последнему сообщению )  
> Новая база для синтеза речи , и голос для festival
    прикладываю результат своих трудов:
    http://z1.prolink.ru/sphinx/msu_ru_nsh_cg.tar.gz

    метки:
    http://z1.prolink.ru/sphinx/labs.tar.gz

    clunits у меня звучит не намного лучше чем у вас, поэтому не прикладываю (при желании модель быстро собирается с использованием меток)
      Здравствуйте nsh!
      Скажите пожалуйста, в файле
      msu_ru_nsh_dict.scm
      можно только указать ударение и часть речи:
      ("докладах" n (2))
      или каким-то образом можно указать фонетику:
      умножить v ( ((u) 0) ((m n o) 1) ((zh i tt) 0) )?
        Цитата
        или каким-то образом можно указать фонетику:


        На данный момент нельзя, в списке задач такая задача есть:

        http://festlang.berlios.de/docu/doku.php?id=rustasks
          Цитата nsh @
          Цитата
          или каким-то образом можно указать фонетику:


          На данный момент нельзя, в списке задач такая задача есть:

          http://festlang.berlios.de/docu/doku.php?id=rustasks

          прочел список задач, есть пункт
          Цитата
          Дополнить словарь (уровень - простой)

          Необходимо переконвертировать парадигму Зализняка в словарь в формате dic/msu_ru_nsh.dict. А именно, для каждого слова получить часть речи и номер ударного слога. В конце организовать слова в нужный формат:

          (”слово” n 1)

          что значит, что “слово” это существительное и ударение падает на первый слог


          Я сделал программку которая на основе фестивал синтезирует из текста речь.
          http://sourceforge.net/projects/golos/
          есть еще один проект, уже более приспособлен к озвучке текстов
          http://sourceforge.net/projects/menestrel/

          На основе первой, можно организовать редактирования словаря.
          Раз в данный момент нет возможности записывать полную транскрипцию слова, то можно организовать добавление записи "слово,часть речи и номер ударного слога".
          По большому счету, такая функция будет не особенно полезна, если не будет простой возможности делиться новыми "записями" словаря.
          Значит, надо организовать обмен такими записями, и их модерирование или добавление в словарь по рейтингу - т.е.
          например несколько человек прослушали звучание (учесть минимальное количество человек) согласно новой "записи" и оценили,
          например, по пятибальной шкале. Если какая - то запись удостаивается рейтинга в 5 звезд, она автоматически добавляется в словарь.

          Серверную часть с рейтингом в одиночку пожалуй я не осилю. Однако можно попробовать воспользоваться svn-хранилищем (например на базе sourceforge.net). На базе svn будет удобно организовать синхронизацию основного словаря со словарями пользователей и таким образом его расширять.
            звучание слова почти полностью зависит от ударного гласного
            https://github.com/zamiron/ru4sphinx/tree/master/text2dict
            здесь есть словарь из полутора миллиона слов с ударением
            там же есть скрипт который с вероятностью 90% правильно высталяет ударение - вероятность можно увеличить, но я пока смысла в этом не вижу
            если запарсить три миллиона слов в festival будет не очень весело
            поэтому надо выделить оптимальные маски и проставлять ударение автоматически
            в идеале можно научиться делать морфологический разбор слов, при таком разборе проще автоматически проставлять ударение
            для этого что бы это сделать в festival надо уметь програмить на lisp (вроде этот язык там используется)
            Есть некоторое колличество слов в которых ударение плавающее:
            - возле окна'
            - о'кна выходят во двор
            поэтому некоторые ударения надо выставлять исходя из контекста предложения
              Словарь нужно составлять, более того, словари уже есть хорошие, к той же Говорилке, можно их взять за основу.

              http://1956.ru/speech2/index.html

              да и к голосам под Windows словари тоже есть.

              Я только не совсем понял, что мешает уважаемому GrandPeter этим заняться, нужно просто взять и сделать.
                Если делать словарь, или программу, то такую чтобы потом никто не вязался по поводу авторского права. Поэтому я не рвусь конвертировать словари от лингво и т.п.

                zamir и nsh: если эти словари, о которых идет речь, конвертировать в словарь фестиваля, это не нарушит ни чьих авторских прав?

                zamir Вы пробовали скрипт, который выставляет ударение в русском голосе для Festival?

                для nsh:
                "Я только не совсем понял, что мешает уважаемому GrandPeter этим заняться, нужно просто взять и сделать."

                Я хочу сделать программу, которая позволит пользователю дополнять существующий словарь нужными им "записями" и делиться наработками с обществом. Создать словарь и пользоваться им одному в свое удовольствие мне не интересно. Возможно, когда удасться сделать часть задуманного и расписанного чуть выше, мне удасться дополнить словарь, и автоматом пользователи моего и совместимого с ним проекта получат эти наработки.

                я несколько лет слежу за эволюцией msu_ru_nsh_clunits но отмечаю с сожалением, что она идет медленно, а то и вовсе в последний год остановилась. надеюсь я ошибаюсь.
                  Цитата
                  если эти словари, о которых идет речь, конвертировать в словарь фестиваля, это не нарушит ни чьих авторских прав?

                  то что выложено по ссылке в git не нарушает ничьи права
                  если вы пропарсите то что выложил yandex на предмет ударения и никому об этом скажите это тоже не нарушит не чьи права
                  мне кажется нет смысла заморачиваться с правами если есть желание что-то сделать и отдать безвозмездно
                  как я уже писал пересинтезированный голос алёны для festival можно распространять через торренты и никто от этого не пострадает

                  Цитата
                  zamir Вы пробовали скрипт, который выставляет ударение в русском голосе для Festival?

                  мой скрипт написан на perl. движёк фестиваля на lisp. я не знаю языка lisp.
                  Всё что я смог сделать на этом языке выложено в этой теме чуть выше.
                  посути это переработанный движёк nsh, в нём иная фонетическая база.
                  поправьте если я ошибаюсь но Николай не выкладывал синтезатор который не использует wav файлы (живой голос) для синтеза, соответсенно я выложил имеено движёк который делает "синтетический" (другого слова не подобрал) синтез.
                  Что называется преимущества в весе базы, недостатки слышны невооружённым ухом :)
                    zamir:
                    здесь есть словарь из полутора миллиона слов с ударением
                    есть скрипт который с вероятностью 90% правильно высталяет ударение


                    скрипт с ударением это dict2transcript.pl в разделе "Автоударение"?

                    Да я так понимаю кто желает доработать голос в festival сталкиваются с тем, что там используется lisp и отсутствует русскоязычная литература(

                    Попробую переварить этот скрипт, если пойму вставлю в свою программку, если не возражаете.
                      dict2transcript.pl не совсем то
                      я похоже не залил эти скрипты
                      сейчас залью

                      Добавлено
                      залил

                      accent_train.pl - обучение
                      accent_test.pl - тестирование правильности расстановки ударения
                        Цитата
                        Один из старейших хостингов открытых проектов Berlios (Berlin Open Source), пользующийся популярностью среди европейского сообщества разработчиков, объявил о скором закрытии. Инфраструктура проекта перестанет работать с 1 января 2012 года.


                        Николай у вас там русский синтезатор лежит. Можете сообщить ссылку куда вы планируете его перезалить?
                          Пока не знаю, не думал над этим.
                            Подскажите, а для flite существуют русские голоса? Проект вообще еще развивается?
                              Проект развивается семимильными шагами. Продолжение можно скачать тут:

                              https://github.com/Olga-Yakovleva/RHVoice

                              Есть HTS голоса, драйвер для SAPI для Windows, улучшения ударений и много чего хорошего.

                              Есть женский голос, исходную базу для него можно скачать тут:

                              http://tiflo.info/rhvoice/
                                Цитата nsh @
                                Проект развивается семимильными шагами.

                                А известно, что нужно сделать, чтобы избавиться от "металлического" звука при синтезе? Я бы мог заняться если наведете на задачи
                                1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)
                                0 пользователей:


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,1040 ]   [ 14 queries used ]   [ Generated: 2.07.25, 02:58 GMT ]