На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
Модераторы: RaD, nsh
Страницы: (19) « Первая ... 17 18 [19]  все  ( Перейти к последнему сообщению )  
> Новая база для синтеза речи , и голос для festival
    Спасибо.
    Попробую ковырнуть исходники.
      Здравствуйте.

      Попробовал натренировать базу RHVoice Elena для marytts. Пример - во [attach=#0]вложении[/attach]. Тип синтеза - unit selection. Действительно звук получился не такой металлический как в RHVoice, однако присутствуют многочисленные артефакты. Вроде бы, и сами фразы, и количество записей в базе совпадает с моделью Николая, но результат получился заметно хуже. Произношение не такое "гладкое", огрехи синтеза выделяются резче. В связи с этим есть несколько вопросов знающим людям:

      1. Иногда при синтезе этим голосом в консоли сервера выводится предупреждение "Warning: signal amplitude out of range: 32957". Стоит убавить громкость исходным файлам? Или проблема решается как-то по-другому?

      2. Имеет ли вообще смысл делать какую-либо предобработку исходного аудио? Выравнивание громкости, например? Есть ли какие-нибудь инструкции для подготовки аудио к тренировке?

      3. Перед тренировкой я перегнал исходные файлы из 44.1 КГЦ в 16. Имеет ли смысл пробовать перетренировать на 44.1 КГц? Теоретически при перегонке из-за некратных частот могли возникнуть какие-то артефакты в исходный файлах.

      4. Есть ли какие-нибудь способы проверить качество разметки (ehmm labeling)? Повысить это качество?
        Цитата
        Пример - во [attach=#0]вложении[/attach].


        Чего-то нет вложения.

        Цитата
        1. Иногда при синтезе этим голосом в консоли сервера выводится предупреждение "Warning: signal amplitude out of range: 32957". Стоит убавить громкость исходным файлам? Или проблема решается как-то по-другому?


        Да, громкость нужно нормализовать в процессе обработки. По-моему, в openmary такая функция есть, хотя я не помню. Если нет, нужно сделать это отдельно.

        Цитата
        2. Имеет ли вообще смысл делать какую-либо предобработку исходного аудио? Выравнивание громкости, например? Есть ли какие-нибудь инструкции для подготовки аудио к тренировке?


        Чем меньше обработки, тем лучше. Но громкость надо бы выровнять.

        Цитата
        3. Перед тренировкой я перегнал исходные файлы из 44.1 КГЦ в 16. Имеет ли смысл пробовать перетренировать на 44.1 КГц?


        Нет.

        Цитата
        Теоретически при перегонке из-за некратных частот могли возникнуть какие-то артефакты в исходный файлах.


        Не могли.

        Цитата
        4. Есть ли какие-нибудь способы проверить качество разметки (ehmm labeling)? Повысить это качество?


        Открыть файл разметки lab в wavesurfer или praat, посмотреть. Подправить вручную. Автоматически сделать все не получится, для синтеза базы всегда оптимизируются вручную - послушать, найти артефакт, проверить откуда он взялся (проверить место в оригинальной базе), подправить там, если нужно. Подправить транскрипцию, если там есть ошибка. Подправить словарь, если он не соответствует произношению диктора. Этот процесс уже описывался в данной теме ранее.

        Автоматическую разметку лучше делать с помощью sphinx или kaldi, ehmm на самом деле очень мутная штука.

        В фестивале последнем есть хороший метод оптимизации разметки - move_label, по идее он должен существенно улучшить качество сегментации. В этой теме он уже обсуждался ранее.

        По современным меркам база Elenа очень маленькая, я бы лучше занялся аудиокнигой, часов на 20-30 речи. С ней качество сегментации гораздо лучше.
        Сообщение отредактировано: nsh -
          Спасибо за такой подробный ответ!

          Убавил громкость исходный файлов. Еще обнаружил, что в фонетическом словаре marytts, который используется по умолчанию, отсутствует приблизительно 10% слов из обучающего множества. После их добавления стало немного получше. Обнаружил в фестивалевском словаре и обучающих фразах несколько косяков с "ё" ("ребенок", "летчик").

          В целом разметка, как я понял (по практически идеальному синтезу фраз, на которых происходило обучение), делается сносно. Основная проблема, действительно, в небольшом размере самой базы. В открытом доступе есть еще Irina, размер которой в 3 раза больше. С аудиокнигой на первых порах, я думаю, не справлюсь, т.к. усилий на подготовку материала потребуется гораздо больше.

          Пишут, что HMM-синтез лишен некоторых недостатков, присущих unit selection. Попробовал натренировать HMM все на той же Елене. Получилось вроде бы неплохо, в плане "гладкости" похоже на RHVoice. Но откуда-то вылезла проблема с затуханием звука, пробую сейчас разобраться.

          Пробую еще раз приложить аудио файлы (формат - ogg).
          Прикреплённый файлПрикреплённый файлelena_unitsel3.txt (56,67 Кбайт, скачиваний: 745)
          Прикреплённый файлПрикреплённый файлelena_hmm1.txt (46,28 Кбайт, скачиваний: 716)
            Цитата
            В целом разметка, как я понял (по практически идеальному синтезу фраз, на которых происходило обучение), делается сносно.


            Судя по примерам выложенным, разметка ужасная, очень много дефектов при склейке. Синтез фраз из базы как раз ни о чём не говорит, потому что проблемы возникают при склейке из разных частей базы.

            С ударениями тоже очень большие проблемы, Mary их просто не умеет предсказывать: переходил, замаранные, покину. Только если ударения исправить, будет значительно лучше.

            Ударения нужно брать из словаря.
              Удалось решить проблему с затуханием звука в HMM-голосе. Дело было в алгоритме Global Variance, который на дефолтовых настройках приводил к клиппингу на ударных гласных. Теперь на коротких фразах звучит неплохо. Однако на длинных фразах хорошо заметны недостатки по сравнению с RHVoice:
              1. Некоторые звуки все равно синтезируются с дефектами. Хотя в RHVoice (судя по скриптам) используется тот же ehmm labeling. Возможно, стоит поэкспериментировать с фичами? Нет ли каких-нибудь рекомендаций?
              2. Голос несколько зашумлен. В RHVoice голос более чистый, хотя и проскакивает металлический призвук иногда. Пробовал менять FREQWARPв настройках hts, но желаемого эффекта пока не добился.
              3. Интонация и паузы. RHVoice чуть медленнее (rate=0.7) и субъективно более выразительный, с расстановкой. Можно сравнить по прикрепленным файлам. Это какие-то упущения тренировки или особенности реализации синтеза marytts и flite?
              4. Обнаружилось, что pitch выглядит более дискретным по сравнению с RHVoice. Не знаю, стоит ли беспокоиться по этому поводу.

              Цитата
              Судя по примерам выложенным, разметка ужасная, очень много дефектов при склейке. Синтез фраз из базы как раз ни о чём не говорит, потому что проблемы возникают при склейке из разных частей базы.

              Правильно ли я понял ваш предыдущий пост, что добиться качественной разметки на таком объеме базы проблематично? На большем объеме hmm будут лучше натренированы - качество разметки возрастет. Кроме того, отдельные ошибки в базе, транскрипциях и словарях также будут нивелироваться за счет объема. Выглядящее наиболее перспективным техническое средство - move_label - работает только с фестивалевскими голосами, как я понял. Стоит ли специально для этого делать фестивалевский голос - непонятно.

              Цитата
              С ударениями тоже очень большие проблемы, Mary их просто не умеет предсказывать: переходил, замаранные, покину. Только если ударения исправить, будет значительно лучше.

              Да, с ударениями надо что-то делать. Есть ли какие-нибудь эффективные алгоритмы их предсказания?

              Цитата
              Ударения нужно брать из словаря.

              Из словаря фестиваля?
              Прикреплённый файлПрикреплённый файлelena_hmm7_short.ogg.txt (12,56 Кбайт, скачиваний: 787)
              Прикреплённый файлПрикреплённый файлelena_hmm7_long.ogg.txt (51,69 Кбайт, скачиваний: 724)
              Прикреплённый файлПрикреплённый файлelena_rhvoice_long.ogg.txt (54,05 Кбайт, скачиваний: 705)
              Прикреплённый файлПрикреплённый файлelena_mary_rhvoice.png (80,88 Кбайт, скачиваний: 1032)
                Цитата
                хорошо заметны недостатки по сравнению с RHVoice


                RHVoice наверное более новый HTS использует вроде 2.1. С версии 1.1 много воды утекло

                Цитата
                Стоит ли специально для этого делать фестивалевский голос - непонятно.


                До HTS голоса надо обязательно делать и тестировать unit-selection, это позволяет значительно улучшить качесто HTS голоса.

                Цитата
                Кроме того, отдельные ошибки в базе, транскрипциях и словарях также будут нивелироваться за счет объема.


                Не будут. Дело в том, что HTS делает на одном из этапов кластеризацию аллофонов, и ошибки только усиливаются, кроме того, их становится тяжелее ловить.

                Цитата
                Есть ли какие-нибудь эффективные алгоритмы их предсказания?


                Нет.

                Цитата
                Из словаря фестиваля?


                Из любого словаря.
                Сообщение отредактировано: nsh -
                0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                0 пользователей:


                Рейтинг@Mail.ru
                [ Script execution time: 0,0444 ]   [ 19 queries used ]   [ Generated: 25.04.24, 02:27 GMT ]