Новая база для синтеза речи -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [18.223.107.149]

Модераторы: RaD, nsh

Новое голосование

Новая база для синтеза речи , и голос для festival

uk8amk	Сообщ. #271 , 25.08.13, 05:26
Newbie Профиль · PM Рейтинг (т): нет	Спасибо. Попробую ковырнуть исходники.

gsp

Сообщ. #272 , 03.10.13, 14:37

Unregistered

Здравствуйте.

Попробовал натренировать базу RHVoice Elena для marytts. Пример - во [attach=#0]вложении[/attach]. Тип синтеза - unit selection. Действительно звук получился не такой металлический как в RHVoice, однако присутствуют многочисленные артефакты. Вроде бы, и сами фразы, и количество записей в базе совпадает с моделью Николая, но результат получился заметно хуже. Произношение не такое "гладкое", огрехи синтеза выделяются резче. В связи с этим есть несколько вопросов знающим людям:

1. Иногда при синтезе этим голосом в консоли сервера выводится предупреждение "Warning: signal amplitude out of range: 32957". Стоит убавить громкость исходным файлам? Или проблема решается как-то по-другому?

2. Имеет ли вообще смысл делать какую-либо предобработку исходного аудио? Выравнивание громкости, например? Есть ли какие-нибудь инструкции для подготовки аудио к тренировке?

3. Перед тренировкой я перегнал исходные файлы из 44.1 КГЦ в 16. Имеет ли смысл пробовать перетренировать на 44.1 КГц? Теоретически при перегонке из-за некратных частот могли возникнуть какие-то артефакты в исходный файлах.

4. Есть ли какие-нибудь способы проверить качество разметки (ehmm labeling)? Повысить это качество?

nsh

Сообщ. #273 , 03.10.13, 18:14

Moderator

Профиль · PM

Цитата

Пример - во [attach=#0]вложении[/attach].

Чего-то нет вложения.

Цитата

1. Иногда при синтезе этим голосом в консоли сервера выводится предупреждение "Warning: signal amplitude out of range: 32957". Стоит убавить громкость исходным файлам? Или проблема решается как-то по-другому?

Да, громкость нужно нормализовать в процессе обработки. По-моему, в openmary такая функция есть, хотя я не помню. Если нет, нужно сделать это отдельно.

Цитата

2. Имеет ли вообще смысл делать какую-либо предобработку исходного аудио? Выравнивание громкости, например? Есть ли какие-нибудь инструкции для подготовки аудио к тренировке?

Чем меньше обработки, тем лучше. Но громкость надо бы выровнять.

Цитата

3. Перед тренировкой я перегнал исходные файлы из 44.1 КГЦ в 16. Имеет ли смысл пробовать перетренировать на 44.1 КГц?

Нет.

Цитата

Теоретически при перегонке из-за некратных частот могли возникнуть какие-то артефакты в исходный файлах.

Не могли.

Цитата

4. Есть ли какие-нибудь способы проверить качество разметки (ehmm labeling)? Повысить это качество?

Открыть файл разметки lab в wavesurfer или praat, посмотреть. Подправить вручную. Автоматически сделать все не получится, для синтеза базы всегда оптимизируются вручную - послушать, найти артефакт, проверить откуда он взялся (проверить место в оригинальной базе), подправить там, если нужно. Подправить транскрипцию, если там есть ошибка. Подправить словарь, если он не соответствует произношению диктора. Этот процесс уже описывался в данной теме ранее.

Автоматическую разметку лучше делать с помощью sphinx или kaldi, ehmm на самом деле очень мутная штука.

В фестивале последнем есть хороший метод оптимизации разметки - move_label, по идее он должен существенно улучшить качество сегментации. В этой теме он уже обсуждался ранее.

По современным меркам база Elenа очень маленькая, я бы лучше занялся аудиокнигой, часов на 20-30 речи. С ней качество сегментации гораздо лучше.

Сообщение отредактировано: nsh - 03.10.13, 18:21

gsp

Сообщ. #274 , 09.10.13, 09:15

Unregistered

Спасибо за такой подробный ответ!

Убавил громкость исходный файлов. Еще обнаружил, что в фонетическом словаре marytts, который используется по умолчанию, отсутствует приблизительно 10% слов из обучающего множества. После их добавления стало немного получше. Обнаружил в фестивалевском словаре и обучающих фразах несколько косяков с "ё" ("ребенок", "летчик").

В целом разметка, как я понял (по практически идеальному синтезу фраз, на которых происходило обучение), делается сносно. Основная проблема, действительно, в небольшом размере самой базы. В открытом доступе есть еще Irina, размер которой в 3 раза больше. С аудиокнигой на первых порах, я думаю, не справлюсь, т.к. усилий на подготовку материала потребуется гораздо больше.

Пишут, что HMM-синтез лишен некоторых недостатков, присущих unit selection. Попробовал натренировать HMM все на той же Елене. Получилось вроде бы неплохо, в плане "гладкости" похоже на RHVoice. Но откуда-то вылезла проблема с затуханием звука, пробую сейчас разобраться.

Пробую еще раз приложить аудио файлы (формат - ogg).
Прикреплённый файл

elena_unitsel3.txt (56,67 Кбайт, скачиваний: 745)
Прикреплённый файл

elena_hmm1.txt (46,28 Кбайт, скачиваний: 716)

nsh

Сообщ. #275 , 09.10.13, 13:07

Moderator

Профиль · PM

Цитата

В целом разметка, как я понял (по практически идеальному синтезу фраз, на которых происходило обучение), делается сносно.

Судя по примерам выложенным, разметка ужасная, очень много дефектов при склейке. Синтез фраз из базы как раз ни о чём не говорит, потому что проблемы возникают при склейке из разных частей базы.

С ударениями тоже очень большие проблемы, Mary их просто не умеет предсказывать: переходил, замаранные, покину. Только если ударения исправить, будет значительно лучше.

Ударения нужно брать из словаря.

gsp

Сообщ. #276 , 17.10.13, 09:47

Unregistered

Удалось решить проблему с затуханием звука в HMM-голосе. Дело было в алгоритме Global Variance, который на дефолтовых настройках приводил к клиппингу на ударных гласных. Теперь на коротких фразах звучит неплохо. Однако на длинных фразах хорошо заметны недостатки по сравнению с RHVoice:
1. Некоторые звуки все равно синтезируются с дефектами. Хотя в RHVoice (судя по скриптам) используется тот же ehmm labeling. Возможно, стоит поэкспериментировать с фичами? Нет ли каких-нибудь рекомендаций?
2. Голос несколько зашумлен. В RHVoice голос более чистый, хотя и проскакивает металлический призвук иногда. Пробовал менять FREQWARPв настройках hts, но желаемого эффекта пока не добился.
3. Интонация и паузы. RHVoice чуть медленнее (rate=0.7) и субъективно более выразительный, с расстановкой. Можно сравнить по прикрепленным файлам. Это какие-то упущения тренировки или особенности реализации синтеза marytts и flite?
4. Обнаружилось, что pitch выглядит более дискретным по сравнению с RHVoice. Не знаю, стоит ли беспокоиться по этому поводу.

Цитата

Правильно ли я понял ваш предыдущий пост, что добиться качественной разметки на таком объеме базы проблематично? На большем объеме hmm будут лучше натренированы - качество разметки возрастет. Кроме того, отдельные ошибки в базе, транскрипциях и словарях также будут нивелироваться за счет объема. Выглядящее наиболее перспективным техническое средство - move_label - работает только с фестивалевскими голосами, как я понял. Стоит ли специально для этого делать фестивалевский голос - непонятно.

Цитата

С ударениями тоже очень большие проблемы, Mary их просто не умеет предсказывать: переходил, замаранные, покину. Только если ударения исправить, будет значительно лучше.

Да, с ударениями надо что-то делать. Есть ли какие-нибудь эффективные алгоритмы их предсказания?

Цитата

Ударения нужно брать из словаря.

Из словаря фестиваля?
Прикреплённый файл

elena_hmm7_short.ogg.txt (12,56 Кбайт, скачиваний: 787)
Прикреплённый файл

elena_hmm7_long.ogg.txt (51,69 Кбайт, скачиваний: 724)
Прикреплённый файл

elena_rhvoice_long.ogg.txt (54,05 Кбайт, скачиваний: 705)
Прикреплённый файл

elena_mary_rhvoice.png (80,88 Кбайт, скачиваний: 1032)

nsh

Сообщ. #277 , 19.10.13, 08:28

Moderator

Профиль · PM

Цитата

хорошо заметны недостатки по сравнению с RHVoice

RHVoice наверное более новый HTS использует вроде 2.1. С версии 1.1 много воды утекло

Цитата

Стоит ли специально для этого делать фестивалевский голос - непонятно.

До HTS голоса надо обязательно делать и тестировать unit-selection, это позволяет значительно улучшить качесто HTS голоса.

Цитата

Кроме того, отдельные ошибки в базе, транскрипциях и словарях также будут нивелироваться за счет объема.

Не будут. Дело в том, что HTS делает на одном из этапов кластеризацию аллофонов, и ошибки только усиливаются, кроме того, их становится тяжелее ловить.

Цитата

Есть ли какие-нибудь эффективные алгоритмы их предсказания?

Нет.

Цитата

Из словаря фестиваля?

Из любого словаря.

Сообщение отредактировано: nsh - 19.10.13, 08:29

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (19) « Первая ... 17 18 [19] все

[ Script execution time: 0,0444 ] [ 19 queries used ] [ Generated: 25.04.24, 02:27 GMT ]