Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[34.231.180.210] |
|
Страницы: (19) « Первая ... 17 18 [19] все ( Перейти к последнему сообщению ) |
Сообщ.
#271
,
|
|
|
Спасибо.
Попробую ковырнуть исходники. |
Сообщ.
#272
,
|
|
|
Здравствуйте.
Попробовал натренировать базу RHVoice Elena для marytts. Пример - во [attach=#0]вложении[/attach]. Тип синтеза - unit selection. Действительно звук получился не такой металлический как в RHVoice, однако присутствуют многочисленные артефакты. Вроде бы, и сами фразы, и количество записей в базе совпадает с моделью Николая, но результат получился заметно хуже. Произношение не такое "гладкое", огрехи синтеза выделяются резче. В связи с этим есть несколько вопросов знающим людям: 1. Иногда при синтезе этим голосом в консоли сервера выводится предупреждение "Warning: signal amplitude out of range: 32957". Стоит убавить громкость исходным файлам? Или проблема решается как-то по-другому? 2. Имеет ли вообще смысл делать какую-либо предобработку исходного аудио? Выравнивание громкости, например? Есть ли какие-нибудь инструкции для подготовки аудио к тренировке? 3. Перед тренировкой я перегнал исходные файлы из 44.1 КГЦ в 16. Имеет ли смысл пробовать перетренировать на 44.1 КГц? Теоретически при перегонке из-за некратных частот могли возникнуть какие-то артефакты в исходный файлах. 4. Есть ли какие-нибудь способы проверить качество разметки (ehmm labeling)? Повысить это качество? |
Сообщ.
#273
,
|
|
|
Цитата Пример - во [attach=#0]вложении[/attach]. Чего-то нет вложения. Цитата 1. Иногда при синтезе этим голосом в консоли сервера выводится предупреждение "Warning: signal amplitude out of range: 32957". Стоит убавить громкость исходным файлам? Или проблема решается как-то по-другому? Да, громкость нужно нормализовать в процессе обработки. По-моему, в openmary такая функция есть, хотя я не помню. Если нет, нужно сделать это отдельно. Цитата 2. Имеет ли вообще смысл делать какую-либо предобработку исходного аудио? Выравнивание громкости, например? Есть ли какие-нибудь инструкции для подготовки аудио к тренировке? Чем меньше обработки, тем лучше. Но громкость надо бы выровнять. Цитата 3. Перед тренировкой я перегнал исходные файлы из 44.1 КГЦ в 16. Имеет ли смысл пробовать перетренировать на 44.1 КГц? Нет. Цитата Теоретически при перегонке из-за некратных частот могли возникнуть какие-то артефакты в исходный файлах. Не могли. Цитата 4. Есть ли какие-нибудь способы проверить качество разметки (ehmm labeling)? Повысить это качество? Открыть файл разметки lab в wavesurfer или praat, посмотреть. Подправить вручную. Автоматически сделать все не получится, для синтеза базы всегда оптимизируются вручную - послушать, найти артефакт, проверить откуда он взялся (проверить место в оригинальной базе), подправить там, если нужно. Подправить транскрипцию, если там есть ошибка. Подправить словарь, если он не соответствует произношению диктора. Этот процесс уже описывался в данной теме ранее. Автоматическую разметку лучше делать с помощью sphinx или kaldi, ehmm на самом деле очень мутная штука. В фестивале последнем есть хороший метод оптимизации разметки - move_label, по идее он должен существенно улучшить качество сегментации. В этой теме он уже обсуждался ранее. По современным меркам база Elenа очень маленькая, я бы лучше занялся аудиокнигой, часов на 20-30 речи. С ней качество сегментации гораздо лучше. |
Сообщ.
#274
,
|
|
|
Спасибо за такой подробный ответ!
Убавил громкость исходный файлов. Еще обнаружил, что в фонетическом словаре marytts, который используется по умолчанию, отсутствует приблизительно 10% слов из обучающего множества. После их добавления стало немного получше. Обнаружил в фестивалевском словаре и обучающих фразах несколько косяков с "ё" ("ребенок", "летчик"). В целом разметка, как я понял (по практически идеальному синтезу фраз, на которых происходило обучение), делается сносно. Основная проблема, действительно, в небольшом размере самой базы. В открытом доступе есть еще Irina, размер которой в 3 раза больше. С аудиокнигой на первых порах, я думаю, не справлюсь, т.к. усилий на подготовку материала потребуется гораздо больше. Пишут, что HMM-синтез лишен некоторых недостатков, присущих unit selection. Попробовал натренировать HMM все на той же Елене. Получилось вроде бы неплохо, в плане "гладкости" похоже на RHVoice. Но откуда-то вылезла проблема с затуханием звука, пробую сейчас разобраться. Пробую еще раз приложить аудио файлы (формат - ogg). Прикреплённый файлelena_unitsel3.txt (56,67 Кбайт, скачиваний: 755) Прикреплённый файлelena_hmm1.txt (46,28 Кбайт, скачиваний: 726) |
Сообщ.
#275
,
|
|
|
Цитата В целом разметка, как я понял (по практически идеальному синтезу фраз, на которых происходило обучение), делается сносно. Судя по примерам выложенным, разметка ужасная, очень много дефектов при склейке. Синтез фраз из базы как раз ни о чём не говорит, потому что проблемы возникают при склейке из разных частей базы. С ударениями тоже очень большие проблемы, Mary их просто не умеет предсказывать: переходил, замаранные, покину. Только если ударения исправить, будет значительно лучше. Ударения нужно брать из словаря. |
Сообщ.
#276
,
|
|
|
Удалось решить проблему с затуханием звука в HMM-голосе. Дело было в алгоритме Global Variance, который на дефолтовых настройках приводил к клиппингу на ударных гласных. Теперь на коротких фразах звучит неплохо. Однако на длинных фразах хорошо заметны недостатки по сравнению с RHVoice:
1. Некоторые звуки все равно синтезируются с дефектами. Хотя в RHVoice (судя по скриптам) используется тот же ehmm labeling. Возможно, стоит поэкспериментировать с фичами? Нет ли каких-нибудь рекомендаций? 2. Голос несколько зашумлен. В RHVoice голос более чистый, хотя и проскакивает металлический призвук иногда. Пробовал менять FREQWARPв настройках hts, но желаемого эффекта пока не добился. 3. Интонация и паузы. RHVoice чуть медленнее (rate=0.7) и субъективно более выразительный, с расстановкой. Можно сравнить по прикрепленным файлам. Это какие-то упущения тренировки или особенности реализации синтеза marytts и flite? 4. Обнаружилось, что pitch выглядит более дискретным по сравнению с RHVoice. Не знаю, стоит ли беспокоиться по этому поводу. Цитата Судя по примерам выложенным, разметка ужасная, очень много дефектов при склейке. Синтез фраз из базы как раз ни о чём не говорит, потому что проблемы возникают при склейке из разных частей базы. Правильно ли я понял ваш предыдущий пост, что добиться качественной разметки на таком объеме базы проблематично? На большем объеме hmm будут лучше натренированы - качество разметки возрастет. Кроме того, отдельные ошибки в базе, транскрипциях и словарях также будут нивелироваться за счет объема. Выглядящее наиболее перспективным техническое средство - move_label - работает только с фестивалевскими голосами, как я понял. Стоит ли специально для этого делать фестивалевский голос - непонятно. Цитата С ударениями тоже очень большие проблемы, Mary их просто не умеет предсказывать: переходил, замаранные, покину. Только если ударения исправить, будет значительно лучше. Да, с ударениями надо что-то делать. Есть ли какие-нибудь эффективные алгоритмы их предсказания? Цитата Ударения нужно брать из словаря. Из словаря фестиваля? Прикреплённый файлelena_hmm7_short.ogg.txt (12,56 Кбайт, скачиваний: 798) Прикреплённый файлelena_hmm7_long.ogg.txt (51,69 Кбайт, скачиваний: 733) Прикреплённый файлelena_rhvoice_long.ogg.txt (54,05 Кбайт, скачиваний: 715) Прикреплённый файлelena_mary_rhvoice.png (80,88 Кбайт, скачиваний: 1042) |
Сообщ.
#277
,
|
|
|
Цитата хорошо заметны недостатки по сравнению с RHVoice RHVoice наверное более новый HTS использует вроде 2.1. С версии 1.1 много воды утекло Цитата Стоит ли специально для этого делать фестивалевский голос - непонятно. До HTS голоса надо обязательно делать и тестировать unit-selection, это позволяет значительно улучшить качесто HTS голоса. Цитата Кроме того, отдельные ошибки в базе, транскрипциях и словарях также будут нивелироваться за счет объема. Не будут. Дело в том, что HTS делает на одном из этапов кластеризацию аллофонов, и ошибки только усиливаются, кроме того, их становится тяжелее ловить. Цитата Есть ли какие-нибудь эффективные алгоритмы их предсказания? Нет. Цитата Из словаря фестиваля? Из любого словаря. |