Форум на Исходниках.RU

Новая база для синтеза речи

nsh — Sat, 19 Oct 2013 08:28:55 +0000

nsh:

Цитата

хорошо заметны недостатки по сравнению с RHVoice

RHVoice наверное более новый HTS использует вроде 2.1. С версии 1.1 много воды утекло

Цитата

Стоит ли специально для этого делать фестивалевский голос - непонятно.

До HTS голоса надо обязательно делать и тестировать unit-selection, это позволяет значительно улучшить качесто HTS голоса.

Цитата

Кроме того, отдельные ошибки в базе, транскрипциях и словарях также будут нивелироваться за счет объема.

Не будут. Дело в том, что HTS делает на одном из этапов кластеризацию аллофонов, и ошибки только усиливаются, кроме того, их становится тяжелее ловить.

Цитата

Есть ли какие-нибудь эффективные алгоритмы их предсказания?

Нет.

Цитата

Из словаря фестиваля?

Из любого словаря.

Новая база для синтеза речи

gsp — Thu, 17 Oct 2013 09:47:14 +0000

gsp: Удалось решить проблему с затуханием звука в HMM-голосе. Дело было в алгоритме Global Variance, который на дефолтовых настройках приводил к клиппингу на ударных гласных. Теперь на коротких фразах звучит неплохо. Однако на длинных фразах хорошо заметны недостатки по сравнению с RHVoice:
1. Некоторые звуки все равно синтезируются с дефектами. Хотя в RHVoice (судя по скриптам) используется тот же ehmm labeling. Возможно, стоит поэкспериментировать с фичами? Нет ли каких-нибудь рекомендаций?
2. Голос несколько зашумлен. В RHVoice голос более чистый, хотя и проскакивает металлический призвук иногда. Пробовал менять FREQWARPв настройках hts, но желаемого эффекта пока не добился.
3. Интонация и паузы. RHVoice чуть медленнее (rate=0.7) и субъективно более выразительный, с расстановкой. Можно сравнить по прикрепленным файлам. Это какие-то упущения тренировки или особенности реализации синтеза marytts и flite?
4. Обнаружилось, что pitch выглядит более дискретным по сравнению с RHVoice. Не знаю, стоит ли беспокоиться по этому поводу.

Цитата

Правильно ли я понял ваш предыдущий пост, что добиться качественной разметки на таком объеме базы проблематично? На большем объеме hmm будут лучше натренированы - качество разметки возрастет. Кроме того, отдельные ошибки в базе, транскрипциях и словарях также будут нивелироваться за счет объема. Выглядящее наиболее перспективным техническое средство - move_label - работает только с фестивалевскими голосами, как я понял. Стоит ли специально для этого делать фестивалевский голос - непонятно.

Цитата

С ударениями тоже очень большие проблемы, Mary их просто не умеет предсказывать: переходил, замаранные, покину. Только если ударения исправить, будет значительно лучше.

Да, с ударениями надо что-то делать. Есть ли какие-нибудь эффективные алгоритмы их предсказания?

Цитата

Ударения нужно брать из словаря.

Из словаря фестиваля?

Новая база для синтеза речи

nsh — Wed, 09 Oct 2013 13:07:12 +0000

nsh:

Цитата

В целом разметка, как я понял (по практически идеальному синтезу фраз, на которых происходило обучение), делается сносно.

Судя по примерам выложенным, разметка ужасная, очень много дефектов при склейке. Синтез фраз из базы как раз ни о чём не говорит, потому что проблемы возникают при склейке из разных частей базы.

С ударениями тоже очень большие проблемы, Mary их просто не умеет предсказывать: переходил, замаранные, покину. Только если ударения исправить, будет значительно лучше.

Ударения нужно брать из словаря.

Новая база для синтеза речи

gsp — Wed, 09 Oct 2013 09:15:18 +0000

gsp: Спасибо за такой подробный ответ!

Убавил громкость исходный файлов. Еще обнаружил, что в фонетическом словаре marytts, который используется по умолчанию, отсутствует приблизительно 10% слов из обучающего множества. После их добавления стало немного получше. Обнаружил в фестивалевском словаре и обучающих фразах несколько косяков с "ё" ("ребенок", "летчик").

В целом разметка, как я понял (по практически идеальному синтезу фраз, на которых происходило обучение), делается сносно. Основная проблема, действительно, в небольшом размере самой базы. В открытом доступе есть еще Irina, размер которой в 3 раза больше. С аудиокнигой на первых порах, я думаю, не справлюсь, т.к. усилий на подготовку материала потребуется гораздо больше.

Пишут, что HMM-синтез лишен некоторых недостатков, присущих unit selection. Попробовал натренировать HMM все на той же Елене. Получилось вроде бы неплохо, в плане "гладкости" похоже на RHVoice. Но откуда-то вылезла проблема с затуханием звука, пробую сейчас разобраться.

Пробую еще раз приложить аудио файлы (формат - ogg).
elena_unitsel3.txt (, : 809)
elena_hmm1.txt (, : 784)

Новая база для синтеза речи

nsh — Thu, 03 Oct 2013 18:14:55 +0000

nsh:

Цитата

Пример - во [attach=#0]вложении[/attach].

Чего-то нет вложения.

Цитата

1. Иногда при синтезе этим голосом в консоли сервера выводится предупреждение "Warning: signal amplitude out of range: 32957". Стоит убавить громкость исходным файлам? Или проблема решается как-то по-другому?

Да, громкость нужно нормализовать в процессе обработки. По-моему, в openmary такая функция есть, хотя я не помню. Если нет, нужно сделать это отдельно.

Цитата

2. Имеет ли вообще смысл делать какую-либо предобработку исходного аудио? Выравнивание громкости, например? Есть ли какие-нибудь инструкции для подготовки аудио к тренировке?

Чем меньше обработки, тем лучше. Но громкость надо бы выровнять.

Цитата

3. Перед тренировкой я перегнал исходные файлы из 44.1 КГЦ в 16. Имеет ли смысл пробовать перетренировать на 44.1 КГц?

Нет.

Цитата

Теоретически при перегонке из-за некратных частот могли возникнуть какие-то артефакты в исходный файлах.

Не могли.

Цитата

4. Есть ли какие-нибудь способы проверить качество разметки (ehmm labeling)? Повысить это качество?

Открыть файл разметки lab в wavesurfer или praat, посмотреть. Подправить вручную. Автоматически сделать все не получится, для синтеза базы всегда оптимизируются вручную - послушать, найти артефакт, проверить откуда он взялся (проверить место в оригинальной базе), подправить там, если нужно. Подправить транскрипцию, если там есть ошибка. Подправить словарь, если он не соответствует произношению диктора. Этот процесс уже описывался в данной теме ранее.

Автоматическую разметку лучше делать с помощью sphinx или kaldi, ehmm на самом деле очень мутная штука.

В фестивале последнем есть хороший метод оптимизации разметки - move_label, по идее он должен существенно улучшить качество сегментации. В этой теме он уже обсуждался ранее.

По современным меркам база Elenа очень маленькая, я бы лучше занялся аудиокнигой, часов на 20-30 речи. С ней качество сегментации гораздо лучше.

Новая база для синтеза речи

gsp — Thu, 03 Oct 2013 14:37:39 +0000

gsp: Здравствуйте.

Попробовал натренировать базу RHVoice Elena для marytts. Пример - во [attach=#0]вложении[/attach]. Тип синтеза - unit selection. Действительно звук получился не такой металлический как в RHVoice, однако присутствуют многочисленные артефакты. Вроде бы, и сами фразы, и количество записей в базе совпадает с моделью Николая, но результат получился заметно хуже. Произношение не такое "гладкое", огрехи синтеза выделяются резче. В связи с этим есть несколько вопросов знающим людям:

1. Иногда при синтезе этим голосом в консоли сервера выводится предупреждение "Warning: signal amplitude out of range: 32957". Стоит убавить громкость исходным файлам? Или проблема решается как-то по-другому?

2. Имеет ли вообще смысл делать какую-либо предобработку исходного аудио? Выравнивание громкости, например? Есть ли какие-нибудь инструкции для подготовки аудио к тренировке?

3. Перед тренировкой я перегнал исходные файлы из 44.1 КГЦ в 16. Имеет ли смысл пробовать перетренировать на 44.1 КГц? Теоретически при перегонке из-за некратных частот могли возникнуть какие-то артефакты в исходный файлах.

4. Есть ли какие-нибудь способы проверить качество разметки (ehmm labeling)? Повысить это качество?

Новая база для синтеза речи

uk8amk — Sun, 25 Aug 2013 05:26:45 +0000

uk8amk: Спасибо.
Попробую ковырнуть исходники.

Новая база для синтеза речи

nsh — Sat, 24 Aug 2013 20:11:32 +0000

nsh:

Цитата

"125" - что это?

Второе поле - тип метки. Есть разные метки - для слов, аллофонов, слогов, интонационных событий, и так далее. В разметке на аллофоны используется 125.

Эти соглашения пошли из программы:

http://emu.sourceforge.net/

которая часто использовалась ранее для обработки речи.

Новая база для синтеза речи

uk8amk — Sat, 24 Aug 2013 13:32:12 +0000

uk8amk: Интересует формат файлов *.LAB, тех что идут вместе с базой.
Гугл толком ничего не сказал.

Допустим начало файла ru_0001.lab:
0x23 0x0A
"0.342000" - ну это ясно что позиция метки
0x20
"125" - что это?
0x20
"pay" - имя метки
0x0A

Если в Wavesurfer вручную размечаю транскрипцию и сохраняю, то сохраняет без "125".
В принципе пропарсить и так могу, но хотелось бы разобраться что да как.

Новая база для синтеза речи

uk8amk — Thu, 08 Aug 2013 08:50:35 +0000

uk8amk: Здравствуйте уважаемые гуру синтеза.

Меня недавно заинтересовали технологии синтеза речи и я решил тоже сделать синтезатор на микроконтроллере.
За основу взял фонемную базу любительской программы Голос. Там около 680 фонем различной длины(столько влезло в 2МБ флешку).
Схема уже говорит. Но к сожалению есть проблемы. Фонемы записаны с различной громкостью и как признался автор в разных условиях. Я в редакторе подправляю косяки как могу. Но не все удается исправить.

Есть ли более качественные открытые и размеченные базы небольшого размера(5-10 мегабайт)?

Новая база для синтеза речи

RaD — Wed, 10 Jul 2013 09:37:23 +0000

RaD: На x86 выгоднее пользоваться готовыми решениями. Коммерческими. Например, тот же cepstral даёт офигенное качество.

Новая база для синтеза речи

zamir — Tue, 09 Jul 2013 06:13:35 +0000

zamir: Ну дык я рассуждаю так:
если ты уже синтез к микроконтроллерам прикручиваешь, то на x86 архитектуре синтез тобой уже реализован с достаточно приемлимом качеством =)
Я не прав?

Новая база для синтеза речи

RaD — Sun, 07 Jul 2013 08:59:45 +0000

RaD: Хаха, вот и зациклились, вы на меня, я на вас :)

На самом деле МК STM32F10х освоены, сделал уже несколько девайсов разных, есть даже голосовой модуль, но пока на MP3. В планах забить в МК Flite, но пока даже примерно не знаю когда этим займусь.

Новая база для синтеза речи

zamir — Tue, 07 May 2013 11:17:09 +0000

zamir: TTS для микроконтроллёров

Думаю Руслан в этой теме сейчас лучше всего разбирается.
Мне кажется начинать надо всё равно с громоздкого festvox

Новая база для синтеза речи

ivandevel — Tue, 07 May 2013 11:07:57 +0000

ivandevel: Здравствуйте! Подскажите пожалуйста, как собрать русскую базу для синтезатора flite? Из чего ее вообще собирать? Интересует именно flite, т.к. очень компактен и работает сейчас на недорогом микроконтроллере.

Новая база для синтеза речи

zamir — Sun, 20 Jan 2013 09:02:26 +0000

zamir: И так. Нашлось время на эксперимент.
Сначала мне показалось что результат не такой уже впечатляющий, но я сравнил с http://mary.dfki.de:59125/ - разница вполне ощутимая, хоть и не идеально конечно. (мне кажется нужно некоторое сглаживание - prosody modification?)

Цитата

Однажды, в студёную зимнюю пору, Я из лесу вышел; был сильный мороз. Гляжу, поднимается медленно в гору Лошадка, везущая хворосту воз. И, шествуя важно, в спокойствии чинном, Лошадку ведёт под уздцы мужичок. В больших сапогах, в полушубке овчинном, В больших рукавицах... а сам с ноготок!

результат синтеза: http://z1.prolink.ru/sphinx/fest_demo_nekrasov.wav

Цитата

Маленький мальчик нашёл пулемёт, больше в деревне никто не живёт.

результат синтеза: http://z1.prolink.ru/sphinx/fest_demo_tinyboy.wav

ударения проставлял в ручную

Скрытый текст

М+аленький м+альчик наш+ёл пулем+ёт, б+ольше в дер+евне никт+о не жив+ёт.

Одн+ажды, в студ+ёную з+имнюю п+ору, +Я +иЗ лесу в+ышел; б+ыл с+ильный мор+оз. Гляж+у, подним+ается м+едленно в г+ору Лош+адка, вез+ущая хв+оросту в+оз. +И, ш+ествуя в+ажно, в спок+ойствии ч+инном, Лош+адку вед+ёт под уздц+ы мужич+ок. В больш+их сапог+ах, в полуш+убке овч+инном, В больш+их рукав+ицах... а с+ам с ногот+ок!

как проставить ударение в http://mary.dfki.de:59125/ - не разобрался. Николай, подскажите?

Николай, поможете реализовать автопростановку ударения в festival ?

Новая база для синтеза речи

zamir — Wed, 26 Dec 2012 05:46:42 +0000

zamir: Если будет время соберу с текущим голосом более качественный синтез для festival
Только я вот точно не разберусь как этом языке (LISP?) сделать автоударение, поэтому ударение придётся вручную проставлять для синтеза (что многим не понравится)
Кто-нубудь сможет автоударение прикрутить?
festval может вызывать внешнюю програму для простановки ударения?

Новая база для синтеза речи

nsh — Tue, 25 Dec 2012 22:05:36 +0000

nsh:

Цитата

Каким образом достигается лучший результат?

Собирается более полная база, реализуются более точные алгоритмы. В этом примере, кстати, openmary неправильно ударения ставит. С правильными ударениями результат будет гораздо лучше.

Цитата

Новый голос для openmary решит задачу?

Конечно

Новая база для синтеза речи

Dmitry Volen — Tue, 25 Dec 2012 12:51:59 +0000

Dmitry Volen:

Цитата nsh @ 13.12.12, 18:00

Какая проблема? Опишите проблему подробнее, опишите свои действия, что Вас беспокоит? Какой текст Вы пытаетесь синтезировать, что получается, что ожидается, что не нравится в результате.

Синтезирую тестовую фразу "Добро пожаловать в мир синтеза речи!". Проверяю для openmary http://mary.dfki.de:59125/, проверяю для nuance http://www.nuance.com/vocalizer5/flash/index.html . Во втором случае качество речи ощутимо лучше, более плавное и натуральное. Каким образом достигается лучший результат? Новый голос для openmary решит задачу?

Новая база для синтеза речи

nsh — Thu, 13 Dec 2012 18:00:11 +0000

nsh:

Цитата

Проблема в голосе?

Новая база для синтеза речи

Dmitry Volen — Thu, 13 Dec 2012 13:45:37 +0000

Dmitry Volen:

Цитата nsh @ 13.12.12, 11:22

Известно, сделать голос для openmary из тех же данных:
https://github.com/marytts/marytts/wiki/New-Language-Support

На странице http://mary.dfki.de:59125/ есть демо и для русского языка, но там звучание не отличается от festival. Проблема в голосе?

Новая база для синтеза речи

nsh — Thu, 13 Dec 2012 11:22:39 +0000

nsh:

Цитата

А известно, что нужно сделать, чтобы избавиться от "металлического" звука при синтезе?

Известно, сделать голос для openmary из тех же данных:

https://github.com/marytts/marytts/wiki/New-Language-Support

Цитата

Я бы мог заняться если наведете на задачи

Займитесь

Новая база для синтеза речи

Dmitry Volen — Thu, 13 Dec 2012 10:09:27 +0000

Dmitry Volen:

Цитата nsh @ 11.12.12, 08:40

Проект развивается семимильными шагами.

А известно, что нужно сделать, чтобы избавиться от "металлического" звука при синтезе? Я бы мог заняться если наведете на задачи

Новая база для синтеза речи

nsh — Tue, 11 Dec 2012 08:40:31 +0000

nsh: Проект развивается семимильными шагами. Продолжение можно скачать тут:

https://github.com/Olga-Yakovleva/RHVoice

Есть HTS голоса, драйвер для SAPI для Windows, улучшения ударений и много чего хорошего.

Есть женский голос, исходную базу для него можно скачать тут:

http://tiflo.info/rhvoice/

Новая база для синтеза речи

Dmitry Volen — Mon, 19 Nov 2012 14:11:24 +0000

Dmitry Volen: Подскажите, а для flite существуют русские голоса? Проект вообще еще развивается?

Новая база для синтеза речи

nsh — Sat, 01 Oct 2011 06:57:41 +0000

nsh: Пока не знаю, не думал над этим.

Новая база для синтеза речи

zamir — Sat, 01 Oct 2011 06:53:08 +0000

zamir:

Цитата

Один из старейших хостингов открытых проектов Berlios (Berlin Open Source), пользующийся популярностью среди европейского сообщества разработчиков, объявил о скором закрытии. Инфраструктура проекта перестанет работать с 1 января 2012 года.

Николай у вас там русский синтезатор лежит. Можете сообщить ссылку куда вы планируете его перезалить?

Новая база для синтеза речи

zamir — Fri, 19 Aug 2011 03:01:40 +0000

zamir: dict2transcript.pl не совсем то
я похоже не залил эти скрипты
сейчас залью

Добавлено 19.08.11, 03:08
залил

accent_train.pl - обучение
accent_test.pl - тестирование правильности расстановки ударения

Новая база для синтеза речи

GrandPeter — Thu, 18 Aug 2011 18:50:00 +0000

GrandPeter: zamir:
здесь есть словарь из полутора миллиона слов с ударением
есть скрипт который с вероятностью 90% правильно высталяет ударение

скрипт с ударением это dict2transcript.pl в разделе "Автоударение"?

Да я так понимаю кто желает доработать голос в festival сталкиваются с тем, что там используется lisp и отсутствует русскоязычная литература(

Попробую переварить этот скрипт, если пойму вставлю в свою программку, если не возражаете.

Новая база для синтеза речи

zamir — Thu, 18 Aug 2011 06:44:51 +0000

zamir:

Цитата

если эти словари, о которых идет речь, конвертировать в словарь фестиваля, это не нарушит ни чьих авторских прав?

то что выложено по ссылке в git не нарушает ничьи права
если вы пропарсите то что выложил yandex на предмет ударения и никому об этом скажите это тоже не нарушит не чьи права
мне кажется нет смысла заморачиваться с правами если есть желание что-то сделать и отдать безвозмездно
как я уже писал пересинтезированный голос алёны для festival можно распространять через торренты и никто от этого не пострадает

Цитата

zamir Вы пробовали скрипт, который выставляет ударение в русском голосе для Festival?

мой скрипт написан на perl. движёк фестиваля на lisp. я не знаю языка lisp.
Всё что я смог сделать на этом языке выложено в этой теме чуть выше.
посути это переработанный движёк nsh, в нём иная фонетическая база.
поправьте если я ошибаюсь но Николай не выкладывал синтезатор который не использует wav файлы (живой голос) для синтеза, соответсенно я выложил имеено движёк который делает "синтетический" (другого слова не подобрал) синтез.
Что называется преимущества в весе базы, недостатки слышны невооружённым ухом :)

Новая база для синтеза речи

GrandPeter — Wed, 17 Aug 2011 19:21:30 +0000

GrandPeter: Если делать словарь, или программу, то такую чтобы потом никто не вязался по поводу авторского права. Поэтому я не рвусь конвертировать словари от лингво и т.п.

zamir и nsh: если эти словари, о которых идет речь, конвертировать в словарь фестиваля, это не нарушит ни чьих авторских прав?

zamir Вы пробовали скрипт, который выставляет ударение в русском голосе для Festival?

для nsh:
"Я только не совсем понял, что мешает уважаемому GrandPeter этим заняться, нужно просто взять и сделать."

Я хочу сделать программу, которая позволит пользователю дополнять существующий словарь нужными им "записями" и делиться наработками с обществом. Создать словарь и пользоваться им одному в свое удовольствие мне не интересно. Возможно, когда удасться сделать часть задуманного и расписанного чуть выше, мне удасться дополнить словарь, и автоматом пользователи моего и совместимого с ним проекта получат эти наработки.

я несколько лет слежу за эволюцией msu_ru_nsh_clunits но отмечаю с сожалением, что она идет медленно, а то и вовсе в последний год остановилась. надеюсь я ошибаюсь.

Новая база для синтеза речи

nsh — Wed, 17 Aug 2011 13:42:18 +0000

nsh: Словарь нужно составлять, более того, словари уже есть хорошие, к той же Говорилке, можно их взять за основу.

http://1956.ru/speech2/index.html

да и к голосам под Windows словари тоже есть.

Я только не совсем понял, что мешает уважаемому GrandPeter этим заняться, нужно просто взять и сделать.

Новая база для синтеза речи

zamir — Wed, 17 Aug 2011 13:31:18 +0000

zamir: звучание слова почти полностью зависит от ударного гласного
https://github.com/zamiron/ru4sphinx/tree/master/text2dict
здесь есть словарь из полутора миллиона слов с ударением
там же есть скрипт который с вероятностью 90% правильно высталяет ударение - вероятность можно увеличить, но я пока смысла в этом не вижу
если запарсить три миллиона слов в festival будет не очень весело
поэтому надо выделить оптимальные маски и проставлять ударение автоматически
в идеале можно научиться делать морфологический разбор слов, при таком разборе проще автоматически проставлять ударение
для этого что бы это сделать в festival надо уметь програмить на lisp (вроде этот язык там используется)
Есть некоторое колличество слов в которых ударение плавающее:
- возле окна'
- о'кна выходят во двор
поэтому некоторые ударения надо выставлять исходя из контекста предложения

Новая база для синтеза речи

GrandPeter — Wed, 17 Aug 2011 09:12:36 +0000

GrandPeter:

Цитата nsh @ 17.08.11, 08:31

Цитата

или каким-то образом можно указать фонетику:

На данный момент нельзя, в списке задач такая задача есть:

http://festlang.berlios.de/docu/doku.php?id=rustasks

прочел список задач, есть пункт

Цитата

Дополнить словарь (уровень - простой)

Необходимо переконвертировать парадигму Зализняка в словарь в формате dic/msu_ru_nsh.dict. А именно, для каждого слова получить часть речи и номер ударного слога. В конце организовать слова в нужный формат:

(”слово” n 1)

что значит, что “слово” это существительное и ударение падает на первый слог

Я сделал программку которая на основе фестивал синтезирует из текста речь.
http://sourceforge.net/projects/golos/
есть еще один проект, уже более приспособлен к озвучке текстов
http://sourceforge.net/projects/menestrel/

На основе первой, можно организовать редактирования словаря.
Раз в данный момент нет возможности записывать полную транскрипцию слова, то можно организовать добавление записи "слово,часть речи и номер ударного слога".
По большому счету, такая функция будет не особенно полезна, если не будет простой возможности делиться новыми "записями" словаря.
Значит, надо организовать обмен такими записями, и их модерирование или добавление в словарь по рейтингу - т.е.
например несколько человек прослушали звучание (учесть минимальное количество человек) согласно новой "записи" и оценили,
например, по пятибальной шкале. Если какая - то запись удостаивается рейтинга в 5 звезд, она автоматически добавляется в словарь.

Серверную часть с рейтингом в одиночку пожалуй я не осилю. Однако можно попробовать воспользоваться svn-хранилищем (например на базе sourceforge.net). На базе svn будет удобно организовать синхронизацию основного словаря со словарями пользователей и таким образом его расширять.

Новая база для синтеза речи

nsh — Wed, 17 Aug 2011 08:31:10 +0000

nsh:

Цитата

или каким-то образом можно указать фонетику:

На данный момент нельзя, в списке задач такая задача есть:

http://festlang.berlios.de/docu/doku.php?id=rustasks

Новая база для синтеза речи

GrandPeter — Wed, 17 Aug 2011 06:21:16 +0000

GrandPeter: Здравствуйте nsh!
Скажите пожалуйста, в файле
msu_ru_nsh_dict.scm
можно только указать ударение и часть речи:
("докладах" n (2))
или каким-то образом можно указать фонетику:
умножить v ( ((u) 0) ((m n o) 1) ((zh i tt) 0) )?

Новая база для синтеза речи

zamir — Wed, 13 Apr 2011 13:11:33 +0000

zamir: прикладываю результат своих трудов:
http://z1.prolink.ru/sphinx/msu_ru_nsh_cg.tar.gz

метки:
http://z1.prolink.ru/sphinx/labs.tar.gz

clunits у меня звучит не намного лучше чем у вас, поэтому не прикладываю (при желании модель быстро собирается с использованием меток)

Новая база для синтеза речи

nsh — Thu, 24 Mar 2011 13:29:41 +0000

nsh:

Цитата

вопряки указаниям я добавил в train модель фразы из тестового словаря

Это не очень хорошо. Возможно, стоит взять тестовое множество поменьше, но отделить его от тренировочного. Например, начать с двух речевых отрезков.

Цитата

Думаю нет смысла пытаться улучшить модель если в английских диалектах MCD и того выше?

Важно не абсолютное значение, а относительное. Улучшать дальше не стоит, разве что тестовое множество поменять на другое.

Новая база для синтеза речи

zamir — Thu, 24 Mar 2011 07:16:17 +0000

zamir: вот тут MCD на английских диалектах около 5
http://www.cs.cmu.edu/~awb/papers/icassp2009/0003785.pdf
у меня около 4-х с половиной
вопряки указаниям я добавил в train модель фразы из тестового словаря

Pass # #moves +ve -ve MCD std F0 std

pass 0 0 0 0 4.382 1.569 14.312 14.893

pass 1 48860 24377 24483 4.416 1.607 14.088 13.486

pass 2 28410 14498 13912 4.426 1.618 14.114 13.516

pass 3 22343 11442 10901 4.443 1.643 14.154 13.554

pass 4 19881 10173 9708 4.444 1.639 14.158 13.559

pass 5 18485 9561 8924 4.457 1.667 14.199 13.601

pass 6 17704 9061 8643 4.455 1.665 14.194 13.592

pass 7 17178 8850 8328 4.464 1.680 14.222 13.611

pass 8 16701 8568 8133 4.459 1.677 14.210 13.601

pass 9 16385 8434 7951 4.468 1.696 14.232 13.617

MCD только ростёт...
Думаю нет смысла пытаться улучшить модель если в английских диалектах MCD и того выше?

p.s. Если кто-то общается с разработчиками festvox скажите им что

do_move_label select

работает не корректно из за того что sort не умеет работать с плавающей запятой

bestpass=`sort --key=6 -n ml/summary | awk '{if (NR==1) print }'`

и сортировки по 6-му полю не будет

Новая база для синтеза речи

zamir — Thu, 17 Mar 2011 13:32:35 +0000

zamir: на сколько корректным будет работа move_label если я закоментирую выполнение ./bin/do_clustergen build_utts ${PROMPTFILE} ?

Новая база для синтеза речи

zamir — Thu, 17 Mar 2011 12:10:02 +0000

zamir: возвращаю оригинальные метки
запускаю

Цитата

./bin/do_clustergen build_utts ${PROMPTFILE}
./bin/do_clustergen f0 ${PROMPTFILE}
./bin/do_clustergen combine_coeffs_v ${PROMPTFILE}
./bin/do_clustergen cluster ${PROMPTFILE}.train

синтрезатор собрался
запускаю

Цитата

/daemon/festival/speech_tools/../festival/bin/festival --heap 20000000 -b festvox/msu_ru_nsh_cg.scm /daemon/festival/festvox/src/clustergen/clustergen_build.scm '(begin (voice_msu_ru_nsh_cg) (setq cg::generate_resynth_waves nil) (ClusterGen_test_resynth "etc/txt.done.data.test" "test/cgp0"))'

всё отработало корректно

беру модель из папки ml/model1/* копирую в папку festival/trees/*
запускаю

Цитата

всё отработало корректно
это подтвеждает что модели собираются рабочими
после выполнения этой команды в папке test/cgp1 наконец-то появились mcep файлы
запускаю $FESTVOXDIR/src/clustergen/cg_test mcdf0 cgp1 ${PROMPTFILE}.test >ml/mcd.1 что бы проверить на верника
ошибок нет

Добавлено 17.03.11, 12:37
беру метки lab1
выполняю

Цитата

./bin/do_clustergen build_utts ${PROMPTFILE}

после этого модель не работает

Цитата

$FESTVOXDIR/src/clustergen/cg_test mcdf0 cgp1 ${PROMPTFILE}.test
CG test_resynth ru_0010
-=-=-=-=-=- EST Error -=-=-=-=-=-
error:(class 1929) determinant <= 0, det = 0.000000

-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-

файлы модели

Цитата

msu_ru_nsh_f0.tree
msu_ru_nsh_mcep.params
msu_ru_nsh_mcep.rawparams
msu_ru_nsh_mcep.tree

не изменились по дате
изменились только файлы в папке festival/utts

Добавлено 17.03.11, 12:42
если убрать папку utts вознимат ошибка:

Цитата

CG test_resynth ru_0010
Cannot open file festival/utts/ru_0010.utt as tokenstream
load_utt: can't open utterance input file festival/utts/ru_0010.utt
utt.load: loading from "festival/utts/ru_0010.utt" failed

Добавлено 17.03.11, 12:45
возращаю метки lab0
выполняю

Цитата

./bin/do_clustergen build_utts ${PROMPTFILE}

после этого $FESTVOXDIR/src/clustergen/cg_test mcdf0 cgp1 ${PROMPTFILE}.test ошибок не выдаёт

Новая база для синтеза речи

zamir — Thu, 17 Mar 2011 04:38:48 +0000

zamir: синтезатор работает даже после pass1
в cg_resynth выставлен set -x
и из логов видно что этот скрипт никогда не запускался

как бычно pass0 прошёл

Цитата

60 unittypes as 15338 subunittypes dumped
Tree models and vector params dumped
Pass 0 find MCDs
Pass # #moves +ve -ve MCD std F0 std
pass 0 0 0 0 4.994 2.148 15.725 15.179
Starting Pass 1
Pass 1 moving labels

начиная с pass1 ошибки

Цитата

160 unittypes as 15071 subunittypes dumped
Tree models and vector params dumped
Pass 1 find MCDs
-=-=-=-=-=- EST Error -=-=-=-=-=-
error:(class 1929) determinant <= 0, det = 0.000000

-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
Error reading ESPS file test/cgp1/ru_0010.mcep

Новая база для синтеза речи

zamir — Wed, 16 Mar 2011 17:55:56 +0000

zamir: собралась модель
прикладываю пример синтеза фразы из словаря
тоесть после сборки модели - синтерзатор работает

теперь запускаю move_label...

cg_ru_0037_2.wav.zip (, : 465)

Новая база для синтеза речи

zamir — Wed, 16 Mar 2011 13:30:12 +0000

zamir: если перед pau в postlex удалить фонему, то получится последовательность "0 pau" которая приводит к ошибке Int Target General: targets out of order

после исправления этой ошибки (путём замены фонемы на pau вместо её удаления :( ), запуск:
$FESTVOXDIR/src/clustergen/cg_test mcdf0 cgp0 ${PROMPTFILE}.test >ml/mcd.0
всё равно заканчивается тойже ошибкой что и раньше, так что не в этом наверное проблема
пересобираю всё поновой...
но так как и с таким косячком pass0 проходил нормально, думаю проблема не в этом...

Новая база для синтеза речи

zamir — Wed, 16 Mar 2011 11:32:21 +0000

zamir: сам по себе голос после первоначальной сборки работает
после двиганья меток - не работает
я пробовал убрать строку "(setq cg::generate_resynth_waves nil)" - ошибка таже самая
я прервал передвижение меток и запустил:

Цитата

$FESTVOXDIR/src/clustergen/cg_test mcdf0 cgp0 ${PROMPTFILE}.test >ml/mcd.0

ошибка также самая, несмотря на то, что ранее (сразу после сборки модели) этот шаг отрабатывал коректно:

Цитата

160 unittypes as 15338 subunittypes dumped
Tree models and vector params dumped
Pass 0 find MCDs
Pass # #moves +ve -ve MCD std F0 std
pass 0 0 0 0 4.631 1.914 13.984 13.619
Starting Pass 1
Pass 1 moving labels

после этого я перезапустил ./bin/do_clustergen move_label
и заметил что теперь ошибка вылезат на нулевом этапе

Цитата

160 unittypes as 15132 subunittypes dumped
Tree models and vector params dumped
Pass 0 find MCDs
+ /daemon/festival/speech_tools/../festival/bin/festival --heap 20000000 -b festvox/msu_ru_nsh_cg.scm /daemon/festival/festvox/src/clustergen/clustergen_build.scm '(begin (voice_msu_ru_nsh_cg) (setq cg::generate_resynth_waves nil) (ClusterGen_test_resynth "etc/txt.done.data.test" "test/cgp0"))'
-=-=-=-=-=- EST Error -=-=-=-=-=-
error:(class 1929) determinant <= 0, det = 0.000000

-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
+ exit 0

Добавлено 16.03.11, 12:04
извиняюсь
это какой-то мой косяк

Цитата

# echo "В рук+е +он держ+ал кон+ец" | text2wave -eval '(voice_msu_ru_nsh_cg)' > cg_test1.wav

Цитата

# echo "В рук+е +он держ+ал -- кон+ец" | text2wave -eval '(voice_msu_ru_nsh_cg)' > cg_test1.wav
Int Target General: targets out of order

пытаюсь разобраться

Новая база для синтеза речи

nsh — Wed, 16 Mar 2011 11:07:31 +0000

nsh: cg::generate_resynth_waves в свою очередь вызывает команду cg_resynth, нужно посмотреть, что на входе этой команды, что на выходе:

(define (cg_wave_synth_external utt)

;; before we had it built-in to Festival

(let ((trackname (make_tmp_filename))

(wavename (make_tmp_filename))

)

(track.save (utt.feat utt "param_track") trackname "est")

(system

(format nil "$FESTVOXDIR/src/clustergen/cg_resynth %s %s"

Добавлено 16.03.11, 11:10
Сам по себе голос-то работает? Если он тестовые записи синтезировать не может, может там что-то не так?

Новая база для синтеза речи

zamir — Wed, 16 Mar 2011 04:32:27 +0000

zamir:

Цитата nsh @ 12.03.11, 10:44

Дальше надо в cg_test добавить "set -x" чтобы видеть вызываемые команды. Найти команду, которая завершается неудачей.

Цитата

+ /daemon/festival/speech_tools/../festival/bin/festival --heap 20000000 -b festvox/msu_ru_nsh_cg.scm /daemon/festival/festvox/src/clustergen/clustergen_build.scm '(begin (voice_msu_ru_nsh_cg) (setq cg::generate_resynth_waves nil) (ClusterGen_test_resynth "etc/txt.done.data.test" "test/cgp1"))'
-=-=-=-=-=- EST Error -=-=-=-=-=-
error:(class 1929) determinant <= 0, det = 0.000000

-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-

Новая база для синтеза речи

zamir — Mon, 14 Mar 2011 07:31:06 +0000

zamir: Вроде разобрался немного...

Новая база для синтеза речи

nsh — Sun, 13 Mar 2011 18:59:05 +0000

nsh:

Цитата

в postlex я ничего понять не могу

Если что-то непонятно, всегда можно спросить. На стадии postlex описываются преобразования последовательностей звуков после соединения слов в предложения. На стадии lts - звуки внутри слова.
По Scheme можно найти какое-нибудь простое введение, это не сложнее, чем perl.

Новая база для синтеза речи

zamir — Sun, 13 Mar 2011 17:48:26 +0000

zamir:

Цитата

на стадии postlex надо двойную k просто убирать

в postlex я ничего понять не могу
а в LTS оказывается мои правила не работают...

( # [ к ] # * к = )

и остальные тоже значит...

;; SURD также включает конец слова - #
( [ б ] # * SURD = p )
( [ в ] # * SURD = f )
( [ г ] # * SURD = k )
( [ д ] # * SURD = t )
( [ з ] # * SURD = s )
( [ ж ] # * SURD = sh )
( [ б ] ь SURD = pp )
( [ в ] ь SURD = ff )
( [ г ] ь SURD = kk )
( [ д ] ь SURD = tt )
( [ з ] ь SURD = ss )
( [ п ] # * RINGING = b )
( [ ф ] # * RINGING = v )
( [ к ] # * RINGING = g )
( [ т ] # * RINGING = d )
( [ ш ] # * RINGING = zh )
( [ с ] # * RINGING = z )

жаль..

Новая база для синтеза речи

nsh — Sat, 12 Mar 2011 10:44:22 +0000

nsh: Ну do_move_label вызывает cg_test. Дальше надо в cg_test добавить "set -x" чтобы видеть вызываемые команды.
Найти команду, которая завершается неудачей.

Видимо, festival не может синтезировать какое-то предложение из тестовых. Что-то в голосе было накручено.
Возможно, можно будет убрать одно из тестовых предложений.

Новая база для синтеза речи

zamir — Sat, 12 Mar 2011 05:36:34 +0000

zamir: Ситуация немного улучшилась, но ошибки прослеживаются (начиная с pass 1), но куда капать теперь у меня даже предположений нет

Цитата

stival/disttabs/pau_2.mcep' -stop 50 -output 'festival/trees/pau_2_mcep.tree'
Clustergen mcep tree build on: pau_3
$ESTDIR/bin/wagon -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/pau_3.feats' -test 'festival/feats/pau_3.feats' -balance 0 -track 'fe
stival/disttabs/pau_3.mcep' -stop 50 -output 'festival/trees/pau_3_mcep.tree'
160 unittypes as 14968 subunittypes dumped
Tree models and vector params dumped
Pass 5 find MCDs
-=-=-=-=-=- EST Error -=-=-=-=-=-
error:(class 1929) determinant <= 0, det = 0.000000

-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
Error reading ESPS file test/cgp5/ru_0010.mcep
Error reading ESPS file test/cgp5/ru_0010.mcep
/daemon/festival/festvox/src/clustergen/track_diff_f0: line 89: [: 26: unary operator expected
/daemon/festival/festvox/src/clustergen/track_diff_f0: line 95: [: 1958: unary operator expected

Новая база для синтеза речи

nsh — Fri, 11 Mar 2011 09:25:46 +0000

nsh: Так дам действительно должна быть только одна k.

Видимо, надо на стадии postlex надо двойную k просто убирать и пересобрать всё.

Новая база для синтеза речи

zamir — Fri, 11 Mar 2011 08:54:29 +0000

zamir: я думал...
появляется только в фонеме k
в mcep файлах nan не обнаружен
выше я написал что есть последовательности "к кот+орой", "к к+уполу" в которых "к к" может являться одной фонемой, хотя транскриптор выводит две фонемы, но прикол в том что ни одно из этих предложений не явилось причиной почему я не мог создать кластер синтез
что бы думать глубже или правильнее у меня не хватает знаний и опыта.
а сбор этого добра занимает много времени... у меня уже один диск вышел из строя (хорошо ещё что softraid настроен) пока я этими многочисленными сборками занимаюсь...

Новая база для синтеза речи

nsh — Fri, 11 Mar 2011 08:38:18 +0000

nsh: Видимо настало время подумать, почему появляется nan.

Новая база для синтеза речи

zamir — Fri, 11 Mar 2011 04:28:18 +0000

zamir: это трындец...
нашёл файл из-за которого вылезал nan методом перебора - удалил его
разбивил файлы при помощи traintest
при запуске move_label модель не собирается
переразбил - первая модель собралась, но при перемещении меток снова возникает nan и модель не собирается...

Новая база для синтеза речи

nsh — Sat, 05 Mar 2011 18:38:34 +0000

nsh: С помощью скрипта traintest нужно разбить файл базы etc/txt.done.data на две части - etc/txt.done.data.train и etc/txt.done.data.test. На первой части голос будет тренироваться, на второй тестироваться.

Новая база для синтеза речи

zamir — Sat, 05 Mar 2011 18:09:01 +0000

zamir: move_label пыхтит, вроде даже что-то понемногу двигается, но на каждом этапе в логах появляются ошибки

Цитата

IOD ERROR: could not open file etc/txt.done.data.train
Pass 10 find MCDs
SIOD ERROR: could not open file etc/txt.done.data.test
cat: etc/txt.done.data.test: Нет такого файла или каталога
awk: cmd. line:1: fatal: division by zero attempted
cat: etc/txt.done.data.test: Нет такого файла или каталога
awk: cmd. line:1: fatal: division by zero attempted

из которых можно предположить что для работы этого алгоритма надо что-то ещё...
не просветите по этому вопросу?

Новая база для синтеза речи

zamir — Sat, 05 Mar 2011 06:55:04 +0000

zamir: удалил ./mcep/*.mcep начиная с 500
собралось
голос через чур дрожащим получился
ещё пока разирался нашёл вот такие проблемные места у себя из-за выравнивания материала при помощи sphinx
# cat ./txt.done.data.save |grep ' к -- '
( ru_0455 "-- з+а воскр+есной -- литург+ией -- он+а подним+ала глаз+а ат мол+итвенника -- +и м+еж с+изых клуб+ов л+адана -- вознос+ившихся к -- к+уполу -- в+идела кр+откий л+ик -- д+евы мар+ии" )
( ru_0684 "к+ак пробуд+ились вн+овь люб+овь -- над+ежды -- +и мол+итва В груд+и -- к -- кот+орой приж+ался мал+ютка" )

это могло повлиять?
без файла ru_0684 я пересобирать пробовал - результат тот же
с файлом ru_0455 оно сейчас собралось

cg_test.rar (, : 436)

Новая база для синтеза речи

zamir — Thu, 03 Mar 2011 19:50:01 +0000

zamir: регулярными выражениями проверил что везде только цифры, каких либо левых символов нет

Новая база для синтеза речи

zamir — Thu, 03 Mar 2011 13:36:35 +0000

zamir: Нигде nan не обнаружил

# ch_track ./mcep/*.mcep |grep -i na
# ch_track ./mcep_deltas/*.mcep |grep -i na
# ch_track ./ccoefs/*.mcep |grep -i na
# ch_track ./festival/disttabs/*.mcep |grep -i na

:wall:

значений -0.00000 и 0.00000 в файлах полно

((((111.878 -nan) (0.984285 0.426654) (1.32527 0.18907) (-0.289974 0.173128)

пробовал искать в ./mcep/*.mcep значения 111.878 0.984285 - не нашёл

запускаю

./bin/do_clustergen cluster 1>./10_cluster.log 2>&1

полный лог

http://z1.prolink.ru/sphinx/10_cluster.log

у вас есть ещё идеи? :)

Новая база для синтеза речи

nsh — Thu, 03 Mar 2011 07:33:05 +0000

nsh: Для clustergen нужна разметка уровня состояний HMM, а не уровня аллофонов. Разметка от sphinx3 не подойдёт, только ehmm.

Новая база для синтеза речи

zamir — Thu, 03 Mar 2011 04:23:38 +0000

zamir: [mcep]# ch_track *.mcep |grep -i nan
[mcep_deltas]# ch_track *.mcep |grep -i nan
после сборки с метками sphinx таких файлов нет
но требуются файлы lab/ru_0006.sl которые sphinx не создаёт

Цитата

ru_0001 Processing
Cannot open file lab/ru_0001.sl as tokenstream
load_relation: can't open relation input file lab/ru_0001.sl
utt.load.relation: loading from "lab/ru_0001.sl" failed

пробую дальше...

Новая база для синтеза речи

nsh — Wed, 02 Mar 2011 19:24:35 +0000

nsh:

Цитата

я понимаю, но все остальные mcep файлы бинарные...

В файлах mcep лежат числа. Перевести их в текстовую форму можно с помощью ch_track из speech_tools.

Новая база для синтеза речи

zamir — Wed, 02 Mar 2011 19:14:14 +0000

zamir: я понимаю, но все остальные mcep файлы бинарные...
ищу в файлах *mcep* последовательность nan

нашёл следующее:
находится последовательность в *.mcep в папках mcep_deltas и mcep
большей частью это бинарный файл

Цитата

.nan>..).p
[.e.NaN=...
.* K...NaN..
..U.NAn...
.=.l. .^Z>nAN..dw
^E.\.^T=nAn.=XY
^W8>nAN..j
...؛=nan=.^^
=..мNAn=.|<=
P..nAn??um
...NaN>ڗ.
.^G^>NAN=M.^@
...naN.,|b=
=#^.;nAN<*.@
./. ;. ֘.nan.9C..
=^U.\=naN<
D.nAn..*
.;Nan.U^
..U>Nan=t..
|.. ¶^B.nan.E
^[>nAn.
T..>NaN.

это больше похоже на случайность...
с какой последовательностью стоит удалить файл?

p.s. взял метки sphinx - пересобираю всё по новой, завтра скажу собралось или нет.

Новая база для синтеза речи

nsh — Wed, 02 Mar 2011 18:56:02 +0000

nsh:

Цитата

нашёл nan в festival/trees/k_1_mcep.tree (встречается в одном файле один раз)

Nan нужно искать внутри mcep файлов, а не в деревьях. В деревьях они как следствие. После того, как nan найден проще всего проблемный файл из базы выкинуть, удалив из etc/txt.done.data

Новая база для синтеза речи

zamir — Wed, 02 Mar 2011 17:33:38 +0000

zamir: не выходит... :(

Dataset of 8292 vectors of 62 parameters from: festival/feats/pau_2.feats

RMSE 0.1207 Correlation is 0.9661 Mean (abs) Error 0.0769 (0.0930)

Dataset of 17248 vectors of 62 parameters from: festival/feats/pau_3.feats

RMSE 0.2080 Correlation is 0.8451 Mean (abs) Error 0.0862 (0.1893)

SIOD ERROR: not a number : -nan

R/bin/wagon -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/aa_1.feats' -test 'festival/feats/aa_1.feats' -balance 0 -track 'festival/disttabs/aa_1.mcep' -stop 50 -output 'festiva

l/trees/aa_1_mcep.tree'

Clustergen mcep tree build on: aa_2

$ESTDIR/bin/wagon -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/aa_2.feats' -test 'festival/feats/aa_2.feats' -balance 0 -track 'festival/disttabs/aa_2.mcep' -stop 50 -output 'f

estival/trees/aa_2_mcep.tree'

Clustergen mcep tree build on: aa_3

$ESTDIR/bin/wagon -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/aa_3.feats' -test 'festival/feats/aa_3.feats' -balance 0 -track 'festival/disttabs/aa_3.mcep' -stop 50 -output 'f

estival/trees/aa_3_mcep.tree'

Clustergen mcep tree build on: mm_1

$ESTDIR/bin/wagon -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/mm_1.feats' -test 'festival/feats/mm_1.feats' -balance 0 -track 'festival/disttabs/mm_1.mcep' -stop 50 -output 'f

estival/trees/mm_1_mcep.tree'

Clustergen mcep tree build on: mm_2

$ESTDIR/bin/wagon -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/mm_2.feats' -test 'festival/feats/mm_2.feats' -balance 0 -track 'festival/disttabs/mm_2.mcep' -stop 50 -output 'f

estival/trees/mm_2_mcep.tree'

Clustergen mcep tree build on: mm_3

$ESTDIR/bin/wagon -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/mm_3.feats' -test 'festival/feats/mm_3.feats' -balance 0 -track 'festival/disttabs/mm_3.mcep' -stop 50 -output 'f

estival/trees/mm_3_mcep.tree'

Clustergen mcep tree build on: i_1

$ESTDIR/bin/wagon -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/i_1.feats' -test 'festival/feats/i_1.feats' -balance 0 -track 'festival/disttabs/i_1.mcep' -stop 50 -output 'fest

ival/trees/i_1_mcep.tree'

Clustergen mcep tree build on: i_2

$ESTDIR/bin/wagon -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/i_2.feats' -test 'festival/feats/i_2.feats' -balance 0 -track 'festival/disttabs/i_2.mcep' -stop 50 -output 'fest

ival/trees/i_2_mcep.tree'

Clustergen mcep tree build on: i_3

$ESTDIR/bin/wagon -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/i_3.feats' -test 'festival/feats/i_3.feats' -balance 0 -track 'festival/disttabs/i_3.mcep' -stop 50 -output 'fest

ival/trees/i_3_mcep.tree'

Clustergen mcep tree build on: pau_1

$ESTDIR/bin/wagon -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/pau_1.feats' -test 'festival/feats/pau_1.feats' -balance 0 -track 'festival/disttabs/pau_1.mcep' -stop 50 -output

'festival/trees/pau_1_mcep.tree'

Clustergen mcep tree build on: pau_2

$ESTDIR/bin/wagon -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/pau_2.feats' -test 'festival/feats/pau_2.feats' -balance 0 -track 'festival/disttabs/pau_2.mcep' -stop 50 -output

'festival/trees/pau_2_mcep.tree'

Clustergen mcep tree build on: pau_3

$ESTDIR/bin/wagon -track_start 1 -heap 10000000 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/pau_3.feats' -test 'festival/feats/pau_3.feats' -balance 0 -track 'festival/disttabs/pau_3.mcep' -stop 50 -output

'festival/trees/pau_3_mcep.tree'

BACKTRACE:

0: (f (car l2))

1: (cons (f (car l2)) r)

2: (set! r (cons (f (car l2)) r))

3: (while l2 (set! r (cons (f (car l2)) r)) (set! l2 (cdr l2)))

4: (mapcar

(lambda

(x)

(...))

(caar tree))

5: (clustergen::dump_tree_vectors (car (cdr (cdr tree))) rawtrackfd)

6: (clustergen::dump_tree_vectors (car (cdr tree)) rawtrackfd)

7: (clustergen::dump_tree_vectors (car (cdr tree)) rawtrackfd)

8: (clustergen::dump_tree_vectors (car (cdr (cdr tree))) closing a file left open: festival/trees/msu_ru_nsh_mcep.rawparams

closing a file left open: festival/trees/msu_ru_nsh_mcep.tree

rawtrackfd)

9: (clustergen::dump_tree_vectors (car (cdr (cdr tree))) rawtrackfd)

10: (clustergen::dump_tree_vectors (car (cdr (cdr tree))) rawtrackfd)

Новая база для синтеза речи

zamir — Wed, 02 Mar 2011 09:58:31 +0000

zamir: нашёл nan в festival/trees/k_1_mcep.tree (встречается в одном файле один раз)

как исправить?

./bin/make_pm_fix pm/*.pm
а затем
./bin/do_clustergen mcep

?

Новая база для синтеза речи

nsh — Wed, 02 Mar 2011 09:34:08 +0000

nsh: Кучу надо прямо к вагону добавлять:

Цитата

$ESTDIR/bin/wagon -track_start 1 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/i_2.feats' -test 'festival/feats/i_2.feats' -balance 0 -track 'festival/disttabs/i_2.mcep' -stop 50 Dataset of 16347 vectors of 62 parameters from: festival/feats/i_2.feats

Цитата

SIOD ERROR: not a number : -nan
closing a file left open: festival/trees/msu_ru_nsh_mcep.rawparams

У вас тут ещё и nan затесался. Это значит что файлы коэффициентов были неправильно рассчитаны. Либо отметки периодов (pitchmarks) съехали, либо были в записях промежутки абсолютной тишины. Надо проверить значения коэффициентов во всех mcep файлах.

Новая база для синтеза речи

zamir — Wed, 02 Mar 2011 07:18:13 +0000

zamir: Не помогло :'(
Увеличивал значение по умолчанию в 2 и в 5 раз
Таже самая ошибка в том же самом месте

Добавлено 02.03.11, 07:40
может это сообщение возникает из-за того что в вашем файле msu_ru_nsh_phrasing.scm
указано (set_backtrace t)
?

Добавлено 02.03.11, 07:43
если не считать это ошибкой то вроеде всё собрается
но синтерзатор не работ
на вывод ошибок выводится:

Цитата

Attempt to access frame 159 of 0 frame track
Attempt to access frame 123 of 0 frame track
Attempt to access frame 123 of 0 frame track
Attempt to access frame 123 of 0 frame track
Attempt to access frame 181 of 0 frame track
Attempt to access frame 181 of 0 frame track
Attempt to access frame 181 of 0 frame track
Attempt to access frame 0 of 0 frame track
Attempt to access frame 0 of 0 frame track
Attempt to access frame 0 of 0 frame track
Attempt to access frame 0 of 0 frame track
Attempt to access frame 0 of 0 frame track

на стандартный вывод:

Цитата

ClusterGen: can't find cluster tree for pau_3
ClusterGen: can't find cluster tree for pau_3
ClusterGen: can't find cluster tree for pau_3
ClusterGen: can't find cluster tree for pau_3
ClusterGen: can't find cluster tree for pau_3
ClusterGen: can't find cluster tree for pau_3
ClusterGen: can't find cluster tree for pau_3
ClusterGen: can't find cluster tree for pau_3
ClusterGen: can't find cluster tree for pau_3
ClusterGen: can't find cluster tree for pau_3
ClusterGen: can't find cluster tree for d_1
ClusterGen: can't find cluster tree for d_1
ClusterGen: can't find cluster tree for d_1
ClusterGen: can't find cluster tree for d_1

Новая база для синтеза речи

zamir — Tue, 01 Mar 2011 21:16:28 +0000

zamir: Спасибо.
На сколько я понял

Цитата

if [ $1 = "cluster" ]
then
$ESTDIR/../festival/bin/festival --heap 10000000 -b $CLUSTERGENDIR/clustergen_build.scm festvox/build_clunits.scm festvox/${FV_VOICENAME}_cg.scm '(build_clustergen "'$PROMPTFILE'")'
exit 0
fi

меняю на

Цитата

if [ $1 = "cluster" ]
then
$ESTDIR/../festival/bin/festival --heap 20000000 -b $CLUSTERGENDIR/clustergen_build.scm festvox/build_clunits.scm festvox/${FV_VOICENAME}_cg.scm '(build_clustergen "'$PROMPTFILE'")'
exit 0
fi

сейчас попробую

Новая база для синтеза речи

nsh — Tue, 01 Mar 2011 21:11:25 +0000

nsh: Сталкивался, почему не сталкивался. Ещё памяти надо добавить в стек (--heap)

Новая база для синтеза речи

zamir — Tue, 01 Mar 2011 21:06:18 +0000

zamir: всё равно не собирается на том же этапе :(
ошибки касающиеся состояний исчезли но вылезает BACKTRACE
не сталкивались с таким?

Dataset of 16347 vectors of 62 parameters from: festival/feats/i_2.feats

RMSE 0.5147 Correlation is 0.9432 Mean (abs) Error 0.1377 (0.4959)

Dataset of 25266 vectors of 62 parameters from: festival/feats/i_3.feats

RMSE 0.5442 Correlation is 0.8805 Mean (abs) Error 0.1442 (0.5248)

Dataset of 30432 vectors of 62 parameters from: festival/feats/pau_1.feats

RMSE 0.0875 Correlation is 0.9035 Mean (abs) Error 0.0638 (0.0599)

Dataset of 8292 vectors of 62 parameters from: festival/feats/pau_2.feats

RMSE 0.1207 Correlation is 0.9661 Mean (abs) Error 0.0769 (0.0930)

Dataset of 17248 vectors of 62 parameters from: festival/feats/pau_3.feats

RMSE 0.2080 Correlation is 0.8451 Mean (abs) Error 0.0862 (0.1893)

SIOD ERROR: not a number : -nan

closing a file left open: festival/trees/msu_ru_nsh_mcep.rawparams

closing a file left open: festival/trees/msu_ru_nsh_mcep.tree

-output 'festival/trees/i_2_mcep.tree'

Clustergen mcep tree build on: i_3

$ESTDIR/bin/wagon -track_start 1 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/i_3.feats' -test 'festival/feats/i_3.feats' -balance 0 -track 'festival/disttabs/i_3.mcep' -stop 50 -output 'festival/trees/i_3_mcep.tree'

Clustergen mcep tree build on: pau_1

$ESTDIR/bin/wagon -track_start 1 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/pau_1.feats' -test 'festival/feats/pau_1.feats' -balance 0 -track 'festival/disttabs/pau_1.mcep' -stop 50 -output 'festival/trees/pau_1_mcep.tree'

Clustergen mcep tree build on: pau_2

$ESTDIR/bin/wagon -track_start 1 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/pau_2.feats' -test 'festival/feats/pau_2.feats' -balance 0 -track 'festival/disttabs/pau_2.mcep' -stop 50 -output 'festival/trees/pau_2_mcep.tree'

Clustergen mcep tree build on: pau_3

$ESTDIR/bin/wagon -track_start 1 -vertex_output mean -desc festival/clunits/mcep.desc -data 'festival/feats/pau_3.feats' -test 'festival/feats/pau_3.feats' -balance 0 -track 'festival/disttabs/pau_3.mcep' -stop 50 -output 'festival/trees/pau_3_mcep.tree'

BACKTRACE:

0: (f (car l2))

1: (cons (f (car l2)) r)

2: (set! r (cons (f (car l2)) r))

3: (while l2 (set! r (cons (f (car l2)) r)) (set! l2 (cdr l2)))

4: (mapcar

(lambda

(x)

(...))

(caar tree))

5: (clustergen::dump_tree_vectors (car (cdr (cdr tree))) rawtrackfd)

6: (clustergen::dump_tree_vectors (car (cdr tree)) rawtrackfd)

7: (clustergen::dump_tree_vectors (car (cdr tree)) rawtrackfd)

8: (clustergen::dump_tree_vectors (car (cdr (cdr tree))) rawtrackfd)

9: (clustergen::dump_tree_vectors (car (cdr (cdr tree))) rawtrackfd)

10: (clustergen::dump_tree_vectors (car (cdr (cdr tree))) rawtrackfd)

11: (clustergen::dump_tree_vectors (car (cdr tree)) rawtrackfd)

12: (clustergen::dump_tree_vectors (car (cdr tree)) rawtrackfd)

13: (clustergen::dump_tree_vectors (car (cdr (cdr tree))) rawtrackfd)

14: (clustergen::dump_tree_vectors tree rawtrackfd)

15: (set! tree (clustergen::dump_tree_vectors tree rawtrackfd))

16: (f (car l2))

17: (cons (f (car l2)) r)

18: (set! r (cons (f (car l2)) r))

19: (while l2 (set! r (cons (f (car l2)) r)) (set! l2 (cdr l2)))

20: (mapcar

(lambda

(unit)

(...)

...)

unittypes)

21: (if

cg:multimodel

(begin

(format t "Building multimodels: static

(set! cg::cluster_feats "-track_feats 1-25")

...)

22: (build_clustergen "etc/txt.done.data")

Новая база для синтеза речи

nsh — Tue, 01 Mar 2011 09:40:04 +0000

nsh:

Цитата

эта классификация так же как и в sphinx влияет только на качество разметки ehmm ?

Классы используются для выбора сегментов для синтеза и влияют на его качество.

Новая база для синтеза речи

zamir — Tue, 01 Mar 2011 09:34:07 +0000

zamir: во, теперь понятно :)
пока я разбирался переделал градацию подъёма и положение языка с 5ти значной шкалы на 3х значную
пока собирается вроде
эта классификация так же как и в sphinx влияет только на качество разметки ehmm ?