Новая база для синтеза речи -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [3.134.104.173]

Модераторы: RaD, nsh

Новое голосование

Новая база для синтеза речи , и голос для festival

nsh

Сообщ. #256 , 13.12.12, 11:22

Moderator

Профиль · PM

Цитата

А известно, что нужно сделать, чтобы избавиться от "металлического" звука при синтезе?

Известно, сделать голос для openmary из тех же данных:

https://github.com/marytts/marytts/wiki/New-Language-Support

Цитата

Я бы мог заняться если наведете на задачи

Займитесь

Dmitry Volen	Сообщ. #257 , 13.12.12, 13:45
Unregistered	Цитата nsh @ 13.12.12, 11:22 Известно, сделать голос для openmary из тех же данных: https://github.com/marytts/marytts/wiki/New-Language-Support На странице http://mary.dfki.de:59125/ есть демо и для русского языка, но там звучание не отличается от festival. Проблема в голосе?

nsh

Сообщ. #258 , 13.12.12, 18:00

Moderator

Профиль · PM

Цитата

Проблема в голосе?

Какая проблема? Опишите проблему подробнее, опишите свои действия, что Вас беспокоит? Какой текст Вы пытаетесь синтезировать, что получается, что ожидается, что не нравится в результате.

Любую проблему можно решить, нужно просто предоставить полную информацию.

Dmitry Volen

Сообщ. #259 , 25.12.12, 12:51

Unregistered

Цитата nsh @ 13.12.12, 18:00

Синтезирую тестовую фразу "Добро пожаловать в мир синтеза речи!". Проверяю для openmary http://mary.dfki.de:59125/, проверяю для nuance http://www.nuance.com/vocalizer5/flash/index.html . Во втором случае качество речи ощутимо лучше, более плавное и натуральное. Каким образом достигается лучший результат? Новый голос для openmary решит задачу?

nsh

Сообщ. #260 , 25.12.12, 22:05

Moderator

Профиль · PM

Цитата

Каким образом достигается лучший результат?

Собирается более полная база, реализуются более точные алгоритмы. В этом примере, кстати, openmary неправильно ударения ставит. С правильными ударениями результат будет гораздо лучше.

Цитата

Новый голос для openmary решит задачу?

Конечно

zamir

Сообщ. #261 , 26.12.12, 05:46

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Если будет время соберу с текущим голосом более качественный синтез для festival
Только я вот точно не разберусь как этом языке (LISP?) сделать автоударение, поэтому ударение придётся вручную проставлять для синтеза (что многим не понравится)
Кто-нубудь сможет автоударение прикрутить?
festval может вызывать внешнюю програму для простановки ударения?

zamir

Сообщ. #262 , 20.01.13, 09:02

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

И так. Нашлось время на эксперимент.
Сначала мне показалось что результат не такой уже впечатляющий, но я сравнил с http://mary.dfki.de:59125/ - разница вполне ощутимая, хоть и не идеально конечно. (мне кажется нужно некоторое сглаживание - prosody modification?)

Цитата

Однажды, в студёную зимнюю пору, Я из лесу вышел; был сильный мороз. Гляжу, поднимается медленно в гору Лошадка, везущая хворосту воз. И, шествуя важно, в спокойствии чинном, Лошадку ведёт под уздцы мужичок. В больших сапогах, в полушубке овчинном, В больших рукавицах... а сам с ноготок!

результат синтеза: http://z1.prolink.ru/sphinx/fest_demo_nekrasov.wav

Цитата

Маленький мальчик нашёл пулемёт, больше в деревне никто не живёт.

результат синтеза: http://z1.prolink.ru/sphinx/fest_demo_tinyboy.wav

ударения проставлял в ручную

Скрытый текст

М+аленький м+альчик наш+ёл пулем+ёт, б+ольше в дер+евне никт+о не жив+ёт.

Одн+ажды, в студ+ёную з+имнюю п+ору, +Я +иЗ лесу в+ышел; б+ыл с+ильный мор+оз. Гляж+у, подним+ается м+едленно в г+ору Лош+адка, вез+ущая хв+оросту в+оз. +И, ш+ествуя в+ажно, в спок+ойствии ч+инном, Лош+адку вед+ёт под уздц+ы мужич+ок. В больш+их сапог+ах, в полуш+убке овч+инном, В больш+их рукав+ицах... а с+ам с ногот+ок!

как проставить ударение в http://mary.dfki.de:59125/ - не разобрался. Николай, подскажите?

Николай, поможете реализовать автопростановку ударения в festival ?

ivandevel	Сообщ. #263 , 07.05.13, 11:07
Unregistered	Здравствуйте! Подскажите пожалуйста, как собрать русскую базу для синтезатора flite? Из чего ее вообще собирать? Интересует именно flite, т.к. очень компактен и работает сейчас на недорогом микроконтроллере.

zamir	Сообщ. #264 , 07.05.13, 11:17
Full Member Профиль · PM Поощрения: 1 Dgm Рейтинг (т): 9	TTS для микроконтроллёров Думаю Руслан в этой теме сейчас лучше всего разбирается. Мне кажется начинать надо всё равно с громоздкого festvox

RaD

Сообщ. #265 , 07.07.13, 08:59

Moderator

Профиль · PM

Поощрения: 24 Dgm

Рейтинг (т): 23

Хаха, вот и зациклились, вы на меня, я на вас

На самом деле МК STM32F10х освоены, сделал уже несколько девайсов разных, есть даже голосовой модуль, но пока на MP3. В планах забить в МК Flite, но пока даже примерно не знаю когда этим займусь.

user posted image

Сообщение отредактировано: RaD - 07.07.13, 09:03

zamir	Сообщ. #266 , 09.07.13, 06:13
Full Member Профиль · PM Поощрения: 1 Dgm Рейтинг (т): 9	Ну дык я рассуждаю так: если ты уже синтез к микроконтроллерам прикручиваешь, то на x86 архитектуре синтез тобой уже реализован с достаточно приемлимом качеством =) Я не прав?

RaD	Сообщ. #267 , 10.07.13, 09:37
Moderator Профиль · PM Поощрения: 24 Dgm Рейтинг (т): 23	На x86 выгоднее пользоваться готовыми решениями. Коммерческими. Например, тот же cepstral даёт офигенное качество.

uk8amk

Сообщ. #268 , 08.08.13, 08:50

Newbie

Профиль · PM

Рейтинг (т): нет

Здравствуйте уважаемые гуру синтеза.

Меня недавно заинтересовали технологии синтеза речи и я решил тоже сделать синтезатор на микроконтроллере.
За основу взял фонемную базу любительской программы Голос. Там около 680 фонем различной длины(столько влезло в 2МБ флешку).
Схема уже говорит. Но к сожалению есть проблемы. Фонемы записаны с различной громкостью и как признался автор в разных условиях. Я в редакторе подправляю косяки как могу. Но не все удается исправить.

Есть ли более качественные открытые и размеченные базы небольшого размера(5-10 мегабайт)?

uk8amk

Сообщ. #269 , 24.08.13, 13:32

Newbie

Профиль · PM

Рейтинг (т): нет

Интересует формат файлов *.LAB, тех что идут вместе с базой.
Гугл толком ничего не сказал.

Допустим начало файла ru_0001.lab:
0x23 0x0A
"0.342000" - ну это ясно что позиция метки
0x20
"125" - что это?
0x20
"pay" - имя метки
0x0A

Если в Wavesurfer вручную размечаю транскрипцию и сохраняю, то сохраняет без "125".
В принципе пропарсить и так могу, но хотелось бы разобраться что да как.

nsh

Сообщ. #270 , 24.08.13, 20:11

Moderator

Профиль · PM

Цитата

"125" - что это?

Второе поле - тип метки. Есть разные метки - для слов, аллофонов, слогов, интонационных событий, и так далее. В разметке на аллофоны используется 125.

Эти соглашения пошли из программы:

http://emu.sourceforge.net/

которая часто использовалась ранее для обработки речи.

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (19) « Первая ... 16 17 [18] 19 все

[ Script execution time: 0,0437 ] [ 16 queries used ] [ Generated: 16.04.24, 17:04 GMT ]