Новая база для синтеза речи -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.90]

Модераторы: RaD, nsh

Новое голосование

Новая база для синтеза речи , и голос для festival

nsh	Сообщ. #31 , 07.10.07, 08:00
Moderator Профиль · PM	Ну, вобщем, да. Тренируются модели и они выдают первоначальную разметку. Не всегда оптимальную, конечно.

switch002

Сообщ. #32 , 07.10.07, 10:49

Unregistered

Доброго времени суток!
на сайте
http://download.berlios.de/festlang/
есть примеры синтеза, самый качественный -
russian_cl_urp.wav - кластерный синтез с помощью базы urp.
однако нигде не нашел, чтоб попробовать, не подскажете, где?
скачал msu_ru_nsh_clunits-0.4.tar.gz, но это совсем не то...
заранее спасибо!

nsh	Сообщ. #33 , 07.10.07, 12:18
Moderator Профиль · PM	В смысле, это оно и есть. Добавлено 07.10.07, 12:19 Неужели по голосу не слышно

switch002

Сообщ. #34 , 07.10.07, 17:12

Unregistered

поковырялся, разобрался что не так сделал...
неплохо, хотя до совершенства, конечно, далеко, часто делает ошибки в словах, причем в сложных. например такое предложение произносит с трудом:

К концу октября стада усатых китов и кашалотов начинали миграцию в экваториальную зону. Их принимали малайские и индонезийские базы, а работники Океанской охраны Курильско-Камчатско-Алеутского пояса уходили в отпуск, или занимались любительским патрулированием, или помогали океанологическим и океанографическим экспедициям.

как будто из слов буквы повыкидывал и пытается сказать...
что интересно, ошибки делает там, где, например неопытный читатель будет делать.
может будет эффективней создать БД на несколько десятков тысяч слов (например со словаря взять) с ударениями и транскрипцией и использовать его?

иногда не произносятся отдельно стоящие буквы. слово "черная" надо задавать как "чорная", иначе неправильно произносить будет...

в общем еще дорабатывать нада...
чем могу помочь?

и как обстоят дела в распознавании? можно ли научить распознавать Сфинкс три тысячи русских слов?

nsh

Сообщ. #35 , 07.10.07, 17:50

Moderator

Профиль · PM

Цитата

иногда не произносятся отдельно стоящие буквы

Это проблемы с разметкой, смотрите выше.

Цитата

слово "черная" надо задавать как "чорная", иначе неправильно произносить будет...

Модуль расстановки ё отсутствует пока.

Цитата

может будет эффективней создать БД на несколько десятков тысяч слов (например со словаря взять) с ударениями и транскрипцией и использовать его?

Вобщем-то так и сделано, сейчас используется словарь на 180000 слов. Но как бы в русском языке их немного больше

. Надо в целом прикрутить систему русской морфологии с http://aot.ru

Цитата

чем могу помочь?

Ну вроде вы и сами наметили круг задач. Хотя мне сейчас коррекция разметки актуальнее. Надо попробовать натренировать модель с HTK с начальной ручной разметкой. Может быть лучше будет гораздо. Сейчас почему-то гласные слишком короткие, а согласные слишком длинные.

Цитата

и как обстоят дела в распознавании? можно ли научить распознавать Сфинкс три тысячи русских слов?

Можно, почему нельзя. Смотрите тему База данных для распознавания, скачивайте модель с http://voxforge.org, присылайте записи голоса для базы.

Mentis

Сообщ. #36 , 11.10.07, 23:47

Newbie

Профиль · PM

Рейтинг (т): нет

С английским норм работает, а вот с русским такая проблема:

festival> (tts_file "1.txt" nil)
LTS_Ruleset russian_downcase: no rule matches:
LTS_Ruleset: # � *here* � � p r i v e t #
closing a file left open: 1.txt

Текстовый фаил в формате UTF-8.

Не подскажете в чем может быть проблема ?

Вот сам фаил 1.txt:

privet

привет

Сообщение отредактировано: Mentis - 11.10.07, 23:48

nsh	Сообщ. #37 , 12.10.07, 04:23
Moderator Профиль · PM	Точку перед privet уберите. Это что, UTF BOF? Его не нужно.

Mentis	Сообщ. #38 , 12.10.07, 06:50
Newbie Профиль · PM Рейтинг (т): нет	Никакой точки там нет. Текст в UTF-8. Может я что то недоустановил ?

nsh

Сообщ. #39 , 12.10.07, 07:47

Moderator

Профиль · PM

В UTF-8 текстах иногда встречается заголовок, называющийся BOF (Beginning of the file, код 0xFF 0xBF по-моему), некоторые редакторы делают его, а некоторые позволяют его удалять. Удалите этот заголовок, пожалуйста.

Добавлено 12.10.07, 07:58
На худой конец попробуйте распаковать файло отсюда:

http://nshmyrev.narod.ru/temp/test.zip

RaD	Сообщ. #40 , 13.10.07, 06:18
Moderator Профиль · PM Поощрения: 24 Dgm Рейтинг (т): 23	Правильнее будет указать festival'ю, что этот заголовок можно не учитывать.

Mentis	Сообщ. #41 , 13.10.07, 11:45
Newbie Профиль · PM Рейтинг (т): нет	Все спасибо =) Разобрался.

Lebedev

Сообщ. #42 , 23.10.07, 06:32

Member

Профиль · PM

Рейтинг (т): 1

Цитата nsh @ 23.09.07, 09:15

Выложил новую базу для синтеза речи. Два часа сбалансированного текста, записанного в студии диктором радио. База размечена автоматически и созданы голоса для Festival, вот образец синтеза:

http://nshmyrev.narod.ru/temp/example.wav

Скачать всё можно как обычно:

http://download.berlios.de/festlang/msu_ru_nsh_clunits-0.4.tar.gz (200 Mb)

Пока ещё в базе не до конца проверены ударения и наличие ё, немного неправильно расставлены паузы. Помогайте исправить.

А кто делал эту базу? И с помощью чего она автоматически размечалась?

Lebedev	Сообщ. #43 , 25.10.07, 04:27
Member Профиль · PM Рейтинг (т): 1	Цитата nsh @ 07.10.07, 06:44 Правила транскрипции описаны в файле festvox/msu_ru_nsh_lexicon.scm. Поясните, пожалуйста, где этот файл находится?

nsh	Сообщ. #44 , 25.10.07, 06:04
Moderator Профиль · PM	в архиве с голосом

Lebedev

Сообщ. #45 , 21.11.07, 14:39

Member

Профиль · PM

Рейтинг (т): 1

Цитата nsh @ 23.09.07, 09:15

Скажите, пожалуйста, а имеется ли список всех предложений, которые читает диктор? Или хотя бы части.
Если есть, будьте добры, выложить.

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (19) 1 2 [3] 4 5 ... 18 19 все

[ Script execution time: 0.0917 ] [ 15 queries used ] [ Generated: 27.06.26, 03:58 GMT ]