База данных для распознавания -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [3.16.137.108]

Дорогие друзья! Поздравляем вас с днём Победы!

Модераторы: RaD, nsh

Новое голосование

База данных для распознавания , и модели для sphinx3

Lebedev

Сообщ. #31 , 21.02.07, 02:02

Member

Профиль · PM

Рейтинг (т): 1

Цитата nsh @ 20.02.07, 22:24

Цитата Lebedev @ 20.02.07, 14:18

Тогда как мне понимать этот комментарий? :blink:

Ведь и в заголовке топика говорится про Sphinx.

Если Вы хотите заниматься синтезом речи, ваши база - festvox и программное обеспечение - festival. Если распознаванием, используйте sphinx и базы для него.

Будьте добры, подскажите где скачать. Или только с festvox.org?
И может ссылок несколько по этой теме интересных дадите.

Русских баз для festival нет? Если есть, то где я бы их смог взять?

Сообщение отредактировано: Lebedev - 21.02.07, 02:08

nsh	Сообщ. #32 , 21.02.07, 03:13
Moderator Профиль · PM	http://festlang.berlios.de/docu/doku.php?id=russianru

Lebedev	Сообщ. #33 , 21.02.07, 16:52
Member Профиль · PM Рейтинг (т): 1	Цитата nsh @ 21.02.07, 03:13 http://festlang.berlios.de/docu/doku.php?id=russianru Спасибо, посмотрю.

elite

Сообщ. #34 , 22.02.07, 09:28

Newbie

Профиль · PM

Рейтинг (т): нет

Предлагаю следущий подход.
В свободный доступ базу для распознавания не выкладывать.

Полная база должна меняться на "пополнение"

Предположим записано 6 дикторов. Я не могу скачать базу.
Я записываю 200 предложений с 2-мя новыми дикторами.
Выкладываю где-нибудь.
Высылаю ссылку.
Координатор скачивает мои примеры, проверяет что не туфта.
Добавляет в базу примеров 2 дикторов.
Дает ссылку на базу с 8-ю дикторами.

Это будет стимулировать к пополнению базы со стороны всех интересующихся.

Если идея нравится, но нет координатора, то я мог бы в принципе попробовать...

kaa1

Сообщ. #35 , 22.02.07, 14:44

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Чтобы эту базу действительно захотели качать в обмен на какие-либо усилия со своей стороны, необходимо проводить ручную сегментацию фраз. А для этого нужно выработать принципы сегментации. Иначе данная база особого смысла иметь не будет. Я, например, скачал 452 фразы вот отсюда:
http://festvox.org/examples/cstr_us_ked_timit/
Уже после первого предложения я разочаровался в приведённой сегментации.
Так что, если делать базу, то выполненную по единым правилам и с качественной сегментацией.

nsh

Сообщ. #36 , 22.02.07, 14:53

Moderator

Профиль · PM

Этим займёмся потихоньку. Вернее я планирую всё-таки сдвинуться к автоматической сегментации, но с более точным алгоритмом, каким пока не ясно, но подумаем над этой проблемой.

А ked был вручную размечен вроде. Не могли бы Вы указать там на конкретные ошибки? Хотя это интонационная база, там всё может быть, лучше уж в arctic базы смотреть.

Добавлено 22.02.07, 15:26
Хм, на самом деле это именно ked размечен вручную а вот arctic автоматически. Но всё равно, если есть какие-либо ошибки в разметке, их всегда несложно поправить.

kaa1

Сообщ. #37 , 22.02.07, 17:56

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Цитата nsh @ 22.02.07, 14:53

если есть какие-либо ошибки в разметке, их всегда несложно поправить

Их поправить тяжело. Поэтому я и заговорил о едином подходе.
Итак, фраза: "She had your dark suit in greasy washwater all year".
Как я понимаю, при разметке cl обозначает паузу перед смычкой у смычных звуков. Нет разделения на подобные паузы с участием основного тона и без его участия. Конечно, можно считать, что перед звонкими смычными пауза с участием основного тона, и наоборот. Но, между n и g (in greasy) подобная пауза является невокализованной.
Далее, she had - "h" в данном случае слышится и распознаётся как вокализованный звук. Тоже самое относится к "t" в washwater.
В зависимости от цели, преследуемой исследователем, это не имеет значения, либо является источником серьёзных ошибок. А это не есть правильно.
Кстати, при обработке русского языка подобная проблема (озвончение глухих согласных диктором) практически не возникала, но всё же иногда имела место. И ещё, нет ли женского голоса (носителя языка), произносящего фразы на английском языке для полноты картины?
В заключение, чтобы не было лишних вопросов. Приведённые примеры озвончения глухих согласных, хоть и не соответствуют законам транскрибирования, но вполне возможны. В распознавателях речи они должны решаться на более высоких уровнях обработки, а не на уровне распознавания фонем.

nsh

Сообщ. #38 , 22.02.07, 18:44

Moderator

Профиль · PM

Не, ну это совсем другое, это транскрибирования проблемы, а не разметки. Под разметкой я говорил про отметки границ, а уж различение реализаций потом можно любым методом делать, каким хочется. Я бы вообще вокализованные-невокализованные не размечал, потому что вокализация отдельно предсказывается и распознаётся. И участки могут быть в одной фонеме разные. Это у нас принято плодить аллофонов кучу и потом в них разбираться.

Женский голос есть английский тот же arctic slt.

kaa1

Сообщ. #39 , 22.02.07, 19:15

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Цитата nsh @ 22.02.07, 18:44

Женский голос есть английский тот же arctic slt

Я имел в виду с ручной сегментацией.

Цитата nsh @ 22.02.07, 18:44

Я бы вообще вокализованные-невокализованные не размечал

А я именно этим и занимаюсь. И на то у меня есть веские причины, но не хотелось бы в них углубляться.
А вообще, база должна быть такой, чтобы она подходила для любого случая. Так, например, на описанных мной участках, при попытке составления параметрического описания фонемы, будут стабильно возникать ошибки.

Цитата nsh @ 22.02.07, 14:53

сдвинуться к автоматической сегментации, но с более точным алгоритмом,

Какова же точность действующего алгоритма? Оценивалась ли она? По каким критериям?
Дело не в том, что я злобно критикую созданную базу, а в том, что необходимо стремиться к идеалу.

nsh

Сообщ. #40 , 22.02.07, 19:30

Moderator

Профиль · PM

Цитата

Я имел в виду с ручной сегментацией.

нет, такого не знаю

Цитата

Какова же точность действующего алгоритма? Оценивалась ли она? По каким критериям?

Ну вот хорошие статьи:

http://www.cs.cmu.edu/~awb/papers/eurospeech2003/phoneseg.pdf (это про sphinxtrain в том числе)
http://www.cs.cmu.edu/~dhuggins/Publications/phlab.pdf - и ehmm тоже
http://www.cs.cmu.edu/~awb/papers/ICSLP2004/WeC1401o.3_p1146.pdf - ehmm

Цитата

Ну понятно. В целом, конечно, можно будет и этим направлением заняться. Хотя подходящие любому случаю вещи довольно редкое явление.

Сообщение отредактировано: nsh - 22.02.07, 19:31

kaa1	Сообщ. #41 , 22.02.07, 19:43
Full Member Профиль · PM Поощрения: 1 Dgm Рейтинг (т): 9	По поводу второй статьи точно: погрешность в 3-4 сотых секунды вполне может означать погрешность на целый звук, поэтому подобной автоматической сегментации лучше не доверять.

nsh

Сообщ. #42 , 22.02.07, 20:04

Moderator

Профиль · PM

Это да, но в первой статье есть более подробные данные с распределением ошибок ручной разметки. Ручная недалеко ушла

Мне понравилось замечание что на 100 гц 10 мс это один период, меньше точность не измеришь, так что 30 тут счёт идёт дискретный почти.

elite

Сообщ. #43 , 24.02.07, 19:45

Newbie

Профиль · PM

Рейтинг (т): нет

Цитата kaa1 @ 22.02.07, 14:44

Лично мне разметка не нужна.
Мне нужно 100-200 разных реальных голосов.
Смазливые голоса дикторов не очень подходят.

DimmK

Сообщ. #44 , 25.02.07, 14:33

Member

Профиль · PM

Рейтинг (т): 1

А если сделать wiki-сайт с базами, разметками и возможностью редактирования разметки множеством пользователей.
Заинтересованные пользователи скачивают неразмеченные файлы, размечают вручную и разметку вставляют в описание этого файла. Опытные пользователи все это дело контролируют.

kaa1

Сообщ. #45 , 25.02.07, 17:40

Full Member

Профиль · PM

Поощрения: 1 Dgm

Рейтинг (т): 9

Цитата DimmK @ 25.02.07, 14:33

А если сделать wiki-сайт с базами

А это Студенту надо предложить. Пусть не занимается несбыточными фантазиями - за полгода написать стоящую распознавалку тяжело с нуля. А подобный сайт в самый раз на диплом. Новизна прослеживается. Практическая значимость налицо, опробирование проведём, охватывает несколько научных дисциплин - базы данных, программирование и т.д. Только это стоит делать, если потом действительно кто-то будет заниматься, и если удастся найти нормальный сервер, где можно разместить.

Сообщение отредактировано: kaa1 - 25.02.07, 17:45

1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (8) 1 2 [3] 4 5 ... 7 8 все

[ Script execution time: 0,0381 ] [ 14 queries used ] [ Generated: 13.05.24, 11:49 GMT ]