Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[3.16.137.108] |
|
Страницы: (8) 1 2 [3] 4 5 ... 7 8 все ( Перейти к последнему сообщению ) |
Сообщ.
#31
,
|
|
|
Цитата nsh @ Цитата Lebedev @ Тогда как мне понимать этот комментарий? Ведь и в заголовке топика говорится про Sphinx. Если Вы хотите заниматься синтезом речи, ваши база - festvox и программное обеспечение - festival. Если распознаванием, используйте sphinx и базы для него. Будьте добры, подскажите где скачать. Или только с festvox.org? И может ссылок несколько по этой теме интересных дадите. Русских баз для festival нет? Если есть, то где я бы их смог взять? |
Сообщ.
#32
,
|
|
|
http://festlang.berlios.de/docu/doku.php?id=russianru
|
Сообщ.
#33
,
|
|
|
Цитата nsh @ http://festlang.berlios.de/docu/doku.php?id=russianru Спасибо, посмотрю. |
Сообщ.
#34
,
|
|
|
Предлагаю следущий подход.
В свободный доступ базу для распознавания не выкладывать. Полная база должна меняться на "пополнение" Предположим записано 6 дикторов. Я не могу скачать базу. Я записываю 200 предложений с 2-мя новыми дикторами. Выкладываю где-нибудь. Высылаю ссылку. Координатор скачивает мои примеры, проверяет что не туфта. Добавляет в базу примеров 2 дикторов. Дает ссылку на базу с 8-ю дикторами. Это будет стимулировать к пополнению базы со стороны всех интересующихся. Если идея нравится, но нет координатора, то я мог бы в принципе попробовать... |
Сообщ.
#35
,
|
|
|
Чтобы эту базу действительно захотели качать в обмен на какие-либо усилия со своей стороны, необходимо проводить ручную сегментацию фраз. А для этого нужно выработать принципы сегментации. Иначе данная база особого смысла иметь не будет. Я, например, скачал 452 фразы вот отсюда:
http://festvox.org/examples/cstr_us_ked_timit/ Уже после первого предложения я разочаровался в приведённой сегментации. Так что, если делать базу, то выполненную по единым правилам и с качественной сегментацией. |
Сообщ.
#36
,
|
|
|
Этим займёмся потихоньку. Вернее я планирую всё-таки сдвинуться к автоматической сегментации, но с более точным алгоритмом, каким пока не ясно, но подумаем над этой проблемой.
А ked был вручную размечен вроде. Не могли бы Вы указать там на конкретные ошибки? Хотя это интонационная база, там всё может быть, лучше уж в arctic базы смотреть. Добавлено Хм, на самом деле это именно ked размечен вручную а вот arctic автоматически. Но всё равно, если есть какие-либо ошибки в разметке, их всегда несложно поправить. |
Сообщ.
#37
,
|
|
|
Цитата nsh @ если есть какие-либо ошибки в разметке, их всегда несложно поправить Их поправить тяжело. Поэтому я и заговорил о едином подходе. Итак, фраза: "She had your dark suit in greasy washwater all year". Как я понимаю, при разметке cl обозначает паузу перед смычкой у смычных звуков. Нет разделения на подобные паузы с участием основного тона и без его участия. Конечно, можно считать, что перед звонкими смычными пауза с участием основного тона, и наоборот. Но, между n и g (in greasy) подобная пауза является невокализованной. Далее, she had - "h" в данном случае слышится и распознаётся как вокализованный звук. Тоже самое относится к "t" в washwater. В зависимости от цели, преследуемой исследователем, это не имеет значения, либо является источником серьёзных ошибок. А это не есть правильно. Кстати, при обработке русского языка подобная проблема (озвончение глухих согласных диктором) практически не возникала, но всё же иногда имела место. И ещё, нет ли женского голоса (носителя языка), произносящего фразы на английском языке для полноты картины? В заключение, чтобы не было лишних вопросов. Приведённые примеры озвончения глухих согласных, хоть и не соответствуют законам транскрибирования, но вполне возможны. В распознавателях речи они должны решаться на более высоких уровнях обработки, а не на уровне распознавания фонем. |
Сообщ.
#38
,
|
|
|
Не, ну это совсем другое, это транскрибирования проблемы, а не разметки. Под разметкой я говорил про отметки границ, а уж различение реализаций потом можно любым методом делать, каким хочется. Я бы вообще вокализованные-невокализованные не размечал, потому что вокализация отдельно предсказывается и распознаётся. И участки могут быть в одной фонеме разные. Это у нас принято плодить аллофонов кучу и потом в них разбираться.
Женский голос есть английский тот же arctic slt. |
Сообщ.
#39
,
|
|
|
Цитата nsh @ Женский голос есть английский тот же arctic slt Я имел в виду с ручной сегментацией. Цитата nsh @ Я бы вообще вокализованные-невокализованные не размечал А я именно этим и занимаюсь. И на то у меня есть веские причины, но не хотелось бы в них углубляться. А вообще, база должна быть такой, чтобы она подходила для любого случая. Так, например, на описанных мной участках, при попытке составления параметрического описания фонемы, будут стабильно возникать ошибки. Цитата nsh @ сдвинуться к автоматической сегментации, но с более точным алгоритмом, Какова же точность действующего алгоритма? Оценивалась ли она? По каким критериям? Дело не в том, что я злобно критикую созданную базу, а в том, что необходимо стремиться к идеалу. |
Сообщ.
#40
,
|
|
|
Цитата Я имел в виду с ручной сегментацией. нет, такого не знаю Цитата Какова же точность действующего алгоритма? Оценивалась ли она? По каким критериям? Ну вот хорошие статьи: http://www.cs.cmu.edu/~awb/papers/eurospeech2003/phoneseg.pdf (это про sphinxtrain в том числе) http://www.cs.cmu.edu/~dhuggins/Publications/phlab.pdf - и ehmm тоже http://www.cs.cmu.edu/~awb/papers/ICSLP2004/WeC1401o.3_p1146.pdf - ehmm Цитата А я именно этим и занимаюсь. И на то у меня есть веские причины, но не хотелось бы в них углубляться. А вообще, база должна быть такой, чтобы она подходила для любого случая. Так, например, на описанных мной участках, при попытке составления параметрического описания фонемы, будут стабильно возникать ошибки. Дело не в том, что я злобно критикую созданную базу, а в том, что необходимо стремиться к идеалу. Ну понятно. В целом, конечно, можно будет и этим направлением заняться. Хотя подходящие любому случаю вещи довольно редкое явление. |
Сообщ.
#41
,
|
|
|
По поводу второй статьи точно: погрешность в 3-4 сотых секунды вполне может означать погрешность на целый звук, поэтому подобной автоматической сегментации лучше не доверять.
|
Сообщ.
#42
,
|
|
|
Это да, но в первой статье есть более подробные данные с распределением ошибок ручной разметки. Ручная недалеко ушла
Мне понравилось замечание что на 100 гц 10 мс это один период, меньше точность не измеришь, так что 30 тут счёт идёт дискретный почти. |
Сообщ.
#43
,
|
|
|
Цитата kaa1 @ Чтобы эту базу действительно захотели качать в обмен на какие-либо усилия со своей стороны, необходимо проводить ручную сегментацию фраз. А для этого нужно выработать принципы сегментации. Иначе данная база особого смысла иметь не будет. Я, например, скачал 452 фразы вот отсюда: http://festvox.org/examples/cstr_us_ked_timit/ Уже после первого предложения я разочаровался в приведённой сегментации. Так что, если делать базу, то выполненную по единым правилам и с качественной сегментацией. Лично мне разметка не нужна. Мне нужно 100-200 разных реальных голосов. Смазливые голоса дикторов не очень подходят. |
Сообщ.
#44
,
|
|
|
А если сделать wiki-сайт с базами, разметками и возможностью редактирования разметки множеством пользователей.
Заинтересованные пользователи скачивают неразмеченные файлы, размечают вручную и разметку вставляют в описание этого файла. Опытные пользователи все это дело контролируют. |
Сообщ.
#45
,
|
|
|
Цитата DimmK @ А если сделать wiki-сайт с базами А это Студенту надо предложить. Пусть не занимается несбыточными фантазиями - за полгода написать стоящую распознавалку тяжело с нуля. А подобный сайт в самый раз на диплом. Новизна прослеживается. Практическая значимость налицо, опробирование проведём, охватывает несколько научных дисциплин - базы данных, программирование и т.д. Только это стоит делать, если потом действительно кто-то будет заниматься, и если удастся найти нормальный сервер, где можно разместить. |