На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
Дорогие друзья! Поздравляем вас с днём Победы!
msm.ru
Модераторы: RaD, nsh
Страницы: (8) 1 2 [3] 4 5 ...  7 8 все  ( Перейти к последнему сообщению )  
> База данных для распознавания , и модели для sphinx3
    Цитата nsh @
    Цитата Lebedev @
    Тогда как мне понимать этот комментарий? :blink:
    Ведь и в заголовке топика говорится про Sphinx.

    Если Вы хотите заниматься синтезом речи, ваши база - festvox и программное обеспечение - festival. Если распознаванием, используйте sphinx и базы для него.

    Будьте добры, подскажите где скачать. Или только с festvox.org?
    И может ссылок несколько по этой теме интересных дадите.

    Русских баз для festival нет? Если есть, то где я бы их смог взять?
    Сообщение отредактировано: Lebedev -
      http://festlang.berlios.de/docu/doku.php?id=russianru
        Цитата nsh @
        http://festlang.berlios.de/docu/doku.php?id=russianru

        Спасибо, посмотрю.
          Предлагаю следущий подход.
          В свободный доступ базу для распознавания не выкладывать.

          Полная база должна меняться на "пополнение"

          Предположим записано 6 дикторов. Я не могу скачать базу.
          Я записываю 200 предложений с 2-мя новыми дикторами.
          Выкладываю где-нибудь.
          Высылаю ссылку.
          Координатор скачивает мои примеры, проверяет что не туфта.
          Добавляет в базу примеров 2 дикторов.
          Дает ссылку на базу с 8-ю дикторами.

          Это будет стимулировать к пополнению базы со стороны всех интересующихся.

          Если идея нравится, но нет координатора, то я мог бы в принципе попробовать...
            Чтобы эту базу действительно захотели качать в обмен на какие-либо усилия со своей стороны, необходимо проводить ручную сегментацию фраз. А для этого нужно выработать принципы сегментации. Иначе данная база особого смысла иметь не будет. Я, например, скачал 452 фразы вот отсюда:
            http://festvox.org/examples/cstr_us_ked_timit/
            Уже после первого предложения я разочаровался в приведённой сегментации.
            Так что, если делать базу, то выполненную по единым правилам и с качественной сегментацией.
              Этим займёмся потихоньку. Вернее я планирую всё-таки сдвинуться к автоматической сегментации, но с более точным алгоритмом, каким пока не ясно, но подумаем над этой проблемой.

              А ked был вручную размечен вроде. Не могли бы Вы указать там на конкретные ошибки? Хотя это интонационная база, там всё может быть, лучше уж в arctic базы смотреть.

              Добавлено
              Хм, на самом деле это именно ked размечен вручную а вот arctic автоматически. Но всё равно, если есть какие-либо ошибки в разметке, их всегда несложно поправить.
                Цитата nsh @
                если есть какие-либо ошибки в разметке, их всегда несложно поправить

                Их поправить тяжело. Поэтому я и заговорил о едином подходе.
                Итак, фраза: "She had your dark suit in greasy washwater all year".
                Как я понимаю, при разметке cl обозначает паузу перед смычкой у смычных звуков. Нет разделения на подобные паузы с участием основного тона и без его участия. Конечно, можно считать, что перед звонкими смычными пауза с участием основного тона, и наоборот. Но, между n и g (in greasy) подобная пауза является невокализованной.
                Далее, she had - "h" в данном случае слышится и распознаётся как вокализованный звук. Тоже самое относится к "t" в washwater.
                В зависимости от цели, преследуемой исследователем, это не имеет значения, либо является источником серьёзных ошибок. А это не есть правильно.
                Кстати, при обработке русского языка подобная проблема (озвончение глухих согласных диктором) практически не возникала, но всё же иногда имела место. И ещё, нет ли женского голоса (носителя языка), произносящего фразы на английском языке для полноты картины?
                В заключение, чтобы не было лишних вопросов. Приведённые примеры озвончения глухих согласных, хоть и не соответствуют законам транскрибирования, но вполне возможны. В распознавателях речи они должны решаться на более высоких уровнях обработки, а не на уровне распознавания фонем.
                  Не, ну это совсем другое, это транскрибирования проблемы, а не разметки. Под разметкой я говорил про отметки границ, а уж различение реализаций потом можно любым методом делать, каким хочется. Я бы вообще вокализованные-невокализованные не размечал, потому что вокализация отдельно предсказывается и распознаётся. И участки могут быть в одной фонеме разные. Это у нас принято плодить аллофонов кучу и потом в них разбираться.

                  Женский голос есть английский тот же arctic slt.
                    Цитата nsh @
                    Женский голос есть английский тот же arctic slt

                    Я имел в виду с ручной сегментацией.
                    Цитата nsh @
                    Я бы вообще вокализованные-невокализованные не размечал

                    А я именно этим и занимаюсь. И на то у меня есть веские причины, но не хотелось бы в них углубляться.
                    А вообще, база должна быть такой, чтобы она подходила для любого случая. Так, например, на описанных мной участках, при попытке составления параметрического описания фонемы, будут стабильно возникать ошибки.
                    Цитата nsh @
                    сдвинуться к автоматической сегментации, но с более точным алгоритмом,

                    Какова же точность действующего алгоритма? Оценивалась ли она? По каким критериям?
                    Дело не в том, что я злобно критикую созданную базу, а в том, что необходимо стремиться к идеалу.
                      Цитата
                      Я имел в виду с ручной сегментацией.

                      нет, такого не знаю
                      Цитата
                      Какова же точность действующего алгоритма? Оценивалась ли она? По каким критериям?

                      Ну вот хорошие статьи:

                      http://www.cs.cmu.edu/~awb/papers/eurospeech2003/phoneseg.pdf (это про sphinxtrain в том числе)
                      http://www.cs.cmu.edu/~dhuggins/Publications/phlab.pdf - и ehmm тоже
                      http://www.cs.cmu.edu/~awb/papers/ICSLP2004/WeC1401o.3_p1146.pdf - ehmm

                      Цитата
                      А я именно этим и занимаюсь. И на то у меня есть веские причины, но не хотелось бы в них углубляться.
                      А вообще, база должна быть такой, чтобы она подходила для любого случая. Так, например, на описанных мной участках, при попытке составления параметрического описания фонемы, будут стабильно возникать ошибки. Дело не в том, что я злобно критикую созданную базу, а в том, что необходимо стремиться к идеалу.

                      Ну понятно. В целом, конечно, можно будет и этим направлением заняться. Хотя подходящие любому случаю вещи довольно редкое явление.
                      Сообщение отредактировано: nsh -
                        По поводу второй статьи точно: погрешность в 3-4 сотых секунды вполне может означать погрешность на целый звук, поэтому подобной автоматической сегментации лучше не доверять.
                          Это да, но в первой статье есть более подробные данные с распределением ошибок ручной разметки. Ручная недалеко ушла :)

                          Мне понравилось замечание что на 100 гц 10 мс это один период, меньше точность не измеришь, так что 30 тут счёт идёт дискретный почти.
                            Цитата kaa1 @
                            Чтобы эту базу действительно захотели качать в обмен на какие-либо усилия со своей стороны, необходимо проводить ручную сегментацию фраз. А для этого нужно выработать принципы сегментации. Иначе данная база особого смысла иметь не будет. Я, например, скачал 452 фразы вот отсюда:
                            http://festvox.org/examples/cstr_us_ked_timit/
                            Уже после первого предложения я разочаровался в приведённой сегментации.
                            Так что, если делать базу, то выполненную по единым правилам и с качественной сегментацией.

                            Лично мне разметка не нужна.
                            Мне нужно 100-200 разных реальных голосов.
                            Смазливые голоса дикторов не очень подходят.
                              А если сделать wiki-сайт с базами, разметками и возможностью редактирования разметки множеством пользователей.
                              Заинтересованные пользователи скачивают неразмеченные файлы, размечают вручную и разметку вставляют в описание этого файла. Опытные пользователи все это дело контролируют.
                                Цитата DimmK @
                                А если сделать wiki-сайт с базами

                                А это Студенту надо предложить. Пусть не занимается несбыточными фантазиями - за полгода написать стоящую распознавалку тяжело с нуля. А подобный сайт в самый раз на диплом. Новизна прослеживается. Практическая значимость налицо, опробирование проведём, охватывает несколько научных дисциплин - базы данных, программирование и т.д. Только это стоит делать, если потом действительно кто-то будет заниматься, и если удастся найти нормальный сервер, где можно разместить.
                                Сообщение отредактировано: kaa1 -
                                1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)
                                0 пользователей:
                                Страницы: (8) 1 2 [3] 4 5 ...  7 8 все


                                Рейтинг@Mail.ru
                                [ Script execution time: 0,0381 ]   [ 14 queries used ]   [ Generated: 13.05.24, 11:49 GMT ]