
![]() |
Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
|
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[216.73.216.30] |
![]() |
|
Страницы: (23) « Первая ... 13 14 [15] 16 17 ... 22 23 ( Перейти к последнему сообщению ) |
![]() |
|
|
Здравствуйте.
У меня вопрос по поводу MAP адаптации акустической модели. В wiki есть довольно неоднозначное предложение: Цитата Basically, you need to record a single audio file for each sentence in the adaptation corpus, naming the files according to the names listed in arctic20.transcription and arctic20.fileids. Правильно ли я понял, что в каждый файл надо продиктовать ОДНО синтаксическое предложение (которое заканчивается точкой на письме)? На данный момент я записал 5-минутный аудиофайл и разделил его через sox на 10 файлов по 30 секунд (то есть в одном файле получается больше чем одно предложение) и пытаюсь проводить адаптацию, но эффекта ноль - записи голоса чистые без помех, а распознается почти ничего ![]() pocketsphinx-5prealpha DIC: msu_ru_nsh.dic LM: msu_ru_nsh.lm.dmp AM: msu_ru_nsh.cd_cont_1000_8gau_16000 uname -a: Linux x 3.19.2-1-ARCH #1 SMP PREEMPT Wed Mar 18 16:21:02 CET 2015 x86_64 GNU/Linux Вот еще программа bw выдает: Цитата WARN: "mk_phone_list.c", line 178: Unable to lookup word 'полноценную' in the dictionary WARN: "next_utt_states.c", line 83: Unable to produce phonetic transcription for the utterance '<s> второе занятие открытого курса по управлению проектами знакомство с пи эм ай занятие состоит из трех частей первая посвящена ответу на вопрос зачем мне пи эм ай вторая часть посвящена фундаментальным принципам пи эм ай и в третьей части мы научимся быстро читать пи эм бук пятой редакции быстро его открывать в нужном месте быстро находить нужную информацию использовать как полноценную полезную книжку перед нами первая </s>' WARN: "main.c", line 830: Skipped utterance '<s> второе занятие открытого курса по управлению проектами знакомство с пи эм ай занятие состоит из трех частей первая посвящена ответу на вопрос зачем мне пи эм ай вторая часть посвящена фундаментальным принципам пи эм ай и в третьей части мы научимся быстро читать пи эм бук пятой редакции быстро его открывать в нужном месте быстро находить нужную информацию использовать как полноценную полезную книжку перед нами первая </s>' Получается если не нашлось одно слово в словаре, то весь 30-секундный файл не используется для адаптации? |
Сообщ.
#212
,
|
|
|
Запустил скрипт word_align.pl, результат что перед адаптацией, что после нее:
Цитата TOTAL Words: 721 Correct: 0 Errors: 721 TOTAL Percent correct = 0.00% Error = 100.00% Accuracy = 0.00% TOTAL Insertions: 0 Deletions: 90 Substitutions: 631 Раньше когда работал с pocket_sphinx4 хоть некоторые слова распознавались, может это из-за новой 5 версии? ![]() ![]() |
![]() |
Сообщ.
#213
,
|
|
Цитата Правильно ли я понял, что в каждый файл надо продиктовать ОДНО синтаксическое предложение (которое заканчивается точкой на письме)? Да Цитата Получается если не нашлось одно слово в словаре, то весь 30-секундный файл не используется для адаптации? Да Цитата Запустил скрипт word_align.pl, результат что перед адаптацией, что после нее: Для того, чтобы получить помощь по точности, нужно предоставить файлы и другие данные, используемые при адаптации. |
![]() |
|
|
nsh
Можете, пожалуйста, сказать что я делаю не так: использую voxforge-ru-0.2 без адаптации в надежде что качество "из коробки" будет по крайней мере 40-50%, команда запуска: Цитата pocketsphinx_batch -hmm model_parameters/msu_ru_nsh.cd_cont_1000_8gau_16000 -dict etc/msu_ru_nsh.dic -lm etc/msu_ru_nsh.lm.dmp -cepdir . -ctl list.fileids -cepext .wav -adcin yes -hyp result.hyp Вот тестовые аудиофайлы: https://www.dropbox.com/s/8yde0fmovgcwdar/test.7z?dl=0 Вот что выдает: Цитата второе заметил шкатулку с боковой некоторое знакомство спиной к уловить заставить их частей тела с еще на один вопрос к зачем нее прямая прочесть вытащил откуда ветер при таком прямой ей третий чувствовалась идет быстро читать не мог без редакции спустилась кровать в новом месте поступили необходимо двадцать использовать такого со мной полезно книжку идти на первой (adapt_001 -149946) часть такого поверьте здесь парсонс от этого польза черными прямой допрос на приводили смотреть является его иметь удовольствие как боковой как вопросы или недостатки той это долой детей это какая-то чего стоят пеленой изучить схватила давайте поделиться с тем чтоб такой усталый заверил сказал признаю не волку вы не около чулок аллеи никого не которого (adapt_002 -149534) он не снова ей него средь глаз кончиком на котором был как раз пребывание никак собираться представлял что можно готовясь стать оттолкнул пятой невозможно не является понял от новой еще предлагаю что нужным ответа вонь от понять ответа снова полз какие процесса нужно при менее ты получишь что-либо достичь погасить какого-то мелкого результат например чтобы управлять крепко выход вызвать полгода из команды (adapt_003 -167073) А вот что хотелось бы в идеале: Цитата <s> второе занятие открытого курса по управлению проектами знакомство с пи эм ай занятие состоит из трех частей первая посвящена ответу на вопрос зачем мне пи эм ай вторая часть посвящена фундаментальным принципам пи эм ай и в третьей части мы научимся быстро читать пи эм бук пятой редакции быстро его открывать в нужном месте быстро находить нужную информацию использовать как полноценную полезную книжку перед нами первая </s> (adapt_001) <s> часть второго занятия здесь мы разбираемся с ответом на вопрос зачем мне пи эм ай вопросы на которые мы найдем здесь ответ является ли пи эм ай методологией как таковой плюсы и недостатки этой методологии и как когда и почему стоит пи эм ай изучать для начала давайте определимся с тем что такое методология забегая вперед скажу что я не знаю ни одного внятного четкого определения методологии которая нравилась бы мне </s> (adapt_002) <s> самому и не было бы слишком расплывчатым на которое можно было бы опираться перед вами некое собирательное представление о том что можно методологией считать а что методологией возможно не является чего мы ждем от методологии лично я предполагаю что мы ждем ответов внятных понятных ответов на вопрос какие процессы нужно применять для того чтобы что-либо достичь чтоб достичь какого-то понятного результата например чтобы управлять веб проектом продолжительностью в пол года и с командой </s> (adapt_003) Заранее огромное спасибо ![]() |
![]() |
Сообщ.
#215
,
|
|
Для аккуратной транскрипции данного текста нужно:
1) Собрать большое количество текстов на данную тему из лекций и книг. Нужно хотя бы 10мб текста 2) Натренировать модель языка с помощью SRILM 3) Сделать фонетический словарь для модели с помощью https://github.com/zamiron/ru4sphinx/tree/master/text2dict и проверить часто используемые слова вручную. 3) Использовать cont модель отсюда http://sourceforge.net/projects/cmusphinx/...tar.gz/download с созданной моделью языка и словарём Адаптация тут не главное, главное модель языка создать. |
Сообщ.
#216
,
|
|
|
nsh
Спасибо за ответ. А как сделать общую модель языка, чтобы можно было распознавать любую речь с относительно постоянной точностью 50-60%? В гугле голосовой поиск неплохо ведь работает, как они такого добились? |
![]() |
Сообщ.
#217
,
|
|
Цитата А как сделать общую модель языка, чтобы можно было распознавать любую речь с относительно постоянной точностью 50-60%? В гугле голосовой поиск неплохо ведь работает, как они такого добились? Собрать 1Tb русских текстов и натренировать модель. |
Сообщ.
#218
,
|
|
|
Цитата nsh @ 3) Использовать cont модель отсюда http://sourceforge.net/projects/cmusphinx/...tar.gz/download с созданной моделью языка и словарём А чем модели zero-ru и voxforge-ru отличаются? Какая-то из них чем-то лучше ? А еще в названии zero_ru_cont_8k_v2.tar.gz, 8k означает, что модели рассчитаны на 8 килогерц? Если так, то как повлияет на распознавание, если я сделаю downsample аудиокорпуса с 16k на 8k? |
![]() |
Сообщ.
#219
,
|
|
Цитата А чем модели zero-ru и voxforge-ru отличаются? Какая-то из них чем-то лучше ? Voxforge ru натренирована из 10 часов данных. Zero-ru из 100. Zero-ru гораздо точне. Цитата А еще в названии zero_ru_cont_8k_v2.tar.gz, 8k означает, что модели рассчитаны на 8 килогерц? Если так, то как повлияет на распознавание, если я сделаю downsample аудиокорпуса с 16k на 8k? Никак не повлияет. Можете попробовать скачать новую модель языка: http://sourceforge.net/projects/cmusphinx/...tar.gz/download С ней ошибка распознавания около 60%, хотя бы слова узнаются. |
Сообщ.
#220
,
|
|
|
Цитата Можете попробовать скачать новую модель языка: http://sourceforge.net/projects/cmusphinx/...tar.gz/download Спасибо, сейчас буду пробовать. modified < 30 min ago - свежачок ![]() |
Сообщ.
#221
,
|
|
|
nsh
Действительно с новой моделью качество немного улучшилось, хотя word_align.pl все равно пишет Accuracy: 0%, но хотя бы ключевые слова просматриваются. И еще пара вопросов, если позволите: 1. В wiki говорится, что если языковую модель из ARPA формата переделать в DMP, то ускорится только время инициализации декодера, то есть на качество распознавания это никак не влияет? Я к чему это пишу, потому что на первый взгляд кажется распознавание через *.lm модель дает лучшие результаты, чем после ее конвертации в DMP. 2. С моделью zero-ru-v3 полтораминутный файл распознается полных 5 минут, хотя на предыдущей (zero-ru-v2) было гораздо быстрее (около 1 минуты вроде на той же конфигурации компьютера), хоть и не правильно. Такое значительное увеличение времени распознавания связано с увеличением размера словаря и языковой модели? 5 минут это приемлемое затрачиваемое время на распознавание 90 секунд аудидо-данных? Добавлено Цитата nsh @ Для аккуратной транскрипции данного текста нужно: ... 2) Натренировать модель языка с помощью SRILM А cmuclmtk не подойдет? Просто через него уже описаны шаги как производить тренировку языковой модели, a SRILM значится как сторонний тулкит. |
![]() |
Сообщ.
#222
,
|
|
Цитата Действительно с новой моделью качество немного улучшилось, хотя word_align.pl все равно пишет Accuracy: 0%, но хотя бы ключевые слова просматриваются Да ладно, немного. У меня результат такое: ![]() ![]() *** *** САМОМУ И не было БЫ СЛИШКОМ РАСПЛЫВЧАТЫМ на КОТОРОЕ можно было бы ОПИРАТЬСЯ ПЕРЕД ВАМИ НЕКОЕ СОБИРАТЕЛЬНОЕ представление о том что можно МЕТОДОЛОГИЕЙ СЧИТАТЬ А что *** МЕТОДОЛОГИЕЙ возможно не является чего МЫ ЖДЕМ от методологии лично я предполагаю что МЫ ЖДЕМ ОТВЕТОВ ВНЯТНЫХ понятных ответов на вопрос какие процессы нужно применять для того чтобы *** что либо достичь ЧТОБ ДОСТИЧЬ КАКОГО ТО понятного РЕЗУЛЬТАТА например чтобы управлять ВЕБ проектом ПРОДОЛЖИТЕЛЬНОСТЬЮ В ПОЛ ГОДА И С КОМАНДОЙ (adapt_003) ОН НЕ МОГ ЕЙ не было *** ЛИ КОЛОКОЛЬЧИКОМ на КОТОРОМ можно было бы ЕДВА ЛИ НЕ К СОБИРАТЕЛЬНЫЙ представление о том что можно БЫЛО МЕЧТАТЬ ТАК что В ИТОГЕ возможно не является чего *** ЛИБО от методологии лично я предполагаю что В НЕМ АТЛЕТОВ ВНЯТНО понятных ответов на вопрос какие процессы нужно применять для того чтобы ЧУЯ что либо достичь *** ЧТОБЫ НИКАКОГО ПО понятного РЕЗУЛЬТАТ например чтобы управлять ВЕК проектом *** *** КОЛОННА КРЫТЫХ ПОЛГОДА Я КОМАНДЫ (adapt_003) Words: 75 Correct: 41 Errors: 38 Percent correct = 54.67% Error = 50.67% Accuracy = 49.33% Insertions: 4 Deletions: 5 Substitutions: 29 TOTAL Words: 212 Correct: 97 Errors: 123 TOTAL Percent correct = 45.75% Error = 58.02% Accuracy = 41.98% TOTAL Insertions: 8 Deletions: 31 Substitutions: 84 Цитата В wiki говорится, что если языковую модель из ARPA формата переделать в DMP, то ускорится только время инициализации декодера, то есть на качество распознавания это никак не влияет? На данный момент русскую модель с 500000 тысячами слов нельзя преобразовать в DMP формат. Мы планируем добавить поддержку бинарного формата для таких моделей в скором будущем, но пока придётся читать из текста. Цитата Такое значительное увеличение времени распознавания связано с увеличением размера словаря и языковой модели? 5 минут это приемлемое затрачиваемое время на распознавание 90 секунд аудидо-данных? Вы же вроде хотели "как у Google". У меня 90 секунд распознаётся 3 минуты, в два раза медленнее: ![]() ![]() INFO: batch.c(777): TOTAL 88.55 seconds speech, 158.30 seconds CPU, 158.65 seconds wall INFO: batch.c(779): AVERAGE 1.79 xRT (CPU), 1.79 xRT (elapsed) Для распознавания с большим словарём это нормальная скорость. Цитата А cmuclmtk не подойдет? Просто через него уже описаны шаги как производить тренировку языковой модели, a SRILM значится как сторонний тулкит. cmuclmtk устарел, используйте srilm. |
Сообщ.
#223
,
|
|
|
Цитата nsh @ У меня результат такое: А можете написать свою команду запуска pocketsphinx? Я запускаю так: Цитата pocketsphinx_batch -hmm zero_ru.cd_cont_4000/ -dict ru.dic -lm ru.lm -cepdir . -ctl list.fileids -cepext .wav -adcin yes -samprate 8000 -hyp result.hyp ./word_align.pl hand_written_transcription result.hyp результат намного лучше, но с Вашим ни в какое сравнение не идет: Цитата мне самому ей не было ли колокольчиком на котором можно было бы едва ли не кафедральный представление о том что можно никто не читает а что никто его не является тимолеонта золой лично я предполагаю что были в ответов внятно понятных ответов на вопросы какие процессы нужно применять для того чтобы чушь то либо достичь чтобы какого-то понятного результат например чтобы управлять век проектом проложить в пол года ей команды (adapt_003 -149555) adapt_003 done -------------------------------------- Цитата nsh @ cmuclmtk устарел, используйте srilm. Вот этого не знал, спасибо Цитата nsh @ На данный момент русскую модель с 500000 тысячами слов нельзя преобразовать в DMP формат. И тем не менее я при помощи sphinx_lm_convert преобразовал, и даже что-то распознало, хоть и чуть хуже |
![]() |
Сообщ.
#224
,
|
|
Цитата результат намного лучше, но с Вашим ни в какое сравнение не идет: Версия старая. |
Сообщ.
#225
,
|
|
|
Добрый день!
Я новенький в теме распознавания речи, случайно набрел на эту ветку форума,рад,что она до сих пор жива. Прочел большую часть обсуждения,узнал много нового. Есть задача сделать компонент,который бы выводил результаты распознавания речи. Пробовал использовать Microsoft Speech Platform 11. Неплохая система, но столкнулся с ограничениями: При размере словаря более 2-3 тысяч слов\предложений движок не распознает ничего. Много перерыл документации по Speech Platform и по движкам вообще. К сожалению, не хватает знаний-куда копать. Накопились вопросы, прошу помочь. 1.В качестве словаря использовал обычный текстовый файл, который отдавал движку- если использовать SRGS-грамматику и скомпилировать ее- будет ли результат намного лучше? 2. Насколько я понял-SRGS-грамматика нужна для построения правил (а использование-в системах типа-заказа билета и прочих подобных-то есть когда заранее известно, о чем будет разговор). Так ли это? 3. В моей системе пользователь надиктовывает текст (небольшой,вполне можно уложиться в 140 символов или чуть больше),а система должна распознать и вывести текст. Будет ли эффективна SRGS-грамматика или она тут не нужна? 4.Можно ли как-то увеличить количество слов,которые может распознать Microsoft Speech Platform 11? Может кто работал. 5. Если не получится, то мое внимание приковывает Сфинкс,какие у него ограничения по распознаванию речи- хотя бы 20 тысяч слов потянет? 6.Есть ли c#-обертки под pocketsphinks? Насколько я понял, необходимо сделать обертку,которая вызывает Си-шные библиотеки pocketsphinx-а?Через invoke,вроде. 7. pocketsphinx- диктороНЕзависимый? Прошу помочь, так как область для меня новая. Спасибо. |