Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[3.238.202.29] |
|
Сообщ.
#1
,
|
|
|
Столкнулся с принципиальной сложностью поиска готового решения (в т.ч. платного) для распознания голоса в текст в режиме приближенном к реальному времени, для цели надиктовывания длинных текстов.
ПО "готовое к употреблению" на базе Google- Yandex-API, давало неприемлемый результат. Spxinx и Julius (с моделью с Voxforge, с моделями собранными на записях собственного голоса) тоже. Неприемлемость результатов делилась на две категории: низкое качество распознавания и нехватка словаря/неточность в выборе слова. А при частом использовании в тексте технических терминов, жаргонизмов и т.п. вообще просто беда :-( Надиктованный текст местами превращается в полную "муть". И если записана хотя бы 1000-2000 слов, то приведение этого текста к изначальному смысловому значению соизмеримо по времени и трудозатратам с его набором "с ноля". Пришёл к выводу, что проблему можно обойти, если иметь инструмент, который можно настроить на выдачу слов с "уверенностью" ниже установленного порога в виде слогов/набора фонем/дифонов/трифонов или других сырых данных, по которым программа пытается распознать слово. Приведу пример: Текст: "...Чучундра чумыкнула осоловевшего бегемота, ловко извернувшись, бросилась прочь...". Результат: "чучундра чумы канва соловья в сова бегемота ловко из вернувшись бросилась прочь" (Алиса. Только что). Правка такого черновика бесперспективна но, вполне подойдёт вариант вида: "чучундра ch-u-m-i-n-u-a a-s-a-ll-ee-v-ch-e-o бегемота..." (либо другие вариант, где "сырые" данные можно будет легко прочесть и преобразовать в слово силами нейросети собственного мозга). Вопрос к знатокам - реализуема-ли подобная схема в теории? Знает ли кто-нибудь доступный "простым смертным" инструмент подобного рода? Есть ли здесь специалисты, способные "запилить" подобное на базе общедоступных исходников за скромное вознаграждение? Может кто-нибудь сможет помочь хотя бы советом? Заранее благодарю всех, кто откликнется. |
Сообщ.
#2
,
|
|
|
Есть несколько архитектур распознавалок, не использующих старый подход со словарём слов. Называется это end-to-end распознавание, на выходе у распознавалки последовательность символов, а не слов.
Соответственно, он может понимать неизвестные слова. Хорошая реализация http://github.com/espnet/espnet. Также в Kaldi есть end-to-end. По точности обычно такое распознавание пока хуже, чем распознавание со словарём. Для тренировки такой системы нужно большое количество данных. При хорошем микрофоне для диктовки должно работать неплохо. Добавлено Набрёл тут на книгу недавно, на русском хотя бы https://books.ifmo.ru/file/pdf/1921.pdf |
Сообщ.
#3
,
|
|
|
Сообщ.
#4
,
|
|
|
nsh, благодарю за помощь. Обязательно изучу при первой же возможности.
В данный момент занят другим проектом и времени на что-то другое нет совсем :-( К сожалению, весной не осилил этот вопрос самостоятельно и отложил до "лучших времён". Но вопрос по прежнему актуален и интересен. Обязательно к нему вернусь. |
Сообщ.
#5
,
|
|
|
А есть готовые программы? На вход файл передаем - на выходе текст
|