Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[34.231.180.210] |
|
Сообщ.
#1
,
|
|
|
Предлагаю создать специальную тему для последних новостей в области речевых технологий.
Все самое интересное и актуальное - сюда. Новости, статьи, прес-релизы. Обязательно со ссылками. http://www.cnews.ru/news/line/index.shtml?2006/08/04/207500 Genesys представит управляемую голосом систему Genesys Telecommunications Laboratories, компания, входящая в группу Alcatel, представит свою платформу голосового самообслуживания для промышленного использования на конференции SpeechTEK, которая пройдет 7-10 августа 2006 года в Нью-Йорке. Genesys предлагает заменить технологию IVR новой платформой. По данным компании, обновленные платформы снижают затраты на обслуживание до 40%, при этом окупаемость затрат ROI (прибыль на капиталовложение) не превышает 12 месяцев по сравнению с предыдущими уже устаревшими версиями IVR. |
Сообщ.
#2
,
|
|
|
Предприятие "Суперкомпьютерные системы"
http://minitera.ru/rus/win/hiisc/market.html Цитата Проведенные исследования показали, что повсеместное использование программного обеспечения по распознаванию речи потребует точности распознавания примерно 99,9%. Желательно также, чтобы подобный уровень надежности был достигнут при работе без специальной настройки на диктора. Мы протестировали почти все известные методы описания исходного голосового сигнала, такие как преобразование Фурье, полосовая фильтрация, анализ кодирования линейного предсказания(LPC – Linear Predictive Coding), MFCC, и другие. Все эти методы имеют один общий недостаток: они не соответствуют тому механизму обработки звукового сигнала, который используется человеком. Именно по этой причине одинаковые фонемы (звуки) могут иметь различные спектральные описания, в зависимости от тембра, интонации и соседних фонем. Цитата Инвариантное описание речевого сигнала, разработанное предприятием "Суперкомпьютерные системы", практически не зависит от этих факторов, так же как и от индивидуальных характеристик голоса диктора, и способно одинаково описывать одну и ту же речевую информацию, независимо от того, произнесена ли она басом мужчины, голосом ребенка или даже шепотом. |
Сообщ.
#3
,
|
|
|
Может слегка не по теме, но по-моему интересно:
Устройство Audio Spotlight может передавать направленный(!!!) звук Hi-Fi качества с динамическим диапазоном в 100 дБ и гармоническими искажениями, не превышающими 1%. Чтобы “сфокусировать” звук в узкий пучок, размер излучателя должен превышать длину волны. И чтобы такой “звуковой прожектор” не был диаметром несколько метров, он излучает неслышимый ультразвук (с очень маленькой длиной волны), который “превращается” в слышимый звук. Как это происходит: Воздух можно с определенной точностью считать линейной средой для звука - что излучит динамик, то мы и услышим. На самом деле при распространении звука появляются искажения - но при небольшой интенсивности они очень малы и мы их просто не слышим. При увеличении интенсивности доля искажений увеличивается (простейший пример - появление гармоник). Почему это происходит? Звуковая волна относится к продольным волнам и представляет собой чередование пиков сжатия и разрежения среды. Сжатие происходит в воздухе так быстро, что процесс можно считать адиабатическим, при этом температура повышается. В результате пики сжатия бегут чуть быстрее, чем пики разрежения, и даже идеальный гармонический импульс "расплывается" и теряет синусоидальную форму, что приводит к появлению в его спектре новых частот. Какие именно новые частоты появятся, зависит от вида нелинейности и начальной формы и спектра импульса. |
Сообщ.
#4
,
|
|
|
http://www.dialog-21.ru/news/digest.asp?id=59063
Gtalk научился отправлять голосовые сообщения 31.07.06 Александр Рыбаков Производители программ для мгновенного обмена сообщениями усилили борьбу за пользователей: практически в одно и то же время компании Yahoo! и Google обновили свои программы-клиенты. Yahoo Messenger 8 перестал быть бета-версией. С помощью обновленного интернет-пейджера теперь можно не только чатиться, но и совершать телефонные звонки. Позвонить другому пользователю Yahoo Messenger можно будет бесплатно, а за звонки на обычные телефоны придется заплатить. Кроме того, теперь есть возможность за дополнительные деньги, купить у Yahoo телефонный номер, для приема звонков с наземных линий через компьютер. После недавнего объединения компаниями Yahoo! и Microsoft своих интернет-пейджеров, Yahoo Messenger стал совместимым с Microsoft Live Messenger. Однако, интеграция в голосовом общении между двумя программами пока еще не полная. Важной особенностью нового Yahoo Messenger является увеличенное число плагинов. Сейчас их существует около 180, в том числе и от сторонних разработчиков. Плагины позволяют расшаривать файлы, управлять аватарами, рисовать и передавать другим пользователям схемы и диаграммы и даже просматривать трейлеры фильмов во время общения по Yahoo! Messenger. Google Talk еще находится в стадии бета-тестирования, но начал потихоньку обзаводиться функциями своих "больших братьев". В новой версии появилась возможность передачи файлов, но в отличие от Yahoo Messenger, где размер передаваемого файла ограничен гигабайтом, в программе от Google никаких ограничений нет. Уменьшенные копии передаваемых картинок видны в окне диалога. Также в Gtalk добавили функцию голосовой почты. Надиктованное сообщение отправляется абоненту по e-mail, и, если такое "караоке" войдет в моду, то даже почтовые ящики Google, со своим рекордным объемом, будут быстро забиты разнообразным звуковым рядом. В почте отправителя копии голосового сообщения не остается, так что даже нельзя проверить, не забыл ли сказать чего-нибудь важного. Длительность звукового послания ограничена тремя минутами, на запись одной секунды уходит 3 кб памяти. Похоже, Google, помимо массы сведений о пользователях, которые он уже может получить через почту и Google Base, решил собрать данные и об их голосах: в случае распространения голосовой авторизации это знание окажется небесполезным. Еще сейчас стало возможным узнать что слушает пользователь - Gtalk может отображать название звучащей на компьютере пользователя музыкальной композиции в качестве статуса. Пока что новая версия клиента Gtalk недоступна обычным пользователям, однако ссылку на нее приводит Петр Диденко, в своем блоге "Коммуникации в реальном времени". Источник: Вебпланета |
Сообщ.
#5
,
|
|
|
http://inauka.ru/news/article66214?subhtml
АНГЛИЧАНЕ НАУЧИЛИ РОБОТОВ РАСПОЗНАВАТЬ ЗНАЧЕНИЕ СЛОВ Английские учёные продемонстрировали двух виртуальных роботов, способных разучивать новые слова на основе понимания того, что их окружает, сообщает New Scientist. Трёхмерные модели, представляющие эти устройства выглядят как человеческий торс на колёсах. Одно из них призвано объяснять другому, как нужно выполнять какую-либо простейшую задачу, такую, как например поднятие предмета руками. Оно общается со вторым роботом вербально и способно использовать в своём лексиконе ранее выученные слова и выражения. Сначала "учитель" демонстрирует "ученику" простые действия, такие как "согнуть левую руку" или "опустить правое плечо", при этом объясняя словами то, что он делает. Обучающийся робот, соответственно, старается повторить эти движения. Затем первое устройство описывает словами комплексные действия, например "толкать" или "хватать", а второе догадывается, как их выполнить. По словам разработчиков, современные системы распознавания голоса имеют ограниченный словарный запас, который они никак не могут пополнить. Вышеописанные же устройства могут сами узнавать значение слов и, соответственно, выучивать новые, понимая, что они значат. Несмотря на то, что эти роботы в данный момент существуют лишь в виде компьютерных моделей, в будущем, возможно, они помогут аппаратам самостоятельно находить решение определённых задач. Учёные также собираются с их помощью узнать о развитии речи человека, а также считают, что в будущем, возможно, такие устройства сами смогут обучать людей определённым действиям. Об этом сообщает "Компьюлента". |
Сообщ.
#6
,
|
|
|
http://www.dialog-21.ru/news/digest.asp?id=59278
Обновленные технологии Microsoft для распознавания речи 09.08.06 Андрей Колесов Новая версия серверного решения Microsoft для обработки речи - Speech Server 2007 - будет интегрирована с Office Communications Server 2007, ключевым продуктом в создаваемой корпорацией унифицированной коммуникационной платформе, включающей средства обмена мгновенными сообщениями, IP-телефонии, голосовой связи, аудио- и видеоконференций. Об этом было объявлено на прошедшей в начале августа в Нью-Йорке конференции SpeechTEK 2006. Речевые функции будут также доступны независимым разработчикам через интегрированный набор API для создания собственных бизнес-приложений и реализации различных деловых сценариев на основе базового ПО Microsoft. На конференции было показано несколько вариантов расширенного применения Office Communications Server 2007. Одна из демонстраций включала использование интеллектуального агента, который помогал звонящему соединиться с нужным абонентом, предлагая несколько методов общения, в том числе электронную почту или мгновенные сообщения. Второй вариант применения - когда один абонент использует голосовую связь, а другой общается через монитор и клавиатуру ПК: преобразование текста в речь и наоборот выполняется автоматически. Другие решения показывали организацию служб Help Desk, интегрированного контакт-центра и пр. На SpeechTEK также впервые была представлена новая версия механизма распознавания речи Windows Speech Recognition, которая будет доступна в составе Windows Vista на восьми языках: английском (американском и английском), китайском (традиционном и упрощенном), японском, немецком, французском и испанском (другие языки будут поддерживаться с помощью включения продуктов независимых разработчиков). Эта технология позволяет управлять компьютером с помощью голосовых команд, поддерживает речевой ввод текста в документ, заполнение Windows- и Web-форм. Настойка системы распознавания речи выполняется с помощью интерактивного тренинга. Источник: PC Week/RE |
Сообщ.
#7
,
|
|
|
http://www.cnews.ru/news/line/index.shtml?2006/08/23/209208
"Билайн" запустил решение для повышения качества передачи речи Компания «ВымпелКом» объявила о запуске современного сетевого решения кодирования речи AMR (Adaptive Multi Rate) в целях повышения качества передачи речи. «ВымпелКом» стал первым из российских сотовых операторов, внедривших новый принцип кодирования речи в масштабах московской сети. Начиная с 2003 года модели сотовых телефонов, выпускаемые ведущими мировыми производителями, поставляются с поддержкой нового принципа кодирования речи AMR. В сети «Билайн» Московского региона около 50% телефонов поддерживают AMR, что обусловило целесообразность проведения работ по созданию цепочки «AMR базовой станции – AMR телефона абонента». В рамках существующего программного обеспечения на всех базовых станциях Московского региона была проведена настройка для активации AMR. Аналогичные решения уже внедрены в сетях мировых операторов сотовой связи Vodafon, Orange, O2. Результатом внедрения современного алгоритма кодирования речи стало повышение качества передачи речи, снижение уровня помех, более четкая передача тембра голоса. В настоящий момент включение AMR позволило улучшить качество передачи речи для 15% общего трафика в сети Московского региона. В настоящее время тестирование и внедрение AMR ведется на сети «Билайн» в Уральском, Приволжском и других регионах. До конца года планируется внедрить AMR на всех сетях группы компаний «ВымпелКом». |
Сообщ.
#8
,
|
|
|
http://www.cnews.ru/news/top/index.shtml?2006/08/24/209273
Создается новый тип процессора Ученые университета Карнеги Меллон (Carnegie Mellon) проектируют процессоры, способные решить одну из труднейших задач вычислительной техники – распознавание речи. Распознавание речи является давней мечтой компьютерной индустрии, пока далекой от реальности для большинства пользователей. Исследователь Роб Рутенбар (Rob Rutenbar) считает, что задачу повышения скорости распознавания речи и понижения потребляемой при этом энергии способны решить не программные средства, а специальные процессоры. "Пришло время освободить распознавание речи от неоправданных ограничений программного обеспечения", – сказал г-н Рутенбар на конференции Hot Chips. Свою идею он сравнил с тем, насколько широкое распространение получили специализированные графические процессоры. Г-н Рутенбар привел такой пример: более быстрое распознавание речи позволит найти в фильме кадр, где Арнольд Шварценеггер говорит: "Аста ла виста, бэйби". А благодаря пониженному энергопотреблению сотовые телефоны смогут превратиться в блокнот, в который можно будет надиктовывать записи. Пока ученые, участвующие в университетском проекте "in silico vox" ("глас в кремнии"), работают над двумя подходами к разработке новых процессоров. Первый подход основан на специализированных интегральных схемах (ASIC), второй – на вентильных матрицах с эксплуатационным программированием (FPGA). Г-н Рутенбар показал снятую на видеопленку демонстрацию разработанной в университете технологии, основанной на FPGA, распознающей слова из ограниченного словаря в 1000 слов. Система смогла распознать несколько коротких предложений примерно в два раза быстрее, чем ученые произносили их. В то же время точность распознавания не уступала программному обеспечению для распознавания речи Sphinx, также разработанному в университете Карнеги Меллон. Г-н Рутенбар говорит, что, по оценкам ученых, специализированный процессор первого поколения будет почти в два раза быстрее скорости обычной речи для словаря объемом 5 тыс. слов. Кроме того, исследователи работают над специализированным процессором, который будет работать в 10 раз быстрее речи. В перспективе – создание процессоров, опережающих речь в 100 и 1000 раз. В функции процессора распознавания речи входит преобразование звукового сигнала в комбинацию шумов, формирующих каждый из примерно 50 различных звуков в английском языке. В этом состоит одна из проблем: звучание буквы "i" в слове "five" отличается от слова "nine" под влиянием звуков, произносимых до и после нее, поэтому в результате существует более 1000 вариантов ее звучания. Затем процессор сравнивает звуки с теми звуками, из которых состоят реальные слова. Наконец, выполняется поиск похожих сочетаний слов (пар и троек), чтобы повысить точность распознавания. Вывод: производительность процессора зависит от пропускной способности доступа к памяти, чтобы процессор мог быстро выполнять сравнение. |
Сообщ.
#9
,
|
|
|
Содержание SPECOM'06
Прикреплённый файлSPECOM__06.doc (124.07 Кбайт, скачиваний: 1031) |
Сообщ.
#10
,
|
|
|
http://gadgets.compulenta.ru/283622/
Philips выпустит новый универсальный пульт ДУ 30 августа 2006 года, 17:06 Текст: Георгий Мешков Компания Philips в скором времени пополнит линейку универсальных пультов ДУ новой моделью - Pronto Pro TSU9600. Новинка будет представлена на выставке CEDIA, которая пройдёт в сентябре. Philips Pronto Pro TSU9600 Устройство оснащено 3,7-дюймовым сенсорным жидкокристаллическим дисплеем с разрешением 640 х 480 точек, который защищён от механических повреждений специальных экраном. К компьютеру устройство подключается по интерфейсу USB. Функциональные возможности пульта можно запрограммировать с помощью программы ProntoEdit Professional, которая поставляется в комплекте. К каждой клавише можно "привязать" аудиофайл в формате WAV с краткой инструкцией. Пультом можно управлять не только нажатием клавиш и виртуальных кнопок на ЖК-экране, но и посредством голосовых команд. Устройство поддерживает кириллические шрифты. В комплект поставки входит док-станция для подзарядки встроенных аккумуляторов пульта. Стоимость пульта Philips Pronto Pro TSU9600, а также сроки его появления в розничной продаже не сообщаются. |
Сообщ.
#11
,
|
|
|
http://www.dialog-21.ru/news/digest.asp?id=60055
Nuance озвучивает документы PDF 21.08.06 Кандейс Ломбарди (Candace Lombardi), CNET News.com Компания Nuance Communications модернизировала своё программное обеспечение. Во вторник она планирует выпустить пакет ScanSoft PDF Converter Professional 4, предназначенный для создания и преобразования файлов PDF, который составит конкуренцию популярному ПО Acrobat от Аdobe Systems. Новая версия содержит функцию преобразования текста в речь, использующую технологию Nuance RealSpeak для перевода документов PDF в аудиофайлы WAV. Эти файлы, которые можно использовать для подкастинга, озвучиваются мужским голосом. Компания планирует предоставить пользователям возможность загружать и другие голоса. Nuance выпускает также ПО распознавания голоса. PDF Converter Professional 4, предназначенный для корпоративных пользователей, поступит в продажу в США 22 августа по цене около $100. Входящие в пакет настольные утилиты ScanSoft PDF Create 4 и PDF Converter будут также продаваться отдельно по $49 каждая. ПО содержит новую функцию, позволяющую создавать файлы в формате XML Tagged PDF. В эти файлы автоматически включается информация, которая помогает правильно считывать порядок текста, таблицы и графику. Данный стандарт применяется для экспорта файлов в программы чтения с экрана для слепых, а также для изменения размера документов на экранах разного формата. Компания утверждает, что в новой версии функция SoftScan, которая преобразует документы PDF в файлы Microsoft Word, Microsoft Excel или Corel WordPerfect, стала точнее на 46%. Этот механизм, который сохраняет форматирование, таблицы и графику, может применяться как внутри ПО PDF, так и посредством специальной панели инструментов для таких приложений, как Microsoft Word. В Adobe Acrobat сохранение или экспорт документа PDF в Microsoft Word, Excel и других форматах осуществляется только через главное меню. ПО Nuance позволяет авторам задавать уровни разрешения доступа к документам PDF с применением правил безопасности PDF, шифрования и редактирования. Nuance утверждает, что она успешно проверила свое ПО PDF на совместимость с последней сборкой бета-версии Microsoft Windows Vista. Источник: ZDNet.ru |
Сообщ.
#12
,
|
|
|
http://www.cnews.ru/news/line/index.shtml?2006/09/05/210194
Google научится подслушивать Google готовит новую технологию контекстной рекламы в интернете, зависящей от звука из телевизора, который работает в комнате пользователя. Прослушивание будет вестись через включенный на компьютере микрофон. По данным Technology Review со ссылкой на директора по исследованиям Google Питера Норвига (Peter Norvig), компания заявляла о работе над технологией в июне прошлого года в Европе. Однако ничего общего с прослушиванием и передачей разговора в сеть это не имеет, уверяет он. Специальная программа будет преобразовывать звук в участки-сигнатуры, отсеивая шум, и передавать на сервер для сравнения с заранее записанными подобными участками телевизионных программ. Звук преобразуется в графы и сжимается до небольшого количества байт ключевых моментов. Так, год аудиозаписи одного телеканала может быть сжат до нескольких гигабайт, что уместится на DVD. По участкам, полученным от пользователя, серверное ПО будет выбирать подходящую рекламу для отображения на страницах портала во время посещения. Норвиг сказал, что подобные технологии появятся — рано или поздно — в продуктах Google, сообщил The Register. |
Сообщ.
#13
,
|
|
|
http://inauka.ru/technology/article67739?subhtml
Скажу как телепат телепату Биоинженеры обещают решить и такую, казалось бы, неразрешимую проблему, как передача мыслей от одного человека к другому без каких бы то ни было дополнительных устройств. Уже сейчас более 100 000 еще недавно глухих пациентов вернулись к нормальной жизни благодаря кохлеарным имплантатам. Эти аппараты преобразуют звук в электрические импульсы, которые через слуховой нерв поступают непосредственно в мозг. Более того, в перспективе такие технологии открывают двери к забавным фокусам, весьма напоминающим телепатию. Сегодня кохлеарные имплантаты подают на слуховой нерв электроимпульсы, соответствующие звукам из непосредственного окружения пациента, но ведь подобные же импульсы могут приходить издалека. Более того, почему эти сигналы должны соответствовать реальным звукам, а не чему-либо еще? Это ведь может быть и электронное письмо, пропущенное через аппарат, преобразующий текст в живую речь. И наконец, так ли важно, чтобы это воображаемое электронное письмо было набрано вручную, с помощью клавиатуры? А может быть, с этой задачей справится мозговой имплантат, соединенный с компьютером, – и даже не с помощью вживленного в череп разъема, а по радиоканалу? Это будет подлинной революцией для тех, кто сейчас отрезан от мира из-за серьезных форм инвалидности. Сегодня мы просто фантазируем, но когда-нибудь в недалеком будущем дистанционно управляемые имплантаты смогут передать от одного разума к другому что-то вроде электронного письма: "Привет, дорогуша! А я как раз о тебе подумал". Пока это звучит диковато, но вспомним, с каким недоверием на первых по-рах люди относились к телеграфу. Источник: "Популярная механика" http://www.cnews.ru/news/line/index.shtml?2006/09/20/211558 "Блоги@Mail.Ru" "заговорили" пользователей проекта "Блоги@Mail.Ru" появилась возможность оставлять в своих блогах не только текстовые, но и голосовые записи. Сделать это можно с помощью мобильного телефона, позвонив на короткий номер и надиктовав сообщение. Голосовой сервис открывает перед пользователями "Блогов" новые возможности - например, можно поделиться в дороге неожиданно пришедшими в мыслями или рассказать о случившейся по пути смешной ситуации, а придя домой, прочитать комментарии. Можно взять мини-интервью у прохожих, спеть онлайновым друзьям песню, почитать прозу или стихи. Публикуя голосовые записи в своем дневнике, пользователь, также как и в случае с обычными текстовыми, может установить нужный уровень доступа: для всех, для друзей или только для себя. Помимо аудиосервиса, на "Блогах@Mail.Ru" стартовала еще одна новая услуга. У пользователей появилась возможность читать записи не только своих друзей, но и тех, кого они добавили в друзья. На странице ленты друзей появился фильтр, позволяющий переключиться на "Ленту друзей всех друзей". По замыслу менеджеров проекта эта возможность позволит новичкам, недавно создавшим дневник на проекте, легче освоиться и найти интересные блоги и сообщества. Вот как комментирует появление на "Блогах@Mail.Ru" новых сервисов вице-президент и директор по маркетингу и PR Mail.Ru Анна Артамонова: "Проект не стоит на месте - мы постоянно предлагаем пользователям попробовать что-то новенькое. Думаю, голосовые записи быстро завоюют популярность на Блогах, ведь это возможность перейти на новый уровень коммуникации. А "Лента друзей всех друзей" позволит найти новые интересные блоги или сообщества для общения". |
Сообщ.
#14
,
|
|
|
http://gadgets.compulenta.ru/286923/
LG выпустила мобильник для любителей электронного чтива 21 сентября 2006 года, 10:33 Текст: Эльвира Кошкина Южнокорейская компания LG Electronics на днях представила новый мобильный телефон, который придётся по вкусу любителям чтения. Обладатель аппарата LG Cyon сможет читать литературные произведения в электронном виде на экране телефона, а также прослушивать их в аудиоварианте, сообщает Akihabara News. Аппарат выполнен в корпусе со сдвигающейся лицевой панелью, снабжён слотом для карт памяти формата microSD, на которых можно хранить электронные и аудиокниги. Контроллер Bluetooth позволяет использовать мобильник ещё и в качестве портативной рации (Walkie-Talkie), действующей в радиусе до ста метров. Более подробные технические характеристики и стоимость новинки пока не сообщаются. Будет ли продаваться LG Cyon где-либо, кроме Южной Кореи, также остаётся неизвестным. |
Сообщ.
#15
,
|
|
|
http://www.svobodanews.ru/Transcript/2006/06/29/20060629204321623.html
Развитие и применение технологий распознавания речи в России Russia -- Ronzhin Andrei, leader of the Speaking Information group, 29Jun2006 29.06.06 Программу ведет Татьяна Валович. Принимает участие корреспондент Радио Свобода в Санкт-Петербурге Татьяна Вольтская. Гость студии - кандидат технических наук, руководитель группы речевой информатики Петербургского института информатики и автоматизации Андрей Ронжин. Татьяна Валович: Технологии распознавания речи на сегодняшний день считаются одними из наиболее перспективных в мире, что еще раз подтвердила, проходящая в эти дни в Петербурге 11-я международная конференция «Речь и компьютер». Татьяна Вольтская: Около 200 российских и зарубежных специалистов из 33 стран мира обсуждают проблемы взаимодействия компьютера и человека в естественной форме, делятся опытом внедрения и использования речевых и многомодальных технологий в производстве, медицине, в сфере культуры и образования. Для чего нужно научить компьютер понимать человека непосредственно? Оказывается, для решения очень многих насущных проблем. Существует, например, криминалистический анализ речи, - говорит коммерческий директор Центра речевых технологий Юлия Хитрова. Юлия Хитрова: Звонит человек в милицию и говорит: я подложил бомбу на вокзале. Потом этого человека через какое-то время, я надеюсь, ловят, и человек говорит: да ну что вы, я и в мыслях не имел, никуда я не звонил и ничего я не знаю, это все поклеп. И вот с помощью нашего оборудования и наших методик эксперт может доказать, причем доказывается не так, что эксперт говорит "вы знаете, я думаю, наверное, это он", а производит измерения. Татьяна Вольтская: В индустриальных условиях у компьютера жесткие задачи - распознавание команд, определенных участков речи. Гораздо более сложная задача - распознавание слитной речи. Юлия Хитрова: Это то, к чему все стремятся, что более или менее сделали американцы. Мы сейчас стараемся делать для русской речи и далеко продвинулись в этом направлении. Татьяна Вольтская: Что касается практического применения, то хорошие результаты есть в области реабилитации речевых функций у больных, - говорит специалист из Томского университета систем управления и радиоэлектроники Владимир Бондаренко. Владимир Бондаренко: Основные работы, которые сейчас ведем - это речевая реабилитация после операции на гортани. И второе - диагностика по голосу возможных заболеваний гортани. Самое тяжелое - это следующее, когда гортань полностью удаляется, он дышит через трахеостому, и он становится полным инвалидов, он не может говорить. У нас разработана методика восстановления чисто физиологическое речевой функции. Для того чтобы все это проделать, мы вынуждены ставить ему компьютер, он в него говорит, видит, что у него получается, и начинает подстраиваться под те задачи, которые ему устанавливает логопед. Татьяна Вольтская: Для установления естественного общения с компьютером учитывается не только речь, но и движения губ, жесты, мимика. Пока, если компьютер удается настроить на понимание, например, англичанина, то японца он уже не поймет. Идея компьютерного эсперанто возникала, но была отвергнута - все равно разные народы улыбаются и жестикулируют по-разному. Татьяна Валович: Сегодня у нас в гостях кандидат технических наук, руководитель группы речевой информатики Петербургского института информатики и автоматизации Андрей Ронжин. То, что в середине прошлого века описывалось в фантастических романах, по-моему, становится действительностью. На ваш взгляд, как быстро развиваются технологии распознавания и синтеза речи и насколько ощутим прогресс тех достижений, которые, например, были представлены на нынешней конференции по сравнению с предыдущей? Андрей Ронжин: Я думаю, сейчас настало такое время, когда идеи, которые были задуманы еще, может быть, 50 лет назад готовы к реализации. Технологии и техника сейчас находятся на таком высоком уровне, что хватает быстродействия и возможностей, чтобы реализовать эти идеи. То есть если 50 лет назад занимались только распознаванием изолированных слов, и надо было произносить команды не так, естественно, а по словам, то сейчас уже решена проблема распознавания изолированных слов, перешли к распознаванию слитной речи, как уже сказала Юлия Хитрова, и занимаются более интересной задачей, это распознавание спонтанной речи, как мы сейчас с вами говорим; возникают и отклонения, и вставляем какие-то другие слова, какие-то отклонения в фонетике, в лексике, вот все эти проблемы необходимо учитывать и это более сложная задача. Татьяна Валович: Существуют две полярные задачи. С одной стороны, это синтез речи, с другой стороны - распознавание. Наверное, синтез речи, который можно произвести сейчас, это более легкая задача. Как вы оцениваете эти проблемы? Андрей Ронжин: Конечно же, синтез речи - немножко попроще задача по сравнению с распознаванием речи, однако и там есть свои проблемы. То есть если создать системы, которые уже были созданы 20-30 лет назад, которые говорили, как робот, и, когда человек слушает такой голос, возникает некоторый дискомфорт, что по истечению некоторого времени человек просто перестает воспринимать или устает слушать такую речь. Поэтому сейчас технология синтеза речи в основном направлена на то, чтобы обеспечить естественное звучание, именно так, как говорит человек. Может быть, с некоторыми отклонениями, но чтобы это было естественно. А также существует задача внедрения вот этих систем синтеза речи в мобильные устройства, которые сейчас очень востребованы и практически каждый имеет мобильный телефон или наладонник. Татьяна Валович: Какой язык, как вы считаете, труднее синтезировать. Если возьмем русский и английский… Говорилось о том, что в Соединенных Штатах Америки это уже решено. Очень сегодня интересная была информация как раз в наших "Новостях науки", что американский изобретатель Рэй Курцвайл при поддержке Американской национальной федерации слепых создал устройство, которое читает для слепого человека любые тексты. Это устройство состоит из цифровой камеры, соединенной с карманным компьютером, на котором установлена программа для распознавания текста и потом воспроизводится аудио. Андрей Ронжин: Я думаю, что любой язык имеет свои сложности и поэтому сказать сразу, что этот язык проще обработать и реализовать, а другой сложнее, нельзя. Вы еще заметили, что система, которую вы упомянули, использует не только синтез речи, но и распознавание текста. Сейчас я хотел бы еще заметить, что решение проблемы взаимодействия человека с компьютером несколько расширилось. Теперь занимаются не только обработкой речи, но и других естественных модальностей, то есть и движение головы, губ, жесты, мимика и другие. То есть для того, чтобы использовать все возможности человека, чтобы создать естественное взаимодействие, естественную коммуникацию. И в нашем институте как раз создается система для инвалидов, которая направлена на то, чтобы люди, у которых есть некоторые ограничения или возможности взаимодействия человека с компьютером с помощью рук, то есть какие-то были проведены операции, нет пальцев или рук, он может управлять компьютером с помощью движения головы и некоторых голосовых команд. Татьяна Валович: Эти разработки инициированы или финансируются Министерством здравоохранения или это ваша личная задача, которую вы перед собой поставили? Андрей Ронжин: С 2003 года пошел проект Европейской комиссии, и мы в нем участвуем, в рамках этого проекта создали вот эту систему. Нашей разработкой интересуется также институт здравоохранения в России. Мы работаем также с отдельными инвалидами, помогаем им обеспечивать такое взаимодействие. Татьяна Валович: Вы бы могли описать ту технику, которая сейчас использует системы распознавания и синтеза речи в России, где она применяются? На сегодняшний день уже какие-то разработки введены? Андрей Ронжин: Распознавание речи еще, может быть, не так много где используется. Есть только такая разработанная компанией Philips модель программного обеспечения, которая работает с русской речью в телекоммуникационных приложениях. Но пока, к сожалению, может быть, недостаточно развит рынок и не так пока еще востребованы российские технологии, а потом эта система недостаточно еще настроена на русский язык и поэтому не дает достаточно хороших результатов. Поэтому мы разрабатываем свою технологию и в рамках инновационного проекта, который пошел с начала этого года, совместно с компанией Evoice внедряем свою технологию и начинаем записывать свои речевые базы данных. Слушатель: Вы помните программу, с которой все начиналось, называлась, по-моему, "Голосовой ключ", это самая первая русская программа. Еще американцы занимались, которые учили компьютер говорить и понимать. Но потом как-то все это благополучно заглохло. Это было 40 лет назад минимум. Я думаю, что сейчас компьютер нужно учить, наверное, на сленге таком, где можно было бы понять, что такое "стремно", "кинуть", "мухи, котлеты отдельно", "мочить" и прочее. Это поэзия целая сейчас. Конечно, если бы не было таких программ, разве бы мы могли три дня назад послушать речь Березовского и Тимошенко. Наверняка это не обошлось без системы "эшелон", которая здорово может выявлять все и прослушивать, и делать. А что вы можете сказать - первоначально для спецслужб вы стараетесь или такие прикладные дела будут? Татьяна Валович: Два вопроса прозвучало, это увеличение распознавания слитной речи и увеличение словаря, который мог бы распознать компьютер, и над чем работает конкретно ваша группа. Андрей Ронжин: Хорошо заметил слушатель, расширение словаря - это очень важно. Как раз сейчас, решив вопрос слитной речи, многие институты переходят к распознаванию спонтанной речи, где возникают слова, которые выходят из обычного лексикона и с ними не то что надо бороться, их надо учитывать. Поэтому тут, может быть, производится распознавание ключевых слов, на которые стоит базировать при понимании всей фразы, которая была произнесена диктором. Татьяна Валович: Но ведь, кроме распознавания каких-то ключевых слов, у каждого человека своя манера говорить, темп и ритм. Кроме того, даже русский язык если взять, сколько диалектов. Это тоже должно, наверное, учитываться? Андрей Ронжин: Да. Татьяна Валович: Насколько это трудно и как продвигается работа в этом направлении? Андрей Ронжин: В рамках современных технологий для того, чтобы решить все эти проблемы, необходимо записать огромные речевые базы данных, которые будут покрывать многочисленные диалекты и не только диалекты, но и каналы, через которые записываются базы данных. То есть человек может говорить на вокзале, где очень шумно, накладываются посторонние разговоры, то есть все это надо записывать, и, расширяя вот эти базы данных, мы сможем покрыть как вариативность в дикторах, так и в окружающей обстановке. Слушатель: Георгий, Санкт-Петербург. 50 лет назад мой знакомый написал, например, такой стих... И я подумал, как же с техникой будет взаимодействовать такие строки: "Ласково сковала скал оскал вешняя вишневая заря, устланный устами стал отстал сонный сонм сомнений озаря. Зажужжала жизнь жуком всех жил, песню спеси, ереси сипя. Мир в бездонной луже лжи ожил, чтоб еще раз обмануть себя". Татьяна Валович: Да, вот это пример сложности русского языка, образования фонем различных окончаний и падежных. Как решаете эту проблему вы? Андрей Ронжин: Да, очень хороший пример. Профессор Юрий Александрович Косарев в свое время тоже любил приводить стихи, которые были построены только либо из существительных, либо глаголов, которые тоже, естественно, никогда не распознаются и не будут использоваться во взаимодействии человека с компьютером. Или только для стенографирования. Поскольку речевые технологии прежде всего ориентированы под конкретную прикладную задачу - либо это запрос какой-то информации, либо, как я уже сказал, стенографирование текста. Татьяна Валович: А сейчас стенографирование текста уже существует в виде каких-то разработанных программ, чтобы не человек сидел и расшифровывал какое-то большое длинное заседание, а сделала это машина? Андрей Ронжин: Для английского языка существует система Via Scribe , Via Voice , Dragon Dictation, которые в принципе работают достаточно хорошо, если их обучить. Татьяна Валович: А для русского языка? Андрей Ронжин: Для русского языка существует аналог Dragon D ictation, разработанный компанией Voice Log , так называемый "Дракон", вернее "Горыныч", который в принципе работает, но необходимо провести долгую процедуру предварительного обучения на свой голос, и, по оценкам пользователей, он выдает примерно 70-80% точности. Татьяна Валович: То есть это только на определенно настроенный голос? А если на каком-то заседании? Там же некоторые докладчики совершенно различно говорят. Такого еще нет? Андрей Ронжин: Такого, к сожалению, пока еще нет. Для этого нужно использовать диктора независимой системы, для которого необходимо создать, как я уже говорил, большие корпуса русской речи. Татьяна Валович: Вы начали говорить о том, что одна из ваших задача - это как раз работа с людьми с ограниченными возможностями. Наш слушатель спрашивал, есть ли заказы от правоохранительных структур, с чем они связаны и выполняете ли вы такие задачи? Андрей Ронжин: Мы со спецслужбами не работаем. Это расширяет наши возможности, мы не ограничены какими-то спецзаказами, а работаем над теми темами, которые мы ведем в рамках своих иностранных и российских проектов. Может быть, это более фундаментальные задачи, нежели, как уже сказала Юлия Хитрова из Центра речевых технологий, для верификации дикторов, определения состояния человека. Хотя этими задачами тоже занимаемся, но в рамках своих проектов, решая какие-то фундаментальные базовые научные задачи. Татьяна Валович: Когда можно ожидать, что такие устройства, комплексы для людей с ограниченными возможностями будут серийно производиться? И насколько это может быть сложно, должна ли это быть какая-то государственная поддержка при производстве таких комплексов? Андрей Ронжин: Я думаю, что государственная поддержка обязательно должна быть, поскольку, к сожалению, сфера обслуживания инвалидов не интересует коммерческие структуры, и они не готовы вкладывать туда деньги. Поэтому это, естественно, должны быть инвестиции государственные, для разработки, а главное, для внедрения вот этих технологий и устройств, и для обеспечения инвалидов нормальными возможностями, и для того, чтобы повысить их социальный уровень, социальный статус, обеспечить их такой же высокооплачиваемой работой, как и у других людей. Татьяна Валович: А как дороги могут быть такие комплексы? Понятно, что чем больше их будут производить, тем стоимость их будет уменьшаться, то есть нужно наладить серийно производство. Но если подумать о том, что они выйдут, скажем, через два года в общее пользование? Андрей Ронжин: По срокам я пока не скажу, а по цене... Мы сначала использовали для своих фундаментальных задач распознавание речи, используя аудио- и видеосигнал, то распознавание речи по аудиосигналу и чтение по губам, мы использовали действительно дорогую камеру, которая стоит порядка 2 тысяч евро. Для создания системы помощи инвалидам для управления компьютером мы специально взяли за основу самую дешевую камеру, которая стоит 50 евро, веб-камеру, которая включает в себя уже и микрофон, - это получается достаточно дешевая система. Татьяна Валович: Ну, 50 евро - я думаю, это еще недостаточно дешево для наших людей, которые получают такую маленькую пенсию. Андрей Ронжин: Да, вы правы, хотя из ассоциации "Интас" приехал представитель, "Интас" был спонсором нашей конференции, и он сказал, что... Татьяна Валович: Это российская организация? Андрей Ронжин: Это бельгийская организация. Так вот, он сказал, что подобная система, как у нас, которая тоже работает, у них ее стоимость превышает 3 тысячи евро. Татьяна Валович: У нас есть еще вопрос от слушателя. Пожалуйста, вы в эфире. Слушатель: Здравствуйте. Александр Добрый. Я интересуюсь, а если человеческим языком будет говорить попугай, вы сможете определить по его голосу человека, который научил его тем или иным словам? Андрей Ронжин: Интересный вопрос. Я думаю, что даже через микрофон когда вы записываете и прослушиваете свою речь, вы ее тоже немножко не узнаете, потому что голос трансформируется в процессе преобразований по каналу. То же самое произойдет, естественно, и при обучении попугая. Хотя, возможно, останутся какие-то основные характеристики, которые будет повторять попугай, как фонетические отклонения, естественно, лексические, а акустические характеристики голоса вряд ли сохранятся. Хотя я не биолог. Татьяна Валович: У нас есть еще вопрос от слушателя. Пожалуйста, вы в эфире. Слушатель: Здравствуйте. Скажите, пожалуйста, как у нас можно решить вопрос о том, чтобы все-таки начать различать такие слова, как "право" и "право" - в одном случае мы подразумеваем свод законов или основной естественный закон, а в другом случае это права. Мало того, сейчас уже дошло до того, что чуть ли не соединяют эти два понятия третьим понятием, все это проходит под одной, так сказать, короной. Не считаете ли вы, что нужно в написании различать эти слова - право как свобод законов надо писать с большой буквы, а право как права с маленькой? Татьяна Валович: Да, но в устной речи ни маленькая, ни большая буквы не будут учитываться. Тут, наверное, должен анализироваться контекст, в котором прозвучит это слово. Андрей Ронжин: Вы абсолютно правы. Татьяна Валович: В русском языке достаточно много таких слов, которые одинаково звучат, но обозначают совершенно разное. Иногда, когда человек волнуется или торопится, он смотри на предмет, например, это дверь, и говорит "окно". Ну, вот такие вот психологические моменты - насколько они учитываются и как анализируются? Может быть, это действительно должен быть какой-то симбиоз ученых - психолог, биолог... И как вы используете профессии таких ученых в своей работе, есть ли у вас в группе такие люди, например, биологи или психологи? Андрей Ронжин: Это вы хорошо заметили, действительно, человек - это целостная система, и нельзя рассматривать или изучать его односторонне, например, только речь - изучаем, как о говорит, как выражает свои мысли. Необходимо рассматривать по всех сторон. Поэтому есть такое направление - развитие многомодульных интерфейсов. Многомодульные системы включают в себя различные устройства, которые воспринимают и создают сигналы аудио, видео, сенсорную информацию и обрабатывают их. Для того чтобы определить, как вы уже сказали, что человек видит окно, а говорит на него "дверь" или наоборот, для этого необходимо поставить еще и камеры, чтобы они обращали внимание или смотрели, куда смотрит, куда показывает человек, куда направлены его глаза, куда направлены его руки, для того чтобы в комплексе оценить и поправить некоторые другие виды информации. Например, если он сказал "окно", а показал на дверь, то система оценила контекст, куда он торопился, зачем он идет, что он делал, с кем беседовал до этого, о чем беседовал, чтобы скорректировать эту информацию и поправить его, а в результате правильно понять его желание и выполнить определенные функции какие-то. Татьяна Валович: Но это тема будущего, наверное. У нас еще есть вопрос от слушателя. Пожалуйста. Слушатель: Добрый день. Меня зовут Виктор, я звоню из Москвы. Скажите, пожалуйста, а какие системы, какие инструменты вы применяете для распознания диалектов русского языка? И особенно это касается северного и южного наречий, которые даже по мелодике отличаются от основных диалектов. Спасибо. Андрей Ронжин: Хороший вопрос. К сожалению, наша группа диалектами не занимается. Это интересная задача, которая плотно исследуется Государственным университетом, на кафедре фонетики профессором Павлом Скрелиным. У них были и идут сейчас проекты... Татьяна Валович: Они участвовали в вашей конференции, представляли свои разработки? Андрей Ронжин: Да, конечно, они представляли очень интересные системы по синтезу русской речи, которые уже даже где-то применяются. И у них были проекты не только на создание этой системы, но и созданиях крупных речевых баз данных. Они ездили по различным регионам России и создали достаточно представительный корпус русской речи. Татьяна Валович: Насколько такие технологии синтеза и распознавания речи могут использоваться для обучения тех детей, например, с ограниченными какими-то возможностями, для тех, кто слабо видит или вообще не видит, у кого проблема - церебральный паралич? Работаете ли вы над этим, есть ли какие-то заказы в этой области? Андрей Ронжин: Пока заказов, к сожалению, нет. Хотя мы сейчас совместно с Университетом Дрездена, с чешским Университетом в Пльзене, с Томским университетом подали заявку на проект "Интас", в рамках которых будем создавать такую гибкую интерактивную систему для помощи инвалидам с различными ограничениями. Как сказал профессор Бондаренко, он занимается восстановлением речи людей, у которых были проведены онкологические операции на голосовом тракте. Мы будем применять свою систему, которая направлена на то, чтобы обеспечить человека без рук возможностью управлять компьютером. Система аудио-видеосинтеза, так называемая "говорящая голова", разработанная чешским университетом, будет использоваться, и другие технологии. Татьяна Валович: А как, например, детям это могло бы помогать уже в недалеком будущем? Андрей Ронжин: Я думаю, что прежде всего эти системы должны быть направлены на детей, для того чтобы обеспечить им будущее, чтобы они стали полноценными участниками нашей жизни. Татьяна Валович: А вот такие устройства для людей с церебральным параличом, у них иногда нарушены, в том числе, голосовые функции, то есть возможно ли улучшить их общение, чтобы он говорил в какое-то устройство, а оно бы переводило его речь в более понятную для других, - такие разработки имеются или нет? Андрей Ронжин: Существует система, например, для взаимодействия глухонемых, которая распознает знаковую систему общения. Например, человек, который не может говорить. показывает знаками, система воспринимает эти знаки и преобразует их с помощью систем синтеза речи в обычную аудиоречь. Татьяна Валович: Насколько эти устройства портативны, их можно носить с собой или только можно стационарно использовать? Андрей Ронжин: Для русского языка пока таких систем я не видел. Единственное, существует компьютерная модель. Насколько я знаю, в Государственном Университете аэрокосмического приборостроения есть эта модель, и он работает с лабораториями нашего института. Татьяна Валович: Я знаю, что такую систему распознавания команд и речи использовал Ватикан. Когда было празднование 2000-летия Христа, паломник, звонивший в кол-центр, излагал свой вопрос, система автоматического распознавания речи выслушивала его, и если система определяла, что, например, вопрос задан по часто встречающейся теме, включался какой-то записанный предварительно текст, а если эта система понимала, что не сможет дать какую-то информацию звонящему, уже переключала тогда на оператора, человека. В России такие вот кол-центры существуют? Я знаю, например, что если позвонить в банковскую систему, есть некоторые такие системы, можно узнать по телефону о своем текущем счете, и там, наверное, тоже используются такие системы? Андрей Ронжин: Да, это хорошая идея, и мы тоже собираемся ее использовать. В России пока таких технологий, насколько я знаю, нет. Вернее они есть, но они пока еще не реализованы. В США такие системы существовали уже 20 лет назад, как раз к нам на конференцию приезжал профессор Лоуренс Робинер, который был пионером в распознавании речи, и технологии, методы, которые он разработал, сейчас используются по всему миру. И 20 лет назад он внедрил свою систему в компанию NTNT , где они автоматизировали обработку телефонных звонков, что дало экономию в миллиарды долларов за счет замены операторов-людей автоматическими системами, которые классифицировали входящие звонки по темам и направляли уже на определенного операторы, который знал, на что отвечать, и были какие-то заготовки, которые читались автоматически. Татьяна Валович: А российский бизнес, может быть, не знает о таких возможностях? Иначе бы как-то более заинтересованно относились, финансировали те же разработки, это же приносит действительно экономию средств. Таких моментов, контактов не было? Андрей Ронжин: Это не только экономия средств, а это огромная прибыль. Все речевые технологии - это огромная прибыль. Но, к сожалению, пока сейчас наши коммерческие структуры и государственные структуры, может быть, опасаются внедрения этих технологий, поскольку существуют пока еще большие риски. Татьяна Валович: А с чем связанные? С тем, что система выйдет из строя или с какими-то другими моментами? Андрей Ронжин: Это связано со сложностью, во-первых, русского языка, с тем, что системы разрабатываются больше 50 лет, и результаты только лет 5-10 назад начали появляться. Татьяна Валович: Как вы считаете, в ближайшем будущем насколько в России можно ожидать развития речевых технологий и что нужно для этого? Андрей Ронжин: Тяжело давать такие оценки, поскольку это фундаментальная задача, и как только начинаешь ее решать, сталкиваешься с проблемами, о которых в начале этого проекта или в начале деятельности ты даже не думал. Мы идем шаг за шагом, шли от распознавания изолированных слов, перешли к слитной речи, теперь смотрим, как решать проблемы спонтанной речи, перешли также к биометрическим проблемам, как можно использовать речь человека, его эмоции, мимику, для того чтобы оценить его физиологическое, психологическое состояние, текущее состояние. Мы конкретно занимаемся пока изучением речи. Татьяна Валович: А финансируется ваша работа за счет чего? Андрей Ронжин: Я бы сказал, что мы используем не только государственное финансирование, но и проекты, международные и российские, которые позволяют нам покупать достаточно хорошее оборудование, чтобы проводить эти дорогостоящие исследования. Татьяна Валович: Наверное, как вся фундаментальная наука в России сейчас, безусловно, если бы была большая поддержка от государства, а не только вы выигрывали гранты, было бы только лучше. Андрей Ронжин: Почему бы и нет... Татьяна Валович: Спасибо большое. Добавлено http://tuganbaev.livejournal.com/759379.html Компьютерра Нечасто задаваемые вопросы Опубликовано: 21.09.2006, 15:35 Автор: Владимир Гуриев Как обычно бывает, один человек что-то услышал, второй что-то увидел, а третий ничего не услышал и не увидел, но признаваться ему в этом было неловко. Отследить источник слуха уже невозможно, но в начале сентября редакторы "КТ" увлеченно обсуждали новый продукт ABBYY, который выйдет в сентябре и уберет с рынка компанию "ZZZ" (название жертвы менялось в зависимости от дня недели, облачности и общего настроя сплетников). Устав гадать, мы отправились в FAQ-Cafе, чтобы спросить у председателя совета директоров компании ABBYY Давида Яна, что же они все-таки выпускают, когда и зачем. В самом начале разговора выяснилось, что слухи в целом верны, но не академик, а футболист, не в лотерею, а в преферанс, не выиграл, а проиграл, и не "Волгу", а сто рублей. Нашими предположениями Давид Ян был слегка озадачен. - Насколько я знаю, в этом сентябре мы ничего подобного не планируем. Вероятно, речь идет вот о чем. Мы уже десять лет работаем над продуктом NLC (Natural Language Compiler) и в сентябре следующего года планируем завершить важный этап исследований. А коммерческого продукта ждать еще долго. Поиск словосочетания "ABBYY NLC" на Google и "Яндекс" дает несколько ссылок, из которых сколько-нибудь внятную информацию содержат только две: интервью Давида Яна, данное им "КТ" в 1999 году (в нем Давид, очень кратко описав, о чем, собственно, идет речь, предполагает, что до полноценного коммерческого продукта еще года два с половиной), и интервью, взятое нашими коллегами из "Домашнего компьютера" двумя годами позже, в котором таких предсказаний уже нет. - Это самый дорогой продукт ABBYY по стоимости разработки. К моменту выхода первой коммерческой версии на него будет потрачено около тысячи человеко-лет. Человек читал газету NLC - это внутреннее название технологии, а не наименование коммерческого продукта. Официальный анонс ABBYY, по словам Яна, сделает только через несколько месяцев - либо зимой, либо весной будущего года. Тогда же, возможно, станет известно, какой из продуктов ABBYY первым будет реализован на NLC. Угадывать название продукта сейчас бесполезно. Это может быть как совершенно новый программный комплекс от ABBYY, так и привычная программа, но с новой начинкой. Кроме того, ABBYY планирует выпустить SDK и лицензировать движок для других производителей. - Если говорить с точки зрения конечного пользователя, то NLC позволяет решать множество задач, связанных с обработкой естественного языка. Практически все задачи, связанные с обработкой больших текстовых массивов, будут решаться с применением нашей технологии. Сюда входят и смысловой поиск, и аннотирование документов, и поиск по цельным предложениям, анализ и принятие решений и так далее. Сейчас все это решается очень неуклюже, так как в данный момент не существует коммерческих систем, имеющих внутри систему знаний о мире. В рамках NLC мы создаем семантическую иерархию, некий семантический юниверсум, некую модель знаний о мире - знаний как семантических, так и прагматических. Прагматические знания - это знания, которые не могут быть почерпнуты непосредственно из текста. - Ну вот, смотрите, - говорит Ян. - Возьмем предложения "Человек сидел на стуле. Он читал газету". С точки зрения грамматики, стул мог читать газету. С точки зрения семантики, стул не мог читать газету, это делал человек. Здесь все просто. Возьмем для примера другое предложение - "Apple, as usual, went for style over functionality". Понять, что Apple в данном случае вовсе не яблоко, а компьютерная компания, можно только обладая прагматическими сведениями. Можно придумать и менее очевидные примеры, когда отсутствие прагматических сведений не позволяет провести грамотный анализ. К прагматическим сведениям относятся, допустим, исторические данные, хотя, честно говоря, граница между семантическим и прагматическим анализом довольно зыбкая. - В рамках NLC, - продолжает Давид, - мы накапливаем знания о мире. Система знает, что стул - это мебель, мебель находится в доме, знает, для чего предназначен стул. Мы построили модель языково-независимых данных об устройстве мира и модель доступа к этим данным, благодаря чему можем решать, как я уже говорил, широкий пласт задач. Естественно, первое, что приходит в голову с таким подходом, - это перевод. - Нетрудно понять, что человек-переводчик в процессе перевода сначала понимает смысл исходного предложения, а затем синтезирует этот смысл на другом языке. Только так можно получить адекватный перевод. Если же Google будет применять какие угодно эвристики, переводить по частям, используя пословный или пофразовый перевод, то неизбежно будет теряться смысл. Конечно, кое-что можно понять уже на уровне синтаксического анализа. Например, синтаксический анализ зачастую позволяет разобраться с омонимией, когда одно и то же слово может означать разные вещи. Возьмем, допустим, слово "copy" - оно может быть как существительным ("копия"), так и глаголом ("копировать"). Но синтаксический анализ предложения I will copy this book показывает, что в данном случае "copy" - это глагол. Проблема в том, что синтаксис даже в таких, относительно простых случаях работает не всегда. Омонимию "за,мок"-"замо,к" синтаксически разрешить невозможно. "Я буду жить в этом замке" или "я повесил этот замок". Здесь уже нужен семантический анализ. Кошка в чулане Выглядит все очень здорово, но, кажется, похожую функциональность обещали и экспертные системы, дайте-ка вспомнить, двадцать, тридцать, сорок лет назад? - Если говорить о других подходах, то можно вспомнить не только экспертные системы, но и нейрокомпьютеры, которые, вообще говоря, к системам ИИ можно отнести с большой натяжкой, формально они к ним не относятся, это в большей степени статистические модели. Что касается экспертных систем, то в этой области масса различных реализаций. Если говорить о "черном ящике", то наша технология может имитировать поведение экспертной системы, если конечному пользователю так проще. Он сможет задавать вопросы и получать ответы. Но ключевым отличием NLC является то, что у нас целостный подход, мы строим целостное представление о мире. Экспертные системы никогда не ставили себе целью построение всеобъемлющей модели, да и не могли поставить такую цель. Что это означает? Мы применяем так называемый IPA-подход - Integrity, Purposefulness and Adaptability, целостное, целенаправленное адаптивное восприятие. Этот принцип лежит в основе FineReader, NLC и ряда других систем ИИ, которыми мы занимаемся. Отдельные его принципы существовали и до нас, но наиболее цельно сформулировал этот подход наш главный идеолог по этому направлению Александр Львович Шамис, так что мы считаем, что принцип IPA изобретен нами. И этот принцип работает - сегодня FineReader умеет, например, распознавать рукописные шрифты без настройки на почерк. В двух словах о том, что это такое. Во-первых, принцип целостности постулирует, что мы храним знания о мире целостным образом. Любые знания являются частью целого. Если говорить о распознавании текстов, то любая буква может быть представлена как система элементов, связанных друг с другом определенным образом. Если говорить о структуре языка, то здесь мы видим систему понятий, которые логически связаны друг с другом. Принцип целенаправленности говорит о том, что мы не пытаемся исходить из того, что видим или анализируем. Мы поступаем ровно наоборот - априори высказываем гипотезу и пытаемся ее проверить. Наша система изначально является активным субъектом данного акта взаимодействия. Она не просто воспринимает данные на входе, но, получив объект для восприятия, пытается угадать, что это такое, или опровергнуть выдвинутую гипотезу. Причем это система с обратной связью - позитивные или негативные результаты запоминаются, система адаптируется и самообучается. Представьте, что вы вошли в чулан. Темнота. Света практически нет, только какой-то слабый лучик пробивается. Вы почти ничего не видите, но чувствуете, что слева от вас что-то прошмыгнуло, проскочил движущийся объект. Через доли секунды вы уже знаете точно, что это была кошка. Как это произошло? Как вы догадались, ведь вы ее не видели? Традиционная система распознавания взяла бы ту явно недостаточную графическую информацию, попыталась бы сделать на ее основании какие-то выводы - и у нее, конечно, ничего не получилось бы, потому что кошки не было, вы не видели ее. Но человек действует иначе. Сам не осознавая этого, он выдвигает гипотезы (как ограничивается круг возможных гипотез, это отдельный большой вопрос). Возможно, это собака, думает человек. Но если это собака, то тень должна была быть крупнее. Кроме того, собака должна издавать соответствующие звуки. Значит, эта гипотеза неверна. Переходим к следующей. Возможно, это мышь? Тоже нет, не подходит по размерам. А если это кошка? Кошка подходит. Это кошка! Но для выдвижения последней гипотезы у человека должны быть определенные знания о кошке. Он должен знать, что у кошки четыре ноги, хвост. Он должен знать, что кошка мяукает. И он начинает спрашивать себя, был ли у этой предположительной кошки хвост? Ног человек не видел, но хвост видел. Звук она издавала такой, какой издает кошка? Да, такой. Значит, из всех гипотез наибольший вес имела гипотеза, связанная с кошкой, и теперь мы убеждены, что эта гипотеза верна. И когда мы в следующий раз столкнемся с подобной ситуацией, первой нашей догадкой будет "кошка". Именно этот подход используют живые системы в процессе восприятия: дети, животные, люди и так далее. Мы его достаточно успешно применили в FineReader, но он имеет настолько общий характер, что мы применяем его для анализа естественных языковых предложений, в процессе извлечения смысла. Мы проводим (начинает загибать пальцы) лексический, морфологический, синтаксический, семантический, то есть полную цепочку анализа естественного языкового массива. А каким образом достраивается внутренняя модель знаний о мире? Все эти знания вводятся... - ...экспертами. Да, у нас большой объем ручной работы. Правда, часть нам удалось автоматизировать; к счастью, есть методы, позволяющие снизить нагрузку на экспертов. Но рассказывать об этом я пока не могу. Конечные пользователи и сами смогут дообучать систему. Продукты такого рода должны быть модифицируемы и самообучаемы - иначе они теряют смысл. Как конкретно это реализовано - тоже говорить еще рано. Не может ли случиться так, что в результате ошибочно заложенных знаний стандартом станет какое-нибудь неверное представление? - Ну, это общая проблема человечества. Это и сейчас происходит. Возьмите Википедию, один человек ошибся, тысяча человек поставила ссылку. Это жизнь. В словаре Ожегова упоминается, что правильно говорить "фо,льга". А все говорят "фольга,". Это, конечно, проблема, но она общего характера и к нашей системе прямого отношения не имеет. А для написания программ вашу систему можно применять? Это ведь во многом более простая задача, чем обработка естественного языка. - В каком-то смысле, да. Есть определенная грамматика, есть смысл и нужно синтезировать этот смысл в правилах заданной грамматики. Сходство имеется, но до конкретной реализации, думаю, еще далеко. Это все равно что сравнить распознавание букв и распознавание отпечатков пальцев. Базовые принципы и там и там одни и те же, но конкретика совершенно разная, разные модели знаний о предмете и т. д. Наш подход может быть применен для построения подобных систем, но это будет совершенно независимый продукт. Слушаю и понимаю Отчаявшись получить хоть какой-то намек, на что будет похож первый продукт на базе NLC, мы пробуем подойти к вопросу с другой стороны. Какие задачи подтолкнули к созданию этой системы? - Падение Вавилонской башни. То есть все же лингвистические? - Дело не только в языках. Дело в знаниях. Количество информации, порождающейся ежедневно, ежесекундно, растет в геометрической прогрессии, и очень скоро нас ожидает если не комбинаторный взрыв, то, по меньшей мере, значительные проблемы с доступом к этой информации. Но это только иллюстрация. То, что человечеству необходимы системы, позволяющие накапливать знания и обеспечивать к ним формальный доступ, совершенно очевидно. Возьмем, например, проблему распознавания слитной речи без настройки на голос диктора. В ее практической необходимости никто не сомневается. Можно ли сделать это с помощью компьютера? Ответ очень простой. Если проанализировать звуковой сигнал, записанный на этом диктофоне, то обнаружится, что семьдесят процентов изначальной информации было утеряно в процессе записи. А при этом уровне шума - все восемьдесят, а то и девяносто, местами. Тем не менее расшифровать наш разговор можно будет на 99 процентов, если не больше. Почему? Как вы можете достичь такого результата, если этих данных физически нет в сигнале? Потому что вы не распознаете, а домысливаете. Точно так же во время нашего разговора ухо, как любой микрофон, теряет часть информации на входе. Собственно, мозг распознает только тридцать процентов информации, все остальное ему приходится додумывать на основе априорных знаний о языке, смысле и знании предмета (прагматических знаний). Проверить это довольно просто. Если бы я сейчас продиктовал вам предложение по-армянски, вы бы смогли правильно записать только тридцать процентов букв, хотя армянские буквы в целом похожи на русские (здесь имеется в виду не схожесть алфавитов, а фонетическая схожесть. - Прим. ред.). И мы понимаем, что задача распознавания слитной речи - в меньшей степени задача распознавания, а в большей - задача понимания. И сколько времени пройдет между выпуском NLC и выходом первой системы распознавания слитной речи? - Много. К сожалению, устная речь сильно неформализована, в ней зачастую не соблюдаются законы семантики, так что один этап анализа практически выпадает. Также сложно применять синтаксический анализ: неполные, оборванные предложения, где заканчивается одно предложение и начинается другое - непонятно. Плюс интонационные нюансы. Тонкостей здесь масса. Так что о работающей системе распознавания слитной речи говорить пока рано. Но довольно быстро появятся системы, которые распознают речь не так хорошо, как люди, но во много раз точнее, чем сейчас. Они будут успешно работать в ситуации, когда озвучивается письменная речь - например, при чтении доклада. Наш с вами разговор или, скажем, телефонный разговор или непринужденная беседа на бытовые темы людей, которые хорошо друг друга знают и понимают, что называется, с полуслова - здесь уже сложнее, конечно. А эксперименты "Яндекса" и Google в области семантического анализа близки к тому, что делает ABBYY в проекте NLC? - Google и "Яндекс", конечно, понимают важность таких технологий, и я абсолютно убежден, что к моменту появления NLC на рынке появится некоторое количество технологий, заявляющих примерно то же направление. Но у меня внутреннее ощущение, что подход ABBYY, которая потратила на разработки десять лет, существенно глубже. Я вполне могу допустить даже то, что в первые годы технологии Google, "Яндекс" и других фирм могут оказаться даже эффективнее наших, потому что они настраиваются на решение конкретной задачи, четко поставленной, с понятным результатом. Они не пытаются решить проблему в принципе. Но в дальней перспективе нам неизвестны чужие разработки, которые настолько глубоко и последовательно пытаются решить задачу понимания в общей постановке. Я могу сказать, что еще пару лет назад весь этот проект для нас оставался очень рискованным вложением. У нас не было уверенности, что это вообще будет работать. Но сейчас есть основания надеяться на лучшее. На самом деле, Давид рассказал нам немного больше, однако он сам был не уверен, чем стоит делиться, а чем - нет. В результате довольно значительная (и самая, пожалуй, интересная) часть разговора в этот материал не вошла. Задачки и задачи - Я не являюсь менеджером компании, я не контролирую ни одного человека напрямую. У этого проекта есть научные консультанты, руководитель разработки, огромная команда, целый этаж сидит. Как и когда мы будем объявлять об этом - во многом зависит от их готовности. Я же в компании появляюсь раз в неделю. Да и то хожу на занятия китайского, которые проводит мой отец, поэтому не всегда обладаю всей необходимой информацией для принятия такого решения. Раз уж речь зашла о компании, то имеет смысл поинтересоваться, как ABBYY в условиях кадрового кризиса в ИТ может позволить себе столь жесткий отбор при приеме на работу. Претендент не только проходит несколько собеседований, но и сдает экзамен на логику. И только после этого его берут на работу. Стажером. На полгода. А там уж решают, расставаться с ним или нет. - Конечно, мы тоже столкнулись с кризисом, но планку снижать не можем, иначе процесс снижения станет необратимым. Дело в том, что если определенный процент сотрудников компании обладает некой компетенцией, духом, волей к победе, то остальные, даже если они не до конца отвечают этим идеалам, понемногу подтягиваются. У системы есть некоторый иммунитет. Она либо отторгает людей совсем далеких, либо ассимилирует в себе тех, кто может встроиться. Но если людей, не способных к ассимиляции, будет слишком много, то процесс становится неуправляемым, и на исправление ситуации могут уйти годы. Поэтому, несмотря на дефицит кадров, мы сторонники жесткого отбора. Первый раунд - это изучение резюме. Если резюме нам нравится, то мы приглашаем человека на экзамен, где ему предлагается решить шесть логических задач. Если он с этим справился, его ожидает интервью с работником отдела кадров и непосредственным руководителем, с которым новичку предстоит работать. Если и здесь все проходит хорошо, мы берем его на полгода - срок, на самом деле, не очень жесткий, но обычно все же на полгода, - после чего он сдает квалификационный экзамен. По крайней мере, в R&D это так, у менеджеров, кажется, последнего экзамена нет. Очень много задач из тех, которые давали на собеседование на Физтехе. Вообще, вся эта система оттуда. У нас практически все руководство заканчивало Физтех, сотрудников много оттуда, базовую кафедру мы сейчас там открыли. Первый выпуск ждем через два года, а дальше уже пойдет гарантированный приток сотрудников - хотя и недостаточный. К Физтеху в ABBYY особое отношение, хотя Давид утверждает, что к выпускникам других вузов никакой предвзятости нет. Там тоже иногда можно найти хороших специалистов. - Мы не страдаем шовинизмом. Надо признать, что, к сожалению, несколько лет назад уровень подготовки на Физтехе резко упал по сравнению с тем же Мехматом, например. Вы, кстати, как-то упоминали, что занялись софтом только для того, чтобы заработать некоторое количество денег и вернуться в науку. Но вот уже семнадцать лет не можете покинуть ИТ-бизнеса... - Да, было такое. (Ян смеется.) Но выяснилось, что я никуда не уходил. На самом деле, было время, когда я думал, что предаю свое собственное стремление заниматься наукой, но недавно я защитил кандидатскую в области физико-математических наук ровно по тому, чем мы занимаемся в области оптического распознавания. Формально это, конечно, относится к области математики, а не физики, но методы исследования очень похожи. Разумеется, мы занимаемся инженерной наукой, но в очень интересной области. Это острие, этого еще никто не делал, мы участвуем в научных конференциях, пишем статьи. Мне очень интересно этим заниматься. Физиком я хотел быть с третьего класса, но сейчас мне кажется, что то, чем мы занимаемся, очень нужно, интересно, востребовано, и это наука. |
Сообщ.
#16
,
|
|
|
http://inauka.ru/news/article67873?subhtml
ИЗОБРЕТАТЕЛЬ ИЗ КАЛИФОРНИИ ПРЕДЛОЖИЛ НОВУЮ КОНСТРУКЦИЮ МИКРОФОНА Давид Шварц (David Schwartz), изобретатель из Калифорнии, предложил новую конструкцию микрофона, сообщает News Scientist. Соответствующая заявка подана изобретателем в патентное ведомство США. Микрофон Шварца должен обладать значительно большей чувствительностью и точностью при передаче звука. Основным компонентом существующих сейчас микрофонов является диафрагма – тонкая пластина, колеблющаяся под воздействием перепадов давления воздуха, то есть звуковых волн. Перемещения мембраны превращаются в электрический сигнал. Однако собственная масса и упругость мембраны вносят известные искажения в записываемый сигнал. Шварц предлагает использовать в качестве мембраны поток водяного аэрозоля, через который проходит лазерный луч. Колебания частиц воды в микроскопической струйке тумана, вызываемые звуковыми волнами, фиксируются освещаемым лазером датчиком. На пике звуковой волны капли воды сближаются и прозрачность струи уменьшается. В зонах разрежения, наоборот, частицы аэрозоля задерживают меньше света. На этом и основывается прецизионная регистрация звуковых колебаний. Об этом сообщает Lenta.ru. |
Сообщ.
#17
,
|
|
|
http://www.membrana.ru/lenta/?6485
Музыкальный слух оказался физиологическим явлением Учёные из исследовательской группы под руководством Кристы Хайд (Krista L. Hyde) из университета Монреаля (Universitè de Montrèal) обнаружили, что наличие или отсутствие музыкального слуха у человека определяется не столько функциональными, сколько физиологическими особенностями мозга. Наличие музыкальных способностей обычно проверяется с помощью определённого набора заданий, по результатам выполнения которых можно сделать вывод о "профпригодности" в этой сфере. Учёные провели такую диагностику, а потом сопоставили её результаты с итогами магниторезонансного обследования тех же самых испытуемых. А чтобы удостовериться в надёжности выводов, они решили сравнить данные по двум независимым группам — испытуемым из Канады и из Великобритании. "Английскую" часть эксперимента проводил Эндрю Блэймир (Andrew Blamire) из университета Ньюкасла (Newcastle University). Исследователи обнаружили, что у людей с музыкальным слухом и с отсутствием такового по-разному устроена нижняя лобная извилина правого полушария головного мозга. У лиц без слуха в этой области содержится меньше белого вещества, чем у тех, кто хорошо воспринимает и воспроизводит мелодии. Объяснение этому, по словам Хайд, достаточно простое: белое вещество отвечает за передачу информации, и его нехватка становится серьёзным препятствием для понимания музыки. По мнению Блэймира, работа особенно интересна не столько тем, что её авторам удалось обнаружить проявления активности мозга при прослушивании музыки, сколько выявлением соответствующих анатомических различий. К примеру, учёный заметил, что когда люди без музыкального слуха пытались петь, во время магниторезонансного сканирования в их белом веществе не наблюдалось особенных изменений. Результаты этого исследования опубликованы в оксфордском журнале Brain. Узнайте также о том, что умение воспроизводить мелодии связано с языком, на котором разговаривает человек, а их ноты хранятся в голове. Добавлено http://www.membrana.ru/lenta/?3936 Разговор на мелодичном языке развивает музыкальный слух Диана Дойч (Diana Deutsch) из университета Калифорнии в Сан-Диего (University of California, San Diego) установила связь между мелодичностью языка, на котором говорит человек, и музыкальным слухом. Для сравнения она решила выбрать английский язык и китайский (мандарин). Последний относится к так называемым тональным языкам, в которых тонкая интонация будто бы одного и того же произносимого слова может менять его значение до неузнаваемости. Исследовательница сравнила данные 115 студентов-музыкантов из Рочестера (США) и 88 студентов-музыкантов из Пекина. Оказалось, что испытание на абсолютный слух прошли 60% китайских музыкантов и только 14% их молодых коллег из США. В этом испытании, когда человек должен идентифицировать и воспроизводить совершенно все ноты подряд, от испытуемого требуется различать звуки, частота которых отличается всего на 6%. Это очень мало, ведь частота самых низких и самых высоких звуков, которые слышит человек — отличается в тысячу раз. Любопытно, что наибольший процент людей с абсолютным слухом был (в той и другой группе) у тех студентов, которые начали изучать музыку между 4 и 5 годами, в то время как среди тех, кто приступил к музыкальным занятиям после достижения 8-летнего возраста, таковых почти не оказалось. Точнее — студенты, поздно начавшие учиться музыке, но всё же обладающие абсолютным слухом, ещё встречались среди китайцев, но среди американских студентов — уже нет. Автор работы считает, что в случае с китайцами — музыка воспринималась их мозгом как второй, родственный язык. Соответственно, им было тем труднее учиться, чем позднее человек приступал к занятиям. Но обучение всё же шло неплохо. А вот со студентами, говорящими по-английски, дело обстояло хуже. Поскольку английский язык — не тональный, обучение музыке воспринималось этими людьми как обучение их первому языку — они словно учились говорить заново. Таким образом, критический возраст, после которого трудности обучения резко усиливались, для таких людей был ещё меньше. |
Сообщ.
#18
,
|
|
|
http://www.3dnews.ru/news/poliglot_v_karmane-186017/
Многим журналистам и репортерам из Америки, Европы посещение масштабной выставки CEATEC, проходившей в Японии, на первый взгляд казалось менее проблематичным, чем на самом деле. Со знанием английского и в лучшем случае немецкого языков, приезжим специалистам очень тяжело было сориентироваться в изобилии надписей на японском. Не маловажен тот факт, что представления стендов и новинок в большинстве случаев велось также на японском. Как бы предвидя такие языковые барьеры, компания Sharp анонсировала электронный переводчик, работающий буквально на лету. Устройство, напоминающее КПК, при нажатии кнопки «Перевод» обрабатывает входящий голосовой сигнал и на монохромном сенсорном дисплее мгновенно выводит результат . Продемонстрированное качество перевода с японского на английский оказалось на высоте – более 90% речи переводчик распознал верно. Количество словарей, которые будут предустановлены, даты начала поставок, а также цена пока не уточняются. |
Сообщ.
#19
,
|
|
|
http://www.dialog-21.ru/news/digest.asp?id=60931
Говорящий мобильник для слепых Представители компании LG electronics продемонстрировали первый в мире мобильный телефон, способный читать электронные книги вслух и работать от голосовых команд. Новинка под названием LG LF1300 позиционируется как незаменимый помощник для людей с ослабленным зрением, сообщается на сайте RagHardware. Мобильный телефон толщиной в 16 миллиметров, помимо чтения книг вслух, может выступать в роли MP3-плеера. Объем встроенной памяти новинки составляет всего 17 мегабайт, так что потенциальному пользователю скорее всего придется дополнительно купить карту памяти. Стоимость мобильника LF1300 составит около 420 долларов. Продажа телефона будет осуществляться только людям с ослабленным зрением. http://www.cnews.ru/news/line/index.shtml?2006/10/11/213527 Agnitio создала систему идентификации голоса для бизнеса Испанская компания Agnitio объявила о расширении линейки своей продукции для идентификации голоса. Устройства достаточно распространены для использования в военных целях, однако до сих пор не использовались в бизнесе. Решения, предлагаемые Agnitio, позволяют идентифицировать человека по голосу с помощью биометрической технологии. Система сравнивает образец голоса, преобразованный ею в цифровую форму, с «голосовым отпечатком», который хранится в базе данных. В системе реализована интересная защита от мошенников — для проверки голоса она генерирует специальный числовой код, который должен произнести проверяемый человек. Таким образом была исключена возможность обмана системы с помощью голоса, записанного на диктофон. Кроме того, «такой способ идентификации более выгоден, чем проверка радужной оболочки глаза или отпечатка пальца, т.к. вы не нуждаетесь в дополнительных аппаратных средствах», говорит глава Agnitio Эмильо Мартинес-Гутьерреса (Emilio Martinez-Gutierrez). Предполагаемыми клиентами для своей разработки Agnitio видит компании финансового и других бизнес-секторов, а также интернет-банки. |
Сообщ.
#20
,
|
|
|
http://www.cnews.ru/news/line/index.shtml?2006/10/12/213611
Ноутбуки-толмачи помогут американцам понять арабов Командование объединенными силами США (Joint Forces Command) начало тестировать приложение MASTOR от IBM, которое позволит солдатам общаться по-арабски в Ираке или Афганистане при помощи ноутбука с микрофоном и динамиками. MASTOR от IBM умеет переводить с голоса как английскую речь, так и арабскую. На случай, если машина не поймет что-либо, на экране появится выбор вариантов, которые следует озвучить громко или воспринять в качестве ответа. Устройства автоматического перевода уже применяются американцами в Афганистане, однако их функции сильно ограничены. Портативный Phraselator, например, умеет говорить только общие фразы, такие, как «выйдите из машины», и совсем не понимает того, что ему ответили. Недавно Командование объединенными силами начало тестировать систему IraqComm, разработанную SRI International, на 30 компьютерах. MASTOR от IBM тестируется параллельно. Точность MASTOR не идеальна, но «вы можете общаться и понимать ответы», — говорит глава отдела лингвистических технологий IBM Research Дэвид Нахаму (David Nahamoo). Куратор проекта от Командования объединенными силами Уэйн Ричардс (Wayne Richards) сказал, что системы уже были протестированы в Ираке в местах с низкой шумовой нагрузкой. Осталось проверить, как они сумеют справиться с посторонним шумом в условиях военных действий. По его словам, оснащение военных системой, способной понимать речь в шумной обстановке, состоится не ранее чем в 2009 году. MASTOR, разработанный по контракту Агентства перспективных оборонных исследовательских проектов (DARPA), также умеет говорить на наречии китайского языка, а в будущем IBM сделает программу полиглотом, и не только для военных, но и для туристических целей, сообщило агентство Associated Press. |
Сообщ.
#21
,
|
|
|
http://www.computerra.ru/291368/?r1=rss&r2=remote
Озвучивание субтитров Автор: Андрей Крупин Опубликовано 20 октября 2006 года Просматривая на компьютере заморский фильм с субтитрами, постоянно отвлекаешься на их чтение. Это, во-первых. Во-вторых, сопровождающие видеокартинку надписи неизбежно портят общее впечатление от просмотра картины. Избавиться от подобных неудобств поможет программа ABM Subtitles Reader, читающая субтитры вслух и по желанию пользователя записывающая произнесенный текст в отдельный аудиофайл формата WAV. Последняя возможность, кстати, позволяет создать отдельную звуковую дорожку для всего фильма, чтобы впоследствии наслаждаться кинопросмотром без использования текстовых подсказок. Чтобы созданный Антоном Рязановым продукт заработал как часы, требуется совсем немного. Достаточно лишь загрузить с авторской страницы полумегабайтный ZIP-архив и извлечь из него рабочие файлы программы. Помимо этого, необходимо сразу убедиться в том, что в системе установлены модуль синтеза речи Microsoft Speech API (SAPI) и какой-нибудь русскоязычный голосовой движок. В случае отсутствия оных обзавестись ими всегда можно либо на сайте Microsoft, либо на странице разработчика ABM Subtitles Reader. На этом инсталляцию приложения можно считать завершенной. Читайте также наш материал "Как научить "аську" разговаривать?". Чудеса и сказочные истории случаются не только в канун Нового Года, но и в самые обычные дни. Попробуем и мы сегодня сотворить маленькое, но настоящее чудо, а именно, научим ICQ говорить. Переходим к практике. Здесь основная сложность заключается в предварительной юстировке голосового движка, настройке громкости воспроизводимого им звука, регулировке скорости и тона речи. Основная цель - избавиться от китайского акцента, свойственного большинству синтезаторов речи. Экспериментируйте, настраивайте, пробуйте. До кучи рекомендуем накачать побольше разнообразных движков с мужскими и женскими голосами, а также поиграться с дополнительными словарями орфоэпии. Добившись более-менее сносного звучания, можно приступать к непосредственной работе с утилитой. Предусмотрены два варианта: запуск "говорилки" параллельно с видеоплеером или предварительная конвертация субтитров средствами программы в WAV-файл для последующего фонового воспроизведения при просмотре фильма. При формировании собственной звуковой дорожки из субтитров обратите внимание на наличие функции сдвига голоса. Она пригодится для точной синхронизации сгенерированной речи с репликами персонажей в фильме. Кроме того, обязательно убедитесь в наличии свободного места на жестком диске компьютера, достаточного для размещения увесистого WAV-ролика. На этом все. Пробуем и не забываем отписывать о результатах практического применения и тестирования ABM Subtitles Reader в наш форум (жмите "Обсудить" в конце заметки). |
Сообщ.
#22
,
|
|
|
Цитата Озвучивание субтитров оригиналы, блин. Озвучивать плохой перевод плохим голосом - это из области современного искусства, которое кучу говна называет перфонмансом. Кроме того, часто субтитры намеренно вводят для сохранения оригинальной озвучки (пусть она и на другом языке). |
Сообщ.
#23
,
|
|
|
Закончился Blizzard Challenge 2006 - соревнование, посвящённое синтезу речи из ограниченного набора речевого материала. Результаты и статьи можно посмотреть здесь:
http://festvox.org/blizzard/blizzard2006.html |
Сообщ.
#24
,
|
|
|
http://science.compulenta.ru/292644/
Разрабатывается новая система автоматического перевода 30 октября 2006 года, 14:35 Текст: Владимир Парамонов Американские исследователи из Университета Карнеги-Меллона (Питсбург, штат Пенсильвания) разрабатывают новый программно-аппаратный комплекс для перевода речи с одного языка на другой в режиме реального времени. Особенность системы заключается в том, что она может регистрировать фразы, которые даже не были произнесены вслух. Как сообщает New Scientist Tech, работа комплекса основана на использовании специальных электродов, регистрирующих электрические импульсы, посылаемые на мышцы лица и языка. Эти импульсы затем преобразовываются в текст, который после перевода на нужный язык воспроизводится синтезированным голосом. Таким образом, для того чтобы сказать фразу, например, на испанском, пользователю достаточно просто проговорить её про себя на своем родном языке. Учёные, проводящие исследования под руководством Тани Шульц, отмечают, что новая система автоматического перевода будет лишена недостатков, присущих большинству аналогичных комплексов. Пользователям не придется говорить фразы вслух, что теоретически должно упростить процесс общения между иностранцами. В прошлом году специалисты продемонстрировали прототип системы автоматического перевода, способной распознавать по электрическим сигналам около ста слов на китайском языке и преобразовывать их в английские и испанские варианты. Новая модификация комплекса сможет распознавать практически неограниченное количество слов. Секрет системы заключается в том, что она регистрирует фонемы, на основании которых затем восстанавливаются сами слова. Впрочем, пока работа над комплексом далека от завершения. Точность распознавания незнакомых слов составляет около 60 процентов, чего недостаточно для качественного перевода. |
Сообщ.
#25
,
|
|
|
http://www.speechrecognition.ru/
English version Контакт РАСПОЗНАВАНИЕ РЕЧИ В результате исследований, группой российских энтузиастов найдена уникальная технология распознавания речи и перевода ее в символьное представление (текст). В отличие от подходов, применяемых другими разработчиками, удалось впервые найти алгоритм идентификации каждого отдельного звука. Полученные результаты настолько фундаментальны, что полностью объясняют принципы распознавания звуков и делают все остальные исследования в данной области просто ненужными. Беремся утверждать, что задача решена полностью. Реализованный алгоритм обработки позволяет распознавать речь любого диктора независимо от пола, возраста, тембра голоса (т.е. не требует обучения и настройки на конкретного диктора). Так как в алгоритме использован принцип определения каждого отдельного звука, то это позволяет легко решить проблему распознавания слитной речи. С применением дополнительного алгоритма обработки. Кроме того, алгоритм распознавания нечувствителен к шумам и способен работать на любой самой дешевой типовой аппаратуре (микрофоны, динамики, звуковые платы и т.д., в том числе с телефонной линии) до предела помех, при которых даже человек не способен нормально распознать голосовую информацию. Данный подход (алгоритм) применим к любому языку мира, с сохранением указанных критериев, и позволяет разом решить все проблемы, стоящие сегодня перед разработчиками голосовых технологий, так как удалось найти самые фундаментальные принципы распознавания речи. Изучение интернетовских новостей показывает, что подобный подход пока не используется ни где в мире. СМЫСЛОВАЯ ОБРАБОТКА ТЕКСТОВ И РЕЧИ Кроме алгоритма распознавания речи и перевода ее в текст, разработан алгоритм смысловой обработки текста. Этот алгоритм позволяет производить разбор любого текста на любом естественном языке и после преобразования, складывать информацию в базу данных (БД) определенной структуры. И точно также, в обратном порядке, получив какой-либо вопрос на обычном естественном языке, извлечь из БД нужную информацию и построить ответ по правилам естественного языка. На базе данного алгоритма можно построить информационную базу данных, куда собрать всю, наиболее полезную, информацию из интернета и других доступных источников. Так как любая информация будет располагаться в базе только один раз, это не потребует огромных технических ресурсов. При работе с такой базой, уже не надо будет перерывать сотни ссылок, которые выдаются в ответ на ключевые слова. Достаточно будет задать вопрос обычным языком: «Какой телефон имеет фирма такая-то?» «Как доказывается теорема Пифагора?» «Каковы характеристики микросхемы такой-то?» и т.д. На каждый вопрос системой (алгоритмом) будет выдан именно конкретный ответ и только один. При недостатке информации или неоднозначности ответа возможно задание встречных вопросов. Например, если окажется две и более фирм с одинаковым названием, последует вопрос - какая именно фирма интересует. Как предполагается, после создания такой справочной системы, нынешний интернет очень сильно изменится. Там останется только информация наподобие домашних страничек. В любом случае, временные затраты на поиск информации в нынешней сети и обращение к единой справочной системе совершенно несоизмеримы. Особенно если будет возможность задать вопрос просто голосом. В том числе даже по телефону. И точно так же по телефону получать ответы. Работа алгоритма настолько осмысленна и приближена к работе оператора-человека, что пользователь даже не сможет определить, что ведет «разговор» с компьютером. Особенно, если диалог ведется в устной форме. Совместный запуск этих двух проектов даст исключительное конкурентное преимущество, как минимум, на несколько лет. С запуском такой системы вся борьба между поисковиками прекратится. Тот, кто первым запустит такой проект, станет ведущим поисковиком в мире. Готовность обеих задач составляет около 70%. Предлагаем принять финансовое участие в окончании разработок, проведении тестовых испытаний и отладке, а также рассмотреть вопрос дальнейшей покупки программы или совместного ее использования. Готовы рассмотреть любые формы сотрудничества. |
Сообщ.
#26
,
|
|
|
Проект FestLang рад сообщить о выходе нового голоса для синтезатора Festival. Голос доступен для скачивания
http://developer.berlios.de/projects/festlang/ подробности можно узнать на странице, там же можно скачать образец синтеза http://festlang.berlios.de/docu/doku.php?id=russianru Новый голос благодаря технологиям HMM при небольшом объёме исходных данных (500 Кб) позволяет получить натуральное качество синтеза. |
Сообщ.
#27
,
|
|
|
http://www.compulenta.ru/295468/
Panasonic представляет телефон DECT c функцией передачи звука через костную ткань 20 ноября 2006 года, 14:32 Компания Panasonic – общепризнанный лидер в производстве телефонов стандарта DECT – представляет новинку российского рынка - Виброфон (телефон с функцией передачи звука через костную ткань). Это единственный в России "социальный" телефон, он разработан для слабослышащих людей, открывает утраченные возможности общения и помогает им чувствовать себя полноценными членами социума. По данным исследования, проведенного компанией Panasonic, люди с частичной потерей слуха обычно испытывают трудности в общении по стационарному телефону: они не всегда слышат вызывающий звонок телефона – и делают его заметно громче, им плохо слышно собеседника – и они вынуждены часто переспрашивать и пр. Все это ведет к проблемам в семье, на работе, с окружающими. При этом, как правило, слабослышащие люди стараются не акцентировать внимание на своих проблемах и не воспринимают их как болезнь. Компания Panasonic предлагает собственное решение – Виброфон (Panasonic DECT KX-TG7175RU) с технологией передачи звука через костную ткань. Это новый телефон, который выглядит практически так же, как и любой другой аппарат стандарта DECT, но обладает особенностью, делающей его незаменимой для слабослышащих людей. Виброфон включает в себя специальную мембрану, которая генерирует вибрацию сразу во внутреннем ухе. Данная схема передачи сигнала не задействует внешнее и внутреннее ухо и позволяет подавать его непосредственно на слуховой нерв. По этой причине телефон может быть особенно полезен людям с кондуктивным и смешанным типами ослабления слуха. Людям с сенсоневральным типом телефон не подойдет по той причине, что ослабление слуха у них связано с функционированием слухового нерва. Вместе с тем, виброфоном может пользоваться любой член семьи вне зависимости, есть ли у него проблемы со слухом или их нет. В аппарате предусмотрено отключение специальной мембраны, после чего звук будет передаваться через динамик трубки, а его громкость при этом можно увеличить или уменьшить. Общение посредством Виброфона ничем не отличается от использования любого другого телефона, за исключением того, что трубку рекомендуется прижимать не к ушной раковине, а к кости за ухом. Все остальные функции соответствуют ведущим моделям такого же класса с учетом того, что пользоваться таким телефоном должно быть комфортно любому человеку. По этой причине Виброфон оснащен большим матричным дисплеем, крупными, хорошо заметными кнопками, удобным джойстиком, простым и интуитивно понятным меню. Отличительной особенностью модели является также наличие светового индикатора, который позволит "увидеть" входящий звонок, а также регулировка громкости звонка. Среди "стандартных" функций телефона необходимо отметить наличие российского АОНа (Caller ID), возможность принимать и отправлять SMS (если услуга предоставляется оператором), увеличенную продолжительность работы в режиме ожидания (до 150 часов) и разговора (до 10 часов) и пр. Компания Panasonic следует девизу "Идеи для жизни", будучи уверена, что новый "социальный" телефон облегчит жизнь миллионам людей в мире в целом и в России в частности. В связи с появлением такого телефона на российском рынке компанией Panasonic планируется широкомасштабная социальная кампания, в рамках которой Виброфоны будут безвозмездно переданы в лечебные учреждения, поликлиники. Все желающие на приеме у врача смогут опробовать такой аппарат в действии, проконсультироваться с врачом, насколько целесообразно его приобретение. Кроме того, протестировать телефон можно в фирменных магазинах электроники компании Panasonic – Panasonic ideaplaza в ТЦ "Горбушка", "Черемушки" (в Москве), а также у партнеров компании Panasonic. В розничной продаже телефон появится в декабре 2006 года по цене около 5000 рублей. По вопросам предоставления дополнительной информации или продуктов на тесты, пожалуйста, обращайтесь в РА "Приор", осуществляющее пресс-обслуживание компании Panasonic CIS (OY). |
Сообщ.
#28
,
|
|
|
http://soft.compulenta.ru/296265/
Для профилактики преступлений голландские полицейские используют голосовой анализатор 24 ноября 2006 года, 09:35 Текст: Георгий Мешков Власти голландского города Гронингена нашли новый способ профилактики преступлений и массовых беспорядков. К многочисленным камерам наблюдения, установленным на улицах города, были прикреплены микрофоны, сигнал которых анализирует специализированное программное обеспечение. Программа призвана по голосу находящихся в пределах досягаемости микрофона людей определять агрессивно настроенных горожан. Инициатива властей уже помогла полиции задержать троих преступников, находившихся в розыске. Аналогичная технология используется онлайновым сервисом Gracenote, который позволяет по отрывку музыкальной композиции определить название трека и альбома, имя исполнителя и прочие данные. Гортань агрессивно настроенного человека во время разговора напряжена больше, чем обычно, и при анализе спектра хорошо заметны искажения, что позволяет определить потенциального хулигана, отмечает автор проекта Петер Ван Хенгель из компании Sound Intelligence, сформированной специалистами Гронингенского университета. Профессор подчеркивает, что вероятность ошибки минимальна, поскольку сымитировать агрессию в голосе довольно трудно. Система анализа голоса в настоящее время также проходит тестирование на улицах Роттердама, на нескольких железнодорожных станциях и в крупных гостиницах, сообщает New Scientist Tech. |
Сообщ.
#29
,
|
|
|
http://inauka.ru/news/article69872?subhtml
ИССЛЕДОВАТЕЛИ УЗНАЛИ, О ЧЕМ ГОВОРИЛ ГИТЛЕР В НЕОФИЦИАЛЬНОЙ ОБСТАНОВКЕ Разработанная британским ученым программа распознавания речи ALR позволила исследователям узнать, о чем говорил Адольф Гитлер, когда его снимала на кинокамеру его любовница Ева Браун. Большинство из "домашних видео", на которых запечатлен Гитлер, не озвучены, и до недавнего времени было неизвестно, о чем же говорил лидер нацистской Германии в неофициальной обстановке. Благодаря ALR исследователи смогли услышать, как Гитлер призывает детей к выбору военной карьеры, критикует своих ближайших соратников, рассказывает о своей любви к кино и, в частности, к Микки Маусу, флиртует с Евой Браун и даже пытается шутить над своими гостями. ALR расшифровывается как "automated lip reading", то есть "автоматическое чтение по губам". Эта программа следит за движениями губ, преобразует их в звуки и сопоставляет эту информацию с содержащимися в словаре словами. Кроме шуток Гитлера, ALR позволит озвучить немые фильмы, так как для программы не составит особого труда расшифровать высказывания запечатленных на кадрах людей. Об этом сообщает Lenta.ru со ссылкой на The Telegraph. |
Сообщ.
#30
,
|
|
|
http://gadgets.compulenta.ru/297755/
Мобильные телефоны Pantech читают SMS вслух 05 декабря 2006 года, 10:21 Текст: Наталья Дембинская Новые мобильные телефоны Pantech могут озвучивать текст сообщения, присланного по SMS или электронной почте, сообщает eWeek. Аппараты оснащены технологией RealSpeak Mobile SF, разработанной компанией Nuance Communications. RealSpeak поддерживает больше двадцати языков, в том числе и русский, и может воспроизвести сообщения тридцатью разными голосами. Эта программа присутствует в моделях PG-6200, PG-8000 и PG-3700, которые уже продаются в России. В Pantech считают, что сотрудничество с Nuance Communications позволит оснастить выпускаемые телефоны отличительными инновационными функциями, а также расширить присутствие на мировом рынке. Решения Nuance используют более 30 производителей мобильных телефонов и карманных компьютеров. В общей сложности, по подсчетам самих разработчиков, их программы встроены примерно в 50 миллионов устройств. Основными преимуществами технологии RealSpeak Mobile SF в Nuance называют ее низкую себестоимость, простоту в использовании и легкую интегрируемость. Добавлено http://www.cnews.ru/news/line/index.shtml?2006/12/05/227041 Лингвисты раскрыли загадку музыкальных предпочтений Наука 05.12.06, Вт, 14:57, Мск Версия для КПК Читайте также: Секрет скрипок Страдивари: новая версия Объем продаж в магазине музыки МТС составил 1 млн. композиций Группа американских и японских ученых доказала, что родной язык влияет на характер восприятия музыки и других звуков, сообщает EurekAlert. Д-р Джон Иверсен (John R. Iversen) и его коллеги из института нейробиологии в Сан-Диего и д-р Кенго Огуши (Kengo Ohgushi) из Киотского университета тестировали носителей американского английского и японского языков. В ходе тестирования испытуемым предлагалось прослушать последовательности звуков, меняющихся по длительности (длинный – короткий - длинный - короткий) или по громкости (громкий – тихий – громкий - тихий) и выделить повторяющуюся группу звуков. Ранее считалось, что слушатели выделяют группы, начинающиеся с громкого звука, и группы, начинающиеся с короткого звука. Эти правила считались универсальными. Однако ученые доказали, что эти правила верны только для людей, говорящих на английском и других европейских языках. В ходе нового исследования выяснилось, что и носители английского языка, и люди, говорящие на японском, одинаково выделяли из последовательности звуков, меняющихся по громкости, повторяющуюся группу звуков - «громкий-тихий». Однако при прослушивании последовательности звуков, меняющихся по длительности, результаты значительно различались. Носители японского языка, в основном, выделяли группу «длинный - короткий», а большинству носителей английского языка наоборот слышалась чередующаяся последовательность звуков «короткий - длинный». По мнению ученых, это расхождение возникает из-за различного порядка слов в английском и японском языках. В английском языке короткие служебные слова (артикли и частицы) ставятся перед длинным словом (существительным или глаголом), а в японском языке наоборот, короткие слова-указатели стоят после длинных существительных. Ученые считают, что, анализируя структуру родного языка человека, можно предсказать, каким образом он воспринимает звуковой ритм. |
Сообщ.
#31
,
|
|
|
Вышла новая база русского языка. 800 предложений, женский голос. Список предложений подобран из большой выборки текста по частоте вхождения слов. Размечено с помощью HMM.
ftp://ftp.berlios.de/pub/festlang/ru-corpus.tar.gz - скрипты для создания списка ftp://ftp.berlios.de/pub/festlang/festvox_msu_ru_nsh_backup.tar.gz - база |
Сообщ.
#32
,
|
|
|
К беседе с ABBYY на первой странице:
Очень интересно. Только с диктофоном пример плохой. Человеческая речь приблизительно в 10 раз избыточна по частотной составляющей и в 10 раз - по амплитудной. Поэтому в чистом случае 1 % информации достаточно, чтобы понять (а не расшифровать) 100 % информации. Это проверялось экспериментально. А если речь идет о расшифровке - значит, дошли уже доли процента исходного физического сигнала. Всегда стоит помнить, чот та информация, которую мы получаем от органов чувств - избыточна в колоссальной степени для идентификации объекта или распознавания сигнала. Взято из того же источника. Нет, пока, мат. аппарата для работы с речью, как и с любым волновым процессом (имеется в ввиду естественным) |
Сообщ.
#33
,
|
|
|
Япония: пульт ДУ больше не нужен
Цитата Пульт управления телевизором может стать пережитком прошлого уже в самое ближайшее время. Специалисты японского института разработки передовых технологий смогли создать систему, позволяющую управлять телевизором с помощью голосовых команд. |
Сообщ.
#34
,
|
|
|
http://www.cnews.ru/news/line/index.shtml?2006/12/22/229576
"Ганза-Консалтинг" выпустила прототип системы распознавания речи Новгородская компания «Ганза-Консалтинг» выпустила прототип системы распознавания речи. В данный момент он распознает 30 заранее определенных слов на немецком языке без предварительного обучения человеком (дикторонезависимо). При проведении исследования привлекаются ученые и сотрудники Новгородского государственного университета и Северного филиала российского государственного университета инновационных технологий и предпринимательства а также студенты-дипломники. Выпуск прототипа предназначен для начала интенсивного тестирования с целью улучшения качества распознания. Конечная цель работ состоит в получении метода, правильность которого близка к 100% независимо от особенностей голоса говорящего. |
Сообщ.
#35
,
|
|
|
Ford и Microsoft разрабатывают автомобильный софт
Цитата Компании Ford и Microsoft приступили к разработке принципиально нового программного обеспечения для автомобилей, которое будет воспринимать голос водителя и на основании голосовых команд выполнять те или иные действия, например, включать радио, воспроизводить музыку, хранящуюся в памяти автомагнитолы, или активировать функцию встроенного мобильного телефона. По словам представителей Microoft, новое ПО Sync будет предустановлено на более чем десятке различных моделей Ford, начиная с 2008 года. К 2009 году Sync будет устанавливаться на другие бренды Ford, включая американские Mercury и Lincoln. Финансовые подробности сотрудничества компании не раскрывают, но в Microsoft говорят, что придают данному рынку огромное значение, так как Ford является вторым по величине автопроизводителем в мире и количество продаваемых автомобилей очень существенно. Напомним, что на сегодня ПО Microsoft присутствует в некоторых автомобилях, однако оно выполняет довольно примитивные функции и, например, обеспечение Bluetooth-связью мобильные телефоны и электронные системы автомобиля. Кроме того, в Microsoft говорят, что в будущем планируют производить массовое ПО для домашних и офисных устройств. |
Сообщ.
#36
,
|
|
|
http://www.cnews.ru/news/line/index.shtml?2007/01/29/233209
Midomi: голосовая поисковая система Новая поисковая система Midomi предоставляет возможность поиска песен и музыки по напеву, сделанному посетителем с микрофона. Система также позволяет искать обычным способом и имеет функции социальной сети: на сайте можно оставить информацию о своих музыкальных вкусах. Midomi использует технологию MARS — «Мультимодальную адаптивную систему распознавания», разработанную корпорацией Melodis. MARS анализирует каждый элемент звука отдельно и адаптирует его под узнаваемые составляющие из базы данных. Компонент социальных сетей позволяет пользователю создать профиль, в котором можно оставить напевы своих любимых песен, обменяться ими с другими пользователями и добавлять в поисковую базу данных. Здесь можно также оценивать других пользователей, просматривать их фото и обмениваться письмами. Ранее в январе на рынке появилась голосовая поисковая система Nayio. Компания VentureBeat протестировала обе системы и заключила, что алгоритм Midomi более совершенен. |
Сообщ.
#37
,
|
|
|
http://pcweek.ru/?ID=622198
23 января, 2007 Диалоги с клиентом Родион Насакин В состав практически любого ПО для работы контакт-центра, представленного на рынке, сегодня входит инструментарий для создания IVR-меню. В свое время подобный софт, который позволял снять с операторов часть нагрузки, введя режим голосового “самообслуживания” за счет последовательного нажатия телефонных клавиш, казался крайне удачной интерактивной технологией. После того как IVR получила широкое распространение и стала встречаться в контакт-центрах большинства мало-мальски крупных компаний, оказалось, что, несмотря на сокращение времени ожидания звонящим, это решение нельзя назвать панацеей. Внимая собеседнику Практика использования IVR-решения выявила целый ряд проблем. Клиент отказывался слушать фоновую мелодию больше минуты-другой в ожидании ответа системы, не хотел тратить время и на прослушивание автоответчика, добираясь до нужной функции (например, перехода на другой тариф или пополнения баланса) через многоуровневое разветвленное меню. Довольно часто звонящий в таких случаях выбирает из двух зол меньшее и сразу переводит вызов на оператора. Как следствие, IVR становится неэффективным, а средняя стоимость обработки вызова возрастает. Так что вполне можно было ожидать, что технологический прогресс в этой сфере на IVR не остановится и в скором времени вендоры контакт-центров предложат более совершенные решения по обработке вызовов. Наиболее вероятные преемники IVR — средства распознавания речи, которые позволяют системе вычленить в репликах дозвонившегося ключевые фразы и в соответствии с настроенными алгоритмами предпринять необходимые действия. Разумеется, подобные решения не могут на начальном этапе своего развития полностью заменить оператора (да и не факт, что такая интеллектуальность будет когда-либо достигнута), но возможность распознавания типичных запросов, составляющих львиную долю обращений в контакт-центр, позволяет резко сократить нагрузку на сотрудников. Распознавание речи и преобразование текста в речь (TTS, text-to-speech) является одной из ключевых составляющих концепции универсальной обработки сообщений (Unifies Messaging, UM), которую сейчас рассматривают в качестве стратегического вектора развития практически все ведущие поставщики оборудования и ПО контакт-центров. Работу над программным инструментарием распознавания речи ведут несколько компаний, но до технологического уровня, достаточного для коммерческой эксплуатации (т. е. около 2% ложных срабатываний, которые можно нивелировать конфигурированием системы), пока доведено не так много решений. В частности, среди преуспевших в деле распознавания и синтезе человеческой речи можно отметить компании Nuance (использует наработки купленной ScanSoft) и IBM (WebSphere Voice Server), чьи технологии уже начали лицензировать вендоры контакт-центров. Разработки IBM позволяют проводить распознавание и синтез речи, а решение ScanSoft, кроме того, также поддерживает идентификацию голоса и диалоговые элементы Open Speech. Конечные решения на базе подобных технологий уже являются флагманами новых продуктовых линеек у лидеров рынка -- Avaya, Cisco, Nortel, Siemens и др. Несмотря на все преимущества систем речевого самообслуживания, очевидно, что многие потенциальные заказчики не готовы кардинально менять уже имеющуюся инфраструктуру в силу финансовых затрат и потенциальных технических проблем при развертывании новых решений. Поэтому вендорам приходится обеспечивать совместимость со своими ранними линейками продукции и разрабатывать механизмы внедрения новых сервисов на основе уже существующей технологической базы. В результате такого технологического симбиоза появляются новые возможности как на этапе обслуживания вызовов, так и при их маршрутизации. Наиболее часто приводимый пример — оценка целесообразности перевода клиента из системы самообслуживания на оператора. Определение происходит в результате анализа клиентского набора параметров: категории клиента, данных по его транзакциям и ценности для компании, персональных предпочтений, истории предыдущих обращений и т. д. В качестве еще одной особенности новых продуктов можно отметить их частую интеграцию в составе единого решения с приложениями IP-инфраструктуры — другого приоритетного направления разработок вендоров. Использование открытых промышленных стандартов, лежащих в основе построения IP-сетей, таких как VoiceXML или MRCP, делает системы речевого самообслуживания более гибкими и масштабируемыми за счет отделения прикладной части от аппаратной платформы. Кроме того, этот подход дает ряд других преимуществ. Так, стандарт VoiceXML позволяет осуществлять доступ к одним и тем же сервисам и БД и по голосовой связи, и через Интернет, что резко упрощает базовую ИТ-инфраструктуру контакт-центра, параллельно расширяя потенциал развития сервисов. В качестве еще одного достоинства открытых стандартов следует отметить возможность интеграции систем с платформами от других разработчиков, т. е. отсутствие привязки к конкретному вендору. И все же основной побудительный мотив для развертывания систем речевого самообслуживания состоит в том, что они не требуют расширения штата операторов при наращивании объема услуг. Да и при сохранении текущего объема работы ROI получается весьма внушительным. Например, стоимость обработки оператором одного обращения в службу технической поддержки составляет от 3 до 7 долл. При обслуживании соответствующей системы сумма сокращается до 1—2 долл. без снижения качества обслуживания и лояльности клиентов. При этом функциональность решений постоянно растет, и современные приложения на базе распознавания речи позволяют в автоматическом режиме ответить не только на сравнительно простые клиентские запросы, например о проверке состояния заказов или местонахождении компании, но и более сложные, такие как смена адреса клиента или изменение пользовательского пароля. Функциональность Первые образцы систем уже доступны отечественным заказчикам. В частности, недавно компания Avaya объявила о локализации своего решения Open Speech Recognizer (OSR) и начале его продвижения в России. В основе продукта лежат технологии распознавания ScanSoft, которые уже применяются более чем тысячей компаний по всему миру. Ниже на примере этого решения будут рассмотрены принципы работы, а также техническая и бизнес-функциональность подобных систем. Заявленная разработчиками точность распознавания речи в OSR составляет 98% правильных ответов для англоязычных запросов (понятно, что по русскоязычным пока статистики нет). Помимо этого показателя системы также характеризуются величиной относительного сокращения ошибок (Relative Error Rate Reduction, RERR) в результате самообучения, которая у данного продукта достигает 15—20% ежегодно. Рис. 1. Архитектура OSR Среди основных свойств OSR (см. рис.1) можно отметить определение начала и конца реплики собеседника, умение отличать паузы от завершения фразы, реакцию на перебивание собеседником голосового сообщения системы, отсеивание посторонних шумов, своевременную подачу ответной реплики (так называемый живой отклик, responsiveness) и анализ речи произвольного содержания (естественный язык, natural language). Кроме того, в OSR поддерживается распознавание многоязычной речи, что разработчики считают существенным достоинством, утверждая, что, например, в Северной Америке клиенты зачастую перемежают свою английскую речь французскими или испанскими словами. Распознавание перебивания (barge-in) на практике обычно необходимо для того, чтобы звонящий мог остановить перечисление системой возможных действий, услышав то, что ему необходимо. Выглядит это примерно следующим образом. Система: Вас приветствует справочная служба авиакомпании Х. Вы можете узнать расписание рейсов, заказать билет, изменить… Клиент: Заказать билет. Получив команду, система сразу переходит к меню резервирования, прервав свою реплику. В рассматриваемом продукте поддерживаются и такие возможности, как распознавание реплик, обращенных к службе при параллельном разговоре собеседника по телефону и еще с кем-либо лично. То есть система прервет свой разговор и примет команду только в том случае, если по результатам анализа ключевых слов в брошенной клиентом фразе выяснит, что данный речевой фрагмент предназначался ей. Разумеется, точность оценки и соответственно уровень удовлетворения звонящего во многом зависит не только от технологических возможностей продукта, но и от качества составленного специалистами компании тезауруса нужных фраз. Умение отличать речь от посторонних звуков также немаловажно для эффективной работы системы, причем с каждым годом этот фактор становится все более и более актуальным по мере увеличения количества вызовов с беспроводных телефонов и, как правило, из более шумных мест, например с улицы. Помимо программных алгоритмов отсева не относящихся к беседе звуков в OSR используются фильтры, основанные на спектральном вычитании. Данные устройства определяют общий уровень шума (в частности, создаваемого проезжающими машинами) “в трубке” и вычитают его из общего сигнала, оставляя сравнительно чистую речь. Качество реализации “живого отклика” — следующий по значимости параметр после точности распознавания, так как удовлетворенность клиента во многом зависит именно от него. По окончании фразы собеседника система выжидает около двух секунд (CPL, caller perceived latency), чтобы убедиться, что тот действительно прекратил речь, распознать и проанализировать поступившие данные, после чего исполняет команду и сообщает подходящий ответ. Как утверждают в Avaya, и большая задержка (более двух секунд), а слишком быстрая реакция вызывают психологический дискомфорт у клиента. Лингвистические технологии Поддержка естественного языка позволяет существенно расширить функциональность системы, так как дает возможность внедрять более сложные сервисы. К таковым, например, относится обращение пользователя в службу технической поддержки с описанием возникшей проблемы. Без естественного языка для реализации этого функционала необходимо создать крайне разветвленное голосовое меню, через которое система будет пошагово сужать круг предполагаемых неполадок. В силу корпоративной специфики пользовательские проблемы могут быть самыми разнообразными, и зачастую сделать соответствующее меню просто не удается. В то же время с использованием естественного языка система может анализировать описание клиента, сделанное в произвольной форме, вычленяя ключевые слова и задавая наводящие вопросы по возникающим предположениям. Таким образом, вместо многочисленных уточнений в меню пользователь ведет менее утомительные разветвленные диалоги. Рис. 2. Схема работы SpeakFreely В OSR эта функциональность реализована в модуле SpeakFreely с задействованием статистических моделей -- лингвистических и семантических (SLM и SSM соответственно). Система определяет вероятность той или иной проблемы у звонящего в ходе диалога с постепенным повышением точности прогноза по мере приобретения опыта. Процесс обработки данных отображен на рис. 2. Кроме того, в OSR можно задать правила для выделения семантически значимых фраз при распознавании, которые позволяют улавливать смысл речи, не прописывая в словаре все возможные словесные формы. Например, система поймет просьбу клиента об изменении своего адреса в базе, озвученную произвольными словами, а не четкой формулировкой. Говоря об обучаемости OSR, необходимо отметить также реализованную в продукте запатентованную технологию LEARN, позволяющую приспособить акустические модели к типичным рабочим условиям: стандартный уровень шума, диалект большинства клиентов и т. д. -- без вмешательства операторов. В частности, в Avaya утверждают, что использование LEARN в работе одного из австралийских телекомов позволило довести RERR до 24,7%. Среди используемых в OSR лингвистических решений можно выделить несколько перспективных технологий, позволяющих ускорить процессы преобразования текста в речь и обратно, а также их анализа. Прежде всего это относится к FST (Finite State Transducer) — конечному преобразователю текста. После того как речь переводится в текст, написанный на естественном языке, нужно построить над ним соответствующую структуру, создать семантическую сеть, отражающую смысл текста. Выглядит это следующим образом. По ключевым словам формируется определенная первичная структура с кусками текста в качестве базовых элементов. Если для понимания смысла ее на этом уровне недостаточно, над начальной структурой “возводится” следующая и т. д. — пока не будет достигнут необходимый порог. При этом для построения структуры текста необходимо выбрать какой-нибудь способ ее описания. Для этого используются так называемые формализмы, задающие соответствие между отрезками текста и смысловыми объектами. В компьютерной лингвистике существует целая классификация формализмов, в том числе порождающие грамматики, расширенные сети переходов (ATN, Augmented Transition Networks), формализмы, основанные на шаблонах, и, наконец, FST. За счет конечных преобразователей OSR может работать с очень большими грамматиками (набором допустимых словоформ), включающими более 1 млн. слов, так как формализмы позволяют оптимизировать работу с памятью, снижают количество вычислений, одновременно улучшая компиляцию грамматики и время загрузки. Задача FST — удаление избыточности из грамматик с сохранением начального смысла в меньшем объеме памяти. По данным разработчика, за счет преобразователей грамматика в 40 тыс. слов может быть сокращена со 170 до 15 Мб. Также для оптимизации производительности в OSR используют динамическое связывание грамматик, которое позволяет комбинировать различные куски текста во время интерпретации. Алгоритм работы аналогичен тому, как ОС использует отдельные DLL-библиотеки для быстрой загрузки и обновления части программы. Через динамическую связку также по мере необходимости добавляются словари к уже собранной грамматике. Оптимизация и оценка эффективности Главную сложность при настройке систем распознавания речи представляет разработка мер по предупреждению возможных ошибок и адекватная установка порогов “неправильности”. Каким бы совершенным ни был речевой движок, программа может не понять (или понять неправильно) какие-то слова, а также пропустить значимое слово в фразе. Наиболее результативным способом профилактики можно назвать изменение произносимого системой текста при переспросе. То есть если приложение не смогло с первого раза понять ответ клиента, например, из-за сильных помех по линии, то она должна задать тот же вопрос, но другими словами. Это существенно способствует сокращению переводов звонков на “живых” операторов по инициативе клиента. Можно привести два примера диалогов для стандартной и оптимизированной настройки соответственно. Система: Назовите ваш адрес. Клиент: Рязанский проспект, дом 8. Система (не распознав ответ): Назовите ваш адрес. В этом случае клиент может посчитать, что система не работает, и перейти на оператора, а то и вообще бросить трубку. Однако ситуация меняется, если построить диалог другим образом. Система:Назовите ваш адрес. Клиент: Рязанский проспект, дом 8. Система (не распознав ответ): Простите, вас плохо слышно. Пожалуйста, говорите громче. Назовите ваш адрес. Теперь клиент понимает, что его вызов принят, и к тому же он получил рекомендации для более корректной работы с системой. При этом ПО для распознавания речи работает не по бинарному принципу понятно/непонятно. Вместо этого используется процентная шкала, характеризующая степень распознавания на каждом этапе диалога. И каждый последующий шаг системы зависит от полученного на предыдущем этапе значения. От пользователя требуется установить значения нескольких порогов. То есть если уровень “понимания” собеседника близок к 100%, то система продолжает вести диалог, а на каких-то промежуточных уровнях просит подтвердить или уточнить тот или иной момент в разговоре. В качестве количественных показателей эффективности системы рассматривают помимо количества обработанных звонков уровня распознаваемости и упомянутого в основном тексте RERR (для обучаемых систем) ряд других параметров. Во-первых, это степень риска — отношение количества клиентов, выбравших разговор с системой вместо оператора, к общему числу позвонивших в компанию. Во-вторых, это уровень отказа от общения — количество прерванных звонков. В-третьих, это средняя продолжительность звонка, которая после внедрения системы должна сократиться. Стандарты систем распознавания речи VoiceXML Язык VoiceXML предназначен для разработки Web-ориентированных голосовых сервисов, прежде всего для контакт-центров на базе IP. Стандарт был разработан семь лет назад специалистами группы VoiceXML Forum, включавшей 44 корпорации из телеком-отрасли. В настоящее время совершенствованием технологии занимается консорциум W3C. Для сертифицирования продуктов на соответствие стандарту вендоры привлекают независимых аудиторов. Главным достоинством языка является независимость сервисных приложений от платформ в IP-телефонии. Область применения языка очень широка. В частности, ряд интернет-компаний даже использует сервисы на базе VoiceXML для подтверждения заказов и идентификации клиентов по голосу. В декабре 2005 г. W3C объявил о завершении работ над третьей версией VoiceXML. В ней предусматривается расширение функциональных возможностей языка Speech Synthesis Markup Language (SSML), позволяющего управлять синтезированной речью с помощью множества параметров (от высоты звука до произношения), на ряд новых языков, в том числе китайский, японский и корейский. В OSR пока применяется VoiceXML 2.0, который позволяет упростить развертывание дополнительных приложений на базе стандарта. Однако продукт также может быть использован на платформах, не поддерживающих язык, поскольку решение непосредственно не интерпретирует VoiceXML и содержит в своем составе VoiceXML-браузер. MRCP Универсальный прикладной протокол для управления медиаресурсами — MRCP (Media Resource Control Protocol) был разработан для предоставления голосовым приложениям в VoIP-сетях доступа к службам медиасерверов через интерфейс API. В ноябре 2005 г. появилась вторая версия протокола, которая обеспечивала доступ службам распознавания голоса, синтеза речи и проверки подлинности голоса. MRCP базируется на Web-технологиях и может комбинироваться с другими медиапротоколами, например, RTSP — для передачи аудио- и видеопотоков в реальном времени. MRCP так же, как и VoiceXML, направлен на сокращение издержек и временных затрат при модернизации систем или развертывании новых приложений, а также независимость сервисов от выбранной платформы и ее производителя. Кроме того, медиасервер на MRCP позволяет параллельно эксплуатировать и по выбору использовать продукты разных производителей. SRGC Наряду с VoiceXML, W3C три года назад присвоил статус “рекомендуемой” спецификации SRGC (Speech Recognition Grammar Specification). Если VoiceXML представляет собой язык описания интерактивных голосовых Web-служб для синтеза, записи и распознавания речи, а также голосовых и DTMF-команд, то SRGS стандартизирует способы указания слов и шаблонов, на которые ориентируются системы распознавания. В настоящее время VoiceXML и SRGC подразумевают совместное использование и являются компонентами Speech Interface Framework, универсального набора языков разметки для интерактивных речевых приложений. SRGS позволяет описывать сопоставления результатов распознавания речи или тонового сигнала телефона действиям пользователя. |
Сообщ.
#38
,
|
|
|
Цитата botanik++ @ Нет, пока, мат. аппарата для работы с речью, как и с любым волновым процессом (имеется в ввиду естественным) Это точно нет, а столько дисеров почему-то во всем мире защищается, наверно все они аферюги и нас за лохов держат |
Сообщ.
#39
,
|
|
|
Цитата DimmK @ http://www.membrana.ru/lenta/?6485 Музыкальный слух оказался физиологическим явлением 10 баллов из 10!!! Очень интересно (просто музобразование есть), только сейчас прочёл! Хотя, всё-таки мне кажется это очень спорным. Например, неучто у Чайковского был слух относительный! А ведь он професскионально обучаться начал (не дома с мамой) в 22 года, поступив в консерваторию. А в детстве он, как помню, музыкой шибко много не занимался. Да и есть люди и не мало, с абсолютным слухом, кто не с малых лет музыкой занимается. |
Сообщ.
#40
,
|
|
|
Любую часть мозга можно развить: например после обследования Лондонских таксистов, выяснилось, что у них более развита часть мозга отвечающая за ориентацию на местности - таксистами не рождаются, а становятся
|
Сообщ.
#41
,
|
|
|
http://www.ixbt.com/news/all/index.shtml?07/78/21
IBM провозглашает «новую эру речевых технологий» Как утверждает компания IBM, успехи, достигнутые в ее лабораториях, способны сделать речевые технологии частью повседневной жизни. Фантасты и любители делать прогнозы развития техники давно твердят на разные голоса, что общение с компьютером и другими «электронными помощниками» при помощи наиболее привычного и развитого средства из арсенала человека – речи – является одним из ключевых элементов дальнейшего развития информационных технологий. Долгое время разработчики соответствующих средств пеняли на нехватку вычислительного ресурса; потребителям, имевшим опыт общения с программами для речевого ввода, быстро становились очевидны ограничения алгоритмов; и те и другие сходились на мнении, что до повсеместного внедрения речевых интерфейсов пока далеко. И вот, по словам IBM, время пришло. Представляя новые разработки в рамках ежегодного мероприятия IBM Speech Technology Innovation Day, компания констатировала, что речевые технологии готовы стать частью повседневности и отныне начинается этап их широкого внедрения. С IBM солидарны крупные компании, принявшие участие в презентации. Напомним, свой первый продукт для речевого ввода IBM представила десять лет назад. С тех пор многое изменилось, в частности, как утверждается, специалистам IBM удалось преодолеть ограничения, выявившиеся на ранних этапах разработки, такие, как влияние шумов и невозможность распознать особенности диалектов. В качестве первых масштабных примеров внедрения новой технологии были названы следующие проекты: Сотрудничество между IBM, Avoca Semiconductor и All Media Guide – одним из крупнейших поставщиков музыкального и развлекательного контента. Предполагается, что оно позволит задействовать речевые технологии IBM Embedded ViaVoice в функциях управления и поиска, реализуемых в развлекательных электронных устройствах. Компания Pioneer Electronics намерена включить технологию IBM Embedded ViaVoice в систему навигации AVIC-Z2. Кстати, система AVIC-Z2 станет первой, в которой будет использован электронный атлас Tele Atlas MultiNet, содержащий подробные цифровые карты Северной Америки и базу данных с 45 миллионами адресов в США. Совместная разработка IBM и Alpine Electronics – бортовой спутниковый навигатор NVE-N872A. Активируемые голосом функции этой системы высвобождают руки и внимание водителя, позволяя ему сосредоточиться на дорожной обстановке. Система поддерживает три языка - английский, испанский и французский. К сожалению, пока среди примеров применения разработок IBM отсутствуют системы на русском языке, однако, хочется верить, что появление продуктов, понимающих «великий и могучий», не за горами. |
Сообщ.
#42
,
|
|
|
http://www.point.ru/techno/2007/02/22/4617
Устройства, управляемые голосом. Новшества на рынке Хай-тек Ожидается, что рынок технологии распознавания речевых команд увеличится в четыре раза к 2010 году. Однажды каждым устройством, механизмом или компьютером можно будет управлять при помощи голоса. Очередное соревнование между человеком и компьютером прошло осенью 2006 года на конференции, посвященной новинкам в области технологии распознавания речевых команд. Человечество представлял 17-тилетний Бен Кук, внесенный в книгу рекордов Гиннеса как человек, быстрее всех в мире набирающий текстовые сообщения (смс). Компьютеры же представлял не сверхсовременный монстр, а вполне обычный мобильный телефон. Самое удивительное было в том, что аудитория, собравшаяся на конференции, жаждала победы...телефона. Кто быстрее преобразует предложение в текст на экране: быстрые пальцы Кука или элегантные алгоритмы новой речевой технологии от компании Nuance Communications? Тестовая фраза «Острозубые пираньи из семейств Serrasalmus и Pygocentrus считаются самыми свирепыми пресноводными рыбами в мире. На самом деле они редко атакуют человека» появилась на огромном экране проектора. Пальцы Кука бешено залетали над кнопками. Представитель Nuance Communications спокойно продиктовал фразу в микрофон мобильного телефона, и...Посетители конференции были ошеломлены. Технологии компании Nuance помогли распознать фразу и напечатать ее на экране мобильного телефона в виде текстового сообщения всего за...16 секунд! Куку потребовалось целых 48 секунд (на самом деле, нечеловеческая скорость набора), и он только и мог, что упавшим голосом повторять: «Я не понимаю, как вы это сделали!..» Они сделали это при помощи недавно разработанной технологии Mobile Dictation, которую собираются выпустить на рынок в первой половине 2007 года. Технология распознавания голосовых команд, появления которой ждали со дня на день, наконец-то громко заявила о себе. Усовершенствованный процесс распознавания, новый программный алгоритм и улучшенные микрофоны - вот что позволило корпорации Nuance создать систему, которая действительно работает и распознает голосовые команды с точностью до 100 процентов! Такие показатели создают головокружительный потенциал для роста рынка речевых технологий во многих отраслях жизни, начиная от управляемых голосом диктофонов и мобильных телефонов, и заканчивая автомобильными устройствами и военными радиопередатчиками. Размер рынка речевых технологий в 2006 году достиг 1 миллиарда долларов, увеличившись на 100% всего за два года. Внутри этого огромного рынка присутствуют более мелкие сегменты, к примеру, рынок речевых технологий для обслуживания информационно справочных служб, служб экстренной помощи и подобных услуг достиг в 2006 году показателя в 600 млн. долларов. Ожидается, что к 2009 году эти показатели удвоятся. Рынок речевых технологий, внедренных в мобильные телефоны или приборные доски автомобилей, на настоящий момент оценивается в 125 млн. долларов, а к 2010 году ожидается его удвоение до 500 млн. долларов за счет увеличения спроса на товары, управляемые голосовыми командами: мобильные телефоны, GPS-навигаторы в автомобилях, музыкальные плееры и пр. Многие эксперты склоняются к выводу, что вскоре технологиями распознавания речи будут оснащены практически все используемые человеком приборы. Резко выросший спрос на продукцию как компаний, уже зарекомендовавших себя на рынке речевых технологий, так и компаний-новичков, помогает им инвестировать свои капиталы. К примеру, в 2006 году Nuance приобрела компанию Dictaphone, чтобы усилить свое присутствие на рынке индустрии здравоохранения, в то время как продажи Nuance выросли на 20% и составили 300 млн. долларов. Новая операционная система компании Microsoft под названием Windows Vista была разработана с внедрением технологии распознавания речи, которую после серии досадных поломок и дефектов наконец отладили так, что теперь она заслуживает только восторженные рецензии экспертов. Известный Интернет-портал Google разрабатывает технологию, позволяющую совершать поиск при помощи речевых технологий. Таким образом, речевые технологии из необычного развлечения превращаются в серьезный бизнес. Точкой отсчета для развития речевых технологий стал 1952 год, когда исследователи из Bell Labs создали довольно примитивную систему, которая могла распознавать цифры, переданные голосом по телефону. С тех самых пор прогресса в этой области не наблюдалось, но теперь, с появлением значительно более мощных вычислительных компонентов, после многих лет проб и ошибок, система наконец-то научилась работать с огромным количеством акцентов, диалектов и дефектов речи. В 2004 году компания VoiceBox Technologies представила прототип разработанного ею устройства, который пришлось доставлять на место демонстрации в чемодане. Сегодня такая же система имеет размеры и толщину кредитной карты и вскоре будет установлена в приборной доске новой модели Toyota. Система VoiceBox настолько умна, что может анализировать речь в контексте всей фразы, чтобы, к примеру, понять, относится ли команда «трафик» к затруднению на дорогах, к музыкальному произведению Стива Винвуда или к фильму, в котором сыграл Майкл Дуглас. Современные системы распознавания речи отличаются высоким уровнем самообучения. Компания Tellme Networks создала систему, которую используют в информационных центрах. Платформа Tellme's за год распознает более 10 миллиардов слов и выражений и постоянно анализирует их, улучшая точность работы день за днем. «Распознавание речи полностью зависит от качества распознавания отдельных сегментов речи. Чем больше у вас данных, тем лучше работает система», - говорит исполнительный директор компании Джефф Кунинс. Технологии распознавания речевых команд становятся более ценными с точки зрения обслуживания клиентов. Информационные центры и службы поддержки давно пользуются дурной славой из-за навязшего на зубах «нажмите или произнесите цифру один» (наследие старых технологий распознавания речи). Но недовольство клиентов - это не единственный аргумент в пользу внедрения новых, современных технологий распознавания голосовых команд. Стоимость одного звонка в информационный центр составляет пять долларов, если с клиентом работал оператор, и всего пятьдесят центов, если клиент получил ответы на вопросы самостоятельно, используя новейшие технологии распознавания речи! Сетевой брокер E-Trade Financial использует технологию Tellme для обработки более чем 50 000 звонков в день. Более половины из них никогда не доходят до сотрудников-операторов на телефоне. Компания утверждает, что система Tellme помогает экономить 30 млн. долларов ежегодно. Пока рынок информационных центров и автомобильных приборных досок только начинает развиваться, настоящей «золотой жилой» становится улучшенная система распознавания голоса для всех видов мобильных устройств. Взять хотя бы мобильные телефоны: телекоммуникационные компании уверены, что пользователи будут готовы платить за дополнительные услуги - возможность диктовать письма для отсылки по электронной почте, искать нужную информацию и пр. - если в их мобильный телефон будет интегрирована простая в использовании технология распознавания голосовых команд. Эксперты предсказывают телекоммуникационным компаниям дополнительный доход в размере от 5 до 15 долларов с каждого клиента, готового пользоваться новой технологией. Речевые технологии можно использовать и в мп3-плейере, и в ноутбуке, и в управляемой голосом портативной системе навигации. Бывший инженер компаний Microsoft и Amazon Алекс Кастро создал компанию Pluggd, которая успешно занимается разработкой механизма Интернет-поиска, который соединяет в себе технологии распознавания речи и семантический анализ слова. Компания Vocera Communications около двух лет назад привлекла к себе внимание, создав и внедрив в производство электронный жетон - удостоверение личности, соединяющий в себе технологию распознавания голоса и технологию беспроводной связи. Среди клиентов компании - медицинские работники, которые пользуются своим удостоверением личности для подсоединения к базе больницы при помощи беспроводных технологий и поиска соответствующего специалиста для пациента, или для внесения записей в его учетную карту с помощью технологии распознавания речевых команд. Компания Vocera рассчитывает начать приносить прибыль не позже начала будущего года. Ее продукт VoxTec International's Phraselator, карманный переводчик размером с чековую книжку, прослушивает фразу на незнакомом языке, анализирует ее и выдает перевод. Эту разработку уже использовали американские войска в Ираке и Афганистане. Многие эксперты ожидают, что когда-нибудь технологии распознавания речи полностью вытеснят привычный для нас способ введения информации: печать на клавиатуре, нажатие на кнопки интерактивного интерфейса, запись от руки. Глава отдела технологий распознавания речи компании Microsoft считает, что придет день, и речевые технологии станут настолько развитыми, что смогут самостоятельно исправлять грамматические и стилистические ошибки. Технология компании Nuance, положившая на лопатки Бена Кука, на 25% лучше, чем аналогичная система, представленная компанией в прошлом году, а версия для продажи будет делать еще на 20% ошибок меньше, чем нынешняя версия программы. «Техника печати Бена невероятна, но он вряд ли сможет ускориться. А наша технология будет только улучшаться", - заявил глава отдела маркетинга компании Питер Махоуни. Евгения ЗОЛОТОВА |
Сообщ.
#43
,
|
|
|
как сочетается
Цитата DimmK @ распознавания речевых команд с фразой Цитата DimmK @ «Острозубые пираньи из семейств Serrasalmus и Pygocentrus считаются самыми свирепыми пресноводными рыбами в мире. На самом деле они редко атакуют человека» ? это что похоже на команду? Развод опять какой-то... вообще большая часть "новостей речевых технологий" похожа на статьи из желтой прессы... |
Сообщ.
#44
,
|
|
|
http://www.seonews.ru/news/.search-engine/1526/
Новые поисковые системы: от видео до тегов Поиск видеоконтенту общей продолжительностью семь миллионов часов. Это американская поисковая система Blinkx. Обозреватель газета NewYork Times Джейсон Понтин, сообщает, что поисковик появившийся три года назад на данный момент единственный конкурент Google Video в этом сегменте поиска. ""Он делает даже более смелый ввывод - что Blinkx обойдет Gooogle Video, потому что использует новое решение для поиска видеоматериалов. Его революционность заключается в расшифровке слов, произносимых в видеозаписи, и осуществление поиска по ним. Это является большим достижением, так как эффективное распознавание речи является сложной задачей. Также используются в поиске уже существующие методы (метаданные, суффиксы .mpeg или .avi, титры и субтитры). Технология распознавания речи Blinkx основана на нейронных сетях и машинном обучении с использованием «скрытых моделей Маркова» (hidden Markov models), методе статистического анализа, когда скрытые параметры угадываются из уже известной информации. Суранга Чандратиллак (один из основатель компании Blinkx, Сан-Франциско) называет такой метод «поиском, зависящим от контекста»: «Успешность именно такого подхода связана с тем, что значения произносимых слов неясны, если их анализировать по отдельности. Поэтому система Blinkx использует всю имеющуюся информацию о том, в каком контексте может появляться то или иное слово, а также все сведения о конкретном клипе.» Нескромные амбициии компании находят свое подтверждение и на сайте. "Blinkx - это самая большая в мире и самая современная поисоквая система по видеоконтенту," - заявляют разработчиики. А также "Самое крупное в мире хранилище цифрового видео," - добавляет Джейсон Понтин |
Сообщ.
#45
,
|
|
|
http://itc.ua/article.phtml?ID=27299&ref=rss
SimulScribe предлагает сервис Voicemail-To-Text пользователям Skype SimulScribe, крупнейший американский провайдер сервисов преобразования голосовой почты в текст, сделал подобную услугу доступной для пользователей Skype. Разработанные этой компанией алгоритмы распознавания речи обеспечивают практически в реальном времени транскрибирование голосовых сообщений и доставку их по электронной почте или посредством SMS. Клиенты Skype теперь могут зарегистрироваться на сайте SimulScribe.com подобно обычным его подписчикам -- жителям США. По словам CEO SimulScribe Джеймса Симиноффа (James Siminoff), услуга, предоставляемая его фирмой, экономит пользователю голосовой почты до трех часов в месяц, которые он в среднем тратит на прослушивание сообщений. |
Сообщ.
#46
,
|
|
|
http://www.membrana.ru/lenta/?7026
Учёные обнаружили звуки в нервах 15 марта 2007 Работа нервов основывается на передаче звуковых колебаний, а не электрических импульсов. Это открытие, явно противоречащее прежним представлениям, было сделано Томасом Хеймбургом (Thomas Heimburg), исследователем из университета Копенгагена (Copenhagen University). Согласно существующей концепции, основной механизм передачи сигналов в нервах связан с электрическими импульсами. Преимущественно он реализуется за счёт ионов солей. Однако Хеймбурга смущает не сама эта идея. Учёный обратил внимание на тот факт, что при протекании тока в нерве должно выделяться много тепла, чего в действительности не бывает. Исследователь утверждает, что такое представление для него как физика кажется неудовлетворительным. Поэтому он предложил альтернативную концепцию, по которой нервный импульс — не что иное, как звук, а вовсе не электроток. По новой идее, липиды, находящиеся в оболочке нерва, не позволяют звуку быстро затухать, сохраняя тем самым интенсивность сигнала. Особая роль принадлежит такому параметру, как температура плавления этих липидов, при достижении которой существенно меняются условия распространения сигнала. Родерик Экенхофф (Roderic Eckenhoff), профессор из университета Пенсильвании (University of Pennsylvania), не занимавшийся этим исследованием, сказал, что идея передачи нервных импульсов звуковыми колебаниями действительно интересна. Однако, вместе с тем, невозможно игнорировать массу фактов, которые доказывают классическое представление об электрической природе этих сигналов. Тем не менее, концепция Хеймбурга также имеет существенный плюс. Как утверждает исследователь, она объясняет феномен анестезии. Это явление давно известно медикам, но более-менее стройной теории, рассказывающей, почему нервная система в результате каких-то воздействий теряет чувствительность, до сих пор не было. Открытие звуковых колебаний в нервах, конечно, кажется чем-то довольно странным и сомнительным для современной науки. И всё же, несмотря на это, "Биофизический журнал" (Biophysical Journal) взялся за публикацию этого исследования, результаты которого должны появиться в ближайшем номере. |
Сообщ.
#47
,
|
|
|
http://www.expert.ru/printissues/expert/2007/12/vystavka_cebit/
CeBIT Лев Никитин, Сергей Скрипников ... Наконец, встречались перспективные инноваторы и на государственных стендах. Так, Центр речевых технологий, расположенный на стенде Министерства образования, демонстрировал работу своей технологии распознавания речи. Достаточно ввести в систему любое новое слово — и программа уже его распознает. Корреспондент «Эксперта» «обучил» систему английскому слову interoperability («совместимость»), крайне модному на этой CeBIT, и программа действительно узнавала это слово, причем сказанное самыми разными голосами. На сегодня оборот Центра речевых технологий уже свыше 9 млн долларов, а технологию неплохо знают за рубежом. Например, не так давно швейцарский Swatch купил у центра это решение, чтобы обучить свои часы распознавать голосовые команды.... Добавлено http://www.dialog-21.ru/news/digest.asp?id=133253 C Microsoft телефоны будут "разговорчивее" В прошлом году Microsoft объявила о своей новой инициативе Unified Communications, цель которой - максимально возможно упростить работу со средствами связи, начиная с телефонных звонков и заканчивая электронной почтой. В рамках этого проекта корпорация готовит интересное решение, получившее название Dial Tone 2.0. Разработкой этого решения Microsoft занимается совместно с компанией Tellme Networks, которую софтверный гигант не так давно приобрел. Новый проект представляет собой набор голосовых сервисов, которые будут доступны, как только вы снимете трубку телефона. "Вы поднимаете трубку, и слышите бесконечные гудки, а чтобы набрать номер, приходится запомнить кучу цифр", - комментирует один из инициаторов. - "Мы считаем, что настала пора перемен; если вы снимаете трубку, то приятнее услышать "Чем могу вам помочь?" или "Кому вы хотите позвонить?", а вместо набора номера просто говорить "Позвони домой маме" или "Набери Майку на сотовый". Точно также можно позвонить нескольким друзьям сразу и устроить небольшую конференцию". Разработчики полагают, что уже в течение трех лет новой услугой смогут воспользоваться около ста миллионов человек. Источник: www.cifrovik.ru |
Сообщ.
#48
,
|
|
|
http://www.computerra.ru/313046/
Корыстный интерес к человеческим звукам Автор: Леонид Левкович-Маслюк Опубликовано в журнале "Компьютерра" №8 от 30 марта 2007 года Наука и индустрия распознавания/анализа звука (прежде всего - речи) существуют много десятилетий. Но если деньги, которыми ворочает рынок речевых технологий, уже давно измеряют миллиардами, то приложения технологий поиска/анализа данных в звуковых массивах (аудиомайнинга) только сейчас стали находить ниши, заметные невооруженным глазом. Зато эти ниши (речевая аналитика, индексирование мультимедиа) растут с невероятной скоростью. Киллерап (он же killer app, он же killer application) - это (супер)успешный продукт, который делает породившую его технологию (супер)востребованной [Но киллерап это не убийца других продуктов — в том смысле, в котором цифровой фотоаппарат можно назвать (в известной мере и с огромными оговорками, но все же, все же) киллером пленочного фотоаппарата]. Самый яркий пример - персональный компьютер как киллерап для технологии производства микропроцессоров. Другие примеры такого масштаба припомнить не удается, по крайней мере в ИТ. Зато легко вспоминаются технологии, которые все время где-то на слуху, на периферии сознания, но для которых по-настоящему убойный киллерап все не появляется. Разборчивость Справка Оценка качества распознавания слитной речи - особенно нескольких человек одновременно - отдельная задача. Процент ошибок в словах оценивается при помощи той же метрики, что применяется в геномике при сравнении генетических кодов - так называемого "расстояния Левенштейна" (Levenstein distance), предложенного Владимиром Левенштейном из ИПМ им. Келдыша еще в 1960 году. Одна из этих технологий - распознавание речи. Остановимся на ее успехах подробнее, так как она обеспечивает и львиную долю приложений в аудиомайнинге. В житейском смысле идеал речевого распознавания всегда казался мне таким: включаю диктофон, а по окончании беседы, лекции или интервью переписываю с него на компьютер текстовый транскрипт. А поскольку ничего подобного пока нет, то и о распознавании речи рано говорить и думать всерьез. Но едва начав работать над этим материалом, я понял, что давно уже впал в грех "псевдознания", не давая себе труда вникнуть в предмет глубже. Ведь хайтечным бизнесом - к счастью! - занимаются люди, презирающие плебейский лозунг "хочу все и сразу". Поэтому уже давно созданы системы на основе речевых технологий, далекие от моего воображаемого идеала, но приносящие прибыль и даже, по-видимому, помогающие в повседневной жизни и работе. Эти системы эффективно работают там, где допустима предварительная настройка на пользователя, где разговоры идут по заданному шаблону и на заданную тему, где лексикон строго ограничен. Хороший пример: спонтанная (то есть специально не делаемая разборчивой) диктовка цифр по телефону в 2003 году распознавалась с ошибкой всего лишь в 0,3% [См. лекции по распознаванию речи, прочитанные в МИТ Джимом Глассом (Jim Glass, ocw.mit.edu)]. Учитывая, что по "закону Мура" в распознавании речи процент ошибок уполовинивается каждые два года, сейчас этот показатель должен быть в районе 0,01%, то есть вплотную приближаться к человеческим 0,009%. По-настоящему плодородная для речевых технологий область находится между такими узкоспециальными нишами и мечтами о "все и сразу". В ней освоены уже многие участки. Например, только в системе здравоохранения и только в Северной Америке оборот средств, вовлеченных в, казалось бы, скромную "индустрию надиктовывания врачами своих отчетов", составляет примерно 10 млрд. долларов. Не случайно умные люди именно там начали внедрять первые в истории автоматические системы диктовки (причем первым был всем известный сегодня в качестве технопророка Рэй Курцвейль) - еще в 1980-е годы. Там, где нужны жестко структурированные документы с ограниченным лексиконом, а главное, где есть возможность заставить пользователя подлаживаться под систему, технология более или менее срабатывает. Сегодня отчеты уже не диктуются слово за словом, а наговариваются обычной ("слитной") речью, и часто по телефону (а вот конверторы речи затачиваются отдельно на радиологию, отдельно на гематологию и т. д.). В то же время многие компании, не говоря об исследовательских организациях, уже много лет регулярно сообщают - хоть и не вдаваясь в подробности - о столь высоких процентах успешного распознавания речи, что это напоминает отчеты о выборах в современной Туркмении (или в несовременном СССР). Однако в начале 2000-х мне случилось быть на рабочем совещании в исследовательском подразделении одной из крупнейших ИТ-компаний мира, где эти (условно говоря) 99,9% вызывали довольно кислую усмешку - даже если о них докладывали столь же могучие титаны ИТ. Не потому, что цифрам не верили, а потому, что без уточнения технологии всегда неясно, как понимать эти проценты, на что и в каких условиях можно рассчитывать. Самый важный как для практики, так и для исследователя случай - это все-таки слитная свободная речь без ограничения на лексикон (а хорошо бы еще и нескольких людей, и одновременно, и на фоне шума). И вот тут не всегда удается совместить в одной голове строки девяток в пресс-релизах и статистику ошибок в распознавании в открытых программах тестирования. Некоторые данные тестирования систем "речь-втекст" (speech-to-text, STT) приведены во врезке. Десяток-другой процентов ошибочного распознавания - вот, видимо, реальный уровень, достигаемый сегодня в реальных условиях при работе с универсальными, ни подо что не заточенными потоками речевых данных. Для массового пользователя с его примитивными запросами такой точности все еще мало. Но оказывается, что современных технологий распознавания речи хватает на другой, очень любопытный класс приложений. Пристальность Где-то с 2004 года стали появляться коммерческие продукты для так называемой речевой аналитики (speech analytics). Выяснилось, что, используя уже разработанные в речевых задачах инструменты, можно сканировать большой массив звуковых данных в поисках ключевых слов или фраз. При этом конвертации звука в текст не происходит! Поиск фактически осуществляется в звуковом файле. Один из лидеров этого возникающего сектора, Nexidia (www.nexidia.com), в сотрудничестве с инноваторами из университета Georgia Institute of Technology создала технологию речевой аналитики, сравнительно подробное описание которой, со ссылками на научные публикации, есть на сайте компании. На первом этапе препроцессинг преобразует звуковой файл в фонетический трек (phonetic search track) - последовательность распознанных фонем (пример из описания алгоритма: "_B _IY _T _UW _B _IY" - фонетическая строка для термина "B2B"). Это происходит примерно в пятьдесят раз быстрее, чем звучит сам файл в реальном времени. Объем трека - около пяти мегабайт на час звука, что вроде бы многовато для чисто текстового представления, пусть даже в форме фонемных строк (зато это в десять раз меньше mp3-файла, сжатого до128 кбит/с). Может быть, трек содержит и другую информацию, но детали формата в описании не уточняются. Принципиально, что разбиения на слова в фонетическом треке нет. Поиск запроса происходит уже в фонетическом треке - для фонетической строки-запроса ищутся ее наиболее вероятные положения. Здесь работает ряд инструментов, включая фонетические словари, обработку ситуаций, когда запроса нет в фонетическом словаре, и т. д. Однако скорость такого поиска в тысячи ("вплоть до 100 тысяч" - т.е. вплоть до прочесывания 30 часов звука в секунду) раз быстрее времени звучания (но "вплоть" - понятие растяжимое). Точность распознавания зависит от длины запроса. Чем больше фонем в запросе, тем лучше качество распознавания. В описании есть много информации по тестированию (внутреннему, естественно) - типичный показатель таков: для запроса из 12–15 фонем система обнаруживает 85% его вхождений в звуковой файл, при одном ложном срабатывании на два часа звучания (в среднем, конечно). Это (интуитивно) согласуется с результатами по точности распознавания речи из врезки - проценты ошибочных слов там такого же порядка, как здесь проценты ненахождения запроса (отметим, что энтузиасты речевой аналитики любят сгущать реализм в оценках возможностей классического распознавания "речь-в-текст"). Тем не менее отсутствие явной ("необратимой") конверсии звука в слова дает, судя по энергичному внедрению таких систем, определенные преимущества по сравнению с простым прикручиванием поиска к преобразователю речи в текст. Похоже, что этот фонетический подход, еще несколько лет назад вызывавший скепсис "Let’s hear it for audio mining", Neal Leavitt, Computer, October, 2002[], входит в моду. Рынок продуктов речевой аналитики начиная с 2006 года стал стремительно расти, и этот рост комментаторы связывают с появлением программ, позволяющих делать быстрые запросы к звуковым файлам переговоров с клиентами - и содержательно анализировать результаты. А такой анализ может оказаться крайне полезным для компании, желающей как можно лучше обслужить своих клиентов. Компания DMG (www.dmgconsult.com), занимающаяся стратегиями для клиент-ориентированных бизнесов, в начале прошлого года прогнозировала рост рынка систем речевой аналитики на 120% в 2006 году и на 100% в 2007-м. Период возврата инвестиций в системы речевой аналитики DMG оценивает в 9–12 месяцев. Ну и финальный аккорд: контактные центры всевозможных аутсорсеров, банков, туристических фирм отныне будут превращаться из статьи расхода в источники прибыли - настолько ценна информация, которую дает быстрая аналитика общения с клиентами. Как машина распознает речь Американский институт стандартов NIST с 1987 года проводит регулярные исследования достигнутого уровня распознавания речи при разных постановках задачи (см. www.nist.gov/speech, обзор Дэвида Пэллета (David Pallett) "A look at NIST’s benchmark ASR tests: past, present, and future"). NIST всегда интересуется самой актуальной на данный момент областью и тестирует системы "речь-в-текст" именно для нее. Например, в 1991 началось тестирование систем для запросов авиапассажиров. Речевая часть системы от 15,7% WER (word error rate, процент ошибочных слов; далее все результаты в этих единицах) дошла до отличного показателя 2,5% к концу 1994 года (тесты проводились на специально разработанном для этой проблемы довольно ограниченном массиве речевых данных). Еще один вызов - новостные передачи. Динамика: от 31% в 1996 до 13% в 1998 (а в 1999 качество слегка упало (!) - до 15%; это объясняется тем, что для каждого теста выбирались новые передачи). Новости спорта и рекламу из тестов сразу выбросили: их распознавание - отдельный вызов. В 1993 году началось тестирование на базе данных Switchboard телефонных разговоров, которые вели добровольцы на случайно выбранные темы. Результат был впечатляющим - "ошибочность" составляла 90%. К 2001 году все на той же базе данных качество довели до 19%, и кривая "вышла на плато" (то есть рост результатов резко замедлился). Аналогичный тест для разговоров по мобильным телефонам дал более скромные 27% в 2002 году. По данным из лекций Джима Гласса (МИТ, ocw.mit.edu), человек на этих тестах показывает рейтинг 4%. В 2003 прошли тесты на распознавание с "богатой транскрипцией", т.е. генерацией не только текста, но и метаданных (указание пауз, семантическая сегментация, информация о говорящем). Лучший результат (без учета качества богатой транскрипции) был получен для новостных передач на английском - 9,9% (отметим замедление прогресса - уже в 1998 было 13%). Мобильные разговоры по-английски распознавались с качеством 23,8%, для китайского удалось достичь лишь 42,7%. Сегодня в качестве вызова рассматриваются конференц-зал и лекционный зал. Лучшие результаты тестов 2005 года: конференц-зал от 26% до 38%, лекционный - от 28% до 52%, в зависимости от того, используется ли наголовный микрофон или обычный удаленный. Более поздних данных NIST, по-видимому, пока не обнародовал. Для сравнения - в марте 2005 года тестирование проводилось по проекту Еврокомиссии TC-STAR (www.lrec-conf.org/lrec2006). Проект нацелен на долгосрочную задачу - перевод речи на одном языке прямо в речь на другом. Тесты проводились как по переводу речи в текст на том же языке, так и по автоматическому переводу речи на другой язык. Мы приведем данные только по распознаванию. Тестовый массив – выступления на английском и испанском языках в Европарламенте. Лучший результат для английского - 10,6%, для испанского - 11,5%. Системы предварительно тренировались на записях заседаний с 3 мая по 14 октября 2004 года, а соревновались на данных заседаний с 15 по 18 ноября 2004. Речь некоторых докладчиков распознавалась лучше среднего - например, Председатель Европарламента Хосеп Боррель (Josep Borrell) набрал всего 7,8%. Зато Роберт Килрой (Robert Silk Kilroy), активный оппозиционер - целых 26,6%, в его исполнении система не поняла даже слово "коммунисты" (впрочем, текст был крайне бессвязным). Фантастика С поиском и анализом звука связаны и более фантастические (но менее проясненные технологически) достижения, интригующие задачи, яркие идеи. Начнем с достижений - естественно, не пытаясь дать систематический обзор. Одно из них принадлежит знаменитой компании BBN Technologies. Название происходит от имен основавших BBN в 1948 году профессоров МИТ Ричарда Болта (Richard Bolt) и Лео Беранека (Leo Beranek) и их бывшего студента Роберта Ньюмена (Robert Newman). В этой компании было такое количество пионерских разработок, что в течение прошлого года солиднейший журнал по истории вычислительной техники "IEEE Annals of the history of computing" посвящал BBN по статье почти в каждом номере. Например, в 1969 году там была создана, ни много ни мало, сеть ARPANET, основа будущего Интернета, а совсем недавно - первая в мире сеть квантовой связи. Большая часть разработок BBN связана с искусственным интеллектом, задачами распознавания, причем правительство США - один из главных заказчиков этих проектов. К нашей теме прямое отношение имеют несколько недавних разработок BBN, но упомянем только об одной - BBN Broadcast Monitoring System. В 2006 году эта система получила престижную премию MITX (Massachusetts Innovation & Technology Exchange). Функциональность ее такова: система получает на вход обычные телевизионные новости - и в реальном времени делает транскрипт, автоматический перевод и отслеживание в транскрипте по ключевым словам. И еще кучу всего - привязку найденных слов к видеопотоку, разные виды текстового поиска и т. п. Желающие могут легко найти деморолик на www.bbn.com. Существенная изюминка в том, что поддерживается три иностранных (по отношению к английскому) языка: арабский, китайский и испанский (на деморолике мы видим выпуск новостей Аль-Джазиры). Казалось бы - невероятно, но с другой стороны - текст читают дикторы, тематика - в первую очередь политическая, то есть лексикон всетаки не совсем уж универсальный, запросы предсказуемые (в деморолике - Ahmadi Nejad и тому подобные ключевые слова). Так почему бы и нет? Чтобы "узнать больше", компания предлагает писать на некий обезличенный адрес. Стиль, в общем, понятен (тем более с учетом безграничной крутизны BBN). Узнаем ли мы когда-нибудь, как оценил эту систему рынок? А буквально на днях начали появляться серьезные стартапы, стремящиеся капитализировать способы поиска музыки и пения не по названиям и тегам, а прямо по фрагментам исполнения. Наблюдаем ли мы "квантовый скачок" в индустрии звукового майнинга, и если да, кто в нем больше виноват - новые технологии или новые приложения? Вот скромная, но все же сенсация последних месяцев. Не технологический прорыв, а скорее комбинационная, психологическая находка4 - поисковик песен и мелодий midomi (www.midomi.com). Впрочем, о технологии, использованной в этой системе, известно крайне мало - но ясно, что это некоторая комбинация грубого распознавания речи и анализа мелодической структуры. Причем вряд ли тривиальная комбинация (аналогичный поисковик, появившийся в Сети чуть раньше и предлагавший искать музыку по результатам только напевания [humming], довольно быстро сошел со сцены). Выглядит это так: midomi предлагает спеть отрывок из искомой песни, потом немножко думает - и выдает список найденных в своей коллекции альбомов (которые можно тут же купить, по 99 центов штука). Удивительно, но похоже, что такое дело увлекает все более и более коммерчески значимую аудиторию. Может быть, срабатывает привязка к волшебной идеологии аггрегации контента: вы можете записать в базу звуковых файлов midomi то, что напели; эти файлы тоже включаются в поиск и в случае успеха выдаются рядом с найденной "настоящей" музыкой. Формирование таких кластеров вполне может и постепенно улучшать качество поиска. Во врезке - краткий отчет о моих собственных опытах с музыкальным поиском. Обратите внимание, что проектом занялся матерый венчурист Камран Илахьян (Kamran Elahian), в чьем списке удач хорошо известная в начале-середине 90-х фирма Cirrus Logic (у многих успели пожить компьютеры с ее видеокартами). Поиск в мультимедиа, да и вообще поиск осмысленных сведений в массивах данных - захватывающая задача, и мы к ней обязательно вернемся на наших страницах. В заключение упомяну только одну идею, которая меня просто умилила. Люди с фантазией, оказывается, пытаются инвертировать задачу аудиомайнинга - а именно озвучивать процесс обычного "майнинга" так, чтобы при прочесывании всяких скучных данных могли возникать мелодии, указывающие на то, что найдено нечто структурированное, а потому любопытное (см. работы Jeffrey Hsu). Это еще одно подтверждение тезиса, что будущее формируется литературой: вспомним известный роман Дугласа Адамса "Детективное агентство Дирка Джентли", где главный герой озвучивал финансовые временные ряды. Как я распознавал звук Cвои напевы (в попытках нащупать, по каким же признакам ищет midomi) я записывать не стал. Просто я знаком с несколькими музыкально одаренными людьми и знаю, как им физически тяжело слушать фальшивое пение. Вдруг кто-нибудь из них получит в ответ на свой запрос мои завывания? Но midomi некоторому испытанию подверг, и результаты таковы. По спетой строчке "We all live in the yellow submarine, yellow submarine, yellow submarine" на пятом месте был выдан альбом неких The Hit Crew c этой песней, и только на шестом и седьмом - два диска The Beatles. Но это со второй попытки. А с первой, без повторения "yellow submarine", - не нашлось ничего и отдаленно похожего. Зато мой сын, у которого музыкальный слух хороший, сразу получил эти же диски на первом и втором месте. После этого я плотно закрыл дверь в свою комнату и дал midomi целый концерт - отрывки из "Yesterday", "Michelle", а на бис даже из "Jesus Christ Superstar" ("Then I was inspired, now I’m sad and tired…") Ллойда Веббера и Тима Райса. Вскоре я научился получать битловский диск с "Yesterday" на первом месте при помощи одних завываний, вообще без слов. Причем на втором, третьем и четвертом оказалась та же песня в разных исполнениях. Было очень приятно видеть это, не скрою. Но больше всего растрогало, когда в ответ на мою оригинальную интерпретацию музыки Ллойда Веббера я получил среди первых результатов другой (не JCSS) альбом, но все-таки Ллойда Веббера! |
Сообщ.
#49
,
|
|
|
Новости из Российской Академии Естественных Наук
http://www.acconcept.ru/news/news.php?id=124 Российские ученые открыли формулу смысла. Учеными Отделения «Методология моделирования безопасного развития систем и процессов» Российской Академии Естественных Наук, занимающимися разработками в области безопасности информационных интеллектуальных технологий, удалось решить проблему формализации смысла вербального текста. С тех пор, как были созданы первые компьютеры, над этой актуальнейшей задачей трудились многие лингвисты и кибернетики из различных стран. Сформулировать смысл и сделать его понятным машине – этот барьер на пути к созданию искусственного разума оставался непреодолимым вплоть до настоящего времени. Трудности, с которыми столкнулись исследователи, и отсутствие сколько-нибудь значимых результатов в течение такого длительного для научных изысканий промежутка времени стали приводить в последние годы ученый мир к твердому мнению «о принципиальной неразрешимости формализации смысла», что заставило даже свернуть некоторые западные разработки в этом направлении, как бесперспективные. Однако, отечественная наука, несмотря на недостаточное финансирование, продолжала трудиться над этой проблемой и достигла долгожданной цели. Российским ученым из РАЕН удалось найти искомую формулу смысла и привести ее к виду, удобному для компьютерного восприятия. Таким образом, преодолен труднейший 50-летний поисковый этап, заграждавший человечеству дорогу к машинному интеллекту. Председатель отделения РАЕН «Методология и моделирование безопасного развития», доктор технических наук, профессор В.А. Минаев ___________________________________________________________________________________________________________ Поскольку в проектах "Распознавания Речи" существовала проблема осмысления слов и фраз, то, может быть теперь, с открытием отечественных ученых компьютеры, наконец, научатся качественно понимать человеческую речь!? |
Сообщ.
#50
,
|
|
|
http://www.rmob.ru/articles/?article_id=1370
Мобильная эволюция 05 апреля 2007 Удобство голосового управления техникой очевидно — не нужно нажимать на клавиши, тыкать в сенсорный экран стилусом и т. д. Умный компьютер мгновенно распознает голос хозяина и не станет выполнять чужие команды. Идеальное воплощение этих технологий показывают в кино, а я лишь расскажу о попытках внедрить голосовое управление в современные мобильники. Началось все с голосового набора номера при помощи предварительно записанных меток. Позже появились системы синтеза команд. Например, сейчас для вызова абонента бывает достаточно произнести его имя или фамилию. Процессор телефона сопоставит произнесенную фразу с записью в телефонной книге и наберет номер. Следующий шаг — голосовое управление функциями аппарата. Говоришь «камера», запускается приложение, отвечающее за съемку, произносишь «диктофон» — начинается запись. Пришло новое сообщение — телефон сообщит о нем музыкальным сигналом, а по просьбе даже прочитает вслух. Такая возможность есть в смартфонах Nokia 5500 и E50. Созданный алгоритм позволяет синтезировать голос и на обычных аппаратах. Мобильная эволюция Голосовое управление коммуникаторами на основе Windows Mobile возможно при помощи штатных средств (в модели Qtek 9100, например, для этого имеется специальный менеджер), но данные возможности значительно расширяются при помощи дополнительного софта. Одна из таких утилит — Voice2Go компании VITO Technology. При ее помощи можно записывать голосовые метки для вызова абонентов из телефонной книги, запускать любые программы и даже отфильтровывать нежелательные звонки. Программа настраивается на индивидуальное произношение владельца. Все голосовые команды можно сохранять в архив и восстанавливать при жесткой перезагрузке устройства. Мобильная эволюция Для управления событиями из календаря свое решение предлагает британская компания Speereo Software. Программа SAPIE выполняет функции секретаря: будет докладывать вам обо всех предстоящих делах, событиях, встречах. С ее помощью можно запланировать дела, указать время для совершения звонков, оставить напоминания о встречах. Фирменный алгоритм распознавания речи отличает устойчивость к посторонним шумам и очень четкое действие. Общение с «помощником» ведется в режиме диалога — чтобы его начать знать лишь четырех стартовых фразы. ПО для голосового воспроизведения текстовых сообщений на устройствах под управлением Symbian и Windows Mobile выпускает команда Sacrament. В комплект входит софт для озвучивания текстовых документов (Text Reader), сообщений электронной почты, SMS. Запущенная в сервисном режиме, программа позволяет автоматически озвучивать поступившие сообщения. Предусмотрено несколько вариантов «голосов». Мобильная эволюция Голосовое управление мобильниками кажется настолько естественным, что мне непонятно, почему ни один из вендоров до сих пор не встроил в свои модели маленького «тамагочи», который бы взял на себя управление основными сервисами. Утром бы будил, сообщал о запланированных делах, читал новости и почту. Ему можно было бы поручать звонки, напоминания о встречах — то есть всю рутинную работу, за которую сейчас отвечает масса отдельных программ. Неплохо бы также было научить такого помощника преобразовывать надиктованный материал в текстовый документ… В обзоре использованы программы: Voice2Go – компания VITO Technology. Сайт – www.vitotechnology.ru SAPIE – компания Speereo. Сайт – www.speereo.com Text Reader/Teller – компания Sakrament. Сайт – www.sakrament.com |
Сообщ.
#51
,
|
|
|
http://www.computerra.ru/think/314933/
Слушать переговоры автоматически и аналитически Автор: Леонид Левкович-Маслюк Опубликовано 12 апреля 2007 года В недавней статье "Корыстный интерес к человеческим звукам" мы упоминали об исследованиях DMG Consulting LLC стремительно растущего рынка речевой аналитики - систем содержательного компьютерного анализа переговоров операторов с клиентами компаний. Более подробно об этом рынке нам рассказала Донна Флусс (Donna Fluss), основатель и президент DMG - американской фирмы, специализирующейся на клиент-ориентированных бизнес-стратегиях и технологиях. Донна известна как инноватор в области технологий CRM, контакт-центров, аналитики в реальном времени, она автор ряда книг и аналитических исследований рынка. - Какова динамика рынка продуктов РА (речевой аналитики, speech analytics)? - Системы речевой аналитики существуют уже много лет. Их давно используют правительственные агентства, военные организации. Но на рынке контакт-центров эти системы появились лишь три года назад: к декабрю 2004 года в мире насчитывалось 25 имплементаций, к декабрю 2005-го - 178, а к концу 2006-го - уже 603. Совокупный ежегодный рост составляет 391%. - Какие запросы к записанным переговорам с клиентами наиболее типичны? Какую информацию компании извлекают из таких запросов? - В контакт-центрах существует четыре основных типа применения РА. "Корни проблем". Сюда входит анализ понимания клиентом тех или иных ситуаций, выявление узких мест, а также новых возможностей получения прибыли. "Выявление эмоций". Полезно знать, в каких случаях возникают эмоциональные моменты в переговорах агента и клиента. Это помогает правильно построить стратегию общения, а также оценить качество работы агента. "Характер разговора". Анализируя периоды молчания, ожидания или обсуждения, можно определить, к каким ситуациям надо заранее готовить агентов, ведущих переговоры. "Соответствие предписаниям". Этот вид анализа тоже нужен для более качественной подготовки агентов, а кроме того, он снижает юридические риски и стоимость поддержания качества обслуживания. - Как быстро и в какой степени РА помогает компаниям улучшить свои показатели? - РА может окупаться очень быстро, но для этого мало использовать хорошие технологии и учитывать «передовой опыт». Нужно еще вложить достаточно ресурсов в точную настройку на свою специфическую задачу. Наш аналитический отчет (2007 Speech Analytics Market Report), опубликованный 27 марта, дает полную картину рынка этих систем. Там есть восемь детально разобранных успешных примеров внедрения. Так, один из глобальных интернет-провайдеров сумел при помощи РА снизить темп сокращения клиентской базы, и это сохранило компании миллионы долларов. Фирма, занятая автострахованием, улучшила подготовку агентов, одновременно понизив уровень мошенничества. Здесь тоже выигрыш измеряется миллионами. - В какой степени успех РА зависит от зрелости технологий звукового датамайнинга? Чего этой технологии не хватало раньше, чтобы обеспечить столь ценные приложения? - Технологическими прорывами можно назвать недавние достижения в ускорении фонетического анализа речи — это очень важный фактор, необходимый для РА в реальном времени. Решения для распознавания слитной речи с большим объемом словаря (Large Vocabulary Continuous Speech Recognition, LVCSR) за последнее время стали заметно проще в применении. Дело в том, что они требуют от пользователя построения лингвистической модели для необходимой ему области применения. Разработчики приложили огромные усилия, чтобы ускорить и упростить процесс построения такой модели. Сегодняшние технологии, если с ними грамотно обращаться, уже приносят большую пользу, но поле деятельности для повышения точности работы этих систем огромно. В частности, в последние два-три года в центре внимания оставалась очень важная задача: снизить процент неверного распознавания (false positives rate). Серьезные инвестиции в создание и улучшение математических алгоритмов для этой задачи будут продолжаться еще годы и годы. - Кого можно назвать ведущими поставщиками РА-решений? - Это возникающий рынок, и пройдет еще много времени, пока на нем появится свой лидер. Вот (несколько сокращенный. - Л.Л.-М.) список поставщиков РА-решений по основным секторам. Собственные разработки систем класса "Мониторинг качества/запись разговоров" предлагают Autonomy/etalk, NICE, Verint (на подходе - Witness). С OEM-продуктами на рынке работают Envision, HigherGround, VirtualLogger, VPI, Witness. Инфраструктуру контакт-центров поставляют Aspect, Cisco (в партнерстве) и SER (со своей разработкой). Автономные (stand alone) системы речевой аналитики делают CallMiner, Nexidia, Utopy (продукт ISense на стадии бета-тестирования). Фирма Aurix не включена в этот список, так она продает не решение, а движок для РА, но этот движок используют ряд компаний: ISense, SER, а также Witness в своем новом решении на базе фонетического анализа. - Из журнала "Компьютерра" |
Сообщ.
#52
,
|
|
|
http://www.dialog-21.ru/news/digest.asp?id=133863
Google запустил систему голосового поиска 13.04.07 Александр Кутянин Возрастающее качество и снижающиеся цены на системы голосового поиска побуждают крупных интернет-игроков, таких как Google, Microsoft и Yahoo, инвестировать не только в рекламные службы на базе поисковых движков, но и в телефонные справочные системы. Прошло совсем немного времени с момента приобретения в марте корпорацией Microsoft компании Tellme Networks, специализирующейся на голосовом поиске, как Google объявил о запуске экспериментальной справочной службы на базе системы распознавания голоса. Сервис предоставляется бесплатно и позволяет с городского или мобильного телефона получить информацию, аналогичную содержащейся в Google Maps, в виде голосового сообщения или SMS. На сегодняшний день проект находится на стадии тестирования: воспользоваться голосовым поиском могут лишь англоговорящие жители США, а база данных содержит информацию только по американским компаниям. Аналитики уже сейчас заявляют, что выход Google на рынок справочных служб может значительно изменить этот бизнес. Reuters приводит мнение специалистов инвестиционного банка Thomas Weisel, считающих что автоматическая система распознавания голоса может позволить Google снизить себестоимость бесплатного для абонентов звонка до 2 центов при условии получения порядка 10 центов за каждого перенаправленного клиента. Для сравнения, стоимость звонка в традиционную справочную службу составляет порядка 1 долл., причем 16 центов из этой суммы уходят на оплату работы оператора. По данным аналитического агентства Kelsey Group объем рынка справочных служб в США составляет порядка 9,4 млрд долл., а мировой рынок фирма Opus Research оценила в 13 млрд долл. |
Сообщ.
#53
,
|
|
|
http://inauka.ru/news/article75108?subhtml
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ ПОМОГ ЧЕЛОВЕКУ РАЗГОВАРИВАТЬ НА ЛЮБОМ ЯЗЫКЕ В исследовательском центре передовых коммуникационных технологий (interACT) построили прибор, позволяющий человеку разговаривать на любом языке. InterACT — это совместное предприятие немецкого университета Карлсруэ и американского университета Карнеги-Меллона. В ходе телемоста между этими двумя университетами аспирант китайского происхождения говорил по-китайски, в то время как все присутствующие слышали его английскую речь. Устройство синхронно (с небольшой, в несколько секунд, задержкой) переводило слова, воспринимая не звук, а движения мышц с помощью 11 электродов, наклеенных на лицо и шею. По этим сигналам компьютер "понимал", что именно произносит человек, переводил китайские слова на английский и выдавал синтезированную речь через динамик. Также ученые продемонстрировали синхронный перевод английской речи на немецкий и испанский. Новая технология основана на искусственном интеллекте, использующем статистические методы обработки информации. В ходе демонстрации машина иногда путала два слова с близким произношением. Однако в целом перевод был очень хорошим и вполне понятным. Самое интересное в изобретении — это восприятие речи по движению мышц. Потенциально оно позволит владельцу такого прибора говорить очень тихо, а его собеседники будут слышать лишь переведенную речь. По мнению разработчиков, такая серийная машинка может появиться на прилавках магазинов через 5—10 лет. Об этом сообщает "Знание - Сила". |
Сообщ.
#54
,
|
|
|
Гости ПЭФ опробуют новый комплекс распознавания русской речи
http://www.dp.ru/spb/news/citynews/2007/05/31/221580/ 31 мая 2007; Первая отечественная технология распознавания слитной русской речи SpeechRU представит "Центр речевых технологий" (ЦРТ) http://www.speechpro.ru на "Выставке инновационных достижений" в седьмом павильоне "Ленэкспо" 8 июня. Она пройдет в рамках XI Экономического Форума в Петербурге (ПЭФ). На стенде ЦРТ каждый посетитель сможет при помощи голосовых команд получить информацию о современных речевых технологиях. По прогнозам экспертов, в ближайшем будущем речевой интерфейс может составить серьезную конкуренцию традиционным средствам ввода – клавиатуре и мыши, а в некоторых случаях станет основным средством взаимодействия человека и компьютера, человека и сложной бытовой техники. Внедрение SpeechRU – один из первых шагов в этом направлении, сообщает пресс-служба ЦРТ. Текст: Виктория Шахов |
Сообщ.
#55
,
|
|
|
Посетил вытавку при ПЭФ в понедельник, когда туда стали допускать "чернь".
По-всей видимости Цитата arturus @ Первая отечественная технология распознавания слитной русской речи SpeechRU произвела такой фурор, что представителей разработчика уже не было. (да и вообще не понятно, как сочетается Цитата arturus @ с Первая отечественная технология распознавания слитной русской речи SpeechRU Цитата arturus @ ?каждый посетитель сможет при помощи голосовых команд Опять перепутали божий дар с яичницей. Вообще предлагаю переименовать ветку из "Новостей речевых технологий" в "... а ещё я видел сон....", ну и далее "...как мои волосы пошли на базар покупать гребешёк" Ребята! Не засирайте мозгов ни себе, ни людям! |
Сообщ.
#56
,
|
|
|
Набор фраз!
Опишите нормальным языком реальную ситуацию с представленной разработкой, что нового, что понравилось, что нет. |
Сообщ.
#57
,
|
|
|
http://webplanet.ru/news/telecom/2007/07/03/callwave.html
CallWave переводит телефонные голоса в тексты Иван Сильвестров Сервис Vtxt, новая услуга компании CallWave, преобразует сообщения голосовой почты в текстовую "стенограмму" и посылает их пользователю в виде SMS или e-mail, или размещает их на индивидуальной странице сайта CallWave. Все, что для этого нужно - переадресовать входящие звонки на уникальный телефонный номер, поставляемый CallWave. Сообщения обрабатываются специальной распознающей речь программой и передаются пользователю в течении 4-5 минут. Сервис компании, находящейся в Санта-Барбаре (Калифорния), доступен пользователям из США, пока в статусе бесплатной бета-версии. Его протестировал Мишель Калор (Michael Calore, Wired) и наряду с некоторыми шероховатостями обнаружил ряд преимуществ по сравнению с аналогичными услугами Phonewire, SimulScribe и SpinVox. Эксперт погонял сервис и в хвост, и в гриву, попросив друзей направить ему сообщения разной длины из разных мест, в том числе из автомобиля с открытым окном и из шумного концертного зала, - все они пришли расшифрованными дословно, с минимальным количеством ошибок транскрипции. Были удалены только приветствия, повторы, вздохи, бессвязные мычания и междометия. Научный сотрудник CallWave Энтони Бладон (Anthony Bladon), разработавший движок распознавания речи, говорит, что Vtxt предлагает метод обработки информации сродни тому, как мы быстро оцениваем актуальность e-mail при просмотре заголовков писем в почтовом ящике. Предоставляется только информация, позволяющая принять простейшие решения: нужно ли реагировать на сообщение прямо сейчас? нужно ли перезвонить? - и т.д. Полезность такого быстрого доступа к содержанию сообщения перевешивает недостатки требующей дальнейшего улучшения технологии транскрипции речи. "Даже если сообщения переданы с нарушением пунктуации и воспроизведены не абсолютно правильно, - стенограмма позволяет ориентироваться в них", - говорит Энтони Бладон. Мишель Калор отмечает только два неудобства сервиса: необходимость менять телефонный номер голосовой почты на предоставляемый сервисом и звучащее обескураживающе для неподготовленного человека приветствие, типа: говорите разборчиво, ваше сообщение будет преобразовываться в текст. В персональном кабинете на сайте CallWave пользователь может просматривать архив транскрипций полученных сообщений и прослушивать их при помощи встроенного Flash-плеера. Там хранятся полные стенограммы сообщений (только 140 символов отправляется на мобильный телефон в виде SMS). CallWave предлагает также широкий выбор виджетов голосовой почты для Google, Yahoo, Mac OSX и Vista, которые позволяют отслеживать входящую голосовую почту и реагировать на нее посредством текстовых сообщений. CallWave обещает, что бесплатная бета-версия сервиса будет доступна по крайней мере несколько месяцев. Конкуренты берут от $10 до $40 в месяц, и хотя CallWave не готова сказать, сколько будет стоить Vtxt после бета-периода, компания известна как поставщик смешанных (частично платных, частично бесплатных) услуг. Заметим, что прямо противоположный сервис - преобразование новостных и любых других текстов в голосовой аудиопоток для прослушивания их в то время, когда глаза пользователя заняты, - тоже является интересной коммерческой задачей, о чем мы недавно писали. |
Сообщ.
#58
,
|
|
|
Microsoft и Nuance готовят систему голосового ввода для SMS
Цитата Софтверная компания Microsoft и известный разработчик систем распознавания речи Nuance заявили о совместной разработке программного обеспечения, которое позволит пользователям мобильных телефонов осуществлять голосовой ввод текста. Новое ПО, выход которого запланирован компаниями на начало следующего года, будет основано на системе COMAND APS, уже установленной и успешно функционирующей в новейших автомобилях Mercedes и Ford. COMAND APS позволяет озвучивать входящие сообщения и вводить пункты навигации при помощи голоса, и такую функциональность уже реально доработать до полноценного текстового ввода. Программное обеспечение для полноценного голосового ввода текста давно востребовано на рынке и его появление сдерживается только недостаточной развитостью соответствующих технологий. Интересно, что первая работоспособная реализация такой функциональности может появиться не для "серьёзных" задач, а для ввода SMS-сообщений. Напомним, что по мнению многих аналитиков, технология SMS должна устареть в ближайшие годы, а проблема голосового управления сообщениями решится совершенствованием сервисов голосовой почты. Таким образом, основное развитие технология от Microsoft и Nuance может получить на других задачах. |
Сообщ.
#59
,
|
|
|
http://www.speechpro.ru/rus/comp-news/?action=show&id=194
Центр Речевых Технологий создал первую технологию по распознаванию слитной русской речи Компания «Центр Речевых Технологий» первой в истории завершила работу над технологией распознавания слитной русской речи на 30,000 словоформ – «Руссограф». Инновационная разработка российской компании открывает новые возможности в общении человека с техникой на русском языке. Работы над проектом продолжались более 3 лет, а собственные инвестиции компании в разработку составили порядка $5 млн. Новая технология позволит компании выйти на рынок с целым рядом принципиально новых продуктов. Оригинальная российская технология распознавания «Руссограф» создавалась с учетом фонетических и грамматических особенностей русского языка. Существующие на западе системы распознавания созданы для работы с английским, испанским и другими популярными языками и малоприменимы в работе с русской речью. Это связано с тем, что русский язык принципиально отличается от других языков не только фонетически (например звуком «ы»), но и свободным порядком слов в предложении, что значительно усложняет математическое моделирование речи. В результате использование западных технологий для качественного распознавания русской речи не представляется возможным. Для разработки технологии «Руссограф» ЦРТ создал научно-исследовательскую группу из специалистов в лингвистике, фонетике, математике, обработке сигналов и программировании. Для работы над проектом в ЦРТ использовали уникальный для России набор речевых баз данных, в который входят записи более чем 3000 дикторов общей длительностью около 300 часов, собранных с учетом 5 диалектных групп русского языка. Эти базы были использованы для создания акустических моделей звуков русской речи. Для создания языковых моделей в ЦРТ была собрана текстовая база русского языка объемом 35 миллионов слов. Поскольку создание качественной системы распознавания невозможно без обширных экспериментальных исследований, в ЦРТ был развернут мощный вычислительный кластер с производительностью около 1012 операций в секунду. Важной частью проекта стало создание базового речевого декодера, который используя оригинальные акустические и языковые модели русского языка преобразовывает речевой сигнал в текст. Промышленное внедрение технологии распознавания «Руссограф» отрывает новые возможности голосового управления компьютерной и бытовой техникой, промышленным оборудованием и транспортом; управления службами и сервисами по телефону; систематизации фонограмм и поиска по аудио архивам, а также обеспечения безопасности людей и объектов. Особенно актуальной новая разработка может стать для тех русскоговорящих людей, чьи физические возможности ограничены. Сейчас ЦРТ работает над аппаратной реализацией технологии. Уже в 2008 году компания предложит несколько продуктов построенных на основе технологии распознавания, в частности систему интерактивного голосового управления для контакт центров, а так же системы управления промышленными объектами. В перспективе компания планирует создание на базе технологий распознавания и синтеза карманного переводчика устной русской речи. Данный продукт может быть подготовлен уже к Олимпиаде-2014 в Сочи. Таким образом, участники и гости Олимпиады из разных стран смогут говорить и понимать друг друга без посторонней помощи, даже не зная иностранного языка. Напомним, что в начале этого года, в своих прогнозах на развитие компьютерных технологий второго цифрового десятилетия, Билл Гейтс назвал создание естественного интерфейса одной из приоритетных задач человечества, отметив, что технологическое будущее – за голосовым управлением и распознаванием речи. Благодаря технологиям разработанным в ЦРТ, Россия вошла в число мировых лидеров в области речевых технологий. «Технология распознавания русской речи «Руссограф», разработанная в ЦРТ, создает основу для создания целой линейки инновационных продуктов в одном из наиболее перспективных сегментов рынка. Думаю, очень скоро общение с компьютером и другой техникой с помощью русской речи будет так же естественно как разговор между двумя людьми» – говорит Генеральный директор «Центра Речевых Технологий» Михаил Хитров. |
Сообщ.
#60
,
|
|
|
"...В перспективе компания планирует создание на базе технологий распознавания и синтеза карманного переводчика устной русской речи. Данный продукт может быть подготовлен уже к Олимпиаде-2014 в Сочи..."
Бабло творит добро. Вот ключ статьи. а вот другая новость от них: "Компания «Центр Речевых Технологий» завершила работу над уникальной технологией поиска «ключевых» слов в фонограммах речи для русского языка – Voice Digger. " Как это сочетается с первой новостью? и зачем оно, если первая новость правда? Да, и странно, что нет слова "нанотехнологии"... |
Сообщ.
#61
,
|
|
|
Не стоит в столь высокоумном форуме обсуждать рекламные заявления.
Хотя в заявлениях ЦРТ нет противоречий - распознавание речи сегодня, как правило, относится к узким предметным областям, работе с кооперативным (благожелательным) диктором, хорошим микрофоном и каналом и малым шумом. А выделение ключевых слов интересно только т.н. Органам в каналах связи для выявления некооперативных террористов со спонтанной и ненормативной речью. Задачи явно разные. |
Сообщ.
#62
,
|
|
|
Цитата iitta @ Не стоит в столь высокоумном форуме обсуждать рекламные заявления. Согласен. Если бы я хотел обсудить какую-либо новость, то я бы вынес её в отдельную тему. А те, кто хочет, могут создать тему об отношении к ЦРТ и их рекламной кампании. |
Сообщ.
#63
,
|
|
|
Как всегда главный источник новостей в России - ЦРТ.
В октябре 2009 г. закончился срок выполнения им гос.контракта в рамках Федеральной целевой программы. Тема: Разработка и реализация в виде программного обеспечения технологии синтеза речи на русском языке с учетом синтаксического и семантического анализа русского текста с высоким качеством звучания. Источник: Федеральное агентство по науке и инновациям. Лот №3. Вот что есть на сайте ЦРТ по синтезу: Центр речевых технологий. Примеры послушать там можно, поэтому можно и оценить качество звучания. Ну, и очередной проект опять отдан ЦРТ: Разработка комплекса аппаратно-программных средств автоматического распознавания естественной русской речи. Источник: Федеральное агентство по науке и инновациям. Лот №3. Таким образом, систему синтеза русского текста с высоким качеством звучания, можно сказать, дождались, а теперь с нетерпением будем ждать октября 2011 г., когда появится средство автоматического распознавания естественной русской речи. Требования к качеству распознавания можно посмотреть, например, в http://www.fasi.gov.ru/fcp/compl/konkurs20...2-4/II/kd-2.doc на стр. 76. Сообщения были разделены в тему "Перспективы речевых технологий в России" |
Сообщ.
#64
,
|
|
|
Появление переводчика в режиме реального времени не за горами
Цитата Писатели-фантасты давно мечтают о создании устройства, способного в реальном времени переводить речь на разные языки. Можем заверить уважаемых читателей, что будущее гораздо ближе, чем иногда кажется. На конференции Mobile Voice Conference, проходящей в Сан-Франциско, две компании, занимающиеся разработками в области создания электронного переводчика в реальном времени, отчитались о промежуточных результатах своей работы. Компания Novauris продемонстрировала программу, запущенную на мобильном телефоне, которая может переводить в реальном времени наиболее распространенные фразы и выражения. Представители другой компании - Fluential - рассказали о системе перевода, которая уже используется в больницах. Ни одна из систем пока не позволяет осуществлять полностью корректный перевод, однако достигнутого уровня вполне достаточно, чтобы два человека могли понять друг друга при среднем темпе разговора. Стоит отметить, что разработки в этой области ведутся и такими гигантами, как Cisco и Google. Представители Cisco еще в 2008 году заявляли о скором появлении переводчика в реальном времени для видеосистемы совместной работы Telepresence, а поисковый гигант планирует начать оснащение смартфонов переводчиком в течение ближайших нескольких лет. |
Сообщ.
#65
,
|
|
|
Phonexia, компания выросшая на базе старейшей школы речевых технологий в Брно, предлагает набор программных продуктов для идентификация языка, пола, поиска слов речи, транскрипции. В числе поддерживаемых языков - русский.
|
Сообщ.
#66
,
|
|
|
Мой знакомый с недавнего времени запустил сайт для того, чтобы облегчить создание веб-интерфейсов с распознаванием речи. Для того, чтобы создать речевой интерфейс, достаточно встроить в свою страницу объект на javascript:
http://ajaxian.com/archives/speech-recognition-with-javascript-speechapi-com В основе этой технологии - sphinx4, red5, flash. |
Сообщ.
#67
,
|
|
|
Компания «Яндекс» представила свою разработку, а именно мультиплатформенную библотеку, которая даёт доступ разработчикам к собственной технологии распознавания речи — SpeechKit.
http://habrahabr.ru/post/196158/ |
Сообщ.
#68
,
|
|
|
Цитата kaa1 @ Таким образом, систему синтеза русского текста с высоким качеством звучания, можно сказать, дождались, Сообщения были разделены в тему "Перспективы речевых технологий в России" Могли бы и лучше, но... наверное лучше в подобных организациях не возможно сделать. Цитата kaa1 @ а теперь с нетерпением будем ждать октября 2011 г., когда появится средство автоматического распознавания естественной русской речи. Сообщения были разделены в тему "Перспективы речевых технологий в России" Ну-ну, ждите. Уже 2013..., а воз и ныне там. |
Сообщ.
#69
,
|
|
|
Цитата Vzhyk @ Ну-ну, ждите. Уже 2013..., а воз и ныне там. Вообще-то, это была ирония. И подробнее высказывания на эту тему можете посмотреть в разделе "Перспективы речевых технологий в России" |
Сообщ.
#70
,
|
|
|
Цитата kaa1 @ Вообще-то, это была ирония. Ну, синтез же, как обещал, сделали и очень неплохой. Кой чего не доделали, но тут уже здоровья не хватило. |