Новости речевых технологий -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.175]

Модераторы: RaD, nsh

Новое голосование

Новости речевых технологий

DimmK

Сообщ. #1 , 06.08.06, 19:54

Member

Профиль · PM

Рейтинг (т): 1

Предлагаю создать специальную тему для последних новостей в области речевых технологий.
Все самое интересное и актуальное - сюда. Новости, статьи, прес-релизы.
Обязательно со ссылками.

http://www.cnews.ru/news/line/index.shtml?2006/08/04/207500
Genesys представит управляемую голосом систему
Genesys Telecommunications Laboratories, компания, входящая в группу Alcatel, представит свою платформу голосового самообслуживания для промышленного использования на конференции SpeechTEK, которая пройдет 7-10 августа 2006 года в Нью-Йорке.

Genesys предлагает заменить технологию IVR новой платформой. По данным компании, обновленные платформы снижают затраты на обслуживание до 40%, при этом окупаемость затрат ROI (прибыль на капиталовложение) не превышает 12 месяцев по сравнению с предыдущими уже устаревшими версиями IVR.

grisania

Сообщ. #2 , 07.08.06, 05:17

Member

Профиль · PM

Рейтинг (т): 3

Предприятие "Суперкомпьютерные системы"
http://minitera.ru/rus/win/hiisc/market.html

Цитата

Проведенные исследования показали, что повсеместное использование программного обеспечения по распознаванию речи потребует точности распознавания примерно 99,9%. Желательно также, чтобы подобный уровень надежности был достигнут при работе без специальной настройки на диктора. Мы протестировали почти все известные методы описания исходного голосового сигнала, такие как преобразование Фурье, полосовая фильтрация, анализ кодирования линейного предсказания(LPC – Linear Predictive Coding), MFCC, и другие. Все эти методы имеют один общий недостаток: они не соответствуют тому механизму обработки звукового сигнала, который используется человеком. Именно по этой причине одинаковые фонемы (звуки) могут иметь различные спектральные описания, в зависимости от тембра, интонации и соседних фонем.

Цитата

Инвариантное описание речевого сигнала, разработанное предприятием "Суперкомпьютерные системы", практически не зависит от этих факторов, так же как и от индивидуальных характеристик голоса диктора, и способно одинаково описывать одну и ту же речевую информацию, независимо от того, произнесена ли она басом мужчины, голосом ребенка или даже шепотом.

Caracal

Сообщ. #3 , 07.08.06, 10:14

Newbie

Профиль · PM

Рейтинг (т): нет

Может слегка не по теме, но по-моему интересно:

Устройство Audio Spotlight может передавать направленный(!!!) звук Hi-Fi качества с динамическим диапазоном в 100 дБ и гармоническими искажениями, не превышающими 1%. Чтобы “сфокусировать” звук в узкий пучок, размер излучателя должен превышать длину волны. И чтобы такой “звуковой прожектор” не был диаметром несколько метров, он излучает неслышимый ультразвук (с очень маленькой длиной волны), который “превращается” в слышимый звук.

Как это происходит:
Воздух можно с определенной точностью считать линейной средой для звука - что излучит динамик, то мы и услышим. На самом деле при распространении звука появляются искажения - но при небольшой интенсивности они очень малы и мы их просто не слышим. При увеличении интенсивности доля искажений увеличивается (простейший пример - появление гармоник). Почему это происходит? Звуковая волна относится к продольным волнам и представляет собой чередование пиков сжатия и разрежения среды. Сжатие происходит в воздухе так быстро, что процесс можно считать адиабатическим, при этом температура повышается. В результате пики сжатия бегут чуть быстрее, чем пики разрежения, и даже идеальный гармонический импульс "расплывается" и теряет синусоидальную форму, что приводит к появлению в его спектре новых частот. Какие именно новые частоты появятся, зависит от вида нелинейности и начальной формы и спектра импульса.

DimmK

Сообщ. #4 , 07.08.06, 16:16

Member

Профиль · PM

Рейтинг (т): 1

http://www.dialog-21.ru/news/digest.asp?id=59063
Gtalk научился отправлять голосовые сообщения

31.07.06
Александр Рыбаков

Производители программ для мгновенного обмена сообщениями усилили борьбу за пользователей: практически в одно и то же время компании Yahoo! и Google обновили свои программы-клиенты.

Yahoo Messenger 8 перестал быть бета-версией. С помощью обновленного интернет-пейджера теперь можно не только чатиться, но и совершать телефонные звонки. Позвонить другому пользователю Yahoo Messenger можно будет бесплатно, а за звонки на обычные телефоны придется заплатить. Кроме того, теперь есть возможность за дополнительные деньги, купить у Yahoo телефонный номер, для приема звонков с наземных линий через компьютер.

После недавнего объединения компаниями Yahoo! и Microsoft своих интернет-пейджеров, Yahoo Messenger стал совместимым с Microsoft Live Messenger. Однако, интеграция в голосовом общении между двумя программами пока еще не полная.

Важной особенностью нового Yahoo Messenger является увеличенное число плагинов. Сейчас их существует около 180, в том числе и от сторонних разработчиков. Плагины позволяют расшаривать файлы, управлять аватарами, рисовать и передавать другим пользователям схемы и диаграммы и даже просматривать трейлеры фильмов во время общения по Yahoo! Messenger.

Google Talk еще находится в стадии бета-тестирования, но начал потихоньку обзаводиться функциями своих "больших братьев". В новой версии появилась возможность передачи файлов, но в отличие от Yahoo Messenger, где размер передаваемого файла ограничен гигабайтом, в программе от Google никаких ограничений нет. Уменьшенные копии передаваемых картинок видны в окне диалога.

Также в Gtalk добавили функцию голосовой почты. Надиктованное сообщение отправляется абоненту по e-mail, и, если такое "караоке" войдет в моду, то даже почтовые ящики Google, со своим рекордным объемом, будут быстро забиты разнообразным звуковым рядом. В почте отправителя копии голосового сообщения не остается, так что даже нельзя проверить, не забыл ли сказать чего-нибудь важного. Длительность звукового послания ограничена тремя минутами, на запись одной секунды уходит 3 кб памяти.

Похоже, Google, помимо массы сведений о пользователях, которые он уже может получить через почту и Google Base, решил собрать данные и об их голосах: в случае распространения голосовой авторизации это знание окажется небесполезным. Еще сейчас стало возможным узнать что слушает пользователь - Gtalk может отображать название звучащей на компьютере пользователя музыкальной композиции в качестве статуса.

Пока что новая версия клиента Gtalk недоступна обычным пользователям, однако ссылку на нее приводит Петр Диденко, в своем блоге "Коммуникации в реальном времени".

Источник: Вебпланета

DimmK

Сообщ. #5 , 07.08.06, 19:49

Member

Профиль · PM

Рейтинг (т): 1

http://inauka.ru/news/article66214?subhtml
АНГЛИЧАНЕ НАУЧИЛИ РОБОТОВ РАСПОЗНАВАТЬ ЗНАЧЕНИЕ СЛОВ

Английские учёные продемонстрировали двух виртуальных роботов, способных разучивать новые слова на основе понимания того, что их окружает, сообщает New Scientist. Трёхмерные модели, представляющие эти устройства выглядят как человеческий торс на колёсах. Одно из них призвано объяснять другому, как нужно выполнять какую-либо простейшую задачу, такую, как например поднятие предмета руками. Оно общается со вторым роботом вербально и способно использовать в своём лексиконе ранее выученные слова и выражения.

Сначала "учитель" демонстрирует "ученику" простые действия, такие как "согнуть левую руку" или "опустить правое плечо", при этом объясняя словами то, что он делает. Обучающийся робот, соответственно, старается повторить эти движения. Затем первое устройство описывает словами комплексные действия, например "толкать" или "хватать", а второе догадывается, как их выполнить.

По словам разработчиков, современные системы распознавания голоса имеют ограниченный словарный запас, который они никак не могут пополнить. Вышеописанные же устройства могут сами узнавать значение слов и, соответственно, выучивать новые, понимая, что они значат.

Несмотря на то, что эти роботы в данный момент существуют лишь в виде компьютерных моделей, в будущем, возможно, они помогут аппаратам самостоятельно находить решение определённых задач. Учёные также собираются с их помощью узнать о развитии речи человека, а также считают, что в будущем, возможно, такие устройства сами смогут обучать людей определённым действиям. Об этом сообщает "Компьюлента".

DimmK

Сообщ. #6 , 21.08.06, 19:31

Member

Профиль · PM

Рейтинг (т): 1

http://www.dialog-21.ru/news/digest.asp?id=59278
Обновленные технологии Microsoft для распознавания речи

09.08.06
Андрей Колесов

Новая версия серверного решения Microsoft для обработки речи - Speech Server 2007 - будет интегрирована с Office Communications Server 2007, ключевым продуктом в создаваемой корпорацией унифицированной коммуникационной платформе, включающей средства обмена мгновенными сообщениями, IP-телефонии, голосовой связи, аудио- и видеоконференций. Об этом было объявлено на прошедшей в начале августа в Нью-Йорке конференции SpeechTEK 2006. Речевые функции будут также доступны независимым разработчикам через интегрированный набор API для создания собственных бизнес-приложений и реализации различных деловых сценариев на основе базового ПО Microsoft.

На конференции было показано несколько вариантов расширенного применения Office Communications Server 2007. Одна из демонстраций включала использование интеллектуального агента, который помогал звонящему соединиться с нужным абонентом, предлагая несколько методов общения, в том числе электронную почту или мгновенные сообщения. Второй вариант применения - когда один абонент использует голосовую связь, а другой общается через монитор и клавиатуру ПК: преобразование текста в речь и наоборот выполняется автоматически. Другие решения показывали организацию служб Help Desk, интегрированного контакт-центра и пр.

На SpeechTEK также впервые была представлена новая версия механизма распознавания речи Windows Speech Recognition, которая будет доступна в составе Windows Vista на восьми языках: английском (американском и английском), китайском (традиционном и упрощенном), японском, немецком, французском и испанском (другие языки будут поддерживаться с помощью включения продуктов независимых разработчиков). Эта технология позволяет управлять компьютером с помощью голосовых команд, поддерживает речевой ввод текста в документ, заполнение Windows- и Web-форм. Настойка системы распознавания речи выполняется с помощью интерактивного тренинга.

Источник: PC Week/RE

DimmK

Сообщ. #7 , 24.08.06, 08:14

Member

Профиль · PM

Рейтинг (т): 1

http://www.cnews.ru/news/line/index.shtml?2006/08/23/209208
"Билайн" запустил решение для повышения качества передачи речи

Компания «ВымпелКом» объявила о запуске современного сетевого решения кодирования речи AMR (Adaptive Multi Rate) в целях повышения качества передачи речи. «ВымпелКом» стал первым из российских сотовых операторов, внедривших новый принцип кодирования речи в масштабах московской сети.

Начиная с 2003 года модели сотовых телефонов, выпускаемые ведущими мировыми производителями, поставляются с поддержкой нового принципа кодирования речи AMR. В сети «Билайн» Московского региона около 50% телефонов поддерживают AMR, что обусловило целесообразность проведения работ по созданию цепочки «AMR базовой станции – AMR телефона абонента». В рамках существующего программного обеспечения на всех базовых станциях Московского региона была проведена настройка для активации AMR. Аналогичные решения уже внедрены в сетях мировых операторов сотовой связи Vodafon, Orange, O2.

Результатом внедрения современного алгоритма кодирования речи стало повышение качества передачи речи, снижение уровня помех, более четкая передача тембра голоса. В настоящий момент включение AMR позволило улучшить качество передачи речи для 15% общего трафика в сети Московского региона.

В настоящее время тестирование и внедрение AMR ведется на сети «Билайн» в Уральском, Приволжском и других регионах. До конца года планируется внедрить AMR на всех сетях группы компаний «ВымпелКом».

DimmK

Сообщ. #8 , 25.08.06, 08:16

Member

Профиль · PM

Рейтинг (т): 1

http://www.cnews.ru/news/top/index.shtml?2006/08/24/209273
Создается новый тип процессора

Ученые университета Карнеги Меллон (Carnegie Mellon) проектируют процессоры, способные решить одну из труднейших задач вычислительной техники – распознавание речи.

Распознавание речи является давней мечтой компьютерной индустрии, пока далекой от реальности для большинства пользователей. Исследователь Роб Рутенбар (Rob Rutenbar) считает, что задачу повышения скорости распознавания речи и понижения потребляемой при этом энергии способны решить не программные средства, а специальные процессоры. "Пришло время освободить распознавание речи от неоправданных ограничений программного обеспечения", – сказал г-н Рутенбар на конференции Hot Chips. Свою идею он сравнил с тем, насколько широкое распространение получили специализированные графические процессоры.

Г-н Рутенбар привел такой пример: более быстрое распознавание речи позволит найти в фильме кадр, где Арнольд Шварценеггер говорит: "Аста ла виста, бэйби". А благодаря пониженному энергопотреблению сотовые телефоны смогут превратиться в блокнот, в который можно будет надиктовывать записи.

Пока ученые, участвующие в университетском проекте "in silico vox" ("глас в кремнии"), работают над двумя подходами к разработке новых процессоров. Первый подход основан на специализированных интегральных схемах (ASIC), второй – на вентильных матрицах с эксплуатационным программированием (FPGA). Г-н Рутенбар показал снятую на видеопленку демонстрацию разработанной в университете технологии, основанной на FPGA, распознающей слова из ограниченного словаря в 1000 слов. Система смогла распознать несколько коротких предложений примерно в два раза быстрее, чем ученые произносили их. В то же время точность распознавания не уступала программному обеспечению для распознавания речи Sphinx, также разработанному в университете Карнеги Меллон.

Г-н Рутенбар говорит, что, по оценкам ученых, специализированный процессор первого поколения будет почти в два раза быстрее скорости обычной речи для словаря объемом 5 тыс. слов. Кроме того, исследователи работают над специализированным процессором, который будет работать в 10 раз быстрее речи. В перспективе – создание процессоров, опережающих речь в 100 и 1000 раз.

В функции процессора распознавания речи входит преобразование звукового сигнала в комбинацию шумов, формирующих каждый из примерно 50 различных звуков в английском языке. В этом состоит одна из проблем: звучание буквы "i" в слове "five" отличается от слова "nine" под влиянием звуков, произносимых до и после нее, поэтому в результате существует более 1000 вариантов ее звучания.

Затем процессор сравнивает звуки с теми звуками, из которых состоят реальные слова. Наконец, выполняется поиск похожих сочетаний слов (пар и троек), чтобы повысить точность распознавания. Вывод: производительность процессора зависит от пропускной способности доступа к памяти, чтобы процессор мог быстро выполнять сравнение.

kaa1	Сообщ. #9 , 28.08.06, 08:23
Full Member Профиль · PM Поощрения: 1 Dgm Рейтинг (т): 9	Содержание SPECOM'06 Сообщение отредактировано: kaa1 - 28.08.06, 08:23 Прикреплённый файлSPECOM__06.doc (124.07 Кбайт, скачиваний: 1063)

DimmK

Сообщ. #10 , 31.08.06, 03:20

Member

Профиль · PM

Рейтинг (т): 1

http://gadgets.compulenta.ru/283622/

Philips выпустит новый универсальный пульт ДУ
30 августа 2006 года, 17:06
Текст: Георгий Мешков

Компания Philips в скором времени пополнит линейку универсальных пультов ДУ новой моделью - Pronto Pro TSU9600. Новинка будет представлена на выставке CEDIA, которая пройдёт в сентябре.

Philips Pronto Pro TSU9600

Устройство оснащено 3,7-дюймовым сенсорным жидкокристаллическим дисплеем с разрешением 640 х 480 точек, который защищён от механических повреждений специальных экраном.

К компьютеру устройство подключается по интерфейсу USB. Функциональные возможности пульта можно запрограммировать с помощью программы ProntoEdit Professional, которая поставляется в комплекте. К каждой клавише можно "привязать" аудиофайл в формате WAV с краткой инструкцией.

Пультом можно управлять не только нажатием клавиш и виртуальных кнопок на ЖК-экране, но и посредством голосовых команд. Устройство поддерживает кириллические шрифты.

В комплект поставки входит док-станция для подзарядки встроенных аккумуляторов пульта. Стоимость пульта Philips Pronto Pro TSU9600, а также сроки его появления в розничной продаже не сообщаются.

DimmK

Сообщ. #11 , 04.09.06, 15:28

Member

Профиль · PM

Рейтинг (т): 1

http://www.dialog-21.ru/news/digest.asp?id=60055
Nuance озвучивает документы PDF

21.08.06
Кандейс Ломбарди (Candace Lombardi), CNET News.com

Компания Nuance Communications модернизировала своё программное обеспечение. Во вторник она планирует выпустить пакет ScanSoft PDF Converter Professional 4, предназначенный для создания и преобразования файлов PDF, который составит конкуренцию популярному ПО Acrobat от Аdobe Systems.

Новая версия содержит функцию преобразования текста в речь, использующую технологию Nuance RealSpeak для перевода документов PDF в аудиофайлы WAV. Эти файлы, которые можно использовать для подкастинга, озвучиваются мужским голосом. Компания планирует предоставить пользователям возможность загружать и другие голоса. Nuance выпускает также ПО распознавания голоса.

PDF Converter Professional 4, предназначенный для корпоративных пользователей, поступит в продажу в США 22 августа по цене около $100. Входящие в пакет настольные утилиты ScanSoft PDF Create 4 и PDF Converter будут также продаваться отдельно по $49 каждая.

ПО содержит новую функцию, позволяющую создавать файлы в формате XML Tagged PDF. В эти файлы автоматически включается информация, которая помогает правильно считывать порядок текста, таблицы и графику. Данный стандарт применяется для экспорта файлов в программы чтения с экрана для слепых, а также для изменения размера документов на экранах разного формата.

Компания утверждает, что в новой версии функция SoftScan, которая преобразует документы PDF в файлы Microsoft Word, Microsoft Excel или Corel WordPerfect, стала точнее на 46%. Этот механизм, который сохраняет форматирование, таблицы и графику, может применяться как внутри ПО PDF, так и посредством специальной панели инструментов для таких приложений, как Microsoft Word. В Adobe Acrobat сохранение или экспорт документа PDF в Microsoft Word, Excel и других форматах осуществляется только через главное меню.

ПО Nuance позволяет авторам задавать уровни разрешения доступа к документам PDF с применением правил безопасности PDF, шифрования и редактирования.

Nuance утверждает, что она успешно проверила свое ПО PDF на совместимость с последней сборкой бета-версии Microsoft Windows Vista.

Источник: ZDNet.ru

DimmK

Сообщ. #12 , 06.09.06, 15:37

Member

Профиль · PM

Рейтинг (т): 1

http://www.cnews.ru/news/line/index.shtml?2006/09/05/210194
Google научится подслушивать

Google готовит новую технологию контекстной рекламы в интернете, зависящей от звука из телевизора, который работает в комнате пользователя. Прослушивание будет вестись через включенный на компьютере микрофон.

По данным Technology Review со ссылкой на директора по исследованиям Google Питера Норвига (Peter Norvig), компания заявляла о работе над технологией в июне прошлого года в Европе. Однако ничего общего с прослушиванием и передачей разговора в сеть это не имеет, уверяет он. Специальная программа будет преобразовывать звук в участки-сигнатуры, отсеивая шум, и передавать на сервер для сравнения с заранее записанными подобными участками телевизионных программ. Звук преобразуется в графы и сжимается до небольшого количества байт ключевых моментов. Так, год аудиозаписи одного телеканала может быть сжат до нескольких гигабайт, что уместится на DVD. По участкам, полученным от пользователя, серверное ПО будет выбирать подходящую рекламу для отображения на страницах портала во время посещения. Норвиг сказал, что подобные технологии появятся — рано или поздно — в продуктах Google, сообщил The Register.

DimmK

Сообщ. #13 , 21.09.06, 19:56

Member

Профиль · PM

Рейтинг (т): 1

http://inauka.ru/technology/article67739?subhtml
Скажу как телепат телепату

Биоинженеры обещают решить и такую, казалось бы, неразрешимую проблему, как передача мыслей от одного человека к другому без каких бы то ни было дополнительных устройств. Уже сейчас более 100 000 еще недавно глухих пациентов вернулись к нормальной жизни благодаря кохлеарным имплантатам. Эти аппараты преобразуют звук в электрические импульсы, которые через слуховой нерв поступают непосредственно в мозг. Более того, в перспективе такие технологии открывают двери к забавным фокусам, весьма напоминающим телепатию.

Сегодня кохлеарные имплантаты подают на слуховой нерв электроимпульсы, соответствующие звукам из непосредственного окружения пациента, но ведь подобные же импульсы могут приходить издалека. Более того, почему эти сигналы должны соответствовать реальным звукам, а не чему-либо еще? Это ведь может быть и электронное письмо, пропущенное через аппарат, преобразующий текст в живую речь. И наконец, так ли важно, чтобы это воображаемое электронное письмо было набрано вручную, с помощью клавиатуры? А может быть, с этой задачей справится мозговой имплантат, соединенный с компьютером, – и даже не с помощью вживленного в череп разъема, а по радиоканалу? Это будет подлинной революцией для тех, кто сейчас отрезан от мира из-за серьезных форм инвалидности. Сегодня мы просто фантазируем, но когда-нибудь в недалеком будущем дистанционно управляемые имплантаты смогут передать от одного разума к другому что-то вроде электронного письма: "Привет, дорогуша! А я как раз о тебе подумал". Пока это звучит диковато, но вспомним, с каким недоверием на первых по-рах люди относились к телеграфу.
Источник: "Популярная механика"

http://www.cnews.ru/news/line/index.shtml?2006/09/20/211558
"Блоги@Mail.Ru" "заговорили"

пользователей проекта "Блоги@Mail.Ru" появилась возможность оставлять в своих блогах не только текстовые, но и голосовые записи. Сделать это можно с помощью мобильного телефона, позвонив на короткий номер и надиктовав сообщение.

Голосовой сервис открывает перед пользователями "Блогов" новые возможности - например, можно поделиться в дороге неожиданно пришедшими в мыслями или рассказать о случившейся по пути смешной ситуации, а придя домой, прочитать комментарии. Можно взять мини-интервью у прохожих, спеть онлайновым друзьям песню, почитать прозу или стихи.

Публикуя голосовые записи в своем дневнике, пользователь, также как и в случае с обычными текстовыми, может установить нужный уровень доступа: для всех, для друзей или только для себя.

Помимо аудиосервиса, на "Блогах@Mail.Ru" стартовала еще одна новая услуга. У пользователей появилась возможность читать записи не только своих друзей, но и тех, кого они добавили в друзья. На странице ленты друзей появился фильтр, позволяющий переключиться на "Ленту друзей всех друзей". По замыслу менеджеров проекта эта возможность позволит новичкам, недавно создавшим дневник на проекте, легче освоиться и найти интересные блоги и сообщества.

Вот как комментирует появление на "Блогах@Mail.Ru" новых сервисов вице-президент и директор по маркетингу и PR Mail.Ru Анна Артамонова: "Проект не стоит на месте - мы постоянно предлагаем пользователям попробовать что-то новенькое. Думаю, голосовые записи быстро завоюют популярность на Блогах, ведь это возможность перейти на новый уровень коммуникации. А "Лента друзей всех друзей" позволит найти новые интересные блоги или сообщества для общения".

DimmK

Сообщ. #14 , 22.09.06, 04:24

Member

Профиль · PM

Рейтинг (т): 1

http://gadgets.compulenta.ru/286923/
LG выпустила мобильник для любителей электронного чтива
21 сентября 2006 года, 10:33
Текст: Эльвира Кошкина
Южнокорейская компания LG Electronics на днях представила новый мобильный телефон, который придётся по вкусу любителям чтения. Обладатель аппарата LG Cyon сможет читать литературные произведения в электронном виде на экране телефона, а также прослушивать их в аудиоварианте, сообщает Akihabara News.
Аппарат выполнен в корпусе со сдвигающейся лицевой панелью, снабжён слотом для карт памяти формата microSD, на которых можно хранить электронные и аудиокниги. Контроллер Bluetooth позволяет использовать мобильник ещё и в качестве портативной рации (Walkie-Talkie), действующей в радиусе до ста метров.
Более подробные технические характеристики и стоимость новинки пока не сообщаются. Будет ли продаваться LG Cyon где-либо, кроме Южной Кореи, также остаётся неизвестным.

DimmK

Сообщ. #15 , 25.09.06, 17:30

Member

Профиль · PM

Рейтинг (т): 1

http://www.svobodanews.ru/Transcript/2006/06/29/20060629204321623.html
Развитие и применение технологий распознавания речи в России
Russia -- Ronzhin Andrei, leader of the Speaking Information group, 29Jun2006

29.06.06

Программу ведет Татьяна Валович. Принимает участие корреспондент Радио Свобода в Санкт-Петербурге Татьяна Вольтская. Гость студии - кандидат технических наук, руководитель группы речевой информатики Петербургского института информатики и автоматизации Андрей Ронжин.

Татьяна Валович: Технологии распознавания речи на сегодняшний день считаются одними из наиболее перспективных в мире, что еще раз подтвердила, проходящая в эти дни в Петербурге 11-я международная конференция «Речь и компьютер».

Татьяна Вольтская: Около 200 российских и зарубежных специалистов из 33 стран мира обсуждают проблемы взаимодействия компьютера и человека в естественной форме, делятся опытом внедрения и использования речевых и многомодальных технологий в производстве, медицине, в сфере культуры и образования. Для чего нужно научить компьютер понимать человека непосредственно? Оказывается, для решения очень многих насущных проблем. Существует, например, криминалистический анализ речи, - говорит коммерческий директор Центра речевых технологий Юлия Хитрова.

Юлия Хитрова: Звонит человек в милицию и говорит: я подложил бомбу на вокзале. Потом этого человека через какое-то время, я надеюсь, ловят, и человек говорит: да ну что вы, я и в мыслях не имел, никуда я не звонил и ничего я не знаю, это все поклеп. И вот с помощью нашего оборудования и наших методик эксперт может доказать, причем доказывается не так, что эксперт говорит "вы знаете, я думаю, наверное, это он", а производит измерения.

Татьяна Вольтская: В индустриальных условиях у компьютера жесткие задачи - распознавание команд, определенных участков речи. Гораздо более сложная задача - распознавание слитной речи.

Юлия Хитрова: Это то, к чему все стремятся, что более или менее сделали американцы. Мы сейчас стараемся делать для русской речи и далеко продвинулись в этом направлении.

Татьяна Вольтская: Что касается практического применения, то хорошие результаты есть в области реабилитации речевых функций у больных, - говорит специалист из Томского университета систем управления и радиоэлектроники Владимир Бондаренко.

Владимир Бондаренко: Основные работы, которые сейчас ведем - это речевая реабилитация после операции на гортани. И второе - диагностика по голосу возможных заболеваний гортани. Самое тяжелое - это следующее, когда гортань полностью удаляется, он дышит через трахеостому, и он становится полным инвалидов, он не может говорить. У нас разработана методика восстановления чисто физиологическое речевой функции. Для того чтобы все это проделать, мы вынуждены ставить ему компьютер, он в него говорит, видит, что у него получается, и начинает подстраиваться под те задачи, которые ему устанавливает логопед.

Татьяна Вольтская: Для установления естественного общения с компьютером учитывается не только речь, но и движения губ, жесты, мимика. Пока, если компьютер удается настроить на понимание, например, англичанина, то японца он уже не поймет. Идея компьютерного эсперанто возникала, но была отвергнута - все равно разные народы улыбаются и жестикулируют по-разному.

Татьяна Валович: Сегодня у нас в гостях кандидат технических наук, руководитель группы речевой информатики Петербургского института информатики и автоматизации Андрей Ронжин. То, что в середине прошлого века описывалось в фантастических романах, по-моему, становится действительностью. На ваш взгляд, как быстро развиваются технологии распознавания и синтеза речи и насколько ощутим прогресс тех достижений, которые, например, были представлены на нынешней конференции по сравнению с предыдущей?

Андрей Ронжин: Я думаю, сейчас настало такое время, когда идеи, которые были задуманы еще, может быть, 50 лет назад готовы к реализации. Технологии и техника сейчас находятся на таком высоком уровне, что хватает быстродействия и возможностей, чтобы реализовать эти идеи. То есть если 50 лет назад занимались только распознаванием изолированных слов, и надо было произносить команды не так, естественно, а по словам, то сейчас уже решена проблема распознавания изолированных слов, перешли к распознаванию слитной речи, как уже сказала Юлия Хитрова, и занимаются более интересной задачей, это распознавание спонтанной речи, как мы сейчас с вами говорим; возникают и отклонения, и вставляем какие-то другие слова, какие-то отклонения в фонетике, в лексике, вот все эти проблемы необходимо учитывать и это более сложная задача.

Татьяна Валович: Существуют две полярные задачи. С одной стороны, это синтез речи, с другой стороны - распознавание. Наверное, синтез речи, который можно произвести сейчас, это более легкая задача. Как вы оцениваете эти проблемы?

Андрей Ронжин: Конечно же, синтез речи - немножко попроще задача по сравнению с распознаванием речи, однако и там есть свои проблемы. То есть если создать системы, которые уже были созданы 20-30 лет назад, которые говорили, как робот, и, когда человек слушает такой голос, возникает некоторый дискомфорт, что по истечению некоторого времени человек просто перестает воспринимать или устает слушать такую речь. Поэтому сейчас технология синтеза речи в основном направлена на то, чтобы обеспечить естественное звучание, именно так, как говорит человек. Может быть, с некоторыми отклонениями, но чтобы это было естественно. А также существует задача внедрения вот этих систем синтеза речи в мобильные устройства, которые сейчас очень востребованы и практически каждый имеет мобильный телефон или наладонник.

Татьяна Валович: Какой язык, как вы считаете, труднее синтезировать. Если возьмем русский и английский… Говорилось о том, что в Соединенных Штатах Америки это уже решено. Очень сегодня интересная была информация как раз в наших "Новостях науки", что американский изобретатель Рэй Курцвайл при поддержке Американской национальной федерации слепых создал устройство, которое читает для слепого человека любые тексты. Это устройство состоит из цифровой камеры, соединенной с карманным компьютером, на котором установлена программа для распознавания текста и потом воспроизводится аудио.

Андрей Ронжин: Я думаю, что любой язык имеет свои сложности и поэтому сказать сразу, что этот язык проще обработать и реализовать, а другой сложнее, нельзя. Вы еще заметили, что система, которую вы упомянули, использует не только синтез речи, но и распознавание текста. Сейчас я хотел бы еще заметить, что решение проблемы взаимодействия человека с компьютером несколько расширилось. Теперь занимаются не только обработкой речи, но и других естественных модальностей, то есть и движение головы, губ, жесты, мимика и другие. То есть для того, чтобы использовать все возможности человека, чтобы создать естественное взаимодействие, естественную коммуникацию. И в нашем институте как раз создается система для инвалидов, которая направлена на то, чтобы люди, у которых есть некоторые ограничения или возможности взаимодействия человека с компьютером с помощью рук, то есть какие-то были проведены операции, нет пальцев или рук, он может управлять компьютером с помощью движения головы и некоторых голосовых команд.

Татьяна Валович: Эти разработки инициированы или финансируются Министерством здравоохранения или это ваша личная задача, которую вы перед собой поставили?

Андрей Ронжин: С 2003 года пошел проект Европейской комиссии, и мы в нем участвуем, в рамках этого проекта создали вот эту систему. Нашей разработкой интересуется также институт здравоохранения в России. Мы работаем также с отдельными инвалидами, помогаем им обеспечивать такое взаимодействие.

Татьяна Валович: Вы бы могли описать ту технику, которая сейчас использует системы распознавания и синтеза речи в России, где она применяются? На сегодняшний день уже какие-то разработки введены?

Андрей Ронжин: Распознавание речи еще, может быть, не так много где используется. Есть только такая разработанная компанией Philips модель программного обеспечения, которая работает с русской речью в телекоммуникационных приложениях. Но пока, к сожалению, может быть, недостаточно развит рынок и не так пока еще востребованы российские технологии, а потом эта система недостаточно еще настроена на русский язык и поэтому не дает достаточно хороших результатов. Поэтому мы разрабатываем свою технологию и в рамках инновационного проекта, который пошел с начала этого года, совместно с компанией Evoice внедряем свою технологию и начинаем записывать свои речевые базы данных.

Слушатель: Вы помните программу, с которой все начиналось, называлась, по-моему, "Голосовой ключ", это самая первая русская программа. Еще американцы занимались, которые учили компьютер говорить и понимать. Но потом как-то все это благополучно заглохло. Это было 40 лет назад минимум. Я думаю, что сейчас компьютер нужно учить, наверное, на сленге таком, где можно было бы понять, что такое "стремно", "кинуть", "мухи, котлеты отдельно", "мочить" и прочее. Это поэзия целая сейчас. Конечно, если бы не было таких программ, разве бы мы могли три дня назад послушать речь Березовского и Тимошенко. Наверняка это не обошлось без системы "эшелон", которая здорово может выявлять все и прослушивать, и делать. А что вы можете сказать - первоначально для спецслужб вы стараетесь или такие прикладные дела будут?

Татьяна Валович: Два вопроса прозвучало, это увеличение распознавания слитной речи и увеличение словаря, который мог бы распознать компьютер, и над чем работает конкретно ваша группа.

Андрей Ронжин: Хорошо заметил слушатель, расширение словаря - это очень важно. Как раз сейчас, решив вопрос слитной речи, многие институты переходят к распознаванию спонтанной речи, где возникают слова, которые выходят из обычного лексикона и с ними не то что надо бороться, их надо учитывать. Поэтому тут, может быть, производится распознавание ключевых слов, на которые стоит базировать при понимании всей фразы, которая была произнесена диктором.

Татьяна Валович: Но ведь, кроме распознавания каких-то ключевых слов, у каждого человека своя манера говорить, темп и ритм. Кроме того, даже русский язык если взять, сколько диалектов. Это тоже должно, наверное, учитываться?

Андрей Ронжин: Да.

Татьяна Валович: Насколько это трудно и как продвигается работа в этом направлении?

Андрей Ронжин: В рамках современных технологий для того, чтобы решить все эти проблемы, необходимо записать огромные речевые базы данных, которые будут покрывать многочисленные диалекты и не только диалекты, но и каналы, через которые записываются базы данных. То есть человек может говорить на вокзале, где очень шумно, накладываются посторонние разговоры, то есть все это надо записывать, и, расширяя вот эти базы данных, мы сможем покрыть как вариативность в дикторах, так и в окружающей обстановке.

Слушатель: Георгий, Санкт-Петербург. 50 лет назад мой знакомый написал, например, такой стих... И я подумал, как же с техникой будет взаимодействовать такие строки: "Ласково сковала скал оскал вешняя вишневая заря, устланный устами стал отстал сонный сонм сомнений озаря. Зажужжала жизнь жуком всех жил, песню спеси, ереси сипя. Мир в бездонной луже лжи ожил, чтоб еще раз обмануть себя".

Татьяна Валович: Да, вот это пример сложности русского языка, образования фонем различных окончаний и падежных. Как решаете эту проблему вы?

Андрей Ронжин: Да, очень хороший пример. Профессор Юрий Александрович Косарев в свое время тоже любил приводить стихи, которые были построены только либо из существительных, либо глаголов, которые тоже, естественно, никогда не распознаются и не будут использоваться во взаимодействии человека с компьютером. Или только для стенографирования. Поскольку речевые технологии прежде всего ориентированы под конкретную прикладную задачу - либо это запрос какой-то информации, либо, как я уже сказал, стенографирование текста.

Татьяна Валович: А сейчас стенографирование текста уже существует в виде каких-то разработанных программ, чтобы не человек сидел и расшифровывал какое-то большое длинное заседание, а сделала это машина?

Андрей Ронжин: Для английского языка существует система Via Scribe , Via Voice , Dragon Dictation, которые в принципе работают достаточно хорошо, если их обучить.

Татьяна Валович: А для русского языка?

Андрей Ронжин: Для русского языка существует аналог Dragon D ictation, разработанный компанией Voice Log , так называемый "Дракон", вернее "Горыныч", который в принципе работает, но необходимо провести долгую процедуру предварительного обучения на свой голос, и, по оценкам пользователей, он выдает примерно 70-80% точности.

Татьяна Валович: То есть это только на определенно настроенный голос? А если на каком-то заседании? Там же некоторые докладчики совершенно различно говорят. Такого еще нет?

Андрей Ронжин: Такого, к сожалению, пока еще нет. Для этого нужно использовать диктора независимой системы, для которого необходимо создать, как я уже говорил, большие корпуса русской речи.

Татьяна Валович: Вы начали говорить о том, что одна из ваших задача - это как раз работа с людьми с ограниченными возможностями. Наш слушатель спрашивал, есть ли заказы от правоохранительных структур, с чем они связаны и выполняете ли вы такие задачи?

Андрей Ронжин: Мы со спецслужбами не работаем. Это расширяет наши возможности, мы не ограничены какими-то спецзаказами, а работаем над теми темами, которые мы ведем в рамках своих иностранных и российских проектов. Может быть, это более фундаментальные задачи, нежели, как уже сказала Юлия Хитрова из Центра речевых технологий, для верификации дикторов, определения состояния человека. Хотя этими задачами тоже занимаемся, но в рамках своих проектов, решая какие-то фундаментальные базовые научные задачи.

Татьяна Валович: Когда можно ожидать, что такие устройства, комплексы для людей с ограниченными возможностями будут серийно производиться? И насколько это может быть сложно, должна ли это быть какая-то государственная поддержка при производстве таких комплексов?

Андрей Ронжин: Я думаю, что государственная поддержка обязательно должна быть, поскольку, к сожалению, сфера обслуживания инвалидов не интересует коммерческие структуры, и они не готовы вкладывать туда деньги. Поэтому это, естественно, должны быть инвестиции государственные, для разработки, а главное, для внедрения вот этих технологий и устройств, и для обеспечения инвалидов нормальными возможностями, и для того, чтобы повысить их социальный уровень, социальный статус, обеспечить их такой же высокооплачиваемой работой, как и у других людей.

Татьяна Валович: А как дороги могут быть такие комплексы? Понятно, что чем больше их будут производить, тем стоимость их будет уменьшаться, то есть нужно наладить серийно производство. Но если подумать о том, что они выйдут, скажем, через два года в общее пользование?

Андрей Ронжин: По срокам я пока не скажу, а по цене... Мы сначала использовали для своих фундаментальных задач распознавание речи, используя аудио- и видеосигнал, то распознавание речи по аудиосигналу и чтение по губам, мы использовали действительно дорогую камеру, которая стоит порядка 2 тысяч евро. Для создания системы помощи инвалидам для управления компьютером мы специально взяли за основу самую дешевую камеру, которая стоит 50 евро, веб-камеру, которая включает в себя уже и микрофон, - это получается достаточно дешевая система.

Татьяна Валович: Ну, 50 евро - я думаю, это еще недостаточно дешево для наших людей, которые получают такую маленькую пенсию.

Андрей Ронжин: Да, вы правы, хотя из ассоциации "Интас" приехал представитель, "Интас" был спонсором нашей конференции, и он сказал, что...

Татьяна Валович: Это российская организация?

Андрей Ронжин: Это бельгийская организация. Так вот, он сказал, что подобная система, как у нас, которая тоже работает, у них ее стоимость превышает 3 тысячи евро.

Татьяна Валович: У нас есть еще вопрос от слушателя. Пожалуйста, вы в эфире.

Слушатель: Здравствуйте. Александр Добрый. Я интересуюсь, а если человеческим языком будет говорить попугай, вы сможете определить по его голосу человека, который научил его тем или иным словам?

Андрей Ронжин: Интересный вопрос. Я думаю, что даже через микрофон когда вы записываете и прослушиваете свою речь, вы ее тоже немножко не узнаете, потому что голос трансформируется в процессе преобразований по каналу. То же самое произойдет, естественно, и при обучении попугая. Хотя, возможно, останутся какие-то основные характеристики, которые будет повторять попугай, как фонетические отклонения, естественно, лексические, а акустические характеристики голоса вряд ли сохранятся. Хотя я не биолог.

Татьяна Валович: У нас есть еще вопрос от слушателя. Пожалуйста, вы в эфире.

Слушатель: Здравствуйте. Скажите, пожалуйста, как у нас можно решить вопрос о том, чтобы все-таки начать различать такие слова, как "право" и "право" - в одном случае мы подразумеваем свод законов или основной естественный закон, а в другом случае это права. Мало того, сейчас уже дошло до того, что чуть ли не соединяют эти два понятия третьим понятием, все это проходит под одной, так сказать, короной. Не считаете ли вы, что нужно в написании различать эти слова - право как свобод законов надо писать с большой буквы, а право как права с маленькой?

Татьяна Валович: Да, но в устной речи ни маленькая, ни большая буквы не будут учитываться. Тут, наверное, должен анализироваться контекст, в котором прозвучит это слово.

Андрей Ронжин: Вы абсолютно правы.

Татьяна Валович: В русском языке достаточно много таких слов, которые одинаково звучат, но обозначают совершенно разное. Иногда, когда человек волнуется или торопится, он смотри на предмет, например, это дверь, и говорит "окно". Ну, вот такие вот психологические моменты - насколько они учитываются и как анализируются? Может быть, это действительно должен быть какой-то симбиоз ученых - психолог, биолог... И как вы используете профессии таких ученых в своей работе, есть ли у вас в группе такие люди, например, биологи или психологи?

Андрей Ронжин: Это вы хорошо заметили, действительно, человек - это целостная система, и нельзя рассматривать или изучать его односторонне, например, только речь - изучаем, как о говорит, как выражает свои мысли. Необходимо рассматривать по всех сторон. Поэтому есть такое направление - развитие многомодульных интерфейсов. Многомодульные системы включают в себя различные устройства, которые воспринимают и создают сигналы аудио, видео, сенсорную информацию и обрабатывают их. Для того чтобы определить, как вы уже сказали, что человек видит окно, а говорит на него "дверь" или наоборот, для этого необходимо поставить еще и камеры, чтобы они обращали внимание или смотрели, куда смотрит, куда показывает человек, куда направлены его глаза, куда направлены его руки, для того чтобы в комплексе оценить и поправить некоторые другие виды информации. Например, если он сказал "окно", а показал на дверь, то система оценила контекст, куда он торопился, зачем он идет, что он делал, с кем беседовал до этого, о чем беседовал, чтобы скорректировать эту информацию и поправить его, а в результате правильно понять его желание и выполнить определенные функции какие-то.

Татьяна Валович: Но это тема будущего, наверное. У нас еще есть вопрос от слушателя. Пожалуйста.

Слушатель: Добрый день. Меня зовут Виктор, я звоню из Москвы. Скажите, пожалуйста, а какие системы, какие инструменты вы применяете для распознания диалектов русского языка? И особенно это касается северного и южного наречий, которые даже по мелодике отличаются от основных диалектов. Спасибо.

Андрей Ронжин: Хороший вопрос. К сожалению, наша группа диалектами не занимается. Это интересная задача, которая плотно исследуется Государственным университетом, на кафедре фонетики профессором Павлом Скрелиным. У них были и идут сейчас проекты...

Татьяна Валович: Они участвовали в вашей конференции, представляли свои разработки?

Андрей Ронжин: Да, конечно, они представляли очень интересные системы по синтезу русской речи, которые уже даже где-то применяются. И у них были проекты не только на создание этой системы, но и созданиях крупных речевых баз данных. Они ездили по различным регионам России и создали достаточно представительный корпус русской речи.

Татьяна Валович: Насколько такие технологии синтеза и распознавания речи могут использоваться для обучения тех детей, например, с ограниченными какими-то возможностями, для тех, кто слабо видит или вообще не видит, у кого проблема - церебральный паралич? Работаете ли вы над этим, есть ли какие-то заказы в этой области?

Андрей Ронжин: Пока заказов, к сожалению, нет. Хотя мы сейчас совместно с Университетом Дрездена, с чешским Университетом в Пльзене, с Томским университетом подали заявку на проект "Интас", в рамках которых будем создавать такую гибкую интерактивную систему для помощи инвалидам с различными ограничениями. Как сказал профессор Бондаренко, он занимается восстановлением речи людей, у которых были проведены онкологические операции на голосовом тракте. Мы будем применять свою систему, которая направлена на то, чтобы обеспечить человека без рук возможностью управлять компьютером. Система аудио-видеосинтеза, так называемая "говорящая голова", разработанная чешским университетом, будет использоваться, и другие технологии.

Татьяна Валович: А как, например, детям это могло бы помогать уже в недалеком будущем?

Андрей Ронжин: Я думаю, что прежде всего эти системы должны быть направлены на детей, для того чтобы обеспечить им будущее, чтобы они стали полноценными участниками нашей жизни.

Татьяна Валович: А вот такие устройства для людей с церебральным параличом, у них иногда нарушены, в том числе, голосовые функции, то есть возможно ли улучшить их общение, чтобы он говорил в какое-то устройство, а оно бы переводило его речь в более понятную для других, - такие разработки имеются или нет?

Андрей Ронжин: Существует система, например, для взаимодействия глухонемых, которая распознает знаковую систему общения. Например, человек, который не может говорить. показывает знаками, система воспринимает эти знаки и преобразует их с помощью систем синтеза речи в обычную аудиоречь.

Татьяна Валович: Насколько эти устройства портативны, их можно носить с собой или только можно стационарно использовать?

Андрей Ронжин: Для русского языка пока таких систем я не видел. Единственное, существует компьютерная модель. Насколько я знаю, в Государственном Университете аэрокосмического приборостроения есть эта модель, и он работает с лабораториями нашего института.

Татьяна Валович: Я знаю, что такую систему распознавания команд и речи использовал Ватикан. Когда было празднование 2000-летия Христа, паломник, звонивший в кол-центр, излагал свой вопрос, система автоматического распознавания речи выслушивала его, и если система определяла, что, например, вопрос задан по часто встречающейся теме, включался какой-то записанный предварительно текст, а если эта система понимала, что не сможет дать какую-то информацию звонящему, уже переключала тогда на оператора, человека. В России такие вот кол-центры существуют? Я знаю, например, что если позвонить в банковскую систему, есть некоторые такие системы, можно узнать по телефону о своем текущем счете, и там, наверное, тоже используются такие системы?

Андрей Ронжин: Да, это хорошая идея, и мы тоже собираемся ее использовать. В России пока таких технологий, насколько я знаю, нет. Вернее они есть, но они пока еще не реализованы. В США такие системы существовали уже 20 лет назад, как раз к нам на конференцию приезжал профессор Лоуренс Робинер, который был пионером в распознавании речи, и технологии, методы, которые он разработал, сейчас используются по всему миру. И 20 лет назад он внедрил свою систему в компанию NTNT , где они автоматизировали обработку телефонных звонков, что дало экономию в миллиарды долларов за счет замены операторов-людей автоматическими системами, которые классифицировали входящие звонки по темам и направляли уже на определенного операторы, который знал, на что отвечать, и были какие-то заготовки, которые читались автоматически.

Татьяна Валович: А российский бизнес, может быть, не знает о таких возможностях? Иначе бы как-то более заинтересованно относились, финансировали те же разработки, это же приносит действительно экономию средств. Таких моментов, контактов не было?

Андрей Ронжин: Это не только экономия средств, а это огромная прибыль. Все речевые технологии - это огромная прибыль. Но, к сожалению, пока сейчас наши коммерческие структуры и государственные структуры, может быть, опасаются внедрения этих технологий, поскольку существуют пока еще большие риски.

Татьяна Валович: А с чем связанные? С тем, что система выйдет из строя или с какими-то другими моментами?

Андрей Ронжин: Это связано со сложностью, во-первых, русского языка, с тем, что системы разрабатываются больше 50 лет, и результаты только лет 5-10 назад начали появляться.

Татьяна Валович: Как вы считаете, в ближайшем будущем насколько в России можно ожидать развития речевых технологий и что нужно для этого?

Андрей Ронжин: Тяжело давать такие оценки, поскольку это фундаментальная задача, и как только начинаешь ее решать, сталкиваешься с проблемами, о которых в начале этого проекта или в начале деятельности ты даже не думал. Мы идем шаг за шагом, шли от распознавания изолированных слов, перешли к слитной речи, теперь смотрим, как решать проблемы спонтанной речи, перешли также к биометрическим проблемам, как можно использовать речь человека, его эмоции, мимику, для того чтобы оценить его физиологическое, психологическое состояние, текущее состояние. Мы конкретно занимаемся пока изучением речи.

Татьяна Валович: А финансируется ваша работа за счет чего?

Андрей Ронжин: Я бы сказал, что мы используем не только государственное финансирование, но и проекты, международные и российские, которые позволяют нам покупать достаточно хорошее оборудование, чтобы проводить эти дорогостоящие исследования.

Татьяна Валович: Наверное, как вся фундаментальная наука в России сейчас, безусловно, если бы была большая поддержка от государства, а не только вы выигрывали гранты, было бы только лучше.

Андрей Ронжин: Почему бы и нет...

Татьяна Валович: Спасибо большое.

Добавлено 25.09.06, 17:44
http://tuganbaev.livejournal.com/759379.html
Компьютерра

Нечасто задаваемые вопросы
Опубликовано: 21.09.2006, 15:35
Автор: Владимир Гуриев
Как обычно бывает, один человек что-то услышал, второй что-то увидел, а третий ничего не услышал и не увидел, но признаваться ему в этом было неловко. Отследить источник слуха уже невозможно, но в начале сентября редакторы "КТ" увлеченно обсуждали новый продукт ABBYY, который выйдет в сентябре и уберет с рынка компанию "ZZZ" (название жертвы менялось в зависимости от дня недели, облачности и общего настроя сплетников). Устав гадать, мы отправились в FAQ-Cafе, чтобы спросить у председателя совета директоров компании ABBYY Давида Яна, что же они все-таки выпускают, когда и зачем.

В самом начале разговора выяснилось, что слухи в целом верны, но не академик, а футболист, не в лотерею, а в преферанс, не выиграл, а проиграл, и не "Волгу", а сто рублей. Нашими предположениями Давид Ян был слегка озадачен.

- Насколько я знаю, в этом сентябре мы ничего подобного не планируем. Вероятно, речь идет вот о чем. Мы уже десять лет работаем над продуктом NLC (Natural Language Compiler) и в сентябре следующего года планируем завершить важный этап исследований. А коммерческого продукта ждать еще долго.

Поиск словосочетания "ABBYY NLC" на Google и "Яндекс" дает несколько ссылок, из которых сколько-нибудь внятную информацию содержат только две: интервью Давида Яна, данное им "КТ" в 1999 году (в нем Давид, очень кратко описав, о чем, собственно, идет речь, предполагает, что до полноценного коммерческого продукта еще года два с половиной), и интервью, взятое нашими коллегами из "Домашнего компьютера" двумя годами позже, в котором таких предсказаний уже нет.

- Это самый дорогой продукт ABBYY по стоимости разработки. К моменту выхода первой коммерческой версии на него будет потрачено около тысячи человеко-лет.

Человек читал газету

NLC - это внутреннее название технологии, а не наименование коммерческого продукта. Официальный анонс ABBYY, по словам Яна, сделает только через несколько месяцев - либо зимой, либо весной будущего года. Тогда же, возможно, станет известно, какой из продуктов ABBYY первым будет реализован на NLC. Угадывать название продукта сейчас бесполезно. Это может быть как совершенно новый программный комплекс от ABBYY, так и привычная программа, но с новой начинкой. Кроме того, ABBYY планирует выпустить SDK и лицензировать движок для других производителей.

- Если говорить с точки зрения конечного пользователя, то NLC позволяет решать множество задач, связанных с обработкой естественного языка. Практически все задачи, связанные с обработкой больших текстовых массивов, будут решаться с применением нашей технологии. Сюда входят и смысловой поиск, и аннотирование документов, и поиск по цельным предложениям, анализ и принятие решений и так далее. Сейчас все это решается очень неуклюже, так как в данный момент не существует коммерческих систем, имеющих внутри систему знаний о мире. В рамках NLC мы создаем семантическую иерархию, некий семантический юниверсум, некую модель знаний о мире - знаний как семантических, так и прагматических.

Прагматические знания - это знания, которые не могут быть почерпнуты непосредственно из текста.

- Ну вот, смотрите, - говорит Ян. - Возьмем предложения "Человек сидел на стуле. Он читал газету". С точки зрения грамматики, стул мог читать газету. С точки зрения семантики, стул не мог читать газету, это делал человек. Здесь все просто. Возьмем для примера другое предложение - "Apple, as usual, went for style over functionality". Понять, что Apple в данном случае вовсе не яблоко, а компьютерная компания, можно только обладая прагматическими сведениями. Можно придумать и менее очевидные примеры, когда отсутствие прагматических сведений не позволяет провести грамотный анализ. К прагматическим сведениям относятся, допустим, исторические данные, хотя, честно говоря, граница между семантическим и прагматическим анализом довольно зыбкая.
- В рамках NLC, - продолжает Давид, - мы накапливаем знания о мире. Система знает, что стул - это мебель, мебель находится в доме, знает, для чего предназначен стул. Мы построили модель языково-независимых данных об устройстве мира и модель доступа к этим данным, благодаря чему можем решать, как я уже говорил, широкий пласт задач.

Естественно, первое, что приходит в голову с таким подходом, - это перевод.

- Нетрудно понять, что человек-переводчик в процессе перевода сначала понимает смысл исходного предложения, а затем синтезирует этот смысл на другом языке. Только так можно получить адекватный перевод. Если же Google будет применять какие угодно эвристики, переводить по частям, используя пословный или пофразовый перевод, то неизбежно будет теряться смысл.

Конечно, кое-что можно понять уже на уровне синтаксического анализа. Например, синтаксический анализ зачастую позволяет разобраться с омонимией, когда одно и то же слово может означать разные вещи. Возьмем, допустим, слово "copy" - оно может быть как существительным ("копия"), так и глаголом ("копировать"). Но синтаксический анализ предложения I will copy this book показывает, что в данном случае "copy" - это глагол. Проблема в том, что синтаксис даже в таких, относительно простых случаях работает не всегда. Омонимию "за,мок"-"замо,к" синтаксически разрешить невозможно. "Я буду жить в этом замке" или "я повесил этот замок". Здесь уже нужен семантический анализ.

Кошка в чулане

Выглядит все очень здорово, но, кажется, похожую функциональность обещали и экспертные системы, дайте-ка вспомнить, двадцать, тридцать, сорок лет назад?

- Если говорить о других подходах, то можно вспомнить не только экспертные системы, но и нейрокомпьютеры, которые, вообще говоря, к системам ИИ можно отнести с большой натяжкой, формально они к ним не относятся, это в большей степени статистические модели. Что касается экспертных систем, то в этой области масса различных реализаций. Если говорить о "черном ящике", то наша технология может имитировать поведение экспертной системы, если конечному пользователю так проще. Он сможет задавать вопросы и получать ответы. Но ключевым отличием NLC является то, что у нас целостный подход, мы строим целостное представление о мире. Экспертные системы никогда не ставили себе целью построение всеобъемлющей модели, да и не могли поставить такую цель.

Что это означает? Мы применяем так называемый IPA-подход - Integrity, Purposefulness and Adaptability, целостное, целенаправленное адаптивное восприятие. Этот принцип лежит в основе FineReader, NLC и ряда других систем ИИ, которыми мы занимаемся. Отдельные его принципы существовали и до нас, но наиболее цельно сформулировал этот подход наш главный идеолог по этому направлению Александр Львович Шамис, так что мы считаем, что принцип IPA изобретен нами. И этот принцип работает - сегодня FineReader умеет, например, распознавать рукописные шрифты без настройки на почерк.
В двух словах о том, что это такое. Во-первых, принцип целостности постулирует, что мы храним знания о мире целостным образом. Любые знания являются частью целого. Если говорить о распознавании текстов, то любая буква может быть представлена как система элементов, связанных друг с другом определенным образом. Если говорить о структуре языка, то здесь мы видим систему понятий, которые логически связаны друг с другом.

Принцип целенаправленности говорит о том, что мы не пытаемся исходить из того, что видим или анализируем. Мы поступаем ровно наоборот - априори высказываем гипотезу и пытаемся ее проверить. Наша система изначально является активным субъектом данного акта взаимодействия. Она не просто воспринимает данные на входе, но, получив объект для восприятия, пытается угадать, что это такое, или опровергнуть выдвинутую гипотезу. Причем это система с обратной связью - позитивные или негативные результаты запоминаются, система адаптируется и самообучается.

Представьте, что вы вошли в чулан. Темнота. Света практически нет, только какой-то слабый лучик пробивается. Вы почти ничего не видите, но чувствуете, что слева от вас что-то прошмыгнуло, проскочил движущийся объект. Через доли секунды вы уже знаете точно, что это была кошка. Как это произошло? Как вы догадались, ведь вы ее не видели?

Традиционная система распознавания взяла бы ту явно недостаточную графическую информацию, попыталась бы сделать на ее основании какие-то выводы - и у нее, конечно, ничего не получилось бы, потому что кошки не было, вы не видели ее. Но человек действует иначе. Сам не осознавая этого, он выдвигает гипотезы (как ограничивается круг возможных гипотез, это отдельный большой вопрос). Возможно, это собака, думает человек. Но если это собака, то тень должна была быть крупнее. Кроме того, собака должна издавать соответствующие звуки. Значит, эта гипотеза неверна. Переходим к следующей. Возможно, это мышь? Тоже нет, не подходит по размерам. А если это кошка? Кошка подходит. Это кошка!

Но для выдвижения последней гипотезы у человека должны быть определенные знания о кошке. Он должен знать, что у кошки четыре ноги, хвост. Он должен знать, что кошка мяукает. И он начинает спрашивать себя, был ли у этой предположительной кошки хвост? Ног человек не видел, но хвост видел. Звук она издавала такой, какой издает кошка? Да, такой. Значит, из всех гипотез наибольший вес имела гипотеза, связанная с кошкой, и теперь мы убеждены, что эта гипотеза верна. И когда мы в следующий раз столкнемся с подобной ситуацией, первой нашей догадкой будет "кошка".

Именно этот подход используют живые системы в процессе восприятия: дети, животные, люди и так далее. Мы его достаточно успешно применили в FineReader, но он имеет настолько общий характер, что мы применяем его для анализа естественных языковых предложений, в процессе извлечения смысла. Мы проводим (начинает загибать пальцы) лексический, морфологический, синтаксический, семантический, то есть полную цепочку анализа естественного языкового массива.

А каким образом достраивается внутренняя модель знаний о мире? Все эти знания вводятся...

- ...экспертами. Да, у нас большой объем ручной работы. Правда, часть нам удалось автоматизировать; к счастью, есть методы, позволяющие снизить нагрузку на экспертов. Но рассказывать об этом я пока не могу.

Конечные пользователи и сами смогут дообучать систему. Продукты такого рода должны быть модифицируемы и самообучаемы - иначе они теряют смысл. Как конкретно это реализовано - тоже говорить еще рано.

Не может ли случиться так, что в результате ошибочно заложенных знаний стандартом станет какое-нибудь неверное представление?

- Ну, это общая проблема человечества. Это и сейчас происходит. Возьмите Википедию, один человек ошибся, тысяча человек поставила ссылку. Это жизнь. В словаре Ожегова упоминается, что правильно говорить "фо,льга". А все говорят "фольга,". Это, конечно, проблема, но она общего характера и к нашей системе прямого отношения не имеет.

А для написания программ вашу систему можно применять? Это ведь во многом более простая задача, чем обработка естественного языка.

- В каком-то смысле, да. Есть определенная грамматика, есть смысл и нужно синтезировать этот смысл в правилах заданной грамматики. Сходство имеется, но до конкретной реализации, думаю, еще далеко. Это все равно что сравнить распознавание букв и распознавание отпечатков пальцев. Базовые принципы и там и там одни и те же, но конкретика совершенно разная, разные модели знаний о предмете и т. д. Наш подход может быть применен для построения подобных систем, но это будет совершенно независимый продукт.

Слушаю и понимаю

Отчаявшись получить хоть какой-то намек, на что будет похож первый продукт на базе NLC, мы пробуем подойти к вопросу с другой стороны.

Какие задачи подтолкнули к созданию этой системы?

- Падение Вавилонской башни.

То есть все же лингвистические?

- Дело не только в языках. Дело в знаниях. Количество информации, порождающейся ежедневно, ежесекундно, растет в геометрической прогрессии, и очень скоро нас ожидает если не комбинаторный взрыв, то, по меньшей мере, значительные проблемы с доступом к этой информации. Но это только иллюстрация. То, что человечеству необходимы системы, позволяющие накапливать знания и обеспечивать к ним формальный доступ, совершенно очевидно. Возьмем, например, проблему распознавания слитной речи без настройки на голос диктора. В ее практической необходимости никто не сомневается. Можно ли сделать это с помощью компьютера? Ответ очень простой. Если проанализировать звуковой сигнал, записанный на этом диктофоне, то обнаружится, что семьдесят процентов изначальной информации было утеряно в процессе записи. А при этом уровне шума - все восемьдесят, а то и девяносто, местами. Тем не менее расшифровать наш разговор можно будет на 99 процентов, если не больше. Почему? Как вы можете достичь такого результата, если этих данных физически нет в сигнале?

Потому что вы не распознаете, а домысливаете. Точно так же во время нашего разговора ухо, как любой микрофон, теряет часть информации на входе. Собственно, мозг распознает только тридцать процентов информации, все остальное ему приходится додумывать на основе априорных знаний о языке, смысле и знании предмета (прагматических знаний). Проверить это довольно просто. Если бы я сейчас продиктовал вам предложение по-армянски, вы бы смогли правильно записать только тридцать процентов букв, хотя армянские буквы в целом похожи на русские (здесь имеется в виду не схожесть алфавитов, а фонетическая схожесть. - Прим. ред.). И мы понимаем, что задача распознавания слитной речи - в меньшей степени задача распознавания, а в большей - задача понимания.

И сколько времени пройдет между выпуском NLC и выходом первой системы распознавания слитной речи?

- Много. К сожалению, устная речь сильно неформализована, в ней зачастую не соблюдаются законы семантики, так что один этап анализа практически выпадает. Также сложно применять синтаксический анализ: неполные, оборванные предложения, где заканчивается одно предложение и начинается другое - непонятно. Плюс интонационные нюансы. Тонкостей здесь масса. Так что о работающей системе распознавания слитной речи говорить пока рано. Но довольно быстро появятся системы, которые распознают речь не так хорошо, как люди, но во много раз точнее, чем сейчас. Они будут успешно работать в ситуации, когда озвучивается письменная речь - например, при чтении доклада. Наш с вами разговор или, скажем, телефонный разговор или непринужденная беседа на бытовые темы людей, которые хорошо друг друга знают и понимают, что называется, с полуслова - здесь уже сложнее, конечно.

А эксперименты "Яндекса" и Google в области семантического анализа близки к тому, что делает ABBYY в проекте NLC?

- Google и "Яндекс", конечно, понимают важность таких технологий, и я абсолютно убежден, что к моменту появления NLC на рынке появится некоторое количество технологий, заявляющих примерно то же направление. Но у меня внутреннее ощущение, что подход ABBYY, которая потратила на разработки десять лет, существенно глубже. Я вполне могу допустить даже то, что в первые годы технологии Google, "Яндекс" и других фирм могут оказаться даже эффективнее наших, потому что они настраиваются на решение конкретной задачи, четко поставленной, с понятным результатом. Они не пытаются решить проблему в принципе. Но в дальней перспективе нам неизвестны чужие разработки, которые настолько глубоко и последовательно пытаются решить задачу понимания в общей постановке.

Я могу сказать, что еще пару лет назад весь этот проект для нас оставался очень рискованным вложением. У нас не было уверенности, что это вообще будет работать. Но сейчас есть основания надеяться на лучшее.

На самом деле, Давид рассказал нам немного больше, однако он сам был не уверен, чем стоит делиться, а чем - нет. В результате довольно значительная (и самая, пожалуй, интересная) часть разговора в этот материал не вошла.

Задачки и задачи

- Я не являюсь менеджером компании, я не контролирую ни одного человека напрямую. У этого проекта есть научные консультанты, руководитель разработки, огромная команда, целый этаж сидит. Как и когда мы будем объявлять об этом - во многом зависит от их готовности. Я же в компании появляюсь раз в неделю. Да и то хожу на занятия китайского, которые проводит мой отец, поэтому не всегда обладаю всей необходимой информацией для принятия такого решения.

Раз уж речь зашла о компании, то имеет смысл поинтересоваться, как ABBYY в условиях кадрового кризиса в ИТ может позволить себе столь жесткий отбор при приеме на работу. Претендент не только проходит несколько собеседований, но и сдает экзамен на логику. И только после этого его берут на работу. Стажером. На полгода. А там уж решают, расставаться с ним или нет.

- Конечно, мы тоже столкнулись с кризисом, но планку снижать не можем, иначе процесс снижения станет необратимым. Дело в том, что если определенный процент сотрудников компании обладает некой компетенцией, духом, волей к победе, то остальные, даже если они не до конца отвечают этим идеалам, понемногу подтягиваются. У системы есть некоторый иммунитет. Она либо отторгает людей совсем далеких, либо ассимилирует в себе тех, кто может встроиться. Но если людей, не способных к ассимиляции, будет слишком много, то процесс становится неуправляемым, и на исправление ситуации могут уйти годы. Поэтому, несмотря на дефицит кадров, мы сторонники жесткого отбора. Первый раунд - это изучение резюме. Если резюме нам нравится, то мы приглашаем человека на экзамен, где ему предлагается решить шесть логических задач. Если он с этим справился, его ожидает интервью с работником отдела кадров и непосредственным руководителем, с которым новичку предстоит работать. Если и здесь все проходит хорошо, мы берем его на полгода - срок, на самом деле, не очень жесткий, но обычно все же на полгода, - после чего он сдает квалификационный экзамен. По крайней мере, в R&D это так, у менеджеров, кажется, последнего экзамена нет.

Очень много задач из тех, которые давали на собеседование на Физтехе. Вообще, вся эта система оттуда. У нас практически все руководство заканчивало Физтех, сотрудников много оттуда, базовую кафедру мы сейчас там открыли. Первый выпуск ждем через два года, а дальше уже пойдет гарантированный приток сотрудников - хотя и недостаточный.

К Физтеху в ABBYY особое отношение, хотя Давид утверждает, что к выпускникам других вузов никакой предвзятости нет. Там тоже иногда можно найти хороших специалистов.

- Мы не страдаем шовинизмом. Надо признать, что, к сожалению, несколько лет назад уровень подготовки на Физтехе резко упал по сравнению с тем же Мехматом, например.

Вы, кстати, как-то упоминали, что занялись софтом только для того, чтобы заработать некоторое количество денег и вернуться в науку. Но вот уже семнадцать лет не можете покинуть ИТ-бизнеса...

- Да, было такое. (Ян смеется.) Но выяснилось, что я никуда не уходил. На самом деле, было время, когда я думал, что предаю свое собственное стремление заниматься наукой, но недавно я защитил кандидатскую в области физико-математических наук ровно по тому, чем мы занимаемся в области оптического распознавания. Формально это, конечно, относится к области математики, а не физики, но методы исследования очень похожи.

Разумеется, мы занимаемся инженерной наукой, но в очень интересной области. Это острие, этого еще никто не делал, мы участвуем в научных конференциях, пишем статьи. Мне очень интересно этим заниматься.

Физиком я хотел быть с третьего класса, но сейчас мне кажется, что то, чем мы занимаемся, очень нужно, интересно, востребовано, и это наука.

1 пользователей читают эту тему (1 гостей и 0 скрытых пользователей)

0 пользователей:

Страницы: (5) [1] 2 3 ... Последняя » все

[ Script execution time: 0,0688 ] [ 14 queries used ] [ Generated: 13.07.25, 08:53 GMT ]