Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[34.231.180.210] |
|
Страницы: (5) 1 2 [3] 4 5 все ( Перейти к последнему сообщению ) |
Сообщ.
#31
,
|
|
|
Вышла новая база русского языка. 800 предложений, женский голос. Список предложений подобран из большой выборки текста по частоте вхождения слов. Размечено с помощью HMM.
ftp://ftp.berlios.de/pub/festlang/ru-corpus.tar.gz - скрипты для создания списка ftp://ftp.berlios.de/pub/festlang/festvox_msu_ru_nsh_backup.tar.gz - база |
Сообщ.
#32
,
|
|
|
К беседе с ABBYY на первой странице:
Очень интересно. Только с диктофоном пример плохой. Человеческая речь приблизительно в 10 раз избыточна по частотной составляющей и в 10 раз - по амплитудной. Поэтому в чистом случае 1 % информации достаточно, чтобы понять (а не расшифровать) 100 % информации. Это проверялось экспериментально. А если речь идет о расшифровке - значит, дошли уже доли процента исходного физического сигнала. Всегда стоит помнить, чот та информация, которую мы получаем от органов чувств - избыточна в колоссальной степени для идентификации объекта или распознавания сигнала. Взято из того же источника. Нет, пока, мат. аппарата для работы с речью, как и с любым волновым процессом (имеется в ввиду естественным) |
Сообщ.
#33
,
|
|
|
Япония: пульт ДУ больше не нужен
Цитата Пульт управления телевизором может стать пережитком прошлого уже в самое ближайшее время. Специалисты японского института разработки передовых технологий смогли создать систему, позволяющую управлять телевизором с помощью голосовых команд. |
Сообщ.
#34
,
|
|
|
http://www.cnews.ru/news/line/index.shtml?2006/12/22/229576
"Ганза-Консалтинг" выпустила прототип системы распознавания речи Новгородская компания «Ганза-Консалтинг» выпустила прототип системы распознавания речи. В данный момент он распознает 30 заранее определенных слов на немецком языке без предварительного обучения человеком (дикторонезависимо). При проведении исследования привлекаются ученые и сотрудники Новгородского государственного университета и Северного филиала российского государственного университета инновационных технологий и предпринимательства а также студенты-дипломники. Выпуск прототипа предназначен для начала интенсивного тестирования с целью улучшения качества распознания. Конечная цель работ состоит в получении метода, правильность которого близка к 100% независимо от особенностей голоса говорящего. |
Сообщ.
#35
,
|
|
|
Ford и Microsoft разрабатывают автомобильный софт
Цитата Компании Ford и Microsoft приступили к разработке принципиально нового программного обеспечения для автомобилей, которое будет воспринимать голос водителя и на основании голосовых команд выполнять те или иные действия, например, включать радио, воспроизводить музыку, хранящуюся в памяти автомагнитолы, или активировать функцию встроенного мобильного телефона. По словам представителей Microoft, новое ПО Sync будет предустановлено на более чем десятке различных моделей Ford, начиная с 2008 года. К 2009 году Sync будет устанавливаться на другие бренды Ford, включая американские Mercury и Lincoln. Финансовые подробности сотрудничества компании не раскрывают, но в Microsoft говорят, что придают данному рынку огромное значение, так как Ford является вторым по величине автопроизводителем в мире и количество продаваемых автомобилей очень существенно. Напомним, что на сегодня ПО Microsoft присутствует в некоторых автомобилях, однако оно выполняет довольно примитивные функции и, например, обеспечение Bluetooth-связью мобильные телефоны и электронные системы автомобиля. Кроме того, в Microsoft говорят, что в будущем планируют производить массовое ПО для домашних и офисных устройств. |
Сообщ.
#36
,
|
|
|
http://www.cnews.ru/news/line/index.shtml?2007/01/29/233209
Midomi: голосовая поисковая система Новая поисковая система Midomi предоставляет возможность поиска песен и музыки по напеву, сделанному посетителем с микрофона. Система также позволяет искать обычным способом и имеет функции социальной сети: на сайте можно оставить информацию о своих музыкальных вкусах. Midomi использует технологию MARS — «Мультимодальную адаптивную систему распознавания», разработанную корпорацией Melodis. MARS анализирует каждый элемент звука отдельно и адаптирует его под узнаваемые составляющие из базы данных. Компонент социальных сетей позволяет пользователю создать профиль, в котором можно оставить напевы своих любимых песен, обменяться ими с другими пользователями и добавлять в поисковую базу данных. Здесь можно также оценивать других пользователей, просматривать их фото и обмениваться письмами. Ранее в январе на рынке появилась голосовая поисковая система Nayio. Компания VentureBeat протестировала обе системы и заключила, что алгоритм Midomi более совершенен. |
Сообщ.
#37
,
|
|
|
http://pcweek.ru/?ID=622198
23 января, 2007 Диалоги с клиентом Родион Насакин В состав практически любого ПО для работы контакт-центра, представленного на рынке, сегодня входит инструментарий для создания IVR-меню. В свое время подобный софт, который позволял снять с операторов часть нагрузки, введя режим голосового “самообслуживания” за счет последовательного нажатия телефонных клавиш, казался крайне удачной интерактивной технологией. После того как IVR получила широкое распространение и стала встречаться в контакт-центрах большинства мало-мальски крупных компаний, оказалось, что, несмотря на сокращение времени ожидания звонящим, это решение нельзя назвать панацеей. Внимая собеседнику Практика использования IVR-решения выявила целый ряд проблем. Клиент отказывался слушать фоновую мелодию больше минуты-другой в ожидании ответа системы, не хотел тратить время и на прослушивание автоответчика, добираясь до нужной функции (например, перехода на другой тариф или пополнения баланса) через многоуровневое разветвленное меню. Довольно часто звонящий в таких случаях выбирает из двух зол меньшее и сразу переводит вызов на оператора. Как следствие, IVR становится неэффективным, а средняя стоимость обработки вызова возрастает. Так что вполне можно было ожидать, что технологический прогресс в этой сфере на IVR не остановится и в скором времени вендоры контакт-центров предложат более совершенные решения по обработке вызовов. Наиболее вероятные преемники IVR — средства распознавания речи, которые позволяют системе вычленить в репликах дозвонившегося ключевые фразы и в соответствии с настроенными алгоритмами предпринять необходимые действия. Разумеется, подобные решения не могут на начальном этапе своего развития полностью заменить оператора (да и не факт, что такая интеллектуальность будет когда-либо достигнута), но возможность распознавания типичных запросов, составляющих львиную долю обращений в контакт-центр, позволяет резко сократить нагрузку на сотрудников. Распознавание речи и преобразование текста в речь (TTS, text-to-speech) является одной из ключевых составляющих концепции универсальной обработки сообщений (Unifies Messaging, UM), которую сейчас рассматривают в качестве стратегического вектора развития практически все ведущие поставщики оборудования и ПО контакт-центров. Работу над программным инструментарием распознавания речи ведут несколько компаний, но до технологического уровня, достаточного для коммерческой эксплуатации (т. е. около 2% ложных срабатываний, которые можно нивелировать конфигурированием системы), пока доведено не так много решений. В частности, среди преуспевших в деле распознавания и синтезе человеческой речи можно отметить компании Nuance (использует наработки купленной ScanSoft) и IBM (WebSphere Voice Server), чьи технологии уже начали лицензировать вендоры контакт-центров. Разработки IBM позволяют проводить распознавание и синтез речи, а решение ScanSoft, кроме того, также поддерживает идентификацию голоса и диалоговые элементы Open Speech. Конечные решения на базе подобных технологий уже являются флагманами новых продуктовых линеек у лидеров рынка -- Avaya, Cisco, Nortel, Siemens и др. Несмотря на все преимущества систем речевого самообслуживания, очевидно, что многие потенциальные заказчики не готовы кардинально менять уже имеющуюся инфраструктуру в силу финансовых затрат и потенциальных технических проблем при развертывании новых решений. Поэтому вендорам приходится обеспечивать совместимость со своими ранними линейками продукции и разрабатывать механизмы внедрения новых сервисов на основе уже существующей технологической базы. В результате такого технологического симбиоза появляются новые возможности как на этапе обслуживания вызовов, так и при их маршрутизации. Наиболее часто приводимый пример — оценка целесообразности перевода клиента из системы самообслуживания на оператора. Определение происходит в результате анализа клиентского набора параметров: категории клиента, данных по его транзакциям и ценности для компании, персональных предпочтений, истории предыдущих обращений и т. д. В качестве еще одной особенности новых продуктов можно отметить их частую интеграцию в составе единого решения с приложениями IP-инфраструктуры — другого приоритетного направления разработок вендоров. Использование открытых промышленных стандартов, лежащих в основе построения IP-сетей, таких как VoiceXML или MRCP, делает системы речевого самообслуживания более гибкими и масштабируемыми за счет отделения прикладной части от аппаратной платформы. Кроме того, этот подход дает ряд других преимуществ. Так, стандарт VoiceXML позволяет осуществлять доступ к одним и тем же сервисам и БД и по голосовой связи, и через Интернет, что резко упрощает базовую ИТ-инфраструктуру контакт-центра, параллельно расширяя потенциал развития сервисов. В качестве еще одного достоинства открытых стандартов следует отметить возможность интеграции систем с платформами от других разработчиков, т. е. отсутствие привязки к конкретному вендору. И все же основной побудительный мотив для развертывания систем речевого самообслуживания состоит в том, что они не требуют расширения штата операторов при наращивании объема услуг. Да и при сохранении текущего объема работы ROI получается весьма внушительным. Например, стоимость обработки оператором одного обращения в службу технической поддержки составляет от 3 до 7 долл. При обслуживании соответствующей системы сумма сокращается до 1—2 долл. без снижения качества обслуживания и лояльности клиентов. При этом функциональность решений постоянно растет, и современные приложения на базе распознавания речи позволяют в автоматическом режиме ответить не только на сравнительно простые клиентские запросы, например о проверке состояния заказов или местонахождении компании, но и более сложные, такие как смена адреса клиента или изменение пользовательского пароля. Функциональность Первые образцы систем уже доступны отечественным заказчикам. В частности, недавно компания Avaya объявила о локализации своего решения Open Speech Recognizer (OSR) и начале его продвижения в России. В основе продукта лежат технологии распознавания ScanSoft, которые уже применяются более чем тысячей компаний по всему миру. Ниже на примере этого решения будут рассмотрены принципы работы, а также техническая и бизнес-функциональность подобных систем. Заявленная разработчиками точность распознавания речи в OSR составляет 98% правильных ответов для англоязычных запросов (понятно, что по русскоязычным пока статистики нет). Помимо этого показателя системы также характеризуются величиной относительного сокращения ошибок (Relative Error Rate Reduction, RERR) в результате самообучения, которая у данного продукта достигает 15—20% ежегодно. Рис. 1. Архитектура OSR Среди основных свойств OSR (см. рис.1) можно отметить определение начала и конца реплики собеседника, умение отличать паузы от завершения фразы, реакцию на перебивание собеседником голосового сообщения системы, отсеивание посторонних шумов, своевременную подачу ответной реплики (так называемый живой отклик, responsiveness) и анализ речи произвольного содержания (естественный язык, natural language). Кроме того, в OSR поддерживается распознавание многоязычной речи, что разработчики считают существенным достоинством, утверждая, что, например, в Северной Америке клиенты зачастую перемежают свою английскую речь французскими или испанскими словами. Распознавание перебивания (barge-in) на практике обычно необходимо для того, чтобы звонящий мог остановить перечисление системой возможных действий, услышав то, что ему необходимо. Выглядит это примерно следующим образом. Система: Вас приветствует справочная служба авиакомпании Х. Вы можете узнать расписание рейсов, заказать билет, изменить… Клиент: Заказать билет. Получив команду, система сразу переходит к меню резервирования, прервав свою реплику. В рассматриваемом продукте поддерживаются и такие возможности, как распознавание реплик, обращенных к службе при параллельном разговоре собеседника по телефону и еще с кем-либо лично. То есть система прервет свой разговор и примет команду только в том случае, если по результатам анализа ключевых слов в брошенной клиентом фразе выяснит, что данный речевой фрагмент предназначался ей. Разумеется, точность оценки и соответственно уровень удовлетворения звонящего во многом зависит не только от технологических возможностей продукта, но и от качества составленного специалистами компании тезауруса нужных фраз. Умение отличать речь от посторонних звуков также немаловажно для эффективной работы системы, причем с каждым годом этот фактор становится все более и более актуальным по мере увеличения количества вызовов с беспроводных телефонов и, как правило, из более шумных мест, например с улицы. Помимо программных алгоритмов отсева не относящихся к беседе звуков в OSR используются фильтры, основанные на спектральном вычитании. Данные устройства определяют общий уровень шума (в частности, создаваемого проезжающими машинами) “в трубке” и вычитают его из общего сигнала, оставляя сравнительно чистую речь. Качество реализации “живого отклика” — следующий по значимости параметр после точности распознавания, так как удовлетворенность клиента во многом зависит именно от него. По окончании фразы собеседника система выжидает около двух секунд (CPL, caller perceived latency), чтобы убедиться, что тот действительно прекратил речь, распознать и проанализировать поступившие данные, после чего исполняет команду и сообщает подходящий ответ. Как утверждают в Avaya, и большая задержка (более двух секунд), а слишком быстрая реакция вызывают психологический дискомфорт у клиента. Лингвистические технологии Поддержка естественного языка позволяет существенно расширить функциональность системы, так как дает возможность внедрять более сложные сервисы. К таковым, например, относится обращение пользователя в службу технической поддержки с описанием возникшей проблемы. Без естественного языка для реализации этого функционала необходимо создать крайне разветвленное голосовое меню, через которое система будет пошагово сужать круг предполагаемых неполадок. В силу корпоративной специфики пользовательские проблемы могут быть самыми разнообразными, и зачастую сделать соответствующее меню просто не удается. В то же время с использованием естественного языка система может анализировать описание клиента, сделанное в произвольной форме, вычленяя ключевые слова и задавая наводящие вопросы по возникающим предположениям. Таким образом, вместо многочисленных уточнений в меню пользователь ведет менее утомительные разветвленные диалоги. Рис. 2. Схема работы SpeakFreely В OSR эта функциональность реализована в модуле SpeakFreely с задействованием статистических моделей -- лингвистических и семантических (SLM и SSM соответственно). Система определяет вероятность той или иной проблемы у звонящего в ходе диалога с постепенным повышением точности прогноза по мере приобретения опыта. Процесс обработки данных отображен на рис. 2. Кроме того, в OSR можно задать правила для выделения семантически значимых фраз при распознавании, которые позволяют улавливать смысл речи, не прописывая в словаре все возможные словесные формы. Например, система поймет просьбу клиента об изменении своего адреса в базе, озвученную произвольными словами, а не четкой формулировкой. Говоря об обучаемости OSR, необходимо отметить также реализованную в продукте запатентованную технологию LEARN, позволяющую приспособить акустические модели к типичным рабочим условиям: стандартный уровень шума, диалект большинства клиентов и т. д. -- без вмешательства операторов. В частности, в Avaya утверждают, что использование LEARN в работе одного из австралийских телекомов позволило довести RERR до 24,7%. Среди используемых в OSR лингвистических решений можно выделить несколько перспективных технологий, позволяющих ускорить процессы преобразования текста в речь и обратно, а также их анализа. Прежде всего это относится к FST (Finite State Transducer) — конечному преобразователю текста. После того как речь переводится в текст, написанный на естественном языке, нужно построить над ним соответствующую структуру, создать семантическую сеть, отражающую смысл текста. Выглядит это следующим образом. По ключевым словам формируется определенная первичная структура с кусками текста в качестве базовых элементов. Если для понимания смысла ее на этом уровне недостаточно, над начальной структурой “возводится” следующая и т. д. — пока не будет достигнут необходимый порог. При этом для построения структуры текста необходимо выбрать какой-нибудь способ ее описания. Для этого используются так называемые формализмы, задающие соответствие между отрезками текста и смысловыми объектами. В компьютерной лингвистике существует целая классификация формализмов, в том числе порождающие грамматики, расширенные сети переходов (ATN, Augmented Transition Networks), формализмы, основанные на шаблонах, и, наконец, FST. За счет конечных преобразователей OSR может работать с очень большими грамматиками (набором допустимых словоформ), включающими более 1 млн. слов, так как формализмы позволяют оптимизировать работу с памятью, снижают количество вычислений, одновременно улучшая компиляцию грамматики и время загрузки. Задача FST — удаление избыточности из грамматик с сохранением начального смысла в меньшем объеме памяти. По данным разработчика, за счет преобразователей грамматика в 40 тыс. слов может быть сокращена со 170 до 15 Мб. Также для оптимизации производительности в OSR используют динамическое связывание грамматик, которое позволяет комбинировать различные куски текста во время интерпретации. Алгоритм работы аналогичен тому, как ОС использует отдельные DLL-библиотеки для быстрой загрузки и обновления части программы. Через динамическую связку также по мере необходимости добавляются словари к уже собранной грамматике. Оптимизация и оценка эффективности Главную сложность при настройке систем распознавания речи представляет разработка мер по предупреждению возможных ошибок и адекватная установка порогов “неправильности”. Каким бы совершенным ни был речевой движок, программа может не понять (или понять неправильно) какие-то слова, а также пропустить значимое слово в фразе. Наиболее результативным способом профилактики можно назвать изменение произносимого системой текста при переспросе. То есть если приложение не смогло с первого раза понять ответ клиента, например, из-за сильных помех по линии, то она должна задать тот же вопрос, но другими словами. Это существенно способствует сокращению переводов звонков на “живых” операторов по инициативе клиента. Можно привести два примера диалогов для стандартной и оптимизированной настройки соответственно. Система: Назовите ваш адрес. Клиент: Рязанский проспект, дом 8. Система (не распознав ответ): Назовите ваш адрес. В этом случае клиент может посчитать, что система не работает, и перейти на оператора, а то и вообще бросить трубку. Однако ситуация меняется, если построить диалог другим образом. Система:Назовите ваш адрес. Клиент: Рязанский проспект, дом 8. Система (не распознав ответ): Простите, вас плохо слышно. Пожалуйста, говорите громче. Назовите ваш адрес. Теперь клиент понимает, что его вызов принят, и к тому же он получил рекомендации для более корректной работы с системой. При этом ПО для распознавания речи работает не по бинарному принципу понятно/непонятно. Вместо этого используется процентная шкала, характеризующая степень распознавания на каждом этапе диалога. И каждый последующий шаг системы зависит от полученного на предыдущем этапе значения. От пользователя требуется установить значения нескольких порогов. То есть если уровень “понимания” собеседника близок к 100%, то система продолжает вести диалог, а на каких-то промежуточных уровнях просит подтвердить или уточнить тот или иной момент в разговоре. В качестве количественных показателей эффективности системы рассматривают помимо количества обработанных звонков уровня распознаваемости и упомянутого в основном тексте RERR (для обучаемых систем) ряд других параметров. Во-первых, это степень риска — отношение количества клиентов, выбравших разговор с системой вместо оператора, к общему числу позвонивших в компанию. Во-вторых, это уровень отказа от общения — количество прерванных звонков. В-третьих, это средняя продолжительность звонка, которая после внедрения системы должна сократиться. Стандарты систем распознавания речи VoiceXML Язык VoiceXML предназначен для разработки Web-ориентированных голосовых сервисов, прежде всего для контакт-центров на базе IP. Стандарт был разработан семь лет назад специалистами группы VoiceXML Forum, включавшей 44 корпорации из телеком-отрасли. В настоящее время совершенствованием технологии занимается консорциум W3C. Для сертифицирования продуктов на соответствие стандарту вендоры привлекают независимых аудиторов. Главным достоинством языка является независимость сервисных приложений от платформ в IP-телефонии. Область применения языка очень широка. В частности, ряд интернет-компаний даже использует сервисы на базе VoiceXML для подтверждения заказов и идентификации клиентов по голосу. В декабре 2005 г. W3C объявил о завершении работ над третьей версией VoiceXML. В ней предусматривается расширение функциональных возможностей языка Speech Synthesis Markup Language (SSML), позволяющего управлять синтезированной речью с помощью множества параметров (от высоты звука до произношения), на ряд новых языков, в том числе китайский, японский и корейский. В OSR пока применяется VoiceXML 2.0, который позволяет упростить развертывание дополнительных приложений на базе стандарта. Однако продукт также может быть использован на платформах, не поддерживающих язык, поскольку решение непосредственно не интерпретирует VoiceXML и содержит в своем составе VoiceXML-браузер. MRCP Универсальный прикладной протокол для управления медиаресурсами — MRCP (Media Resource Control Protocol) был разработан для предоставления голосовым приложениям в VoIP-сетях доступа к службам медиасерверов через интерфейс API. В ноябре 2005 г. появилась вторая версия протокола, которая обеспечивала доступ службам распознавания голоса, синтеза речи и проверки подлинности голоса. MRCP базируется на Web-технологиях и может комбинироваться с другими медиапротоколами, например, RTSP — для передачи аудио- и видеопотоков в реальном времени. MRCP так же, как и VoiceXML, направлен на сокращение издержек и временных затрат при модернизации систем или развертывании новых приложений, а также независимость сервисов от выбранной платформы и ее производителя. Кроме того, медиасервер на MRCP позволяет параллельно эксплуатировать и по выбору использовать продукты разных производителей. SRGC Наряду с VoiceXML, W3C три года назад присвоил статус “рекомендуемой” спецификации SRGC (Speech Recognition Grammar Specification). Если VoiceXML представляет собой язык описания интерактивных голосовых Web-служб для синтеза, записи и распознавания речи, а также голосовых и DTMF-команд, то SRGS стандартизирует способы указания слов и шаблонов, на которые ориентируются системы распознавания. В настоящее время VoiceXML и SRGC подразумевают совместное использование и являются компонентами Speech Interface Framework, универсального набора языков разметки для интерактивных речевых приложений. SRGS позволяет описывать сопоставления результатов распознавания речи или тонового сигнала телефона действиям пользователя. |
Сообщ.
#38
,
|
|
|
Цитата botanik++ @ Нет, пока, мат. аппарата для работы с речью, как и с любым волновым процессом (имеется в ввиду естественным) Это точно нет, а столько дисеров почему-то во всем мире защищается, наверно все они аферюги и нас за лохов держат |
Сообщ.
#39
,
|
|
|
Цитата DimmK @ http://www.membrana.ru/lenta/?6485 Музыкальный слух оказался физиологическим явлением 10 баллов из 10!!! Очень интересно (просто музобразование есть), только сейчас прочёл! Хотя, всё-таки мне кажется это очень спорным. Например, неучто у Чайковского был слух относительный! А ведь он професскионально обучаться начал (не дома с мамой) в 22 года, поступив в консерваторию. А в детстве он, как помню, музыкой шибко много не занимался. Да и есть люди и не мало, с абсолютным слухом, кто не с малых лет музыкой занимается. |
Сообщ.
#40
,
|
|
|
Любую часть мозга можно развить: например после обследования Лондонских таксистов, выяснилось, что у них более развита часть мозга отвечающая за ориентацию на местности - таксистами не рождаются, а становятся
|
Сообщ.
#41
,
|
|
|
http://www.ixbt.com/news/all/index.shtml?07/78/21
IBM провозглашает «новую эру речевых технологий» Как утверждает компания IBM, успехи, достигнутые в ее лабораториях, способны сделать речевые технологии частью повседневной жизни. Фантасты и любители делать прогнозы развития техники давно твердят на разные голоса, что общение с компьютером и другими «электронными помощниками» при помощи наиболее привычного и развитого средства из арсенала человека – речи – является одним из ключевых элементов дальнейшего развития информационных технологий. Долгое время разработчики соответствующих средств пеняли на нехватку вычислительного ресурса; потребителям, имевшим опыт общения с программами для речевого ввода, быстро становились очевидны ограничения алгоритмов; и те и другие сходились на мнении, что до повсеместного внедрения речевых интерфейсов пока далеко. И вот, по словам IBM, время пришло. Представляя новые разработки в рамках ежегодного мероприятия IBM Speech Technology Innovation Day, компания констатировала, что речевые технологии готовы стать частью повседневности и отныне начинается этап их широкого внедрения. С IBM солидарны крупные компании, принявшие участие в презентации. Напомним, свой первый продукт для речевого ввода IBM представила десять лет назад. С тех пор многое изменилось, в частности, как утверждается, специалистам IBM удалось преодолеть ограничения, выявившиеся на ранних этапах разработки, такие, как влияние шумов и невозможность распознать особенности диалектов. В качестве первых масштабных примеров внедрения новой технологии были названы следующие проекты: Сотрудничество между IBM, Avoca Semiconductor и All Media Guide – одним из крупнейших поставщиков музыкального и развлекательного контента. Предполагается, что оно позволит задействовать речевые технологии IBM Embedded ViaVoice в функциях управления и поиска, реализуемых в развлекательных электронных устройствах. Компания Pioneer Electronics намерена включить технологию IBM Embedded ViaVoice в систему навигации AVIC-Z2. Кстати, система AVIC-Z2 станет первой, в которой будет использован электронный атлас Tele Atlas MultiNet, содержащий подробные цифровые карты Северной Америки и базу данных с 45 миллионами адресов в США. Совместная разработка IBM и Alpine Electronics – бортовой спутниковый навигатор NVE-N872A. Активируемые голосом функции этой системы высвобождают руки и внимание водителя, позволяя ему сосредоточиться на дорожной обстановке. Система поддерживает три языка - английский, испанский и французский. К сожалению, пока среди примеров применения разработок IBM отсутствуют системы на русском языке, однако, хочется верить, что появление продуктов, понимающих «великий и могучий», не за горами. |
Сообщ.
#42
,
|
|
|
http://www.point.ru/techno/2007/02/22/4617
Устройства, управляемые голосом. Новшества на рынке Хай-тек Ожидается, что рынок технологии распознавания речевых команд увеличится в четыре раза к 2010 году. Однажды каждым устройством, механизмом или компьютером можно будет управлять при помощи голоса. Очередное соревнование между человеком и компьютером прошло осенью 2006 года на конференции, посвященной новинкам в области технологии распознавания речевых команд. Человечество представлял 17-тилетний Бен Кук, внесенный в книгу рекордов Гиннеса как человек, быстрее всех в мире набирающий текстовые сообщения (смс). Компьютеры же представлял не сверхсовременный монстр, а вполне обычный мобильный телефон. Самое удивительное было в том, что аудитория, собравшаяся на конференции, жаждала победы...телефона. Кто быстрее преобразует предложение в текст на экране: быстрые пальцы Кука или элегантные алгоритмы новой речевой технологии от компании Nuance Communications? Тестовая фраза «Острозубые пираньи из семейств Serrasalmus и Pygocentrus считаются самыми свирепыми пресноводными рыбами в мире. На самом деле они редко атакуют человека» появилась на огромном экране проектора. Пальцы Кука бешено залетали над кнопками. Представитель Nuance Communications спокойно продиктовал фразу в микрофон мобильного телефона, и...Посетители конференции были ошеломлены. Технологии компании Nuance помогли распознать фразу и напечатать ее на экране мобильного телефона в виде текстового сообщения всего за...16 секунд! Куку потребовалось целых 48 секунд (на самом деле, нечеловеческая скорость набора), и он только и мог, что упавшим голосом повторять: «Я не понимаю, как вы это сделали!..» Они сделали это при помощи недавно разработанной технологии Mobile Dictation, которую собираются выпустить на рынок в первой половине 2007 года. Технология распознавания голосовых команд, появления которой ждали со дня на день, наконец-то громко заявила о себе. Усовершенствованный процесс распознавания, новый программный алгоритм и улучшенные микрофоны - вот что позволило корпорации Nuance создать систему, которая действительно работает и распознает голосовые команды с точностью до 100 процентов! Такие показатели создают головокружительный потенциал для роста рынка речевых технологий во многих отраслях жизни, начиная от управляемых голосом диктофонов и мобильных телефонов, и заканчивая автомобильными устройствами и военными радиопередатчиками. Размер рынка речевых технологий в 2006 году достиг 1 миллиарда долларов, увеличившись на 100% всего за два года. Внутри этого огромного рынка присутствуют более мелкие сегменты, к примеру, рынок речевых технологий для обслуживания информационно справочных служб, служб экстренной помощи и подобных услуг достиг в 2006 году показателя в 600 млн. долларов. Ожидается, что к 2009 году эти показатели удвоятся. Рынок речевых технологий, внедренных в мобильные телефоны или приборные доски автомобилей, на настоящий момент оценивается в 125 млн. долларов, а к 2010 году ожидается его удвоение до 500 млн. долларов за счет увеличения спроса на товары, управляемые голосовыми командами: мобильные телефоны, GPS-навигаторы в автомобилях, музыкальные плееры и пр. Многие эксперты склоняются к выводу, что вскоре технологиями распознавания речи будут оснащены практически все используемые человеком приборы. Резко выросший спрос на продукцию как компаний, уже зарекомендовавших себя на рынке речевых технологий, так и компаний-новичков, помогает им инвестировать свои капиталы. К примеру, в 2006 году Nuance приобрела компанию Dictaphone, чтобы усилить свое присутствие на рынке индустрии здравоохранения, в то время как продажи Nuance выросли на 20% и составили 300 млн. долларов. Новая операционная система компании Microsoft под названием Windows Vista была разработана с внедрением технологии распознавания речи, которую после серии досадных поломок и дефектов наконец отладили так, что теперь она заслуживает только восторженные рецензии экспертов. Известный Интернет-портал Google разрабатывает технологию, позволяющую совершать поиск при помощи речевых технологий. Таким образом, речевые технологии из необычного развлечения превращаются в серьезный бизнес. Точкой отсчета для развития речевых технологий стал 1952 год, когда исследователи из Bell Labs создали довольно примитивную систему, которая могла распознавать цифры, переданные голосом по телефону. С тех самых пор прогресса в этой области не наблюдалось, но теперь, с появлением значительно более мощных вычислительных компонентов, после многих лет проб и ошибок, система наконец-то научилась работать с огромным количеством акцентов, диалектов и дефектов речи. В 2004 году компания VoiceBox Technologies представила прототип разработанного ею устройства, который пришлось доставлять на место демонстрации в чемодане. Сегодня такая же система имеет размеры и толщину кредитной карты и вскоре будет установлена в приборной доске новой модели Toyota. Система VoiceBox настолько умна, что может анализировать речь в контексте всей фразы, чтобы, к примеру, понять, относится ли команда «трафик» к затруднению на дорогах, к музыкальному произведению Стива Винвуда или к фильму, в котором сыграл Майкл Дуглас. Современные системы распознавания речи отличаются высоким уровнем самообучения. Компания Tellme Networks создала систему, которую используют в информационных центрах. Платформа Tellme's за год распознает более 10 миллиардов слов и выражений и постоянно анализирует их, улучшая точность работы день за днем. «Распознавание речи полностью зависит от качества распознавания отдельных сегментов речи. Чем больше у вас данных, тем лучше работает система», - говорит исполнительный директор компании Джефф Кунинс. Технологии распознавания речевых команд становятся более ценными с точки зрения обслуживания клиентов. Информационные центры и службы поддержки давно пользуются дурной славой из-за навязшего на зубах «нажмите или произнесите цифру один» (наследие старых технологий распознавания речи). Но недовольство клиентов - это не единственный аргумент в пользу внедрения новых, современных технологий распознавания голосовых команд. Стоимость одного звонка в информационный центр составляет пять долларов, если с клиентом работал оператор, и всего пятьдесят центов, если клиент получил ответы на вопросы самостоятельно, используя новейшие технологии распознавания речи! Сетевой брокер E-Trade Financial использует технологию Tellme для обработки более чем 50 000 звонков в день. Более половины из них никогда не доходят до сотрудников-операторов на телефоне. Компания утверждает, что система Tellme помогает экономить 30 млн. долларов ежегодно. Пока рынок информационных центров и автомобильных приборных досок только начинает развиваться, настоящей «золотой жилой» становится улучшенная система распознавания голоса для всех видов мобильных устройств. Взять хотя бы мобильные телефоны: телекоммуникационные компании уверены, что пользователи будут готовы платить за дополнительные услуги - возможность диктовать письма для отсылки по электронной почте, искать нужную информацию и пр. - если в их мобильный телефон будет интегрирована простая в использовании технология распознавания голосовых команд. Эксперты предсказывают телекоммуникационным компаниям дополнительный доход в размере от 5 до 15 долларов с каждого клиента, готового пользоваться новой технологией. Речевые технологии можно использовать и в мп3-плейере, и в ноутбуке, и в управляемой голосом портативной системе навигации. Бывший инженер компаний Microsoft и Amazon Алекс Кастро создал компанию Pluggd, которая успешно занимается разработкой механизма Интернет-поиска, который соединяет в себе технологии распознавания речи и семантический анализ слова. Компания Vocera Communications около двух лет назад привлекла к себе внимание, создав и внедрив в производство электронный жетон - удостоверение личности, соединяющий в себе технологию распознавания голоса и технологию беспроводной связи. Среди клиентов компании - медицинские работники, которые пользуются своим удостоверением личности для подсоединения к базе больницы при помощи беспроводных технологий и поиска соответствующего специалиста для пациента, или для внесения записей в его учетную карту с помощью технологии распознавания речевых команд. Компания Vocera рассчитывает начать приносить прибыль не позже начала будущего года. Ее продукт VoxTec International's Phraselator, карманный переводчик размером с чековую книжку, прослушивает фразу на незнакомом языке, анализирует ее и выдает перевод. Эту разработку уже использовали американские войска в Ираке и Афганистане. Многие эксперты ожидают, что когда-нибудь технологии распознавания речи полностью вытеснят привычный для нас способ введения информации: печать на клавиатуре, нажатие на кнопки интерактивного интерфейса, запись от руки. Глава отдела технологий распознавания речи компании Microsoft считает, что придет день, и речевые технологии станут настолько развитыми, что смогут самостоятельно исправлять грамматические и стилистические ошибки. Технология компании Nuance, положившая на лопатки Бена Кука, на 25% лучше, чем аналогичная система, представленная компанией в прошлом году, а версия для продажи будет делать еще на 20% ошибок меньше, чем нынешняя версия программы. «Техника печати Бена невероятна, но он вряд ли сможет ускориться. А наша технология будет только улучшаться", - заявил глава отдела маркетинга компании Питер Махоуни. Евгения ЗОЛОТОВА |
Сообщ.
#43
,
|
|
|
как сочетается
Цитата DimmK @ распознавания речевых команд с фразой Цитата DimmK @ «Острозубые пираньи из семейств Serrasalmus и Pygocentrus считаются самыми свирепыми пресноводными рыбами в мире. На самом деле они редко атакуют человека» ? это что похоже на команду? Развод опять какой-то... вообще большая часть "новостей речевых технологий" похожа на статьи из желтой прессы... |
Сообщ.
#44
,
|
|
|
http://www.seonews.ru/news/.search-engine/1526/
Новые поисковые системы: от видео до тегов Поиск видеоконтенту общей продолжительностью семь миллионов часов. Это американская поисковая система Blinkx. Обозреватель газета NewYork Times Джейсон Понтин, сообщает, что поисковик появившийся три года назад на данный момент единственный конкурент Google Video в этом сегменте поиска. ""Он делает даже более смелый ввывод - что Blinkx обойдет Gooogle Video, потому что использует новое решение для поиска видеоматериалов. Его революционность заключается в расшифровке слов, произносимых в видеозаписи, и осуществление поиска по ним. Это является большим достижением, так как эффективное распознавание речи является сложной задачей. Также используются в поиске уже существующие методы (метаданные, суффиксы .mpeg или .avi, титры и субтитры). Технология распознавания речи Blinkx основана на нейронных сетях и машинном обучении с использованием «скрытых моделей Маркова» (hidden Markov models), методе статистического анализа, когда скрытые параметры угадываются из уже известной информации. Суранга Чандратиллак (один из основатель компании Blinkx, Сан-Франциско) называет такой метод «поиском, зависящим от контекста»: «Успешность именно такого подхода связана с тем, что значения произносимых слов неясны, если их анализировать по отдельности. Поэтому система Blinkx использует всю имеющуюся информацию о том, в каком контексте может появляться то или иное слово, а также все сведения о конкретном клипе.» Нескромные амбициии компании находят свое подтверждение и на сайте. "Blinkx - это самая большая в мире и самая современная поисоквая система по видеоконтенту," - заявляют разработчиики. А также "Самое крупное в мире хранилище цифрового видео," - добавляет Джейсон Понтин |
Сообщ.
#45
,
|
|
|
http://itc.ua/article.phtml?ID=27299&ref=rss
SimulScribe предлагает сервис Voicemail-To-Text пользователям Skype SimulScribe, крупнейший американский провайдер сервисов преобразования голосовой почты в текст, сделал подобную услугу доступной для пользователей Skype. Разработанные этой компанией алгоритмы распознавания речи обеспечивают практически в реальном времени транскрибирование голосовых сообщений и доставку их по электронной почте или посредством SMS. Клиенты Skype теперь могут зарегистрироваться на сайте SimulScribe.com подобно обычным его подписчикам -- жителям США. По словам CEO SimulScribe Джеймса Симиноффа (James Siminoff), услуга, предоставляемая его фирмой, экономит пользователю голосовой почты до трех часов в месяц, которые он в среднем тратит на прослушивание сообщений. |