Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[34.231.180.210] |
|
Страницы: (5) « Первая ... 2 3 [4] 5 все ( Перейти к последнему сообщению ) |
Сообщ.
#46
,
|
|
|
http://www.membrana.ru/lenta/?7026
Учёные обнаружили звуки в нервах 15 марта 2007 Работа нервов основывается на передаче звуковых колебаний, а не электрических импульсов. Это открытие, явно противоречащее прежним представлениям, было сделано Томасом Хеймбургом (Thomas Heimburg), исследователем из университета Копенгагена (Copenhagen University). Согласно существующей концепции, основной механизм передачи сигналов в нервах связан с электрическими импульсами. Преимущественно он реализуется за счёт ионов солей. Однако Хеймбурга смущает не сама эта идея. Учёный обратил внимание на тот факт, что при протекании тока в нерве должно выделяться много тепла, чего в действительности не бывает. Исследователь утверждает, что такое представление для него как физика кажется неудовлетворительным. Поэтому он предложил альтернативную концепцию, по которой нервный импульс — не что иное, как звук, а вовсе не электроток. По новой идее, липиды, находящиеся в оболочке нерва, не позволяют звуку быстро затухать, сохраняя тем самым интенсивность сигнала. Особая роль принадлежит такому параметру, как температура плавления этих липидов, при достижении которой существенно меняются условия распространения сигнала. Родерик Экенхофф (Roderic Eckenhoff), профессор из университета Пенсильвании (University of Pennsylvania), не занимавшийся этим исследованием, сказал, что идея передачи нервных импульсов звуковыми колебаниями действительно интересна. Однако, вместе с тем, невозможно игнорировать массу фактов, которые доказывают классическое представление об электрической природе этих сигналов. Тем не менее, концепция Хеймбурга также имеет существенный плюс. Как утверждает исследователь, она объясняет феномен анестезии. Это явление давно известно медикам, но более-менее стройной теории, рассказывающей, почему нервная система в результате каких-то воздействий теряет чувствительность, до сих пор не было. Открытие звуковых колебаний в нервах, конечно, кажется чем-то довольно странным и сомнительным для современной науки. И всё же, несмотря на это, "Биофизический журнал" (Biophysical Journal) взялся за публикацию этого исследования, результаты которого должны появиться в ближайшем номере. |
Сообщ.
#47
,
|
|
|
http://www.expert.ru/printissues/expert/2007/12/vystavka_cebit/
CeBIT Лев Никитин, Сергей Скрипников ... Наконец, встречались перспективные инноваторы и на государственных стендах. Так, Центр речевых технологий, расположенный на стенде Министерства образования, демонстрировал работу своей технологии распознавания речи. Достаточно ввести в систему любое новое слово — и программа уже его распознает. Корреспондент «Эксперта» «обучил» систему английскому слову interoperability («совместимость»), крайне модному на этой CeBIT, и программа действительно узнавала это слово, причем сказанное самыми разными голосами. На сегодня оборот Центра речевых технологий уже свыше 9 млн долларов, а технологию неплохо знают за рубежом. Например, не так давно швейцарский Swatch купил у центра это решение, чтобы обучить свои часы распознавать голосовые команды.... Добавлено http://www.dialog-21.ru/news/digest.asp?id=133253 C Microsoft телефоны будут "разговорчивее" В прошлом году Microsoft объявила о своей новой инициативе Unified Communications, цель которой - максимально возможно упростить работу со средствами связи, начиная с телефонных звонков и заканчивая электронной почтой. В рамках этого проекта корпорация готовит интересное решение, получившее название Dial Tone 2.0. Разработкой этого решения Microsoft занимается совместно с компанией Tellme Networks, которую софтверный гигант не так давно приобрел. Новый проект представляет собой набор голосовых сервисов, которые будут доступны, как только вы снимете трубку телефона. "Вы поднимаете трубку, и слышите бесконечные гудки, а чтобы набрать номер, приходится запомнить кучу цифр", - комментирует один из инициаторов. - "Мы считаем, что настала пора перемен; если вы снимаете трубку, то приятнее услышать "Чем могу вам помочь?" или "Кому вы хотите позвонить?", а вместо набора номера просто говорить "Позвони домой маме" или "Набери Майку на сотовый". Точно также можно позвонить нескольким друзьям сразу и устроить небольшую конференцию". Разработчики полагают, что уже в течение трех лет новой услугой смогут воспользоваться около ста миллионов человек. Источник: www.cifrovik.ru |
Сообщ.
#48
,
|
|
|
http://www.computerra.ru/313046/
Корыстный интерес к человеческим звукам Автор: Леонид Левкович-Маслюк Опубликовано в журнале "Компьютерра" №8 от 30 марта 2007 года Наука и индустрия распознавания/анализа звука (прежде всего - речи) существуют много десятилетий. Но если деньги, которыми ворочает рынок речевых технологий, уже давно измеряют миллиардами, то приложения технологий поиска/анализа данных в звуковых массивах (аудиомайнинга) только сейчас стали находить ниши, заметные невооруженным глазом. Зато эти ниши (речевая аналитика, индексирование мультимедиа) растут с невероятной скоростью. Киллерап (он же killer app, он же killer application) - это (супер)успешный продукт, который делает породившую его технологию (супер)востребованной [Но киллерап это не убийца других продуктов — в том смысле, в котором цифровой фотоаппарат можно назвать (в известной мере и с огромными оговорками, но все же, все же) киллером пленочного фотоаппарата]. Самый яркий пример - персональный компьютер как киллерап для технологии производства микропроцессоров. Другие примеры такого масштаба припомнить не удается, по крайней мере в ИТ. Зато легко вспоминаются технологии, которые все время где-то на слуху, на периферии сознания, но для которых по-настоящему убойный киллерап все не появляется. Разборчивость Справка Оценка качества распознавания слитной речи - особенно нескольких человек одновременно - отдельная задача. Процент ошибок в словах оценивается при помощи той же метрики, что применяется в геномике при сравнении генетических кодов - так называемого "расстояния Левенштейна" (Levenstein distance), предложенного Владимиром Левенштейном из ИПМ им. Келдыша еще в 1960 году. Одна из этих технологий - распознавание речи. Остановимся на ее успехах подробнее, так как она обеспечивает и львиную долю приложений в аудиомайнинге. В житейском смысле идеал речевого распознавания всегда казался мне таким: включаю диктофон, а по окончании беседы, лекции или интервью переписываю с него на компьютер текстовый транскрипт. А поскольку ничего подобного пока нет, то и о распознавании речи рано говорить и думать всерьез. Но едва начав работать над этим материалом, я понял, что давно уже впал в грех "псевдознания", не давая себе труда вникнуть в предмет глубже. Ведь хайтечным бизнесом - к счастью! - занимаются люди, презирающие плебейский лозунг "хочу все и сразу". Поэтому уже давно созданы системы на основе речевых технологий, далекие от моего воображаемого идеала, но приносящие прибыль и даже, по-видимому, помогающие в повседневной жизни и работе. Эти системы эффективно работают там, где допустима предварительная настройка на пользователя, где разговоры идут по заданному шаблону и на заданную тему, где лексикон строго ограничен. Хороший пример: спонтанная (то есть специально не делаемая разборчивой) диктовка цифр по телефону в 2003 году распознавалась с ошибкой всего лишь в 0,3% [См. лекции по распознаванию речи, прочитанные в МИТ Джимом Глассом (Jim Glass, ocw.mit.edu)]. Учитывая, что по "закону Мура" в распознавании речи процент ошибок уполовинивается каждые два года, сейчас этот показатель должен быть в районе 0,01%, то есть вплотную приближаться к человеческим 0,009%. По-настоящему плодородная для речевых технологий область находится между такими узкоспециальными нишами и мечтами о "все и сразу". В ней освоены уже многие участки. Например, только в системе здравоохранения и только в Северной Америке оборот средств, вовлеченных в, казалось бы, скромную "индустрию надиктовывания врачами своих отчетов", составляет примерно 10 млрд. долларов. Не случайно умные люди именно там начали внедрять первые в истории автоматические системы диктовки (причем первым был всем известный сегодня в качестве технопророка Рэй Курцвейль) - еще в 1980-е годы. Там, где нужны жестко структурированные документы с ограниченным лексиконом, а главное, где есть возможность заставить пользователя подлаживаться под систему, технология более или менее срабатывает. Сегодня отчеты уже не диктуются слово за словом, а наговариваются обычной ("слитной") речью, и часто по телефону (а вот конверторы речи затачиваются отдельно на радиологию, отдельно на гематологию и т. д.). В то же время многие компании, не говоря об исследовательских организациях, уже много лет регулярно сообщают - хоть и не вдаваясь в подробности - о столь высоких процентах успешного распознавания речи, что это напоминает отчеты о выборах в современной Туркмении (или в несовременном СССР). Однако в начале 2000-х мне случилось быть на рабочем совещании в исследовательском подразделении одной из крупнейших ИТ-компаний мира, где эти (условно говоря) 99,9% вызывали довольно кислую усмешку - даже если о них докладывали столь же могучие титаны ИТ. Не потому, что цифрам не верили, а потому, что без уточнения технологии всегда неясно, как понимать эти проценты, на что и в каких условиях можно рассчитывать. Самый важный как для практики, так и для исследователя случай - это все-таки слитная свободная речь без ограничения на лексикон (а хорошо бы еще и нескольких людей, и одновременно, и на фоне шума). И вот тут не всегда удается совместить в одной голове строки девяток в пресс-релизах и статистику ошибок в распознавании в открытых программах тестирования. Некоторые данные тестирования систем "речь-втекст" (speech-to-text, STT) приведены во врезке. Десяток-другой процентов ошибочного распознавания - вот, видимо, реальный уровень, достигаемый сегодня в реальных условиях при работе с универсальными, ни подо что не заточенными потоками речевых данных. Для массового пользователя с его примитивными запросами такой точности все еще мало. Но оказывается, что современных технологий распознавания речи хватает на другой, очень любопытный класс приложений. Пристальность Где-то с 2004 года стали появляться коммерческие продукты для так называемой речевой аналитики (speech analytics). Выяснилось, что, используя уже разработанные в речевых задачах инструменты, можно сканировать большой массив звуковых данных в поисках ключевых слов или фраз. При этом конвертации звука в текст не происходит! Поиск фактически осуществляется в звуковом файле. Один из лидеров этого возникающего сектора, Nexidia (www.nexidia.com), в сотрудничестве с инноваторами из университета Georgia Institute of Technology создала технологию речевой аналитики, сравнительно подробное описание которой, со ссылками на научные публикации, есть на сайте компании. На первом этапе препроцессинг преобразует звуковой файл в фонетический трек (phonetic search track) - последовательность распознанных фонем (пример из описания алгоритма: "_B _IY _T _UW _B _IY" - фонетическая строка для термина "B2B"). Это происходит примерно в пятьдесят раз быстрее, чем звучит сам файл в реальном времени. Объем трека - около пяти мегабайт на час звука, что вроде бы многовато для чисто текстового представления, пусть даже в форме фонемных строк (зато это в десять раз меньше mp3-файла, сжатого до128 кбит/с). Может быть, трек содержит и другую информацию, но детали формата в описании не уточняются. Принципиально, что разбиения на слова в фонетическом треке нет. Поиск запроса происходит уже в фонетическом треке - для фонетической строки-запроса ищутся ее наиболее вероятные положения. Здесь работает ряд инструментов, включая фонетические словари, обработку ситуаций, когда запроса нет в фонетическом словаре, и т. д. Однако скорость такого поиска в тысячи ("вплоть до 100 тысяч" - т.е. вплоть до прочесывания 30 часов звука в секунду) раз быстрее времени звучания (но "вплоть" - понятие растяжимое). Точность распознавания зависит от длины запроса. Чем больше фонем в запросе, тем лучше качество распознавания. В описании есть много информации по тестированию (внутреннему, естественно) - типичный показатель таков: для запроса из 12–15 фонем система обнаруживает 85% его вхождений в звуковой файл, при одном ложном срабатывании на два часа звучания (в среднем, конечно). Это (интуитивно) согласуется с результатами по точности распознавания речи из врезки - проценты ошибочных слов там такого же порядка, как здесь проценты ненахождения запроса (отметим, что энтузиасты речевой аналитики любят сгущать реализм в оценках возможностей классического распознавания "речь-в-текст"). Тем не менее отсутствие явной ("необратимой") конверсии звука в слова дает, судя по энергичному внедрению таких систем, определенные преимущества по сравнению с простым прикручиванием поиска к преобразователю речи в текст. Похоже, что этот фонетический подход, еще несколько лет назад вызывавший скепсис "Let’s hear it for audio mining", Neal Leavitt, Computer, October, 2002[], входит в моду. Рынок продуктов речевой аналитики начиная с 2006 года стал стремительно расти, и этот рост комментаторы связывают с появлением программ, позволяющих делать быстрые запросы к звуковым файлам переговоров с клиентами - и содержательно анализировать результаты. А такой анализ может оказаться крайне полезным для компании, желающей как можно лучше обслужить своих клиентов. Компания DMG (www.dmgconsult.com), занимающаяся стратегиями для клиент-ориентированных бизнесов, в начале прошлого года прогнозировала рост рынка систем речевой аналитики на 120% в 2006 году и на 100% в 2007-м. Период возврата инвестиций в системы речевой аналитики DMG оценивает в 9–12 месяцев. Ну и финальный аккорд: контактные центры всевозможных аутсорсеров, банков, туристических фирм отныне будут превращаться из статьи расхода в источники прибыли - настолько ценна информация, которую дает быстрая аналитика общения с клиентами. Как машина распознает речь Американский институт стандартов NIST с 1987 года проводит регулярные исследования достигнутого уровня распознавания речи при разных постановках задачи (см. www.nist.gov/speech, обзор Дэвида Пэллета (David Pallett) "A look at NIST’s benchmark ASR tests: past, present, and future"). NIST всегда интересуется самой актуальной на данный момент областью и тестирует системы "речь-в-текст" именно для нее. Например, в 1991 началось тестирование систем для запросов авиапассажиров. Речевая часть системы от 15,7% WER (word error rate, процент ошибочных слов; далее все результаты в этих единицах) дошла до отличного показателя 2,5% к концу 1994 года (тесты проводились на специально разработанном для этой проблемы довольно ограниченном массиве речевых данных). Еще один вызов - новостные передачи. Динамика: от 31% в 1996 до 13% в 1998 (а в 1999 качество слегка упало (!) - до 15%; это объясняется тем, что для каждого теста выбирались новые передачи). Новости спорта и рекламу из тестов сразу выбросили: их распознавание - отдельный вызов. В 1993 году началось тестирование на базе данных Switchboard телефонных разговоров, которые вели добровольцы на случайно выбранные темы. Результат был впечатляющим - "ошибочность" составляла 90%. К 2001 году все на той же базе данных качество довели до 19%, и кривая "вышла на плато" (то есть рост результатов резко замедлился). Аналогичный тест для разговоров по мобильным телефонам дал более скромные 27% в 2002 году. По данным из лекций Джима Гласса (МИТ, ocw.mit.edu), человек на этих тестах показывает рейтинг 4%. В 2003 прошли тесты на распознавание с "богатой транскрипцией", т.е. генерацией не только текста, но и метаданных (указание пауз, семантическая сегментация, информация о говорящем). Лучший результат (без учета качества богатой транскрипции) был получен для новостных передач на английском - 9,9% (отметим замедление прогресса - уже в 1998 было 13%). Мобильные разговоры по-английски распознавались с качеством 23,8%, для китайского удалось достичь лишь 42,7%. Сегодня в качестве вызова рассматриваются конференц-зал и лекционный зал. Лучшие результаты тестов 2005 года: конференц-зал от 26% до 38%, лекционный - от 28% до 52%, в зависимости от того, используется ли наголовный микрофон или обычный удаленный. Более поздних данных NIST, по-видимому, пока не обнародовал. Для сравнения - в марте 2005 года тестирование проводилось по проекту Еврокомиссии TC-STAR (www.lrec-conf.org/lrec2006). Проект нацелен на долгосрочную задачу - перевод речи на одном языке прямо в речь на другом. Тесты проводились как по переводу речи в текст на том же языке, так и по автоматическому переводу речи на другой язык. Мы приведем данные только по распознаванию. Тестовый массив – выступления на английском и испанском языках в Европарламенте. Лучший результат для английского - 10,6%, для испанского - 11,5%. Системы предварительно тренировались на записях заседаний с 3 мая по 14 октября 2004 года, а соревновались на данных заседаний с 15 по 18 ноября 2004. Речь некоторых докладчиков распознавалась лучше среднего - например, Председатель Европарламента Хосеп Боррель (Josep Borrell) набрал всего 7,8%. Зато Роберт Килрой (Robert Silk Kilroy), активный оппозиционер - целых 26,6%, в его исполнении система не поняла даже слово "коммунисты" (впрочем, текст был крайне бессвязным). Фантастика С поиском и анализом звука связаны и более фантастические (но менее проясненные технологически) достижения, интригующие задачи, яркие идеи. Начнем с достижений - естественно, не пытаясь дать систематический обзор. Одно из них принадлежит знаменитой компании BBN Technologies. Название происходит от имен основавших BBN в 1948 году профессоров МИТ Ричарда Болта (Richard Bolt) и Лео Беранека (Leo Beranek) и их бывшего студента Роберта Ньюмена (Robert Newman). В этой компании было такое количество пионерских разработок, что в течение прошлого года солиднейший журнал по истории вычислительной техники "IEEE Annals of the history of computing" посвящал BBN по статье почти в каждом номере. Например, в 1969 году там была создана, ни много ни мало, сеть ARPANET, основа будущего Интернета, а совсем недавно - первая в мире сеть квантовой связи. Большая часть разработок BBN связана с искусственным интеллектом, задачами распознавания, причем правительство США - один из главных заказчиков этих проектов. К нашей теме прямое отношение имеют несколько недавних разработок BBN, но упомянем только об одной - BBN Broadcast Monitoring System. В 2006 году эта система получила престижную премию MITX (Massachusetts Innovation & Technology Exchange). Функциональность ее такова: система получает на вход обычные телевизионные новости - и в реальном времени делает транскрипт, автоматический перевод и отслеживание в транскрипте по ключевым словам. И еще кучу всего - привязку найденных слов к видеопотоку, разные виды текстового поиска и т. п. Желающие могут легко найти деморолик на www.bbn.com. Существенная изюминка в том, что поддерживается три иностранных (по отношению к английскому) языка: арабский, китайский и испанский (на деморолике мы видим выпуск новостей Аль-Джазиры). Казалось бы - невероятно, но с другой стороны - текст читают дикторы, тематика - в первую очередь политическая, то есть лексикон всетаки не совсем уж универсальный, запросы предсказуемые (в деморолике - Ahmadi Nejad и тому подобные ключевые слова). Так почему бы и нет? Чтобы "узнать больше", компания предлагает писать на некий обезличенный адрес. Стиль, в общем, понятен (тем более с учетом безграничной крутизны BBN). Узнаем ли мы когда-нибудь, как оценил эту систему рынок? А буквально на днях начали появляться серьезные стартапы, стремящиеся капитализировать способы поиска музыки и пения не по названиям и тегам, а прямо по фрагментам исполнения. Наблюдаем ли мы "квантовый скачок" в индустрии звукового майнинга, и если да, кто в нем больше виноват - новые технологии или новые приложения? Вот скромная, но все же сенсация последних месяцев. Не технологический прорыв, а скорее комбинационная, психологическая находка4 - поисковик песен и мелодий midomi (www.midomi.com). Впрочем, о технологии, использованной в этой системе, известно крайне мало - но ясно, что это некоторая комбинация грубого распознавания речи и анализа мелодической структуры. Причем вряд ли тривиальная комбинация (аналогичный поисковик, появившийся в Сети чуть раньше и предлагавший искать музыку по результатам только напевания [humming], довольно быстро сошел со сцены). Выглядит это так: midomi предлагает спеть отрывок из искомой песни, потом немножко думает - и выдает список найденных в своей коллекции альбомов (которые можно тут же купить, по 99 центов штука). Удивительно, но похоже, что такое дело увлекает все более и более коммерчески значимую аудиторию. Может быть, срабатывает привязка к волшебной идеологии аггрегации контента: вы можете записать в базу звуковых файлов midomi то, что напели; эти файлы тоже включаются в поиск и в случае успеха выдаются рядом с найденной "настоящей" музыкой. Формирование таких кластеров вполне может и постепенно улучшать качество поиска. Во врезке - краткий отчет о моих собственных опытах с музыкальным поиском. Обратите внимание, что проектом занялся матерый венчурист Камран Илахьян (Kamran Elahian), в чьем списке удач хорошо известная в начале-середине 90-х фирма Cirrus Logic (у многих успели пожить компьютеры с ее видеокартами). Поиск в мультимедиа, да и вообще поиск осмысленных сведений в массивах данных - захватывающая задача, и мы к ней обязательно вернемся на наших страницах. В заключение упомяну только одну идею, которая меня просто умилила. Люди с фантазией, оказывается, пытаются инвертировать задачу аудиомайнинга - а именно озвучивать процесс обычного "майнинга" так, чтобы при прочесывании всяких скучных данных могли возникать мелодии, указывающие на то, что найдено нечто структурированное, а потому любопытное (см. работы Jeffrey Hsu). Это еще одно подтверждение тезиса, что будущее формируется литературой: вспомним известный роман Дугласа Адамса "Детективное агентство Дирка Джентли", где главный герой озвучивал финансовые временные ряды. Как я распознавал звук Cвои напевы (в попытках нащупать, по каким же признакам ищет midomi) я записывать не стал. Просто я знаком с несколькими музыкально одаренными людьми и знаю, как им физически тяжело слушать фальшивое пение. Вдруг кто-нибудь из них получит в ответ на свой запрос мои завывания? Но midomi некоторому испытанию подверг, и результаты таковы. По спетой строчке "We all live in the yellow submarine, yellow submarine, yellow submarine" на пятом месте был выдан альбом неких The Hit Crew c этой песней, и только на шестом и седьмом - два диска The Beatles. Но это со второй попытки. А с первой, без повторения "yellow submarine", - не нашлось ничего и отдаленно похожего. Зато мой сын, у которого музыкальный слух хороший, сразу получил эти же диски на первом и втором месте. После этого я плотно закрыл дверь в свою комнату и дал midomi целый концерт - отрывки из "Yesterday", "Michelle", а на бис даже из "Jesus Christ Superstar" ("Then I was inspired, now I’m sad and tired…") Ллойда Веббера и Тима Райса. Вскоре я научился получать битловский диск с "Yesterday" на первом месте при помощи одних завываний, вообще без слов. Причем на втором, третьем и четвертом оказалась та же песня в разных исполнениях. Было очень приятно видеть это, не скрою. Но больше всего растрогало, когда в ответ на мою оригинальную интерпретацию музыки Ллойда Веббера я получил среди первых результатов другой (не JCSS) альбом, но все-таки Ллойда Веббера! |
Сообщ.
#49
,
|
|
|
Новости из Российской Академии Естественных Наук
http://www.acconcept.ru/news/news.php?id=124 Российские ученые открыли формулу смысла. Учеными Отделения «Методология моделирования безопасного развития систем и процессов» Российской Академии Естественных Наук, занимающимися разработками в области безопасности информационных интеллектуальных технологий, удалось решить проблему формализации смысла вербального текста. С тех пор, как были созданы первые компьютеры, над этой актуальнейшей задачей трудились многие лингвисты и кибернетики из различных стран. Сформулировать смысл и сделать его понятным машине – этот барьер на пути к созданию искусственного разума оставался непреодолимым вплоть до настоящего времени. Трудности, с которыми столкнулись исследователи, и отсутствие сколько-нибудь значимых результатов в течение такого длительного для научных изысканий промежутка времени стали приводить в последние годы ученый мир к твердому мнению «о принципиальной неразрешимости формализации смысла», что заставило даже свернуть некоторые западные разработки в этом направлении, как бесперспективные. Однако, отечественная наука, несмотря на недостаточное финансирование, продолжала трудиться над этой проблемой и достигла долгожданной цели. Российским ученым из РАЕН удалось найти искомую формулу смысла и привести ее к виду, удобному для компьютерного восприятия. Таким образом, преодолен труднейший 50-летний поисковый этап, заграждавший человечеству дорогу к машинному интеллекту. Председатель отделения РАЕН «Методология и моделирование безопасного развития», доктор технических наук, профессор В.А. Минаев ___________________________________________________________________________________________________________ Поскольку в проектах "Распознавания Речи" существовала проблема осмысления слов и фраз, то, может быть теперь, с открытием отечественных ученых компьютеры, наконец, научатся качественно понимать человеческую речь!? |
Сообщ.
#50
,
|
|
|
http://www.rmob.ru/articles/?article_id=1370
Мобильная эволюция 05 апреля 2007 Удобство голосового управления техникой очевидно — не нужно нажимать на клавиши, тыкать в сенсорный экран стилусом и т. д. Умный компьютер мгновенно распознает голос хозяина и не станет выполнять чужие команды. Идеальное воплощение этих технологий показывают в кино, а я лишь расскажу о попытках внедрить голосовое управление в современные мобильники. Началось все с голосового набора номера при помощи предварительно записанных меток. Позже появились системы синтеза команд. Например, сейчас для вызова абонента бывает достаточно произнести его имя или фамилию. Процессор телефона сопоставит произнесенную фразу с записью в телефонной книге и наберет номер. Следующий шаг — голосовое управление функциями аппарата. Говоришь «камера», запускается приложение, отвечающее за съемку, произносишь «диктофон» — начинается запись. Пришло новое сообщение — телефон сообщит о нем музыкальным сигналом, а по просьбе даже прочитает вслух. Такая возможность есть в смартфонах Nokia 5500 и E50. Созданный алгоритм позволяет синтезировать голос и на обычных аппаратах. Мобильная эволюция Голосовое управление коммуникаторами на основе Windows Mobile возможно при помощи штатных средств (в модели Qtek 9100, например, для этого имеется специальный менеджер), но данные возможности значительно расширяются при помощи дополнительного софта. Одна из таких утилит — Voice2Go компании VITO Technology. При ее помощи можно записывать голосовые метки для вызова абонентов из телефонной книги, запускать любые программы и даже отфильтровывать нежелательные звонки. Программа настраивается на индивидуальное произношение владельца. Все голосовые команды можно сохранять в архив и восстанавливать при жесткой перезагрузке устройства. Мобильная эволюция Для управления событиями из календаря свое решение предлагает британская компания Speereo Software. Программа SAPIE выполняет функции секретаря: будет докладывать вам обо всех предстоящих делах, событиях, встречах. С ее помощью можно запланировать дела, указать время для совершения звонков, оставить напоминания о встречах. Фирменный алгоритм распознавания речи отличает устойчивость к посторонним шумам и очень четкое действие. Общение с «помощником» ведется в режиме диалога — чтобы его начать знать лишь четырех стартовых фразы. ПО для голосового воспроизведения текстовых сообщений на устройствах под управлением Symbian и Windows Mobile выпускает команда Sacrament. В комплект входит софт для озвучивания текстовых документов (Text Reader), сообщений электронной почты, SMS. Запущенная в сервисном режиме, программа позволяет автоматически озвучивать поступившие сообщения. Предусмотрено несколько вариантов «голосов». Мобильная эволюция Голосовое управление мобильниками кажется настолько естественным, что мне непонятно, почему ни один из вендоров до сих пор не встроил в свои модели маленького «тамагочи», который бы взял на себя управление основными сервисами. Утром бы будил, сообщал о запланированных делах, читал новости и почту. Ему можно было бы поручать звонки, напоминания о встречах — то есть всю рутинную работу, за которую сейчас отвечает масса отдельных программ. Неплохо бы также было научить такого помощника преобразовывать надиктованный материал в текстовый документ… В обзоре использованы программы: Voice2Go – компания VITO Technology. Сайт – www.vitotechnology.ru SAPIE – компания Speereo. Сайт – www.speereo.com Text Reader/Teller – компания Sakrament. Сайт – www.sakrament.com |
Сообщ.
#51
,
|
|
|
http://www.computerra.ru/think/314933/
Слушать переговоры автоматически и аналитически Автор: Леонид Левкович-Маслюк Опубликовано 12 апреля 2007 года В недавней статье "Корыстный интерес к человеческим звукам" мы упоминали об исследованиях DMG Consulting LLC стремительно растущего рынка речевой аналитики - систем содержательного компьютерного анализа переговоров операторов с клиентами компаний. Более подробно об этом рынке нам рассказала Донна Флусс (Donna Fluss), основатель и президент DMG - американской фирмы, специализирующейся на клиент-ориентированных бизнес-стратегиях и технологиях. Донна известна как инноватор в области технологий CRM, контакт-центров, аналитики в реальном времени, она автор ряда книг и аналитических исследований рынка. - Какова динамика рынка продуктов РА (речевой аналитики, speech analytics)? - Системы речевой аналитики существуют уже много лет. Их давно используют правительственные агентства, военные организации. Но на рынке контакт-центров эти системы появились лишь три года назад: к декабрю 2004 года в мире насчитывалось 25 имплементаций, к декабрю 2005-го - 178, а к концу 2006-го - уже 603. Совокупный ежегодный рост составляет 391%. - Какие запросы к записанным переговорам с клиентами наиболее типичны? Какую информацию компании извлекают из таких запросов? - В контакт-центрах существует четыре основных типа применения РА. "Корни проблем". Сюда входит анализ понимания клиентом тех или иных ситуаций, выявление узких мест, а также новых возможностей получения прибыли. "Выявление эмоций". Полезно знать, в каких случаях возникают эмоциональные моменты в переговорах агента и клиента. Это помогает правильно построить стратегию общения, а также оценить качество работы агента. "Характер разговора". Анализируя периоды молчания, ожидания или обсуждения, можно определить, к каким ситуациям надо заранее готовить агентов, ведущих переговоры. "Соответствие предписаниям". Этот вид анализа тоже нужен для более качественной подготовки агентов, а кроме того, он снижает юридические риски и стоимость поддержания качества обслуживания. - Как быстро и в какой степени РА помогает компаниям улучшить свои показатели? - РА может окупаться очень быстро, но для этого мало использовать хорошие технологии и учитывать «передовой опыт». Нужно еще вложить достаточно ресурсов в точную настройку на свою специфическую задачу. Наш аналитический отчет (2007 Speech Analytics Market Report), опубликованный 27 марта, дает полную картину рынка этих систем. Там есть восемь детально разобранных успешных примеров внедрения. Так, один из глобальных интернет-провайдеров сумел при помощи РА снизить темп сокращения клиентской базы, и это сохранило компании миллионы долларов. Фирма, занятая автострахованием, улучшила подготовку агентов, одновременно понизив уровень мошенничества. Здесь тоже выигрыш измеряется миллионами. - В какой степени успех РА зависит от зрелости технологий звукового датамайнинга? Чего этой технологии не хватало раньше, чтобы обеспечить столь ценные приложения? - Технологическими прорывами можно назвать недавние достижения в ускорении фонетического анализа речи — это очень важный фактор, необходимый для РА в реальном времени. Решения для распознавания слитной речи с большим объемом словаря (Large Vocabulary Continuous Speech Recognition, LVCSR) за последнее время стали заметно проще в применении. Дело в том, что они требуют от пользователя построения лингвистической модели для необходимой ему области применения. Разработчики приложили огромные усилия, чтобы ускорить и упростить процесс построения такой модели. Сегодняшние технологии, если с ними грамотно обращаться, уже приносят большую пользу, но поле деятельности для повышения точности работы этих систем огромно. В частности, в последние два-три года в центре внимания оставалась очень важная задача: снизить процент неверного распознавания (false positives rate). Серьезные инвестиции в создание и улучшение математических алгоритмов для этой задачи будут продолжаться еще годы и годы. - Кого можно назвать ведущими поставщиками РА-решений? - Это возникающий рынок, и пройдет еще много времени, пока на нем появится свой лидер. Вот (несколько сокращенный. - Л.Л.-М.) список поставщиков РА-решений по основным секторам. Собственные разработки систем класса "Мониторинг качества/запись разговоров" предлагают Autonomy/etalk, NICE, Verint (на подходе - Witness). С OEM-продуктами на рынке работают Envision, HigherGround, VirtualLogger, VPI, Witness. Инфраструктуру контакт-центров поставляют Aspect, Cisco (в партнерстве) и SER (со своей разработкой). Автономные (stand alone) системы речевой аналитики делают CallMiner, Nexidia, Utopy (продукт ISense на стадии бета-тестирования). Фирма Aurix не включена в этот список, так она продает не решение, а движок для РА, но этот движок используют ряд компаний: ISense, SER, а также Witness в своем новом решении на базе фонетического анализа. - Из журнала "Компьютерра" |
Сообщ.
#52
,
|
|
|
http://www.dialog-21.ru/news/digest.asp?id=133863
Google запустил систему голосового поиска 13.04.07 Александр Кутянин Возрастающее качество и снижающиеся цены на системы голосового поиска побуждают крупных интернет-игроков, таких как Google, Microsoft и Yahoo, инвестировать не только в рекламные службы на базе поисковых движков, но и в телефонные справочные системы. Прошло совсем немного времени с момента приобретения в марте корпорацией Microsoft компании Tellme Networks, специализирующейся на голосовом поиске, как Google объявил о запуске экспериментальной справочной службы на базе системы распознавания голоса. Сервис предоставляется бесплатно и позволяет с городского или мобильного телефона получить информацию, аналогичную содержащейся в Google Maps, в виде голосового сообщения или SMS. На сегодняшний день проект находится на стадии тестирования: воспользоваться голосовым поиском могут лишь англоговорящие жители США, а база данных содержит информацию только по американским компаниям. Аналитики уже сейчас заявляют, что выход Google на рынок справочных служб может значительно изменить этот бизнес. Reuters приводит мнение специалистов инвестиционного банка Thomas Weisel, считающих что автоматическая система распознавания голоса может позволить Google снизить себестоимость бесплатного для абонентов звонка до 2 центов при условии получения порядка 10 центов за каждого перенаправленного клиента. Для сравнения, стоимость звонка в традиционную справочную службу составляет порядка 1 долл., причем 16 центов из этой суммы уходят на оплату работы оператора. По данным аналитического агентства Kelsey Group объем рынка справочных служб в США составляет порядка 9,4 млрд долл., а мировой рынок фирма Opus Research оценила в 13 млрд долл. |
Сообщ.
#53
,
|
|
|
http://inauka.ru/news/article75108?subhtml
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ ПОМОГ ЧЕЛОВЕКУ РАЗГОВАРИВАТЬ НА ЛЮБОМ ЯЗЫКЕ В исследовательском центре передовых коммуникационных технологий (interACT) построили прибор, позволяющий человеку разговаривать на любом языке. InterACT — это совместное предприятие немецкого университета Карлсруэ и американского университета Карнеги-Меллона. В ходе телемоста между этими двумя университетами аспирант китайского происхождения говорил по-китайски, в то время как все присутствующие слышали его английскую речь. Устройство синхронно (с небольшой, в несколько секунд, задержкой) переводило слова, воспринимая не звук, а движения мышц с помощью 11 электродов, наклеенных на лицо и шею. По этим сигналам компьютер "понимал", что именно произносит человек, переводил китайские слова на английский и выдавал синтезированную речь через динамик. Также ученые продемонстрировали синхронный перевод английской речи на немецкий и испанский. Новая технология основана на искусственном интеллекте, использующем статистические методы обработки информации. В ходе демонстрации машина иногда путала два слова с близким произношением. Однако в целом перевод был очень хорошим и вполне понятным. Самое интересное в изобретении — это восприятие речи по движению мышц. Потенциально оно позволит владельцу такого прибора говорить очень тихо, а его собеседники будут слышать лишь переведенную речь. По мнению разработчиков, такая серийная машинка может появиться на прилавках магазинов через 5—10 лет. Об этом сообщает "Знание - Сила". |
Сообщ.
#54
,
|
|
|
Гости ПЭФ опробуют новый комплекс распознавания русской речи
http://www.dp.ru/spb/news/citynews/2007/05/31/221580/ 31 мая 2007; Первая отечественная технология распознавания слитной русской речи SpeechRU представит "Центр речевых технологий" (ЦРТ) http://www.speechpro.ru на "Выставке инновационных достижений" в седьмом павильоне "Ленэкспо" 8 июня. Она пройдет в рамках XI Экономического Форума в Петербурге (ПЭФ). На стенде ЦРТ каждый посетитель сможет при помощи голосовых команд получить информацию о современных речевых технологиях. По прогнозам экспертов, в ближайшем будущем речевой интерфейс может составить серьезную конкуренцию традиционным средствам ввода – клавиатуре и мыши, а в некоторых случаях станет основным средством взаимодействия человека и компьютера, человека и сложной бытовой техники. Внедрение SpeechRU – один из первых шагов в этом направлении, сообщает пресс-служба ЦРТ. Текст: Виктория Шахов |
Сообщ.
#55
,
|
|
|
Посетил вытавку при ПЭФ в понедельник, когда туда стали допускать "чернь".
По-всей видимости Цитата arturus @ Первая отечественная технология распознавания слитной русской речи SpeechRU произвела такой фурор, что представителей разработчика уже не было. (да и вообще не понятно, как сочетается Цитата arturus @ с Первая отечественная технология распознавания слитной русской речи SpeechRU Цитата arturus @ ?каждый посетитель сможет при помощи голосовых команд Опять перепутали божий дар с яичницей. Вообще предлагаю переименовать ветку из "Новостей речевых технологий" в "... а ещё я видел сон....", ну и далее "...как мои волосы пошли на базар покупать гребешёк" Ребята! Не засирайте мозгов ни себе, ни людям! |
Сообщ.
#56
,
|
|
|
Набор фраз!
Опишите нормальным языком реальную ситуацию с представленной разработкой, что нового, что понравилось, что нет. |
Сообщ.
#57
,
|
|
|
http://webplanet.ru/news/telecom/2007/07/03/callwave.html
CallWave переводит телефонные голоса в тексты Иван Сильвестров Сервис Vtxt, новая услуга компании CallWave, преобразует сообщения голосовой почты в текстовую "стенограмму" и посылает их пользователю в виде SMS или e-mail, или размещает их на индивидуальной странице сайта CallWave. Все, что для этого нужно - переадресовать входящие звонки на уникальный телефонный номер, поставляемый CallWave. Сообщения обрабатываются специальной распознающей речь программой и передаются пользователю в течении 4-5 минут. Сервис компании, находящейся в Санта-Барбаре (Калифорния), доступен пользователям из США, пока в статусе бесплатной бета-версии. Его протестировал Мишель Калор (Michael Calore, Wired) и наряду с некоторыми шероховатостями обнаружил ряд преимуществ по сравнению с аналогичными услугами Phonewire, SimulScribe и SpinVox. Эксперт погонял сервис и в хвост, и в гриву, попросив друзей направить ему сообщения разной длины из разных мест, в том числе из автомобиля с открытым окном и из шумного концертного зала, - все они пришли расшифрованными дословно, с минимальным количеством ошибок транскрипции. Были удалены только приветствия, повторы, вздохи, бессвязные мычания и междометия. Научный сотрудник CallWave Энтони Бладон (Anthony Bladon), разработавший движок распознавания речи, говорит, что Vtxt предлагает метод обработки информации сродни тому, как мы быстро оцениваем актуальность e-mail при просмотре заголовков писем в почтовом ящике. Предоставляется только информация, позволяющая принять простейшие решения: нужно ли реагировать на сообщение прямо сейчас? нужно ли перезвонить? - и т.д. Полезность такого быстрого доступа к содержанию сообщения перевешивает недостатки требующей дальнейшего улучшения технологии транскрипции речи. "Даже если сообщения переданы с нарушением пунктуации и воспроизведены не абсолютно правильно, - стенограмма позволяет ориентироваться в них", - говорит Энтони Бладон. Мишель Калор отмечает только два неудобства сервиса: необходимость менять телефонный номер голосовой почты на предоставляемый сервисом и звучащее обескураживающе для неподготовленного человека приветствие, типа: говорите разборчиво, ваше сообщение будет преобразовываться в текст. В персональном кабинете на сайте CallWave пользователь может просматривать архив транскрипций полученных сообщений и прослушивать их при помощи встроенного Flash-плеера. Там хранятся полные стенограммы сообщений (только 140 символов отправляется на мобильный телефон в виде SMS). CallWave предлагает также широкий выбор виджетов голосовой почты для Google, Yahoo, Mac OSX и Vista, которые позволяют отслеживать входящую голосовую почту и реагировать на нее посредством текстовых сообщений. CallWave обещает, что бесплатная бета-версия сервиса будет доступна по крайней мере несколько месяцев. Конкуренты берут от $10 до $40 в месяц, и хотя CallWave не готова сказать, сколько будет стоить Vtxt после бета-периода, компания известна как поставщик смешанных (частично платных, частично бесплатных) услуг. Заметим, что прямо противоположный сервис - преобразование новостных и любых других текстов в голосовой аудиопоток для прослушивания их в то время, когда глаза пользователя заняты, - тоже является интересной коммерческой задачей, о чем мы недавно писали. |
Сообщ.
#58
,
|
|
|
Microsoft и Nuance готовят систему голосового ввода для SMS
Цитата Софтверная компания Microsoft и известный разработчик систем распознавания речи Nuance заявили о совместной разработке программного обеспечения, которое позволит пользователям мобильных телефонов осуществлять голосовой ввод текста. Новое ПО, выход которого запланирован компаниями на начало следующего года, будет основано на системе COMAND APS, уже установленной и успешно функционирующей в новейших автомобилях Mercedes и Ford. COMAND APS позволяет озвучивать входящие сообщения и вводить пункты навигации при помощи голоса, и такую функциональность уже реально доработать до полноценного текстового ввода. Программное обеспечение для полноценного голосового ввода текста давно востребовано на рынке и его появление сдерживается только недостаточной развитостью соответствующих технологий. Интересно, что первая работоспособная реализация такой функциональности может появиться не для "серьёзных" задач, а для ввода SMS-сообщений. Напомним, что по мнению многих аналитиков, технология SMS должна устареть в ближайшие годы, а проблема голосового управления сообщениями решится совершенствованием сервисов голосовой почты. Таким образом, основное развитие технология от Microsoft и Nuance может получить на других задачах. |
Сообщ.
#59
,
|
|
|
http://www.speechpro.ru/rus/comp-news/?action=show&id=194
Центр Речевых Технологий создал первую технологию по распознаванию слитной русской речи Компания «Центр Речевых Технологий» первой в истории завершила работу над технологией распознавания слитной русской речи на 30,000 словоформ – «Руссограф». Инновационная разработка российской компании открывает новые возможности в общении человека с техникой на русском языке. Работы над проектом продолжались более 3 лет, а собственные инвестиции компании в разработку составили порядка $5 млн. Новая технология позволит компании выйти на рынок с целым рядом принципиально новых продуктов. Оригинальная российская технология распознавания «Руссограф» создавалась с учетом фонетических и грамматических особенностей русского языка. Существующие на западе системы распознавания созданы для работы с английским, испанским и другими популярными языками и малоприменимы в работе с русской речью. Это связано с тем, что русский язык принципиально отличается от других языков не только фонетически (например звуком «ы»), но и свободным порядком слов в предложении, что значительно усложняет математическое моделирование речи. В результате использование западных технологий для качественного распознавания русской речи не представляется возможным. Для разработки технологии «Руссограф» ЦРТ создал научно-исследовательскую группу из специалистов в лингвистике, фонетике, математике, обработке сигналов и программировании. Для работы над проектом в ЦРТ использовали уникальный для России набор речевых баз данных, в который входят записи более чем 3000 дикторов общей длительностью около 300 часов, собранных с учетом 5 диалектных групп русского языка. Эти базы были использованы для создания акустических моделей звуков русской речи. Для создания языковых моделей в ЦРТ была собрана текстовая база русского языка объемом 35 миллионов слов. Поскольку создание качественной системы распознавания невозможно без обширных экспериментальных исследований, в ЦРТ был развернут мощный вычислительный кластер с производительностью около 1012 операций в секунду. Важной частью проекта стало создание базового речевого декодера, который используя оригинальные акустические и языковые модели русского языка преобразовывает речевой сигнал в текст. Промышленное внедрение технологии распознавания «Руссограф» отрывает новые возможности голосового управления компьютерной и бытовой техникой, промышленным оборудованием и транспортом; управления службами и сервисами по телефону; систематизации фонограмм и поиска по аудио архивам, а также обеспечения безопасности людей и объектов. Особенно актуальной новая разработка может стать для тех русскоговорящих людей, чьи физические возможности ограничены. Сейчас ЦРТ работает над аппаратной реализацией технологии. Уже в 2008 году компания предложит несколько продуктов построенных на основе технологии распознавания, в частности систему интерактивного голосового управления для контакт центров, а так же системы управления промышленными объектами. В перспективе компания планирует создание на базе технологий распознавания и синтеза карманного переводчика устной русской речи. Данный продукт может быть подготовлен уже к Олимпиаде-2014 в Сочи. Таким образом, участники и гости Олимпиады из разных стран смогут говорить и понимать друг друга без посторонней помощи, даже не зная иностранного языка. Напомним, что в начале этого года, в своих прогнозах на развитие компьютерных технологий второго цифрового десятилетия, Билл Гейтс назвал создание естественного интерфейса одной из приоритетных задач человечества, отметив, что технологическое будущее – за голосовым управлением и распознаванием речи. Благодаря технологиям разработанным в ЦРТ, Россия вошла в число мировых лидеров в области речевых технологий. «Технология распознавания русской речи «Руссограф», разработанная в ЦРТ, создает основу для создания целой линейки инновационных продуктов в одном из наиболее перспективных сегментов рынка. Думаю, очень скоро общение с компьютером и другой техникой с помощью русской речи будет так же естественно как разговор между двумя людьми» – говорит Генеральный директор «Центра Речевых Технологий» Михаил Хитров. |
Сообщ.
#60
,
|
|
|
"...В перспективе компания планирует создание на базе технологий распознавания и синтеза карманного переводчика устной русской речи. Данный продукт может быть подготовлен уже к Олимпиаде-2014 в Сочи..."
Бабло творит добро. Вот ключ статьи. а вот другая новость от них: "Компания «Центр Речевых Технологий» завершила работу над уникальной технологией поиска «ключевых» слов в фонограммах речи для русского языка – Voice Digger. " Как это сочетается с первой новостью? и зачем оно, если первая новость правда? Да, и странно, что нет слова "нанотехнологии"... |