MWS AI выпустила бенчмарк для оценки качества мультимодальных моделей, работающих с документами на русском языке -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.216.156]

Внимательно прочитайте правила раздела

1. Запрещается публиковать материалы защищенные авторскими правами.
2. Запрещается публиковать новостные материалы без ссылки на источник

Модераторы: ANDLL, B.V.

MWS AI выпустила бенчмарк для оценки качества мультимодальных моделей, работающих с документами на русском языке

RSS_Bot

Сообщ. #1 , 10.10.25, 08:00

Full Member

Профиль · PM

Рейтинг (ф): 26

MWS AI выпустила бенчмарк для оценки качества мультимодальных моделей, работающих с документами на русском языке

Компания MWS AI объявила о запуске открытого русскоязычного бенчмарка — MWS Vision Bench, предназначенного для оценки...

Компания MWS AI объявила о запуске открытого русскоязычного бенчмарка — MWS Vision Bench, предназначенного для оценки качества мультимодальных моделей искусственного интеллекта (Visual Language Models, VLM), способных одновременно анализировать изображения и текст.

MWS Vision Bench стал первым бенчмарком, ориентированным на оценку мультимодальных моделей в реальных продуктовых сценариях, где необходимо работать с документами на русском языке. Новый инструмент позволяет тестировать возможности генеративного искусственного интеллекта в распознавании и понимании документов, содержащих визуальные данные.

Современные модели умеют анализировать договоры, счета, формы, схемы и таблицы. Однако существующие международные бенчмарки, такие как OCRBench, AI2D и MMMU, охватывают только английский и китайский языки. Подходящих бенчмарков на русском языке до сих пор не было, что делало невозможной объективную оценку таких моделей при решении продуктовых задач в российских компаниях.

Бенчмарк MWS Vision Bench охватывает широкий спектр задач, направленных на оценку способности моделей работать с документами. Он проверяет, насколько эффективно модели умеют считывать текст с изображений, понимать структуру документа, находить необходимую информацию, распознавать расположение элементов и отвечать на сложные вопросы по содержимому.

В состав MWS Vision Bench вошли 800 изображений и 2580 заданий, отражающие реальные сценарии работы с документами в российских организациях. В набор включены офисные и личные документы, схемы, рукописные записи, таблицы, чертежи, диаграммы, графики. Все изображения полностью обезличены. Для удобства использования исходный набор данных был случайным образом разделён на две части: валидационную (400 изображений, 1302 задания) и тестовую (400 изображений, 1 278 заданий). Валидационная часть бенчмарка опубликована в открытом доступе.

«Сегодня появляется множество ИИ-моделей, но инструментов для оценки их пригодности к решению практических задач мало. Это осложняет сравнение результатов и выбор решений для бизнес-процессов. Без единых стандартов трудно определить, какая модель лучше справится с анализом документов, извлечением данных или автоматизацией обращений клиентов. Для компаний, работающих на русском языке, особенно важно иметь объективный инструмент сравнения, учитывающий особенности языка и деловой документации», — отметил генеральный директор MWS AI Денис Филиппов.

Открытый исходный код бенчмарка опубликован на GitHub, а датасет доступен на платформе Hugging Face. Это позволит компаниям загружать и тестировать как собственные, так и сторонние модели. На текущий момент лучшие результаты в бенчмарке показали соответственно Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini. В сравнении также участвовали ChatGPT-5 и Qwen3-VL.

Адрес новости:
https://open.cnews.ru/news/line/2025-10-10_mws_ai_vypustila_benchmark_dlya

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

[ Script execution time: 0.0502 ] [ 15 queries used ] [ Generated: 26.07.26, 05:00 GMT ]