На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
! Внимательно прочитайте правила раздела
1. Запрещается публиковать материалы защищенные авторскими правами.
2. Запрещается публиковать новостные материалы без ссылки на источник
Модераторы: ANDLL, B.V.
  
    > MWS AI выпустила бенчмарк для оценки качества мультимодальных моделей, работающих с документами на русском языке
      MWS AI выпустила бенчмарк для оценки качества мультимодальных моделей, работающих с документами на русском языке

      Компания MWS AI объявила о запуске открытого русскоязычного бенчмарка — MWS Vision Bench, предназначенного для оценки...

      Компания MWS AI объявила о запуске открытого русскоязычного бенчмарка — MWS Vision Bench, предназначенного для оценки качества мультимодальных моделей искусственного интеллекта (Visual Language Models, VLM), способных одновременно анализировать изображения и текст.

      MWS Vision Bench стал первым бенчмарком, ориентированным на оценку мультимодальных моделей в реальных продуктовых сценариях, где необходимо работать с документами на русском языке. Новый инструмент позволяет тестировать возможности генеративного искусственного интеллекта в распознавании и понимании документов, содержащих визуальные данные.

      Современные модели умеют анализировать договоры, счета, формы, схемы и таблицы. Однако существующие международные бенчмарки, такие как OCRBench, AI2D и MMMU, охватывают только английский и китайский языки. Подходящих бенчмарков на русском языке до сих пор не было, что делало невозможной объективную оценку таких моделей при решении продуктовых задач в российских компаниях.

      Бенчмарк MWS Vision Bench охватывает широкий спектр задач, направленных на оценку способности моделей работать с документами. Он проверяет, насколько эффективно модели умеют считывать текст с изображений, понимать структуру документа, находить необходимую информацию, распознавать расположение элементов и отвечать на сложные вопросы по содержимому.

      В состав MWS Vision Bench вошли 800 изображений и 2580 заданий, отражающие реальные сценарии работы с документами в российских организациях. В набор включены офисные и личные документы, схемы, рукописные записи, таблицы, чертежи, диаграммы, графики. Все изображения полностью обезличены. Для удобства использования исходный набор данных был случайным образом разделён на две части: валидационную (400 изображений, 1302 задания) и тестовую (400 изображений, 1 278 заданий). Валидационная часть бенчмарка опубликована в открытом доступе.

      «Сегодня появляется множество ИИ-моделей, но инструментов для оценки их пригодности к решению практических задач мало. Это осложняет сравнение результатов и выбор решений для бизнес-процессов. Без единых стандартов трудно определить, какая модель лучше справится с анализом документов, извлечением данных или автоматизацией обращений клиентов. Для компаний, работающих на русском языке, особенно важно иметь объективный инструмент сравнения, учитывающий особенности языка и деловой документации», — отметил генеральный директор MWS AI Денис Филиппов.

      Открытый исходный код бенчмарка опубликован на GitHub, а датасет доступен на платформе Hugging Face. Это позволит компаниям загружать и тестировать как собственные, так и сторонние модели. На текущий момент лучшие результаты в бенчмарке показали соответственно Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini. В сравнении также участвовали ChatGPT-5 и Qwen3-VL.

      Адрес новости:
      https://open.cnews.ru/news/line/2025-10-10_mws_ai_vypustila_benchmark_dlya

      0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
      0 пользователей:


      Рейтинг@Mail.ru
      [ Script execution time: 0,0144 ]   [ 16 queries used ]   [ Generated: 25.10.25, 10:37 GMT ]