Компания MWS AI представила новый открытый бенчмарк под названием MWS Vision Bench, ориентированный на оценку мультимодальных моделей искусственного интеллекта, работающих с документами на русском языке. Это первый в своем роде инструмент, позволяющий объективно сравнивать качество таких моделей в условиях, приближенных к реальным бизнес-сценариям.
MWS Vision Bench разработан специально для проверки Visual Language Models (VLM) — систем, которые одновременно обрабатывают визуальную и текстовую информацию. Такие модели используются при анализе документов, содержащих изображения, схемы, таблицы, рукописный текст и другие визуальные элементы. До настоящего времени большинство существующих бенчмарков, включая OCRBench, AI2D и MMMU, ограничивались английским и китайским языками, не предоставляя возможности полноценно тестировать модели на русском.
Бенчмарк MWS Vision Bench включает 800 изображений и 2580 заданий, вдохновлённых реальными задачами российских организаций. Документы в датасете представляют широкий спектр: от офисных и юридических бумаг до личных анкет и чертежей. Все изображения были обезличены для соблюдения требований конфиденциальности. Набор данных поделен на две части — валидационную (400 изображений и 1302 задания) и тестовую (400 изображений и 1278 заданий). Валидационная часть доступна для свободного использования.
Целью создания бенчмарка стало устранение пробела в инструментах оценки, с которым сталкиваются российские компании при внедрении ИИ в документооборот и клиентские процессы. Как отметил генеральный директор MWS AI Денис Филиппов, несмотря на рост числа ИИ-моделей, отсутствуют стандартизированные решения для оценки их применимости к реальным задачам. Это затрудняет выбор оптимальной модели для автоматизации бизнес-процессов, особенно в русскоязычной среде.
Среди задач, которые решает MWS Vision Bench, — проверка способности моделей извлекать текст с изображений, понимать структуру документа, определять местоположение его элементов, а также отвечать на содержательные и логически сложные вопросы. Это критически важно при автоматизации обработки форм, счетов, договоров и других документов, где точность извлечения информации напрямую влияет на эффективность бизнес-процессов.
Открытый исходный код MWS Vision Bench размещён на GitHub, а сам датасет опубликован на платформе Hugging Face. Это обеспечивает максимальную доступность инструмента для разработчиков и аналитиков: они могут проверять производительность как собственных ИИ-моделей, так и сторонних решений.
На данный момент лучшие результаты среди протестированных моделей показали Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini. Также в сравнительном тестировании участвовали более новые версии, включая ChatGPT-5 и Qwen3-VL, что позволяет участникам рынка ориентироваться на объективные метрики при выборе ИИ-инструмента.
Разработка такого бенчмарка особенно актуальна в условиях, когда российский рынок стремительно осваивает технологии искусственного интеллекта в документообороте, юридической сфере, банковском секторе и государственных услугах. Наличие качественного инструмента оценки повышает доверие к результатам моделей и способствует их более быстрому внедрению в практику.
Кроме оценки качества моделей, MWS Vision Bench может стать полезным инструментом в образовательной и научной среде. Университеты и исследовательские центры смогут использовать бенчмарк для обучения студентов, тестирования экспериментальных моделей и разработки новых алгоритмов обработки мультимодальных данных.
Дополнительно стоит отметить, что появление такого инструмента может стимулировать разработку локализованных решений в сфере ИИ. Многие международные модели обучаются преимущественно на англоязычных данных и не всегда адекватно справляются с особенностями русской документации — например, нестандартной структурой, специфическим форматированием или рукописными элементами. MWS Vision Bench предоставляет площадку для адаптации и улучшения таких моделей.
Для бизнеса наличие стандартизированного бенчмарка также означает повышение прозрачности при выборе подрядчиков и поставщиков ИИ-решений. Вместо субъективных презентаций и демонстраций заказчик может опираться на конкретные показатели производительности модели в условиях, максимально приближенных к его рабочим задачам.
С технической точки зрения, бенчмарк позволяет анализировать не только точность распознавания текста, но и сложные аспекты понимания контекста. Например, модели должны уметь интерпретировать диаграммы, извлекать связи между элементами таблиц или определять смысловые блоки в многостраничных договорах — всё это заложено в структуру тестов MWS Vision Bench.
Таким образом, запуск MWS Vision Bench можно считать важным шагом в развитии русскоязычного ИИ-пространства. Он не только закрывает существующий пробел в оценке мультимодальных моделей, но и создает основу для дальнейшего роста и стандартизации отрасли. Такой подход будет способствовать развитию конкурентоспособных отечественных решений и укреплению позиций российских компаний на глобальном рынке ИИ.



