MoHoBench: Оценка честности мультимодальных больших языковых моделей с помощью визуально неразрешимых вопросов

2025-11-19 05:00:00

Краткое содержание

arXiv:2507.21503v2 Тип объявления: замена Аннотация: В последнее время мультимодальные большие языковые модели (MMLM) добились значительных успехов в задачах визуального языка, однако они могут генерировать потенциально вредный или ненадежный контент. Несмотря на значительные исследования надежности языковых моделей, способность MMLM действовать честно, особенно при столкновении с визуально неразрешимыми вопросами, остается практически неизученной. Данная работа представляет собой первое систематическое исследование честного поведения различных MMLM. Мы основываем понятие честности на поведении моделей при ответе на неразрешимые визуальные вопросы, определяем четыре типичных типа таких вопросов и создаем MoHoBench — крупномасштабную эталонную базу данных для оценки честности MMLM, состоящую из более чем 12 тысяч образцов визуальных вопросов, качество которых гарантировано многоэтапной фильтрацией и проверкой людьми. С помощью MoHoBench мы оценили честность 28 популярных MMLM и провели всесторонний анализ. Наши результаты показывают, что: (1) большинство моделей не способны...

Полный текст статьи пока не загружен.

Читать оригинал статьи