VOPE: Пересмотр явления галлюцинаций моделей видения-языка в задаче добровольного воображения
Краткое содержание
arXiv:2511.13420v1 Тип объявления: новый Аннотация: Большинство исследований галлюцинаций в больших мультимодальных моделях видения и языка (LVLM) сосредоточено на фактологических задачах описания изображений, где запрещены любые выходящие за пределы исходной картинки результаты вывода. Однако практически не уделяется внимания исследованию галлюцинаций в добровольных творческих заданиях, таких как написание рассказов, когда модели генерируют новое содержание, выходящее за рамки предоставленного изображения. В таких случаях некорректно считать любое воображаемое новаторское содержание галлюцинациями. Для устранения данного ограничения мы предлагаем метод оценки присутствия добровольно вообразимых объектов (VOPE), предназначенный для анализа уровня галлюцинаций моделей LVLM в добровольных творческих задачах через оценку наличия объектов. Конкретнее, VOPE формулирует проверочные вопросы, чтобы оценить, насколько правильно LVLM интерпретирует присутствие вымышленных объектов в собственном ответе. Затем согласованность между интерпретацией модели и присутствием объекта на изображении используется для определения, испытывает ли модель галлюцинации при генерации текста.
Полный текст статьи пока не загружен.