← Вернуться к списку

ORIC: Оценка качества распознавания объектов в условиях контекстуальной рассогласованности в больших моделях видения и языка

Краткое содержание

arXiv:2509.15695v2 Тип анонса: замена-перекрёстная публикация Аннотация: Большие мультимодальные модели видения и языка (LVLM) превосходят другие подходы в области описания изображений, визуального вопросно-ответного взаимодействия и робототехники благодаря объединению зрения и языка, однако часто пропускают очевидные объекты или генерируют несуществующие в необычных сценах. Мы исследуем эти ошибки через призму неопределённости, сосредоточившись на контекстуальной рассогласованности — ситуации, когда объекты неожиданно появляются или отсутствуют там, где ожидались, показывая, что такие случаи усложняют распознавание даже для современных моделей LVLM. Для изучения данного явления мы предлагаем фреймворк Object Recognition in Incongruous Context (ORIC), который формирует пары объектов и контекста с нарушением согласованности двумя взаимодополняющими способами: (1) выборка, управляемая большими языковыми моделями (LLM), позволяющая выявлять труднораспознаваемые объекты, присутствующие на изображении, и (2) выборка, направляемая моделью CLIP, предназначенная для поиска правдоподобных, но отсутствующих объектов. Применяя этот подход к набору данных MSCOCO, ORIC создаёт тестовый набор ORIC-Bench и тренировочные данные формата ORIC. Оценивая производительность 18 моделей LVLM и двух детекторов с открытым вокабуляром, мы обнаруживаем

Полный текст статьи пока не загружен.