SpaceVLM: Подпространственное моделирование отрицания в моделях видения-языка
Краткое содержание
arXiv:2511.12331v1 Тип объявления: новый Аннотация: Модели видения и языка (VLM) испытывают трудности с обработкой отрицания. Получив подсказку вроде «найти (или создать) уличную сцену без пешеходов», такие модели часто игнорируют слово «не». Современные методы решают эту проблему путем дообучения моделей на больших наборах данных с примерами отрицательных утверждений, однако такое переобучение зачастую ухудшает способность модели решать нулевые задачи (zero-shot) с утвердительными запросами. Мы показываем, что пространство вложений VLM-моделей, таких как CLIP, можно разделить на семантически согласованные подпространства. Основываясь на данном свойстве, мы предлагаем подход без дополнительного обучения, который представляет отрицание как подпространство в совместном пространстве вложений, а не как отдельную точку (рисунок 1). Чтобы найти изображение, соответствующее подписи типа «А, но не N», мы строим две сферические шапки вокруг вложений А и N, после чего оцениваем изображения по центральному направлению области, близкой к А и удалённой от N. В различных задачах поиска изображений, множественного выбора и преобразования текста в изображение наш метод улучшает понимание отрицания примерно на...
Полный текст статьи пока не загружен.