Выявление и устранение временной слепоты при редактировании мультимодальных моделей
Краткое содержание
arXiv:2511.13243v1 Тип объявления: новый Аннотация: Редактирование мультимодальных моделей (MMED) направлено на исправление ошибочных знаний в мультимодальных моделях. Существующие методы оценки, адаптированные из редактирования текстовых моделей, преувеличивают успех, полагаясь на входные данные с низким сходством или случайные данные, маскируя переобучение. Мы предлагаем комплексную структуру оценки локальности, охватывающую три ключевых измерения: локальность со случайным изображением, локальность без изображения и локальность с согласованным изображением, реализуемую через семь различных типов данных, что позволяет проводить детальный и структурированный анализ мультимодальных правок. Мы представляем De-VQA, динамическую оценку для визуального ответа на вопросы, которая выявляет феномен, названный нами транзиентной слепотой — переобучение на тексте, схожем с редактируемым, при игнорировании визуальной информации. Анализ токенов показывает, что правки непропорционально сильно влияют на текстовые токены. Мы предлагаем учитывающие локальность состязательные потери для балансировки кросс-модальных представлений. Эмпирические результаты демонстрируют, что наш подход стабильно превосходит существующие базовые методы,
Полный текст статьи пока не загружен.