CoTBox-TTT: Привязка медицинского визуального вопросно-ответного анализа (VQA) к цепочкам рассуждений на основе изображений во время тестового обучения

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.12446v1 Тип объявления: новый Аннотация: Медицинское визуальное вопросно-ответное моделирование могло бы поддерживать клинические решения, однако современные системы часто терпят неудачу при изменении домена (сдвиге области применимости) и выдают ответы, слабо обоснованные изображениями. Этот разрыв надежности возникает, когда модели фокусируются на случайных областях изображений, а дообучение или добавление меток непрактичны во время эксплуатации. Мы предлагаем решение этой проблемы с помощью подхода CoTBox-TTT — метода адаптации моделей видения и языка на этапе тестирования, основанного на доказательствах, который адаптирует модель при выводе, оставляя замороженными все базовые архитектуры. Метод обновляет лишь небольшой набор непрерывных мягких подсказок. Он идентифицирует релевантные вопросам регионы через сигнал цепочки визуальных рассуждений и поощряет согласованность ответов между исходным изображением и локализованным фрагментом. Процедура не требует разметки и совместима с различными базовыми архитектурами. Эксперименты на медицинских задаче визуального вопросно-ответа показывают практичность предложенного подхода для реальных внедрений. Например, применение CoTBox-TTT к модели LLaVA повышает точность закрытых вопросов...

Полный текст статьи пока не загружен.

Читать оригинал статьи