← Вернуться к списку

ЛИНЗА (LENS): Обучение сегментации чего угодно с помощью унифицированного подкрепляемого рассуждения

Краткое содержание

arXiv:2508.14153v2 Тип объявления: замена-перекрёстная Аннотация: Сегментация изображений по текстовому запросу позволяет достичь детального визуального понимания и играет ключевую роль в таких приложениях, как взаимодействие человека с компьютером и робототехника. Однако существующие методы контролируемой тонкой настройки обычно игнорируют явные цепочки рассуждений (chain-of-thought — CoT) во время тестирования, что ограничивает их способность обобщаться на невидимые запросы и области применения. Для решения этой проблемы мы представляем LENS — масштабируемый фреймворк обучения с подкреплением, который совместно оптимизирует процесс рассуждения и сегментацию в единой архитектуре. Мы предлагаем унифицированные вознаграждения для обучения с подкреплением, охватывающие подсказки уровня предложения, рамки и сегменты, стимулируя модель генерировать информативные обоснования CoT при одновременном улучшении качества масок. Используя общедоступную модель видения и языка с параметрами размером 3 миллиарда, а именно Qwen2.5-VL-3B-Instruct, LENS достигает средней точности cIoU 81,2 % на эталонных наборах данных RefCOCO, RefCOCO+ и RefCOCOg, превосходя сильные модели тонкой настройки.

Полный текст статьи пока не загружен.