Sa2VA-i: Повышение точности результатов Sa2VA за счет согласованного обучения и вывода

2025-11-19 05:00:00

Краткое содержание

arXiv:2509.19082v2 Тип объявления: замена Аннотация: Sa2VA — это недавняя модель для языково-направленного плотного сопоставления объектов на изображениях и видео, которая демонстрирует передовые результаты на нескольких бенчмарках сегментации и стала очень популярной. Однако мы обнаружили, что Sa2VA не полностью раскрывает свой потенциал при решении задач сегментирования видеопредметов по текстовому описанию. Мы определили, что основной причиной этого являются несоответствия между процедурами обучения и вывода модели. Для устранения этой проблемы мы предлагаем улучшенную версию Sa2VA под названием Sa2VA-i, исправляющую данные недостатки и повышающую качество результатов. В частности, Sa2VA-i устанавливает новый уровень качества на множестве видеобенчмарков, достигая улучшения до +11,6 J&F на MeViS, +1,4 на Ref-YT-VOS, +3,3 на Ref-DAVIS и +4,1 на ReVOS с использованием тех же контрольных точек Sa2VA. С нашими исправлениями даже модель Sa2VA-i-1B показывает результат, сравнимый с оригинальной моделью Sa2VA-26B на бенчмарке MeViS. Мы надеемся, что эта работа продемонстрирует важность, казалось бы, незначительных деталей в процессе разработки моделей машинного зрения.

Полный текст статьи пока не загружен.

Читать оригинал статьи