← Вернуться к списку

Сегментация медицинских изображений методом предсказания следующей замаскированной метки

Краткое содержание

arXiv:2511.05044v1 Тип объявления: новый Аннотация: Сегментация медицинских изображений по референсному описанию (Medical Referring Image Segmentation — MRIS) включает выделение целевых областей в медицинских изображениях на основе естественного языкового описания. Несмотря на достигнутые многообещающие результаты, современные подходы часто требуют сложной конструкции мультимодального объединения признаков либо многослойных декодеров. В данной работе мы предлагаем NTP-MRISeg — новую архитектуру, которая переформулирует задачу MRIS как автокорреляционную задачу предсказания следующего токена над унифицированной мультимодальной последовательностью токенов визуальных образов, текста и масок. Эта формулировка упрощает проектирование модели, устраняя необходимость специфического мультимодального слияния и внешних моделей сегментации, поддерживая единую архитектуру для сквозного обучения. Она также позволяет использовать предварительно натренированные токенизаторы от современных крупномасштабных мультимодальных моделей, улучшая обобщаемость и адаптируемость. Более важно, чтобы справиться с возникающими проблемами этой постановки задачи — такими как смещение экспозиции, длинные хвостовые распределения токенов и тонкие границы поражений — мы вводим ряд эффективных стратегий оптимизации и регуляризации...

Полный текст статьи пока не загружен.