UnSAMv2: Самоконтролируемое обучение позволяет сегментировать что угодно на любом уровне детализации
Краткое содержание
arXiv:2511.13714v1 Тип объявления: cross Аннотация: Семейство моделей Segment Anything Model (SAM) стало широко используемой базовой моделью компьютерного зрения, но её способность контролировать детализацию сегментации остаётся ограниченной. Пользователям часто приходится вручную уточнять результаты — добавляя больше промптов или выбирая из предварительно сгенерированных масок — для достижения желаемого уровня детализации. Этот процесс может быть неоднозначным, поскольку один и тот же промпт может соответствовать нескольким правдоподобным маскам, а сбор плотных аннотаций для всех уровней детализации чрезмерно дорог, что делает контролируемые решения нецелесообразными. Чтобы устранить это ограничение, мы представляем UnSAMv2, который позволяет сегментировать что угодно на любом уровне детализации без человеческих аннотаций. UnSAMv2 расширяет стратегию «разделяй и властвуй» модели UnSAM, обнаруживая множество пар «маска-детализация» и вводя новое управляющееEmbedding-представление детализации, которое обеспечивает точный, непрерывный контроль над масштабом сегментации. Примечательно, что для этого требуется всего $6$К немаркированных изображений и $0.02\%$ дополнительных
Полный текст статьи пока не загружен.