← Вернуться к списку

Визуальный мост: Генерация универсальных представлений визуального восприятия

Краткое содержание

arXiv:2511.07877v1 Тип объявления: новый Аннотация: Последние достижения моделей диффузии продемонстрировали выдающийся успех в изолированных задачах компьютерного зрения, таких как генерация изображений по тексту, оценка глубины и оптического потока. Однако эти модели часто ограничены парадигмой «одна задача — одна модель», что существенно снижает их обобщаемость и масштабируемость в многозадачных сценариях. Вдохновленные способностью больших языковых моделей к междоменной обобщаемости, мы предлагаем универсальную архитектуру визуального восприятия, основанную на методе сопоставления потоков (flow matching), способную создавать разнообразные визуальные представления для множества различных задач. Наш подход формулирует процесс как общую проблему сопоставления потоков от токенов фрагментов изображения до представлений, специфичных для конкретных задач, а не как независимую задачу генерации или регрессии. Используя мощную самообучаемую базовую модель в качестве отправной точки и вводя многоуровневый циклический механизм встраивания задач, наш метод изучает универсальное векторное поле скоростей, которое объединяет...

Полный текст статьи пока не загружен.