← Вернуться к списку

Можете ли вы научиться видеть без изображений? Процедурная разминка для трансформеров зрения

Краткое содержание

arXiv:2511.13945v1 Тип объявления: новый Аннотация: Трансформеры демонстрируют удивительную универсальность в различных областях, что указывает на существование индуктивных смещений, полезных для разных модальностей. В данной работе мы исследуем новый способ внедрения таких общих смещений в трансформеры видения (ViT), предварительно обучая их на процедурно сгенерированных данных, лишенных визуального или семантического содержания. Мы генерируем эти данные с помощью простых алгоритмов, таких как формальные грамматики, так что результаты не имеют никакого отношения ни к естественным, ни к синтетическим изображениям. Мы используем этот процедурно-сгенерированный набор данных для предварительного обучения ViT в фазе разогрева, которая обходит механизмы встраивания визуальных патчей, тем самым побуждая модели усваивать абстрактные вычислительные априорные знания. При последующем стандартном обучении на основе изображений эта фаза разогрева значительно повышает эффективность использования данных, скорость сходимости и производительность на последующих задачах. Например, выделение всего лишь 1% бюджета обучения под процедурные данные улучшает окончательную точность более чем на 1,7% при решении задачи ImageNet-1k. С точки зрения его

Полный текст статьи пока не загружен.