Отказ от 3D-моделей встречает 3D-генераторы: синтез новых видов сцены из одного изображения с помощью предварительной диффузионной настройки
Краткое содержание
arXiv:2408.06157v5 Тип объявления: замена Аннотация: Современные методы синтеза новых видов трехмерной сцены (NVS) часто требуют большого объема трехмерных данных для обучения и зачастую плохо обобщаются вне распределения тренировочных данных. Более того, такие подходы ориентированы преимущественно на объекты и испытывают трудности с обработкой сложных и детализированных сцен. Напротив, методы, свободные от 3D-данных, способны создавать управляемые текстом виды сложных реальных сцен с помощью предварительно обученной стабильной диффузионной модели без необходимости наличия больших объемов трехмерных тренировочных данных, однако лишены возможности управления камерой. В данной работе мы представляем метод, способный формировать контролируемые камерой точки обзора на основе одного входного изображения путем объединения преимуществ подходов, свободных от 3D-ограничений, и основанных на 3D-моделях. Наш подход демонстрирует превосходство в обработке сложных и разнообразных сцен без необходимости обширного обучения или дополнительного набора трехмерных и многовидовых данных. Мы используем широко доступные предварительно обученные модели NVS для слабого руководства, интегрируя эти знания в стиле подхода синтеза вида, свободного от 3D, одновременно обогащая интерфейс командной строки...
Полный текст статьи пока не загружен.