LightFusion: Облегчённая двойная фреймворк-архитектура слияния для унифицированного мультимодального понимания и генерации
Краткое содержание
arXiv:2510.22946v3 Тип объявления: замена Аннотация: Единообразные мультимодальные модели недавно продемонстрировали значительные успехи как в возможностях, так и в универсальности, однако большинство ведущих систем до сих пор обучаются с нуля и требуют значительных вычислительных ресурсов. В данной статье мы показываем, что конкурентоспособную производительность можно получить гораздо эффективнее путем стратегического объединения общедоступных моделей, специализированных либо на генерации, либо на понимании. Наш ключевой подход заключается в сохранении исходных блоков одновременно с дополнительным чередованием мультимодальных блоков само-внимания по всей сети. Этот механизм двойного слияния (1) эффективно обеспечивает богатое мультимодальное объединение, сохраняя при этом основные преимущества базовых моделей, и (2) стимулирует синергическое объединение высокоуровневых семантических представлений от кодировщика понимания с низкоуровневыми пространственными сигналами от кодировщика генерации. Обучаясь всего лишь примерно на 35 миллиардах токенов, этот метод демонстрирует сильные результаты сразу по нескольким эталонным тестам:
Полный текст статьи пока не загружен.