Oboro: Синтез изображений по текстовому описанию на ограниченных наборах данных с использованием потокового диффузионного трансформера с вниманием MMH

2025-11-12 05:00:00

Краткое содержание

arXiv:2511.08168v1 Тип объявления: новый Аннотация: Данный проект был реализован во втором семестре в рамках проекта Министерства экономики, торговли и промышленности Японии (METI) и Организации развития новых энергетических и промышленных технологий (NEDO) «Развитие конкурентоспособных фундаментальных моделей генеративного ИИ (GENIAC) для совершенствования инфраструктуры информационно-коммуникационных систем пост-5G». Для решения проблем, таких как нехватка рабочей силы в японской индустрии аниме, целью данного проекта является создание модели генерации изображений с нуля. В данном отчёте подробно описаны технические характеристики разработанной модели генерации изображений «оборо:». Мы разработали новую модель генерации изображений «оборо:», построенную с нуля и обучаемую исключительно на изображениях с разрешённой авторской лицензией. Ключевой особенностью данной архитектуры является способность создавать высококачественные изображения даже при ограниченных объёмах тренировочных наборов данных. Вместе с данным отчётом публикуются веса базовой модели и код вывода.

Полный текст статьи пока не загружен.

Читать оригинал статьи