← Вернуться к списку

Арси: Дифференцируемая рекуррентная цепочка состояний для генеративной визуальной модели с использованием марковских моделей состояния Мамба (Mamba SSMs)

Краткое содержание

arXiv:2511.11243v1 Тип объявления: новый Аннотация: Модели пространства состояний (SSM), особенно архитектура Mamba, всё чаще применяются для моделирования длинных последовательностных контекстов, обеспечивая линейное агрегирование посредством операции выборочного сканирования, зависящей от входных данных и учитывающей причинность. В продолжение этой линии развития, недавние варианты архитектуры "Mamba-для-видения" активно исследуют различные порядки сканирования для ослабления строгого соблюдения причинности применительно к несеквенциальным сигналам (например, изображениям). Вместо сохранения межблочной памяти традиционная формулировка операции выборочного сканирования в архитектуре Mamba перезапускает динамику пространства состояний каждого блока заново, отбрасывая итоговое представление пространства состояний (SSR) предыдущего блока. Arcee — рекуррентная цепочка состояния между блоками — повторно использует конечное представление пространства состояний каждого блока в качестве начального условия для следующего блока. Передача состояния между блоками реализуется как дифференцируемое граничное отображение, градиенты которого обеспечивают сквозной поток градиентов через границы блоков. Ключевое преимущество практического применения Arcee заключается в совместимости с ал...

Полный текст статьи пока не загружен.