D$^{3}$ToM: Решатель-управляемое динамическое объединение токенов для ускорения диффузионных MLLM
Краткое содержание
arXiv:2511.12280v1 Тип публикации: cross Аннотация: Диффузионные мультимодальные большие языковые модели (Diffusion MLLMs) недавно продемонстрировали впечатляющие нефредсказательные генеративные возможности в задачах, связывающих зрение и язык. Однако Diffusion MLLMs обладают значительно более медленным выводом, чем авторегрессионные модели: каждый шаг денизинга использует полное двунаправленное самовнимание ко всей последовательности, что приводит к кубической сложности декодирования, которая становится вычислительно нецелесообразной при тысячах визуальных токенов. Для решения этой проблемы мы предлагаем D$^{3}$ToM — метод динамического объединения токенов с управлением от решающего модуля, который динамически объединяет избыточные визуальные токены на различных шагах денизинга для ускорения вывода в Diffusion MLLMs. На каждом шаге денизинга D$^{3}$ToM использует токены-решатели — токены, сгенерированные на предыдущем шаге денизинга — для построения карты значимости всех визуальных токенов. Затем метод сохраняет долю наиболее значимых токенов и объединяет остальные на основе схожести.
Полный текст статьи пока не загружен.