Трансформеры высших порядков с вниманием на основе структуры Кронекера
Краткое содержание
arXiv:2412.02919v2 Тип объявления: замена-перекрёстная публикация Аннотация: Современные наборы данных становятся все более многомерными и многоиндексированными, часто представляются в виде тензорных данных с переменными, индексируемыми по нескольким направлениям. Хотя трансформеры отлично справляются с задачами моделирования последовательностей и высокомерных задач, их прямое применение к многомерным данным вычислительно неприемлемо из-за квадратичной стоимости скалярного произведения внимания и необходимости выравнивания входных данных, что нарушает структуру тензора и межразмерные зависимости. Мы предлагаем Трансформер высших порядков (Higher-Order Transformer — HOT) — новую факторизованную архитектуру внимания, которая представляет многомерное внимание как сумму произведений Кронекера или сумм матриц внимания по модам. HOT эффективно захватывает плотные и разреженные отношения между измерениями при сохранении структуры тензора. Теоретически доказано, что HOT сохраняет выразительность полного высокоуровневого внимания и позволяет контролировать сложность через ранг факторизации. Эксперименты на наборах двумерных и трехмерных данных показывают, что HOT демонстрирует конкурентоспособную производительность
Полный текст статьи пока не загружен.