← Вернуться к списку

Moonshot открыл исходный код FlashKDA и ядра CUTLASS для внимания Kimi Delta, обеспечивая до 2,22 раза больше производительности по сравнению с базовым уровнем Triton на H20

Краткое содержание

На этой неделе я сравнивал, как различные слои маршрутизации обрабатывают K2.6: OpenRouter, Together, Orq. И копаясь в материалах, я наткнулся на FlashKDA, который Moonshot выпустил вместе с активностью по K2.6. Кажется, он пока незамечен, поэтому делюсь им здесь, потому что работа над ядром сама по себе очень интересна, независимо от выпуска модели.Что это такое. Это реализация прямого ядра (forward kernel) для Kimi Delta Attention на C++ с использованием CUTLASS — линейный вариант внимания из статьи Kimi Linear. Он подключается к flash-linear-attention в качестве бэкенда через pull request FLA #852, поэтому любой, кто уже использует FLA для моделей на основе KDA, может маршрутизировать трафик через FlashKDA на уровне бэкенда.Цифры из их бенчмарка на H20, измеренные относительно существующего пути Triton в FLA:При T=8192, H=96, D=128, последовательности фиксированной длины — 1,72x. Переменная длина со смешанными seq_lens — 1,95x. Переменная длина с равномерным распределением 1024x8 — 2,22x.Почему это важно. Архитектуры линейного внимания, такие как KDA, обещают линейное масштабирование с seq

Полный текст статьи пока не загружен.