MOSS: Эффективная и точная подготовка больших языковых моделей (LLM) формата FP8 с использованием микроскалирования и автоматического масштабирования

2025-11-11 05:00:00

Краткое содержание

arXiv:2511.05811v1 Тип объявления: новый Аннотация: Обучение больших языковых моделей с использованием формата FP8 обеспечивает значительные преимущества в плане эффективности. Однако пониженная числовая точность FP8 создает трудности для стабильной и точной тренировки модели. Современные фреймворки сохраняют производительность обучения путем смешанной квантизации различной степени детализации — применяя квантизацию по группам для активаций и квантизацию по тензорам/блокам для весов. Хотя этот подход эффективен, квантизация по группам требует масштабирования вдоль внутреннего измерения матричного умножения, что добавляет дополнительные накладные расходы на деквантизацию. Более того, такие фреймворки часто полагаются на динамическое масштабирование в режиме реального времени (just-in-time), чтобы адаптивно корректировать коэффициенты масштабирования в зависимости от текущего распределения данных. Тем не менее, такая онлайн-квантизация неэффективна для обучения в формате FP8, поскольку она включает многократное чтение и запись памяти, что сводит на нет преимущества производительности FP8. Для преодоления указанных ограничений мы предлагаем MOSS — новую архитектуру обучения FP8, обеспечивающую одновременно эффективность и численную стабильность.

Полный текст статьи пока не загружен.

Читать оригинал статьи