Архитектура больших языковых моделей, законы масштабирования и экономика: краткий обзор

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.11572v1 Тип анонса: cross Аннотация: Вкратце обобщена стандартная архитектура больших языковых моделей (БЯМ) с самовниманием QKV, включая архитектуру типичного Трансформера. Приводятся законы масштабирования для вычислений (флопсы) и памяти (параметры плюс данные) вместе с их приблизительными стоимостными оценками на 2025 год для параметров современных БЯМ различного масштаба, включая обсуждение того, следует ли рассматривать DeepSeek как частный случай. Ничего нового здесь не представлено, но эти сведения, по-видимому, в ином виде недоступны в обобщённой форме.

Полный текст статьи пока не загружен.

Читать оригинал статьи