← Вернуться к списку

[R] Публичная предварительная регистрация архитектурного эксперимента на Gemma 3 270M. Хеш зафиксирован до шага 0

Краткое содержание

Обязательство до того, как появятся цифры, чтобы потом никто не мог сомневаться в моем слове. Что: Применение T³ v3.5 (трансформерная архитектура с заземленной экологией, которую я разрабатывал) к весам google/gemma-3-270m от Google DeepMind. Продолженное обучение на 5 млрд токенов на Ultimate Mix+ (мультиязычное расширение). Оценено по семи контрольным точкам траектории (25/37,5/50/62,5/75/87,5/100%) относительно замороженной базовой модели. Почему именно Gemma 3 270M: это самая переобученная модель с размером менее 1 млрд параметров, доступная публично — 6 трлн токенов на корпусе трансформера ~100 млн, что составляет примерно 3000× оптимального по принципу Чинчили. База насыщена, что делает ее чистым тестом для гипотезы «экология поглощает градиент, потому что основной корпус не имеет ничего, чему можно было бы научиться» (ранее подтверждено при нормализованном давлении 2463× на GPT-2 Medium). Предварительно зарегистрированная гипотеза: передача T³ пересекает композитный вывод Gemma с фиксированными весами до достижения 75% обучения. Заявление об архитектуре, а не о данных и вычислениях — 5 млрд токенов это примерно в 1200 раз меньше бюджета Google в 6 трлн, поэтому победа...

Полный текст статьи пока не загружен.