Трансформеры знают больше, чем могут рассказать — изучение последовательности Коллатца

2025-11-17 05:00:00

Краткое содержание

arXiv:2511.10811v1 Тип объявления: новый Аннотация: Мы исследуем предсказание трансформерами длинных шагов Коллатца — сложной арифметической функции, отображающей нечётные целые числа на их далёких последователей в последовательности Коллатца ($ u_{n+1}=\frac{u_n}{2}$, если $u_n$ чётное, $u_{n+1}=\frac{3u_n + 1}{2}$ иначе). Точность модели варьируется в зависимости от основания, используемого для кодирования входных и выходных данных. Она может достигать $99.7\%$ для оснований $24$ и $32$, и снижаться до $37\%$ и $25\%$ для оснований $11$ и $3$. Тем не менее, все модели независимо от выбранного основания следуют общей схеме обучения. По мере продолжения тренировки модели последовательно изучают классы входных данных, имеющих одинаковый остаток по модулю $2^p$. Модели достигают почти идеальной точности на этих классах и менее $1\%$ точности на всех остальных входных значениях. Это соответствует математическому свойству последовательностей Коллатца: длина циклов, участвующих в вычислении длинного шага Коллатца, может быть выведена из двоичного представления её входа. Схема обучения отражает способность моделей учиться прогнозированию в

Полный текст статьи пока не загружен.

Читать оригинал статьи