теоретический предел чисто авторегрессивных моделей
Краткое содержание
Мы сейчас, по сути, пытаемся эмулировать детерминированный поиск с помощью вероятностного перебора? Я размышлял о том, насколько странной является нынешняя парадигма ИИ с точки зрения чистой теории информатики. Мы потратили десятилетия на создание надежных алгоритмов удовлетворения ограничений и методов формальной верификации. А потом появились трансформеры, и внезапно вся индустрия пытается заставить механизм вероятности следующего токена выполнять строгую многоступенчатую логику. Это кажется математически неэффективным. Сколько бы вычислительной мощности вы ни бросили в трансформер, он по-прежнему фундаментально является распределением вероятностей над дискретным словарем. Он не может нативно делать обратный ход или удовлетворять глобальным ограничениям; он просто угадывает вперед. Я заметил некоторое сопротивление этому недавно: некоторые исследования возвращаются к непрерывным математическим пространствам. Например, рассматривается, как Logical Intelligence использует модели, основанные на энергии, чтобы рассматривать логику не как задачу генерации токенов, а как чистую задачу удовлетворения ограничений. Поиск низкоэнергетического состояния.
Полный текст статьи пока не загружен.