Раскрытие обобщения за пределами распределения в трансформерах с помощью рекурсивного рассуждения в латентном пространстве
Краткое содержание
arxivopenreviewЯ нашел эту статью одновременно очень интересной и понятной. Ни одна отдельная часть не является особо новой, но она объединяет различные направления, чтобы получить, судя по всему, убедительные результаты в OOD-обобщении по длине. Даже для учебной задачи, и с использованием DSL (в отличие от языковой модели), обобщение по длине для простых математических операций >4x впечатляет, насколько я знаю. Это также соответствует моим априорным представлениям о ключевых элементах, необходимых для достижения лучшего композиционного OOD-обобщения: переменная рекуррентность, пошаговое обучение по учебному плану для построения инвариантных к глубине алгоритмов, дискретные бутылочные горлышки. Наконец, очень интересно сравнить это с недавней статьей ниже, в которой приводятся доводы в пользу преимуществ непрерывных латентных пространств: Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought Моя точка зрения такова: обе статьи правы, и что непрерывные пространства более выразительны и могут справляться с более сложными проблемными пространствами (например, кратчайший путь в графе), тогда как дискретные пространства обеспечат лучшее индуктивное смещение для элегантных алгоритмов, способных к масштабированию.
Полный текст статьи пока не загружен.