TokenSqueeze: Сжатие для рассуждающих больших языковых моделей с сохранением производительности

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.13223v1 Тип объявления: новый Аннотация: Перспективные языковые модели с логическим выводом, такие как OpenAI-o1 и DeepSeek-R1, демонстрируют высокую производительность на сложных задачах, требующих рассуждений, благодаря генерации длинных цепочек мыслей. Однако эти длинные цепочки приводят к увеличению расхода токенов, что влечёт за собой более высокую задержку вывода и потребление памяти. В результате баланс между точностью и эффективностью рассуждений стал ключевым фактором для развертывания таких моделей в практических приложениях. Существующие методы сжатия длинных рассуждений в короткие направлены на сокращение длины вывода, но часто жертвуют точностью, что указывает на необходимость подхода, который сохраняет производительность при снижении затрат на токены. Для решения этого компромисса между эффективностью и точностью мы предлагаем TokenSqueeze — новый метод сжатия, который уплотняет пути рассуждений, сохраняя производительность и используя исключительно самогенерируемые данные. Во-первых, чтобы предотвратить снижение производительности из-за чрезмерного сжатия глубины рассуждений, мы предлагаем выбирать самогенерируемые примеры

Полный текст статьи пока не загружен.

Читать оригинал статьи