Эффективное обучение для небольших моделей рассуждений: эмпирическое исследование на моделях LLM с объемом параметров в 0,5 миллиарда

2025-11-19 05:00:00

Краткое содержание

arXiv:2506.13404v3 Тип объявления: замена Аннотация: Постоянная эволюция языковых моделей привела к созданию крупномасштабных архитектур, демонстрирующих выдающиеся результаты в широком спектре задач. Однако эти модели предъявляют значительные требования к вычислительным ресурсам и энергии, а также могут иметь последствия для конфиденциальности. В этом контексте небольшие языковые модели с рассуждениями (Small Reasoning Language Models — SRLM) с примерно 0,5 миллиардами параметров представляют собой привлекательную альтернативу благодаря своей исключительной вычислительной эффективности и экономичности, особенно в условиях ограниченных ресурсов. Несмотря на эти преимущества, ограниченная емкость моделей с 0,5 млрд параметров создает трудности при решении сложных задач, таких как математическое рассуждение. Данное исследование рассматривает различные стратегии обучения, включая дообучение под наблюдением (Supervised Fine-Tuning — SFT), дистилляцию знаний (Knowledge Distillation — KD) и обучение с подкреплением (Reinforcement Learning — RL), а также их гибридные реализации, направленные на повышение производительности SRLM-моделей объемом 0,5 миллиарда параметров. Мы анализируем...

Полный текст статьи пока не загружен.

Читать оригинал статьи