iTool: Укреплённая дообучение с динамической калибровкой недостатков для продвинутого инструментального использования
Краткое содержание
arXiv:2501.09766v5 Тип объявления: замена-перекрёстная Аннотация: Расширение возможностей больших языковых моделей (LLM) внешними инструментами является перспективным подходом для повышения их эффективности, особенно при выполнении сложных задач. Генерация данных использования инструментов через симуляции реального мира — эффективный способ достижения этой цели. Однако наше исследование показывает, что прирост производительности значительно снижается с увеличением объёма синтетических данных. Модель испытывает трудности с извлечением пользы от дополнительного синтетического набора данных, который оказывается неспособным наделить её продвинутыми возможностями использования инструментов в сложных сценариях. Более того, мы обнаружили, что вышеуказанное ограничение чаще всего проявляется в виде фрагментарной недостаточности (например, ошибок параметров) в ответе модели. В связи с этим мы предлагаем стратегию итерационного усиленного дообучения, направленную на смягчение данного ограничения. Эта стратегия включает следующие шаги: (1) повышение разнообразия откликов на синтетические данные путём исследования путей поиска Монте-Карло; (2) последовательное выявление недостатков модели посредством построения детализированных...
Полный текст статьи пока не загружен.