Основанный на реальности: обучение и развертывание проактивной языковой модели большого масштаба (LLM) на основе офлайн-журналов

2025-11-10 05:00:00

Краткое содержание

arXiv:2510.25441v2 Тип объявления: замена-перекрёстная публикация Аннотация: Большие языковые модели (LLM) отлично справляются с ролью пассивных респондентов, однако обучение их активной роли — целеустремлённых партнёров, критически важной способности в высокорисковых областях, остаётся серьёзной задачей. Современные подходы либо близоруко оптимизируют атрибуты одного шага диалога, либо полагаются на хрупких и дорогостоящих симуляторов пользователей, создавая устойчивый разрыв между моделью и реальной ситуацией («реальность-гэп»). Для преодоления данного разрыва мы предлагаем метод **Learn-to-Ask** — универсальный подход без использования симуляции, предназначенный для обучения и развёртывания инициативных диалоговых агентов **непосредственно на основе офлайн-данных экспертов**, обходящий необходимость моделирования сложных динамических процессов взаимодействия с пользователями. Наш ключевой подход заключается в переосмыслении проблемы обучения офлайн-политикам путём привлечения внимания к **наблюдаемому будущему каждой траектории эксперта**. Это позволяет нам вывести плотный сигнал вознаграждения, привязанный к стратегии, раскрываемой экспертом, пошагово, разлагая неразрешимую проблему долгосрочного горизонта на серию задач контролируемого обучения и тренируя политику для...

Полный текст статьи пока не загружен.

Читать оригинал статьи