Многоагентный подход типа «разговорный бандит» для онлайн-оценки и выбора откликов языковой модели, согласованных с предпочтениями пользователей

2025-11-12 05:00:00

Краткое содержание

arXiv:2501.01849v2 Тип объявления: замена-кросс Аннотация: Методы оптимизации откликов больших языковых моделей (LLM), основанные на подсказках, широко применяются офлайн, однако оценка этих откликов требует значительных вычислительных ресурсов и часто неспособна учитывать разнообразие стилей ответов. В данной работе предлагается новый онлайн-фреймворк оценки, использующий многоагентную разговорную бандит-модель для выбора оптимальных ответов, динамически согласованных с предпочтениями пользователей. Для решения проблем высокой размерности признаков, большого числа возможных ответов, адаптивных потребностей диалога и многоточечного доступа мы предлагаем MACO — обучение многоагентному разговору в режиме онлайн, которое включает два ключевых компонента: (1) **MACO-А**: Выполняется локальными агентами, применяет механизм онлайн-отсеивания для фильтрации низкокачественных ответов. (2) **MACO-С**: Выполняется облачным сервером, адаптирует стратегии отбора на основе агрегированных данных предпочтений. Адаптивный механизм предпочтений запускается асинхронно...

Полный текст статьи пока не загружен.

Читать оригинал статьи