DMA: Выравнивание онлайн-RAG с обратной связью от человека
Краткое содержание
arXiv:2511.04880v1 Тип объявления: новый Аннотация: Системы порождения с поддержкой поиска (RAG) часто полагаются на статический поиск, ограничивая адаптацию к изменению намерений пользователей и смещению содержания. Мы представляем динамическую согласованную память (Dynamic Memory Alignment — DMA), онлайн-обучающуюся архитектуру, систематически интегрирующую многоуровневую обратную связь от человека для согласования ранжирования в интерактивных сценариях. DMA организует сигналы уровня документа, списка и отклика в единый учебный конвейер: контролируемое обучение точечных и списковых ранжеров, оптимизацию политики на основе предпочтений на уровне откликов и дистилляцию знаний в легкую оценочную функцию для низкоотложенного обслуживания. В данной статье под памятью понимается рабочая память модели, включающая весь контекст, видимый языковой модели для обучения в контексте. Мы используем двухэтапный протокол оценки, отражающий развертывание системы: (i) крупномасштабное онлайн-тестирование методом А/Б с абляциями для выделения полезности каждого источника обратной связи и (ii) тестирование с малым числом примеров офлайн на предмет интенсивной обработки знаний.
Полный текст статьи пока не загружен.