ОПЕРА: Архитектура усиленного методами обучения с подкреплением оркестрируемого планировщика-исполнителя для многошагового поиска ориентированного на рассуждения
Краткое содержание
arXiv:2508.16438v2 Тип объявления: замена-перекрёстная публикация Аннотация: Последние достижения в области больших языковых моделей (LLM) и плотных ретриверов привели к значительному прогрессу в методах генерации с использованием поиска (RAG). Однако существующие подходы сталкиваются с серьёзными трудностями при выполнении сложных многошаговых поисковых задач, ориентированных на рассуждения: 1) Неэффективное планирование, направленное на рассуждение: Ранее предложенные методы испытывают трудности с созданием надёжных многоэтапных планов для сложных запросов, поскольку основанные на правилах декомпозеры плохо справляются с вопросами вне шаблонов. 2) Недостаточно эффективное извлечение, управляемое рассуждением: Связанные методы используют ограниченную переформулировку запроса, что приводит к итерационным циклам поиска, часто неспособным найти релевантные документы. 3) Недостаточная фильтрация, основанная на рассуждении: Преобладающие методы лишены тонкого механизма рассуждений, необходимого для эффективного выделения важной информации среди шумных результатов, что препятствует использованию извлечённых знаний. По сути, все эти ограничения обусловлены слабым взаимодействием между поиском и рассуждением в современных подходах RAG.
Полный текст статьи пока не загружен.