CriticSearch: Точный учет заслуг агентов поиска посредством ретроспективной критики
Краткое содержание
arXiv:2511.12159v1 Тип объявления: новый Аннотация: Интегрированное рассуждение с инструментами (Tool-Integrated Reasoning — TIR), использующее поисковые движки, позволяет крупным языко-моделируемым системам итерационно извлекать актуальные внешние знания, повышая адаптивность и обобщаемость при выполнении сложных задач вопрос-ответа. Однако существующие конвейеры поисковых агентов часто полагаются на оптимизацию, основанную на обучении с подкреплением, которое зачастую страдает от редких вознаграждений конечных результатов, приводящих к неэффективному исследованию пространства решений и нестабильности обучения. Мы представляем CriticSearch — тонкую методику распределения заслуг, обеспечивающую плотную обратную связь на уровне отдельных шагов через ретроспективный механизм критического анализа. В процессе обучения замороженная асимметричная языковая модель-критик ретроспективно оценивает каждый этап, используя привилегированную информацию полной траектории и эталонных ответов, преобразуя эти оценки в стабильные и плотные вознаграждения, направляющие улучшение политики модели. Экспериментальные результаты на различных многошаговых бенчмарках демонстрируют, что CriticSearch последовательно превосходит существующие подходы.
Полный текст статьи пока не загружен.