Подумай перед извлечением: обучение адаптивному поиску во время тестирования с использованием небольших языковых моделей

2025-11-12 05:00:00

Краткое содержание

arXiv:2511.07581v1 Тип объявления: новый Аннотация: Эффективный поиск информации требует рассуждений на основе частичной информации и уточнения стратегий по мере поступления новых сведений. Однако современные подходы имеют недостатки: нейронные ретриверы лишены способности рассуждать, большие языковые модели (LLM) обеспечивают семантическую глубину, но по непомерной стоимости, а переписывание запросов или их декомпозиция ограничивает улучшение статическими преобразованиями. В результате существующие методы не способны охватывать итерационные процессы исследования, обратной связи и пересмотра, требуемые сложными пользовательскими запросами. Мы представляем Orion — фреймворк обучения, позволяющий компактным моделям (от 350 млн до 1,2 млрд параметров) осуществлять итеративный поиск через изученные стратегии поиска. Orion объединяет: (1) синтетическое формирование траекторий и контролируемое дообучение для стимулирования разнообразия моделей в процессе изучения, (2) обучение с подкреплением (RL), вознаграждающее эффективное уточнение запроса и поведение возврата назад, и (3) алгоритмы луча поиска во время вывода, обеспечивающие...

Полный текст статьи пока не загружен.

Читать оригинал статьи