← Вернуться к списку

Наборы данных Wikipedia для эталонной оценки поиска информации на русском языке RusBEIR

Краткое содержание

arXiv:2511.05079v1 Тип объявления: кросс Аннотация: В данной работе мы представляем новую серию русскоязычных наборов данных для информационного поиска, построенных на основе раздела «Знаете ли вы…» русской Википедии. Наши наборы данных поддерживают широкий спектр задач поиска, включая проверку фактов, генерацию текста с использованием результатов поиска и полнотекстовый поиск документов, используя интересные факты и соответствующие статьи Википедии, аннотированные на уровне предложений с градациями релевантности. Мы подробно описываем методику создания набора данных, позволяющую расширить существующие ресурсы русского информационного поиска (IR). Проведя обширный ряд экспериментов, мы расширяем исследование RusBEIR путем сравнения лексических моделей поиска, таких как BM25, с современными нейронными архитектурами, предварительно настроенными для русского языка, а также многоязычными моделями. Результаты наших экспериментов показывают, что лексические методы склонны превосходить нейросетевые модели в задаче полного поиска документа, тогда как нейросетевые подходы лучше справляются с захватом лексической семантики в коротких текстах.

Полный текст статьи пока не загружен.