LiveRAG: Разнообразный набор данных вопросов и ответов с различным уровнем сложности для оценки систем извлечения информации на основе генеративных моделей (RAG)
Краткое содержание
arXiv:2511.14531v1 Тип объявления: новый Аннотация: С ростом популярности методов генерации с использованием поиска информации (Retrieval Augmented Generation — RAG) в решениях на основе искусственного интеллекта возникает необходимость систематической оценки их эффективности. Мы представляем LiveRAG-бенчмарк — общедоступный набор данных из 895 синтетических вопросов и ответов, предназначенный для поддержки системной оценки RAG-систем вопрос-ответа. Этот синтетический бенчмарк был получен из набора данных, использованного во время конкурса LiveRAG Challenge на конференции SIGIR'2025, где участники оценивались при строгих временных ограничениях. Он дополнен информацией, которая не была доступна участникам во время соревнования, такой как эталонные ответы вместе со связанными подтверждающими утверждениями, которые использовались для оценки ответов участников. Кроме того, каждому вопросу присвоены предполагаемые показатели сложности и различимости, полученные путем применения модели теории отклика элементов к ответам участников. Наш анализ подчеркивает преимущества...
Полный текст статьи пока не загружен.