RAGPulse: Открытый набор трасс рабочей нагрузки RAG для оптимизации систем обслуживания RAG
Краткое содержание
arXiv:2511.12979v1 Тип: новая работа Аннотация: Генерация с подкреплением поиском (RAG) — это важнейшая парадигма для создания надежных, насыщенных знаниями приложений на основе больших языковых моделей (LLM). Однако многоэтапный конвейер (поиск, генерация) и уникальные характеристики рабочей нагрузки (например, зависимость от знаний) систем RAG создают значительные трудности для оптимизации производительности обслуживания. Существующие трассы инференса общих LLM не позволяют уловить эту специфическую для RAG динамику, что создает значительный разрыв в производительности между академическими исследованиями и реальным развертыванием. Чтобы устранить этот разрыв, данная статья представляет RAGPulse — открытый набор данных трасс рабочей нагрузки RAG. Этот набор данных был собран с общеуниверситетской системы вопросов и ответов, которая обслуживает более 40 000 студентов и преподавателей с апреля 2024 года. Мы подробно описываем системную архитектуру RAGPulse, его основанный на хешировании формат данных, обеспечивающий конфиденциальность, и предоставляем углубленный статистический анализ. Наш анализ показывает, что реальные рабочие нагрузки RAG демонстрируют
Полный текст статьи пока не загружен.