← Вернуться к списку

[R] Переаннотация с учетом градуированной релевантности 24 наборов данных MTEB изменяет рейтинги эмбеддинговых моделей. Оценено 16 моделей, 7 переранжировщиков и 128 комбинаций.

Краткое содержание

Новая оценка от ZeroEntropy, переаннотировавшая 24 набора данных для извлечения MTEB с градуированными оценками релевантности (от 0 до 10), выставленными тремя LLM-судьями: GPT-5-nano, Grok-4-fast и Gemini-3-flash. Согласие между аннотаторами по Пирсону r составило от 0,7 до 0,8 для всех судей. Мотивация проста. Бинарная релевантность приводит к деградации NDCG, когда фронтирные эмбеддинги разделены на доли процента по показателю Recall@100. Документ, который полностью объясняет концепцию, и документ, который упоминает ее мимоходом, получают одинаковую оценку — 1. Модели, которые ранжируют лучший документ выше, не получают никаких баллов. Заметные изменения в рейтинге при использовании градуированного NDCG@10 по сравнению с бинарным MTEB: zembed-1: с 8-го на 1-е место (градуированный показатель 0,701); voyage-4: отсутствовал в бинарном MTEB до 2-го места (градуированный показатель 0,699); harrier-0.6b: с 2-го на 10-е место, что предполагает, что бинарные бенчмарки не смогли его отличить от своего «брата» размером 27B; harrier-27b сохранил стабильность (с 1-го по 3-е место). Результат малой модели harrier поднимает более широкий вопрос о переобучении на бенчмарках против дискриминационной способности самих бенчмарков. Когда модель размером 0,6B и модель размером 27B набирают баллы

Полный текст статьи пока не загружен.