Переосмысление оценки понимания естественного языка (NLI): К экономически эффективным и согласованным с человеком метрикам для оценки больших языковых моделей (LLM) в задаче вопросно-ответных систем

2025-11-12 05:00:00

Краткое содержание

arXiv:2511.07659v1 Тип объявления: кросс Аннотация: Оценка ответов современных больших языковых моделей (LLM) представляет собой сложную задачу: лексические метрики упускают семантические нюансы, тогда как оценка методом "LLM-в-качестве-судьи" требует значительных вычислительных ресурсов. Мы повторно оцениваем лёгкую альтернативу — оценку с использованием готовых инструментов естественного языкового вывода (NLI), дополненных простым флагом лексического совпадения, и обнаруживаем, что этот метод, проверенный десятилетиями, достигает точности уровня GPT-4o (89,9%) при оценке развернутых вопросов и ответов, используя на порядки меньше параметров. Для строгого тестирования согласованности этих метрик с человеческим восприятием мы представляем новый бенчмарк DIVER-QA, состоящий из 3000 образцов, аннотированных людьми, охватывающий пять наборов данных по вопросам и ответам и пять кандидатов среди LLM-моделей. Наши результаты подчеркивают конкурентоспособность недорогих методов оценки на основе NLI и предлагают DIVER-QA в качестве открытого ресурса для дальнейших исследований метрик.

Полный текст статьи пока не загружен.

Читать оригинал статьи