CLEV: Оценка на основе ИИН (LLM) посредством облегчённого эффективного голосования для свободного вопросно-ответного формата
Краткое содержание
arXiv:2503.08542v2 Тип объявления: замена-перекрёстная публикация Аннотация: Оценка свободного формирования вопросов и ответов (QA) остаётся сложной задачей ввиду её разнообразия и открытой природы. Традиционные автоматические метрики неспособны уловить семантическое соответствие или учесть вариативность открытых ответов. Использование больших языковых моделей (LLM) в качестве оценщиков предлагает перспективную альтернативу благодаря их сильной способности понимать язык и следовать инструкциям. Мы предлагаем метод консенсуса через лёгкое эффективное голосование (CLEV), который задействует две основные LLM в роли судей и вызывает третьего судью лишь в случаях разногласий. Этот подход направлен на повышение надёжности оценки, одновременно снижая излишние вычислительные затраты. В ходе экспериментов, включая оценку людьми, мы демонстрируем способность CLEV обеспечивать согласованные, масштабируемые и ресурсоэффективные оценки, утверждая его в качестве прочной основы для оценки больших языковых моделей на свободном формировании вопросов и ответов.
Полный текст статьи пока не загружен.