АА-Омнисценция: Оценка надежности межотраслевых знаний в больших языковых моделях

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.13029v1 Тип объявления: новый Аннотация: Современные оценки языковых моделей главным образом измеряют общие возможности, однако надежное использование этих моделей в различных областях требует фактической точности и осознания границ знаний. Мы представляем AA-Omniscience — бенчмарк, предназначенный для измерения как способности воспроизводить факты, так и калибровки уровня знаний по 6000 вопросам. Вопросы составлены на основе авторитетных академических и отраслевых источников и охватывают 42 экономически значимых темы в шести разных доменах. Оценка определяет Индекс всезнания модели — ограниченный показатель от −100 до +100, который одновременно штрафует за фантазирование и поощряет воздержание от ответа при неуверенности, где значение 0 соответствует модели, отвечающей правильно ровно столько же раз, сколько неправильно. Среди протестированных моделей наилучший результат (4.8 балла) показала модель Claude 4.1 Opus, став одной из всего трех моделей, набравших больше нуля баллов. Эти результаты показывают устойчивые проблемы с достоверностью фактов и калибровкой во всех исследованных моделях.

Полный текст статьи пока не загружен.

Читать оригинал статьи