Исследование научной общей интеллектуальности LLM с помощью воркфлоу, согласованных с учеными

Оценка: 5/10 2025-12-22 05:00:00

Краткое содержание

arXiv:2512.16969v1 Тип объявления: cross Аннотация: Несмотря на прогресс в научном ИИ, целостной рамки для Общей Научной Интеллектуальности (ОНИ) - способности самостоятельно концептуализировать, исследовать и рассуждать по всем научным областям - до сих пор не существует. Мы представляем операционное определение ОНИ, основанное на Практической Модели Исследования (ПМИ: Размышление, Концепция, Действие, Перцепция), и реализуем его через четыре задачи, соответствующие ученым: глубокое исследование, генерация идей, сухие/влажные эксперименты и экспериментальное рассуждение. ОНИ-Бэнч включает более 1000 экспертно отобранных междисциплинарных образцов, вдохновленных 125 Большими Вопросами науки, что позволяет систематически оценивать современные LLM. Результаты показывают пробелы: низкий процент точного совпадения (10–20%) в глубоком исследовании при шаговой согласованности; идеи с недостаточной жизнеспособностью и детализацией; высокая исполнимость кода, но низкая точность результатов в сухих экспериментах; низкая верность последовательностей в влажных протоколах; и устойчивые многообразные сравнительные рассуждения.

Полный текст статьи пока не загружен.

Читать оригинал статьи