Gemini 3 Flash возглавляет новый бенчмарк «Misguided Attention», обойдя GPT-5.2 и Opus 4.5.
Краткое содержание
Мы вступаем в 2026 год с явным разрывом в рассуждениях. Фронтальные модели показывают чрезвычайно высокие результаты на STEM-бенчмарках, но новые результаты Misguided Attention показывают, что они по-прежнему испытывают трудности с базовым следованием инструкциям и простыми вариациями логики. Что выделяется из бенчмарка: Gemini 3 Flash на вершине: Gemini 3 Flash лидирует в таблице лидеров с 68,5%, обгоняя более крупные и дорогие модели, такие как GPT-5.2 и Opus 4.5. Он проверяет, действительно ли модели читают промпт: вместо сложной математики или программирования бенчмарк изменяет знакомые загадки. Один из примеров — проблема с трамваем, в которой упоминаются «пять мертвых людей», чтобы увидеть, заметит ли модель деталь или слепо применит запомненный шаблон. Высокие баллы по-прежнему низки в абсолютных терминах: даже самые успешные модели проваливают большую часть этих случаев. Это говорит о том, что добавление токенов рассуждения не помогает, если модель уже переобучилась на распространенных паттернах. В целом, результаты указывают на разрыв между сопоставлением паттернов и буквальным дедуктивным мышлением. Пока этот разрыв...
Полный текст статьи пока не загружен.