Исследование мониторируемости цепочек рассуждений (CoT) в больших моделях вывода

2025-11-12 05:00:00

Краткое содержание

arXiv:2511.08525v1 Тип объявления: новый Аннотация: Большие модели рассуждений (Large Reasoning Models — LRM) продемонстрировали выдающиеся результаты в сложных задачах благодаря проведению расширенного анализа перед формированием конечных выводов. Помимо повышения производительности, эти детальные цепочки рассуждений также открывают новые возможности обеспечения безопасности ИИ, называемые наблюдаемостью цепочек мыслей (Chain-of-Thought Monitorability): мониторинг потенциального некорректного поведения моделей, такого как использование обходных путей или угодничество, через отслеживание их цепочки размышлений во время принятия решений. Однако возникают два ключевых фундаментальных вызова при попытке создать более эффективные мониторы посредством анализа цепочек мысли. Во-первых, как ранее отмечалось исследованиями достоверности цепочек размышлений, модели не всегда правдиво отражают свою внутреннюю процедуру принятия решений в генерируемых ими рассуждениях. Во-вторых, сами мониторы могут оказаться либо чрезмерно чувствительными, либо недостаточно чувствительными и потенциально могут быть обмануты длинными и сложными цепочками рассуждений, создаваемыми моделями. В данной статье мы представляем первое систематическое исследование проблем и

Полный текст статьи пока не загружен.

Читать оригинал статьи