Контроль выходных данных может скрыть ход рассуждений.

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.11584v1 Тип: новая работа Аннотация: OpenAI (2025) показали, что обучение с контролем цепи рассуждений (CoT) может приводить к созданию скрытых CoT, содержащих некорректное поведение, которое контроллер не может обнаружить. Они предложили сохранять CoT контролируемыми, обучая модель только с использованием контроллеров выходных данных, не имеющих доступа к CoT. Мы демонстрируем, что такое обучение всё равно может приводить к созданию скрытых CoT через два механизма. Во-первых, когда модель обучают формировать безопасно выглядящие выходные данные, она может обобщить это и на свои CoT, делая их безопасными на вид. Во-вторых, поскольку последующие токены обусловлены предыдущими, безопасно выглядящие CoT могут повышать вероятность безопасных выходных данных, что приводит к закреплению безопасно выглядящих CoT. Мы предлагаем два метода противодействия для решения этих проблем, которые обеспечивают Парето-улучшение с точки зрения контролируемости и производительности при решении задач по сравнению с обычным обучением.

Полный текст статьи пока не загружен.

Читать оригинал статьи