SafeGRPO: Самонаградная мультимодальная настройка безопасности посредством оптимизации политики, управляемой правилами

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.12982v1 Тип объявления: кросс Аннотация: Многомодальные большие языковые модели (MMLM) продемонстрировали впечатляющие возможности рассуждений и выполнения инструкций, однако расширение пространства модальности вводит новые композиционные риски безопасности, возникающие вследствие сложных взаимодействий текста и изображений. Такие межмодальные связи способны порождать небезопасную семантику даже тогда, когда отдельные входные данные безвредны, выявляя хрупкое осознание безопасности современных MMLM. Хотя недавние исследования повышают безопасность путем направления моделей на размышления о возможных рисках, неконтролируемые цепочки рассуждений могут нарушать согласованность; хотя метод группированной относительной оптимизации политики (Group Relative Policy Optimization — GRPO) обеспечивает самонаградающее уточнение без человеческого надзора, он лишен проверяемых сигналов для обеспечения безопасности рассуждений. Для решения этой проблемы мы предлагаем SafeGRPO — фреймворк само-награждаемого многомодального выравнивания безопасности, который интегрирует управляемое правилами построение вознаграждений в GRPO, обеспечивая интерпретируемую и верифицируемую оптимизацию безопасности рассуждений. Созданный поверх сконструированного …

Полный текст статьи пока не загружен.

Читать оригинал статьи