Конфиденциальность GRPO под угрозой: атака на выявление членства против обучения с подкреплением с проверяемыми вознаграждениями

2025-11-19 05:00:00

Краткое содержание

arXiv:2511.14045v1 Тип объявления: кросс Аннотация: Атаки на выявление принадлежности (Membership Inference Attacks - MIAs) к большим языковым моделям (Large Language Models - LLMs) представляют значительные риски для конфиденциальности на различных этапах обучения моделей. Последние достижения в области подкрепляющего обучения с проверяемыми вознаграждениями (Reinforcement Learning with Verifiable Rewards - RLVR) привели к глубокому изменению парадигмы обучения LLM, особенно при решении сложных задач рассуждения. Однако онлайновая природа RLVR вводит уникальную модель утечки данных о конфиденциальности: поскольку обучение основано на самостоятельно генерируемых ответах без фиксированных эталонных выходных данных, теперь атаки на выявление принадлежности должны определять, использовался ли данный запрос во время тонкой настройки независимо от какого-либо конкретного ответа. Это создает угрозу, когда утечка возникает не из-за запоминания ответов. Для аудита этого нового риска конфиденциальности мы предлагаем атаку "Различие в поведении" (Divergence-in-Behavior Attack – DIBA), первую методику выявления принадлежности, специально разработанную для RLVR. DIBA смещает акцент с запоминания на изменение поведения, используя измеримые изменения в поведении модели.

Полный текст статьи пока не загружен.

Читать оригинал статьи