Выравнивание запросов по ценностям с помощью агентного переписывания с нулевым обучением для безопасного генерирования изображений

2025-11-18 05:00:00

Краткое содержание

arXiv:2511.11693v1 Тип объявления: cross Аннотация: Генеративные модели «визуальный язык», такие как Stable Diffusion, демонстрируют впечатляющие возможности в синтезе креативного контента, но также несут в себе значительные риски создания небезопасного, оскорбительного или культурно неприемлемого контента при использовании злонамеренных промптов. Существующие системы защиты не справляются с задачей согласования выходных данных с человеческими ценностями без ущерба для качества генерации или высоких затрат. Для решения этих проблем мы представляем VALOR (Value-Aligned LLM-Overseen Rewriter) — модульный, бесшовный агентский фреймворк для более безопасной и полезной генерации изображений по тексту. VALOR интегрирует многоуровневый анализ промптов с рассуждением о ценностях, согласованных с человеком: многоуровневый детектор NSFW фильтрует лексические и семантические риски; модуль согласования культурных ценностей выявляет нарушения социальных норм, законности и этики репрезентации; а дизамбигуатор намерений обнаруживает скрытые или косвенные небезопасные импликации. При обнаружении небезопасного контента промпты выборочно п

Полный текст статьи пока не загружен.

Читать оригинал статьи