Ассоциативное отравление применительно к порождающему машинному обучению
Краткое содержание
arXiv:2511.05177v1 Тип объявления: новый Аннотация: Широкое распространение генеративных моделей, таких как Stable Diffusion и ChatGPT, сделало их всё более привлекательными целями для злонамеренного использования, особенно через отравление данных (data poisoning). Существующие атаки отравления, нарушающие синтезированные данные, либо вызывают общее ухудшение качества генерируемых результатов, либо требуют контроля над процессом обучения, ограничивая применимость таких атак в реальных условиях. В данной работе мы представляем новую технику отравления данных — ассоциативное отравление, которое позволяет нарушать тонкие особенности генерируемого контента без необходимости контролировать процесс обучения модели. Атака воздействует исключительно на тренировочные данные, манипулируя статистическими связями между определёнными парами признаков в выходных результатах. Мы предлагаем формальную математическую формулировку этой атаки и доказываем её теоретическую осуществимость и скрытность. Эмпирические оценки, проведённые на двух современных генеративных моделях, демонстрируют, что
Полный текст статьи пока не загружен.