Подпись против содержания: оценка баланса устойчивости к атакам и лингвистического качества при водяных знаках в больших языковых моделях
Краткое содержание
arXiv:2511.13722v1 Тип объявления: кросс Аннотация: Для смягчения потенциальных рисков текста, сгенерированного большими языковыми моделями (LLM), исследователи предложили использовать водяные знаки — процесс внедрения обнаруживаемых сигналов в текст. С помощью таких меток мы всегда можем точно определить тексты, созданные LLM. Однако недавние исследования показывают, что эти методы часто негативно влияют на качество генерируемых текстов и могут быть уязвимы к атакам противника, которые удаляют сигналы водяных знаков, позволяя таким образом тексту избежать обнаружения. Эти выводы вызвали сопротивление широкому внедрению технологии водяных знаков среди создателей LLM. Наконец, чтобы стимулировать принятие этой технологии, мы оцениваем устойчивость нескольких методов наложения водяных знаков к атакам противника путем сравнения парафразирования и обратного перевода (т.е. английский → другой язык → английский); а также их способность сохранять качество и стиль написания исходных не маркированных текстов, используя лингвистические показатели для оценки качества и стиля письма. В нашей работе...
Полный текст статьи пока не загружен.