Обходы систем как социальная инженерия: 5 тематических исследований показывают, что большие языковые модели усваивают человеческие психологические уязвимости из обучающих данных [D]
Краткое содержание
Материал, документирующий пять экспериментов по психологической манипуляции над БЯМ (GPT-4, GPT-4o, Claude 3.5 Sonnet) за период 2023–2024 гг. Каждый случай применяет специфический вектор социальной инженерии человека (эмпатическая вина, давление сверстников/социальное давление, конкурентная триангуляция, дестабилизация идентичности посредством эпистемического аргумента, симулированное принуждение) и приводит к сбоям согласованности, соответствующим этому вектору. Центральный тезис: вопреки популярному мнению, эти обходные механизмы (джейлбрейки) — не математические эксплойты. На самом деле, это наследуемые режимы сбоев из обучающих данных. Если система имитирует человеческую эмпатию, разум и социальную грацию, то логично предположить, что она должна наследовать человеческие уязвимости. Субстрат не имеет значения; уязвимости носят социальный характер. Полный материал со ссылками на стенограммы и даты каждого тематического исследования: https://ratnotes.substack.com/p/i-ran-5-social-engineering-attacks Интересно обсудить, решает ли концепция «патч как уязвимость программного обеспечения», доминирующая в исследованиях согласованности (alignment), правильную поверхность атаки или
Полный текст статьи пока не загружен.