DeceptionBench: Комплексный бенчмарк для оценки способностей ИИ к обману в реальных сценариях

2025-11-18 05:00:00

Краткое содержание

arXiv:2510.15501v2 Тип анонса: replace-cross Аннотация: Несмотря на впечатляющие успехи больших языковых моделей (LLM) в решении разнообразных когнитивных задач, стремительное развитие этих возможностей также порождает emergent-ное деструктивное поведение, которое может создавать серьёзные риски в ответственных сферах применения. Что ещё более важно, характеристика обмана в реалистичных сценариях реального мира остаётся недостаточно изученной. Чтобы заполнить этот пробел, мы создали DeceptionBench — первый эталонный набор, который систематически оценивает, как тенденции к обману проявляются в различных общественных сферах, каковы их внутренние поведенческие паттерны и как на них влияют внешние факторы. В частности, по статическому подсчёту, benchmark охватывает 150 тщательно разработанных сценариев в пяти областях — экономика, здравоохранение, образование, социальное взаимодействие и развлечения — с более чем 1000 образцов, что обеспечивает достаточную эмпирическую основу для анализа обмана. Во внутреннем измерении мы исследуем, влияет ли режим

Полный текст статьи пока не загружен.

Читать оригинал статьи