Надежное обнаружение иллюзий (галлюцинаций) в больших языковых моделях посредством адаптивного выбора токенов
Краткое содержание
arXiv:2504.07863v3 Тип объявления: замена Аннотация: Галлюцинации в больших языковых моделях (LLM) представляют значительные проблемы безопасности, препятствующие их широкому внедрению. Недавние исследования методов обнаружения галлюцинаций показали, что внутренние представления LLM содержат признаки достоверности, которые могут использоваться для тренировки детекторов. Однако производительность таких детекторов сильно зависит от внутренних представлений заранее заданных токенов, значительно колеблясь при работе с свободно генерируемым текстом переменной длины и разреженным распределением галлюцинированных сущностей. Для решения этой проблемы мы предлагаем метод HaMI — новый подход, обеспечивающий надёжное обнаружение галлюцинаций через адаптивный выбор и обучение критически важных токенов, наиболее показательных для выявления галлюцинаций. Мы достигаем такой устойчивости благодаря инновационной формулировке задачи обнаружения галлюцинаций как задачи множественного экземпляра (HaMI), выполняемой над представлением последовательности на уровне токенов, что позволяет...
Полный текст статьи пока не загружен.