FaithAct: Планирование и реализация верности в многоязычных больших языковых моделях (MLLM)
Краткое содержание
arXiv:2511.08409v1 Тип объявления: новое Аннотация: Проблема недостоверности остаётся устойчивым вызовом для больших языковых моделей (LLM), которые часто порождают правдоподобные, но необоснованные цепочки рассуждений, расходящиеся с воспринимаемыми свидетельствами или конечными выводами. Мы различаем поведенческую достоверность (согласованность между рассуждениями и выводом) и перцептивную достоверность (согласованность между рассуждениями и входными данными). Введён метод оценки достоверности FaithEval, позволяющий количественно измерять уровень достоверности отдельных шагов и всей цепи рассуждений путём проверки визуальной поддержки каждого заявленного объекта изображением. Основываясь на полученных результатах, мы предлагаем подход FaithAct — фреймворк планирования и действий, ориентированный на обеспечение доказательной обоснованности на каждом этапе рассуждений. Эксперименты на нескольких эталонных наборах данных показывают, что FaithAct повышает перцептивную достоверность до 26%, не ухудшая точность выполнения задач относительно базовых методов, основанных на подсказках и дополненных инструментами. Наш анализ показывает, что использование принципа достоверности в качестве основного руководства...
Полный текст статьи пока не загружен.