Возможно ли обучить большие языковые модели с помощью целевого обучения признавать, что они «не знают»?

2026-04-19 11:55:04

Краткое содержание

Например, использование пользовательского набора данных, где помеченным ответом на неразрешимые вопросы является просто «Я не знаю» для RL; штрафование модели за галлюцинации и вознаграждение ее либо за предоставление правильного ответа, либо за признание того, что она не уверена. Я не эксперт по ИИ, так что воспринимайте мой пример с долей скепсиса. Что меня действительно интересует, так это теоретическая осуществимость концепции в заголовке? submitted by/u/KonstancjaCarla[link][comments]

Полный текст статьи пока не загружен.

Читать оригинал статьи