Является ли задача языкового моделирования хорошо поставленной задачей обучения?
Краткое содержание
Хадамард определяет корректно поставленную задачу как такую, для которой: существует решение; решение единственно; решение непрерывно зависит от данных (например, оно устойчиво). Теперь рассмотрим модель языка с авто-регрессией, где цель предварительного обучения состоит в предсказании следующего токена по всем предыдущим токенам. Однако, на мой взгляд, хотя эта задача помогает модели уловить нюансы языка и обучиться «представлению языка», правильного ответа не существует. Например, если взять фразу «Я бы хотел немного ______», то слово «шоколад» является столь же правильным ответом, что и слово «кофе». Таким образом, решение задачи не является уникальным, как того требует определение Хадамара. С другой стороны, мы можем рассматривать эту проблему иначе — принимая все предыдущие токены на вход и возвращая распределение вероятностей над всем словарём. В таком подходе к задаче решение, т.е. распределение вероятностей, будет единственным. Итак, является ли проблема моделирования языка корректно поставленной? Является ли один из этих двух подходов верной причиной считать её таковой?
Полный текст статьи пока не загружен.