Зачем нужны маскировка и контекстное окно во время инференса в больших языковых моделях (LLM)?

2024-09-02 16:04:56

Краткое содержание

Для более конкретного обсуждения, если мы сосредоточимся на модели GPT-2, которая является авторегрессионной моделью, я полностью понимаю, почему нам нужно маскирование для обучения. Однако мне нужно уточнение, почему нам нужно маскирование для инференса. Во время инференса модель использует всю информацию для предсказания следующего токена, поэтому маскирование не должно быть необходимым. Если маскирование не нужно для инференса, я не понимаю ограничения, связанного с наличием контекстного окна в больших языковых моделях (LLM). Единственное место, где контекстное окно появляется при настройке архитектуры модели, - это определение треугольной матрицы маскирования размером контекстное окно * контекстное окно. Но эту матрицу маскирования можно динамически организовать как матрицу (вектор) единиц для инференса, потому что маскирование нам не нужно. Основываясь на этом аргументе, LLM, помимо ограничения памяти, должна быть способна обрабатывать любое контекстное окно. Пожалуйста, уточните, в чем заключается слабость этого аргумента. Если коротко, то я задаю этот вопрос по двум причинам: я вижу в общедоступном коде, написанном для GPT, e

Полный текст статьи пока не загружен.

Читать оригинал статьи