Меньшие, конкурентные LLM, которые не являются авторегрессивными трансформерами?
Краткое содержание
Большие языковые модели, такие как GPT, в последнее время добились больших успехов. Однако одним из недостатков является то, что для обучения им требуется огромное количество ресурсов, а также значительное количество ресурсов для вывода, так что большинство моделей не могут выполнять вывод на потребительском оборудовании. Другая проблема заключается в том, что у них нет явной модели мира, поэтому нельзя быть уверенным на 100%, является ли ответ фактическим или галлюцинацией. Вдоль старого-небрежного направления я думаю, есть ли альтернативные архитектуры, которые немного более небрежны. Например, я могу представить себе, что глубокое обучение используется только для «понимания языка», а для «мировых знаний» у вас будет база фактов, такая как хранилище триплетов. Языковая модель такой системы была бы намного меньше и требовала бы только воспроизведения базовой грамматики, а факты были бы явными, а не подразумеваемыми. Есть ли какие-либо - потенциально конкурентоспособные - модели NLP, которые не являются типа авторегрессивного трансформера, более небрежные, меньшие и при этом работают в подобном пространстве к
Полный текст статьи пока не загружен.