От векторных представлений слов до мультимодальных эмбеддингов: методы, приложения и перспективы развития больших языковых моделей

2025-11-12 05:00:00

Краткое содержание

arXiv:2411.05036v2 Тип объявления: замена Аннотация: Векторные представления слов и языковые модели преобразили обработку естественного языка (NLP), позволив представлять лингвистические элементы в непрерывных векторных пространствах. Данный обзор рассматривает основополагающие концепции, такие как распределённая гипотеза и контекстное сходство, прослеживая эволюционный путь от разреженных представлений вроде кодирования одним горячим до плотных вложений, включая Word2Vec, GloVe и fastText. Мы изучаем как статичные, так и контекстуальные вложения, подчеркивая достижения моделей типа ELMo, BERT и GPT, а также их адаптации для кросс-лингвистических и персонализированных приложений. Обсуждение охватывает также вложения предложений и документов, рассматривая методы агрегации и порождающие тематические модели наряду с применением вложений в мультимодальных областях, таких как зрение, робототехника и когнитивная наука. Рассматриваются продвинутые темы, такие как сжатие моделей, интерпретируемость, числовое кодирование и смягчение предвзятости.

Полный текст статьи пока не загружен.

Читать оригинал статьи