Нужно ли замораживать слои при тонкой настройке большой языковой модели (LLM)?
Краткое содержание
У меня было представление, что вообще говоря, лучше замораживать слои при тонкой настройке языковой модели, согласно следующей цитате из статьи Hugging Face: «Подходы PEFT настраивают лишь небольшое количество (дополнительных) параметров модели, оставляя замороженными большинство параметров предварительно обученных языковых моделей, значительно снижая вычислительные и ресурсные затраты. Это также позволяет преодолеть проблему катастрофического забывания — поведение, наблюдаемое во время полной настройки языковых моделей. Подходы PEFT показали себя эффективнее обычной тонкой настройки в условиях малого количества данных и демонстрируют лучшую обобщаемость в сценариях вне домена. Их можно применять к различным модальностям, таким как классификация изображений и стабильная диффузия DreamBooth». Думаю, моя путаница вызвана тем, что именно подразумевается под частью «(дополнительный)». Это подтолкнуло меня попробовать тонкую настройку модели BERT в PyTorch путём заморозки всех параметров, кроме последнего полносвязного слоя трансформера, отвечающего за классификацию последовательностей: ```python for param in model.parameters(): param.requires_grad = False ```
Полный текст статьи пока не загружен.