← Вернуться к списку

Как мне понять реализацию адаптивной предоквантовой настройки?

Краткое содержание

На основании данной статьи «К адаптивной настройке префиксов для эффективной тонкой настройки языковых моделей» у меня возникли следующие трудности в понимании реализации: •"$h_{i−1}$" – это d-мерное скрытое состояние из предыдущего слоя. Для каждого токена входной последовательности будут существовать d-мерные скрытые состояния. Мы берем только 1 представительный токен, например, токен [CLS], как в BERT, или усредняем все токены? •В статье говорится о "разрешении тонкой настройки на уровне токенов" и "грубом разрешении на уровне слоев". Что именно означают эти термины? Что они значат? Как это отражено в реализации?

Полный текст статьи пока не загружен.