← Вернуться к списку

Имеет ли смысл добавлять дополнительный слой внимания при тонкой настройке BERT?

Краткое содержание

Я дообучаю модель BERT/RoBERTa для задачи классификации. Поскольку мне нужно улучшить результаты, я думаю добавить дополнительный слой внимания после модели BERT и перед полносвязным слоем (dense) и слоем дропаут (dropout). Это хорошая идея?

Полный текст статьи пока не загружен.