← Вернуться к списку
Имеет ли смысл добавлять дополнительный слой внимания при тонкой настройке BERT?
Краткое содержание
Я дообучаю модель BERT/RoBERTa для задачи классификации. Поскольку мне нужно улучшить результаты, я думаю добавить дополнительный слой внимания после модели BERT и перед полносвязным слоем (dense) и слоем дропаут (dropout). Это хорошая идея?
Полный текст статьи пока не загружен.