Имеет ли смысл добавлять дополнительный слой внимания при тонкой настройке BERT?

2022-04-11 11:03:52

Краткое содержание

Я дообучаю модель BERT/RoBERTa для задачи классификации. Поскольку мне нужно улучшить результаты, я думаю добавить дополнительный слой внимания после модели BERT и перед полносвязным слоем (dense) и слоем дропаут (dropout). Это хорошая идея?

Полный текст статьи пока не загружен.

Читать оригинал статьи