ModernBERT или DeBERTaV3? Исследование влияния архитектуры и данных на производительность моделей трансформер-энкодеров
Краткое содержание
arXiv:2504.08716v2 Тип объявления: замена Аннотация: Предварительно обученные модели трансформер-кодировщиков, такие как DeBERTaV3 и ModernBERT, вводят архитектурные улучшения, направленные на повышение эффективности и производительности. Хотя авторы ModernBERT сообщают о повышении производительности по сравнению с DeBERTaV3 на нескольких эталонных тестах, отсутствие раскрытия тренировочных данных и отсутствие сравнений с использованием общего набора данных затрудняют определение того, связаны ли эти достижения с улучшением архитектуры или различиями в тренировочных данных. В данной работе мы проводим контролируемое исследование путем предварительного обучения ModernBERT на том же наборе данных, что и CamemBERTaV2 — французская версия DeBERTaV3, изолируя влияние дизайна модели. Наши результаты показывают, что предыдущая модель сохраняет превосходство по выборочной эффективности и общей производительности на контрольных показателях, тогда как основное преимущество ModernBERT заключается в поддержке длинных контекстов, ускорении тренировки и скорости вывода. Однако предложенная новая модель всё равно обеспечивает значимые архитектурные усовершенствования.
Полный текст статьи пока не загружен.