Скрытые признаки и перенос между задачами: декомпозиция взаимодействия наборов данных при тонкой настройке больших языковых моделей
Краткое содержание
arXiv:2509.13624v2 Тип объявления: замена-перекрёстная публикация Аннотация: Большие языковые модели всё чаще применяются в различных областях. Это часто включает выполнение задач, которых LLM ранее не встречали во время обучения. Из этого следует, что перечислить и получить высококачественные тренировочные данные для всех возможных задач невозможно. Таким образом, мы зачастую вынуждены полагаться на трансферное обучение, используя наборы данных с различными характеристиками, и ожидать запросы вне распределения исходной выборки. Вдохновлённые этой практической необходимостью, мы предлагаем аналитический подход, включающий построение матрицы трансфера знаний и снижение размерности пространства признаков, чтобы детально исследовать взаимодействия между разными задачами. Мы тренируем и анализируем десять моделей для выявления латентных способностей (например, рассуждения, классификация настроений, понимание естественного языка, арифметика), а также выявляем побочные эффекты трансферного обучения. Наши результаты показывают, что улучшения производительности часто противоречат объяснениям, основанным исключительно на поверхностном сходстве наборов данных или качестве исходных данных. Вместо этого скрытые статистические факторы источника набора данных
Полный текст статьи пока не загружен.