UNSEEN: Повышение эффективности отбора данных с точки зрения обобщающей способности модели
Краткое содержание
arXiv:2511.12988v1 Тип объявления: новый Аннотация: Рост масштабов наборов данных в глубоком обучении привёл к значительным вычислительным трудностям. Обрезка набора данных решает эту проблему путём построения компактного, но информативного ядра выборки из полного набора данных с сопоставимой производительностью. Предыдущие подходы обычно основывались на установлении метрик оценки согласно конкретным критериям для выявления репрезентативных образцов. Однако эти методы главным образом полагаются на показатели качества образцов, полученные исходя из производительности модели во время тренировочного этапа (т.е. фазы подбора). Поскольку оценочные модели достигают почти оптимальной производительности на учебных данных, такие подходящие-центричные методики приводят к плотной концентрации показателей образцов внутри узкого числового диапазона. Такая концентрация снижает различимость между образцами и препятствует эффективному отбору. Для решения этой проблемы мы проводим обрезку набора данных с точки зрения обобщающей способности, то есть оценивая образцы на основе моделей, которым они не были предъявлены в процессе тренировки. Мы предлагаем
Полный текст статьи пока не загружен.