Влияние скорости выборки бутстрэпа на производительность случайного леса в задачах регрессии
Краткое содержание
arXiv:2511.13952v1 Тип объявления: новое Аннотация: Случайные леса (Random Forests, RFs) обычно обучают каждое дерево на бутстреп-образце того же размера, что и набор для обучения, то есть коэффициент бутстрепа (bootstrap rate, BR) равен 1.0. Мы систематически исследуем влияние изменения коэффициента BR от 0.2 до 5.0 на производительность случайных лесов по 39 разнородным наборам данных регрессии и 16 конфигурациям случайного леса, оценивая результаты с помощью повторной двухкратной перекрестной проверки и среднеквадратической ошибки. Наши результаты показывают, что настройка коэффициента BR может привести к значительному улучшению производительности по сравнению со стандартными настройками: наилучшая конфигурация использовала BR ≤ 1.0 в 24 случаях из набора данных, BR > 1.0 — в 15 случаях, а BR = 1.0 был оптимальным только в четырех случаях. Мы устанавливаем связь между характеристиками набора данных и предпочтительным значением BR: наборы данных с сильными глобальными зависимостями признаков и целевых переменных предпочитают более высокие значения BR, тогда как наборы данных с большим локальным разбросом целевой переменной выигрывают от меньших значений BR. Для дальнейшего изучения этой взаимосвязи мы провели эксперименты на синтетических наборах данных с контролируемым уровнем шума. Эти эксперименты воспроизводят...
Полный текст статьи пока не загружен.