← Вернуться к списку

Теоретическое обоснование увеличения данных

Краткое содержание

При обучении алгоритмов глубокого обучения распространенной практикой является аугментация обучающих данных. Например, в компьютерном зрении изображение может быть отражено, повёрнуто, обрезано и т. д., что добавляет новые обучающие примеры и фактически увеличивает размер обучающей выборки. Как правило, модели, обученные с аугментацией данных, работают лучше, чем модели, при обучении которых аугментация не использовалась. Это улучшение производительности обычно объясняется тем, что модель была обучена на более разнообразном наборе примеров, что фактически делает её более устойчивой. Однако я не вижу, как это можно объяснить с теоретической точки зрения. В машинном обучении мы обычно предполагаем, что и обучающая, и тестовая выборки поступают из одного и того же распределения $p(x, y)$, т. е. $p(x, y) = p_\text{train}(x, y) = p_\text{test}(x, y)$. Аугментируя обучающую выборку, мы не можем гарантировать, что новое распределение $p_\text{train}'(x, y)$ будет соответствовать исходному $p_\text{train}(x, y)$ и, следовательно, $p(x, y)$. Единственный способ, которым это может произойти, — это если приложение

Полный текст статьи пока не загружен.