Что может вызвать разницу в значении потерь при обучении на той же эпохе «x» при повторном обучении модели?

2023-02-07 22:40:28

Краткое содержание

Во время обучения нейронной сети тестовая ошибка достигла минимума на x-й эпохе. Затем я повторил обучение, установив максимальную эпоху равной x. Для меня удивительно, что тестовая ошибка во втором запуске на x-й эпохе сильно отличалась от первой, хотя все остальные гиперпараметры были одинаковыми. Единственное изменение, которое я внес, — это максимальная эпоха. Какое возможное объяснение этому явлению? Я использовал стандартный DataLoader из Pytorch для перемешивания обучающих данных. Зерно также одинаковое.

Полный текст статьи пока не загружен.

Читать оригинал статьи