Как можно использовать байесовские нейронные сети для переноса обучения?
Краткое содержание
В обучении с переносом мы используем большие объемы данных из похожих задач для обучения параметров нейронной сети, а затем донастраиваем нейронную сеть на нашей задаче, для которой доступно мало данных. Здесь мы можем рассматривать шаг обучения с переносом как обучение (правильного) априори, а донастройку – как обучение апостериорному распределению. Таким образом, можно утверждать, что байесовские сети также могут решить проблему небольших по размеру наборов данных. Но какие направления мы можем использовать для смешивания байесовских нейронных сетей с похожими задачами в рамках обучения с переносом, например, обучение с малым количеством примеров? Это имеет смысл, когда обе они играют роль решения проблем низкозатратных наборов данных, но я не могу придумать комбинацию из них для решения этой проблемы. Возможно ли, к примеру, научить BNN, для которого мы выбрали хорошее априори для обучения апостериорному распределению с небольшим количеством данных и использовать распределение весов для обучения нашей новой задаче? Есть ли в этом какой-то смысл?
Полный текст
Задано 4 года, 5 месяцев назад Изменено сегодня Просмотрено 522 раза
Задано 4 года, 5 месяцев назад
3 $\begingroup$ В контексте трансферного обучения мы используем большие объемы данных из похожих задач для изучения параметров нейронной сети, а затем дообучаем нейронную сеть на нашей собственной задаче с небольшим количеством доступных данных. Здесь мы можем рассматривать шаг трансферного обучения как изучение (правильного) априора, а дообучение – как изучение апостериорного распределения. Таким образом, можно утверждать, что байесовские сети также могут решать проблему с режимами малых объемов данных. Но какие направления мы можем использовать для смешивания байесовских нейронных сетей со схожими задачами в контексте трансферного обучения, например, обучение с небольшим количеством примеров (few-shot learning)? Они имеют смысл, когда обе они играют роль решения проблем с низким объемом данных, но я не могу придумать комбинацию из них для решения этой проблемы. Возможно ли, например, научиться BNN, для которого мы выбрали хорошее априору для изучения апостериорного распределения при небольшом количестве данных и использовать распределение весов для обучения нашей новой задаче? Принесет ли это какую-либо пользу? запрос на литературу трансферное обучение байесовское глубокое обучение байесовские нейронные сети обучение с одним примером Делитесь Улучшите этот вопрос Следите за изменениями, внесенными 07.07.2021 в 10:46 nbro 43,1 тыс. 14 14 золотых значков 121 121 серебряный значок 222 222 бронзовый значок задано 06.07.2021 в 20:38 samsambakster 181 1 1 серебряный значок 5 5 бронзовый значок $\endgroup$ 2 1 $\begingroup$ Я думаю, что можно интерпретировать то, как формализуются BNN, как форму трансферного обучения, но это просто интерпретация. Таким образом, вы можете обучить BNN с использованием некоторого набора данных $D$ для изучения апостериорного распределения $p$ весов. Затем вы можете переобучить этот BNN с новым набором данных $D'$ начиная с этого апостериорного распределения $p$, то есть мы начинаем обучение новой задаче с априора, соответствующего ранее изученному апостериорному распределению $p$. В этом смысле мы можем назвать это трансферным обучением, но вероятно, люди просто будут называть это байесовским выводом, хотя распределения изменились. $\endgroup$ nbro – nbro 2021-07-07 10:39:39 +00:00 Закомментировано 07.07.2021 в 10:39 2 $\begingroup$ Я не знаю никаких исследовательских работ, которые пытались решить или интерпретировать проблему трансферного обучения с использованием BNN, но я довольно давно работал с ними. $\endgroup$ nbro – nbro 2021-07-07 10:39:58 +00:00 Закомментировано 07.07.2021 в 10:39 Добавить комментарий | 2 Ответа 2 Сортировка по: Сбросить по умолчанию Наивысший рейтинг (по умолчанию) Измененная дата (от новых к старым) Создание даты (от старых к новым) 0 $\begingroup$ Я бы сказал, что цель байесовского вывода не является трансферным обучением, а оценка неопределенности. Если у вас хороший экстрактор признаков в начале, вы можете немного отрегулировать параметры, например последние слои, чтобы добиться хорошего качества за несколько эпох. Однако это касается корректировки сред распределений над каждым весом. Что касается дисперсии, я думаю, что трансферное обучение неприменимо, поскольку исходные и целевые распределения могут быть очень разными. Например, ImageNet — это широкий и разнообразный набор данных с большим количеством классов, а целевая задача может включать только несколько классов. Скорее всего, оценка неопределенности и стандартные отклонения весов модели на ImageNet будут больше, чем для модели, обученной исключительно на целевой задаче. Делитесь Улучшите этот ответ Следите за изменениями, внесенными 06.07.2021 в 21:05 spiridon_the_sun_rotator 2 922 13 13 серебряных значков 17 17 бронзовых значков $\endgroup$ 3 $\begingroup$ Я не понимаю аргумента о том, будет ли трансферное обучение более или менее уместным для BNN по сравнению с обычными ANN. Независимо от того, являются ли веса функциями распределений или численные значения; в чем разница здесь? Не BNNs меньше склонны к переобучению, поэтому трансферное обучение на самом деле будет более уместным? $\endgroup$ Mathy – Mathy 2022-06-23 07:57:19 +00:00 Закомментировано 23.06.2022 в 7:57 1 $\begingroup$ @Mathy его точка зрения заключается в том, что байесовский вывод по умолчанию предполагает отсутствие "сдвига распределения" между наборами данных для обучения и тестирования.