Как найти аргумент функции NN (которая возвращает распределение), чтобы минимизировать дивергенцию Кл?
Краткое содержание
Рассмотрим функцию нейронной сети $f:\mathbb{R}\to\text{распределение}$. Для простоты, возможно, стоит предположить, что она возвращает гауссово распределение. Я хочу найти $\arg\min_{s\in\mathbb{R}}D_{KL}(f(s),q)$ для некоторого фиксированного распределения $q$. Существует ли эффективный замкнутый формулой метод для нахождения такого $s$? или мне нужно запускать градиентное спускание по $s$ и оно может застрять в локальном оптимуме? Для тех, кто хочет больше контекста: я читаю статью о переносе знаний между доменами в RL. Cross-Domain Transfer via Semantic Skill Imitation, Karl Pertsch и др...https://arxiv.org/pdf/2212.07407 Здесь, чтобы сопоставить состояние в исходном домене с состоянием в целевом домене, автор предлагает найти состояние целевого домена, которое минимизирует ниже потерю. Здесь $p_S(k|s^S)$ — это распределение семантики для исходного состояния $s^S$, и я думаю, что оно может быть рассмотрено как фиксированное для каждого исходного состояния. $p_T(k|s^T)$ — это распределение семантики для состояния целевого домена $s^T$ (обученная нейронная сеть). Таким образом, минимизация этой потери означает w
Полный текст статьи пока не загружен.