likelihood ratio
likelihood ratio は次で定義される。
\begin{align}
r(x | \theta_0, \theta_1) = \frac{p(x | \theta_0)}{p(x | \theta_1)}
\end{align}
likelihood ratio 役に立つ。
次のその例を示す。
Maximum likelihood estimation
\begin{align}
\hat{\boldsymbol{\theta}} = \arg\max_{\boldsymbol{\theta}} \prod_{x_i\in\boldsymbol{d}} p(x_i | \theta) \\
p(x | \theta) = \int_Z p(x, z | \theta) dz
\end{align}
しかし、積分が計算できないことが多い。
そこで、likelihood ratio を考える。
\begin{align}
\hat{\boldsymbol{\theta}} = \arg\max_{\boldsymbol{\theta}} \prod_{x_i\in\boldsymbol{d}} p(x_i | \theta) \\
= \arg\max_{\boldsymbol{\theta}} \prod_{x_i\in\boldsymbol{d}} \frac{p(x_i | \theta)}{p(x_i | \theta_{ref})} \\
= \arg\max_{\boldsymbol{\theta}} \prod_{x_i\in\boldsymbol{d}} r(x_i | \theta, \theta_{ref})
\end{align}
likelihood ratio の推定
CARL
$x\sim p(x|\theta_0)$ を $x\sim p(x|\theta_1)$ から判別する最適な2値分類機 $s^*$ は次のようになる。
\begin{align}
s^*(x;\theta_0,\theta_1) = \frac{p(x|\theta_1)}{p(x|\theta_0)+p(x|\theta_1)}
\end{align}
よって
\begin{align}
r(x;\theta_0,\theta_1) = \frac{1-s^*}{s^*}
\end{align}
$s^*$ は学習したニューラルネットなどで近似する。
その2
\begin{align}
L_{MSE} = E_{p(x,z|\theta)} [(g(x,z)-\hat{g}(x))^2]
\end{align}
$L_{MSE}$ を極小化する $g^*(x)$ は次で与えられる。
\begin{align}
g^*(x)
&= \frac{1}{p(x|\theta)} \int p(x,z|\theta) g(x,z) dz \\
&= E_{p(z|x,\theta)} [g(x,z)]
\end{align}
likelihood ratio に当てはめると
\begin{align}
L_{r} = E_{p(x,z|\theta_1)} [(r(x,z|\theta_0,\theta_1)-\hat{r}(x))^2]
\end{align}
\begin{align}
r^*(x)
&= \frac{1}{p(x|\theta_1)} \int p(x,z|\theta_1) \frac{p(x | \theta_0)}{p(x | \theta_1)} dz \\
&= \frac{p(x | \theta_0)}{p(x | \theta_1)} \\
&= r(x|\theta_0,\theta_1)
\end{align}
次の最適化問題を解くことで、likehood ratio が求まる。
\begin{align}
r^*(x|\theta_0,\theta_1) = \arg\min_{\hat{r}} L_r[\hat{r}]
\end{align}
例えば、以下のニューラルネットワークを考えればよい。
- $r$ : ニューラルネットワーク
- $L_r$ : 損失関数
参考