likelihood ratio

likelihood ratio は次で定義される。 \begin{align} r(x | \theta_0, \theta_1) = \frac{p(x | \theta_0)}{p(x | \theta_1)} \end{align} likelihood ratio 役に立つ。次のその例を示す。

Maximum likelihood estimation

\begin{align} \hat{\boldsymbol{\theta}} = \arg\max_{\boldsymbol{\theta}} \prod_{x_i\in\boldsymbol{d}} p(x_i | \theta) \\ p(x | \theta) = \int_Z p(x, z | \theta) dz \end{align} しかし、積分が計算できないことが多い。
そこで、likelihood ratio を考える。 \begin{align} \hat{\boldsymbol{\theta}} = \arg\max_{\boldsymbol{\theta}} \prod_{x_i\in\boldsymbol{d}} p(x_i | \theta) \\ = \arg\max_{\boldsymbol{\theta}} \prod_{x_i\in\boldsymbol{d}} \frac{p(x_i | \theta)}{p(x_i | \theta_{ref})} \\ = \arg\max_{\boldsymbol{\theta}} \prod_{x_i\in\boldsymbol{d}} r(x_i | \theta, \theta_{ref}) \end{align}

likelihood ratio の推定

CARL

$x\sim p(x|\theta_0)$ を $x\sim p(x|\theta_1)$ から判別する最適な2値分類機 $s^*$ は次のようになる。 \begin{align} s^*(x;\theta_0,\theta_1) = \frac{p(x|\theta_1)}{p(x|\theta_0)+p(x|\theta_1)} \end{align} よって \begin{align} r(x;\theta_0,\theta_1) = \frac{1-s^*}{s^*} \end{align} $s^*$ は学習したニューラルネットなどで近似する。

その２

\begin{align} L_{MSE} = E_{p(x,z|\theta)} [(g(x,z)-\hat{g}(x))^2] \end{align} $L_{MSE}$ を極小化する $g^*(x)$ は次で与えられる。 \begin{align} g^*(x) &= \frac{1}{p(x|\theta)} \int p(x,z|\theta) g(x,z) dz \\ &= E_{p(z|x,\theta)} [g(x,z)] \end{align} likelihood ratio に当てはめると \begin{align} L_{r} = E_{p(x,z|\theta_1)} [(r(x,z|\theta_0,\theta_1)-\hat{r}(x))^2] \end{align} \begin{align} r^*(x) &= \frac{1}{p(x|\theta_1)} \int p(x,z|\theta_1) \frac{p(x | \theta_0)}{p(x | \theta_1)} dz \\ &= \frac{p(x | \theta_0)}{p(x | \theta_1)} \\ &= r(x|\theta_0,\theta_1) \end{align} 次の最適化問題を解くことで、likehood ratio が求まる。 \begin{align} r^*(x|\theta_0,\theta_1) = \arg\min_{\hat{r}} L_r[\hat{r}] \end{align} 例えば、以下のニューラルネットワークを考えればよい。

$r$ : ニューラルネットワーク
$L_r$ : 損失関数