変分ベイズの定式化から近似事後分布の導出まで(3)

PRML10.1の穴埋め、ラストです。

話の流れは以下になります。

  1. 変分ベイズの定式化
  2. 準備:変分法
  3. 変分事後分布の導出(この記事)

今回は、前々回に定式化した変分ベイズの汎関数最大化問題を、変分法によって解きます。

ここで、たった一つだけ仮定を入れます。それは、近似しようとしている事後分布において、確率変数Z=\{Z_{1}, ..., Z_{L}\}の各Z_{i}が互いに独立であるというものです。手計算できる場合、他の手法により効率的に近似事後分布を発見できる場合、など任意の変数間の非独立性を仮定しても構いません。ここでは、とりあえず全ての変数が独立であるとの仮定から話をしていきます。

また、本来、Fに対して、ラグランジュの未定乗数法により、q(Z)の拘束条件である\int q(Z) dZ = 1を入れるのですが、煩雑になるので、省略します。入れて解いてもただ表記が面倒なだけで、本質的なむずかしさはありません。


3. 変分事後分布の導出

まず、変分ベイズの計算をするにあたって1つの仮定を行う。確率変数Z=\{Z_{1},...,Z_{L}\}は、変分事後分布q(Z)においてそれぞれ独立である。すなわち、

(1)   \begin{equation*} q(Z_{1},Z_{2},...,Z_{L}) = q(Z_{1})q(Z_{2})...q(Z_{L}) \end{equation*}

Fを改めて表記すると

(2)   \begin{eqnarray*} F[q(Z)] &=& F[q(Z_{1}),...,q(Z_{L})] \\ &=& \int q(Z_{1})...q(Z_{L}) \ln \frac{p(D,Z)}{q(Z_{1})...q(Z_{L})} dZ_{1}...dZ_{L} \end{eqnarray*}

ここで、q(Z_{i})以外の変分事後分布を固定して整理すると、(2)はq(Z_{i})についての次のような汎関数となり、前回の変分法で対象としている汎関数の形態に一致する。

(3)   \begin{eqnarray*} F[q_{i}] &=& \int  Q(Z_{i},q_{i})  dZ_{i} \\ Q(Z_{i},q_{i}) &=& \int q_{1}...q_{L} \ln \frac{p(D,Z)}{q_{1}...q_{L}} dZ_{-i} \\ \int q_{i} dZ_{i} &=& 1 \\ q_{k} &\equiv& q(Z_{k}),1 k=1,...,L \\ dZ_{-i} &\equiv& dZ_{1}...dZ_{i-1}dZ_{i+1}...dZ_{L} \end{eqnarray*}

前回の結果から、F[q(Z_{i})]を極大化するq(Z_{i})は次の条件を満たす。

(4)   \begin{eqnarray*} \frac{\partial Q}{\partial q_{i}} = 0 \\ \frac{\partial^{2} Q}{\partial q_{i}^{2}} < 0 \\ \end{eqnarray*}

まず、停留条件から計算する。qを変数とみなして通常の微分を行うと、

(5)   \begin{eqnarray*} \frac{\partial Q}{\partial q_{i}} &=&  \int q_{1}...q_{i-1}q_{i+1}...q_{L} \ln p(D,Z) dZ_{-i}\\ &-& \int q_{1}...q_{i-1}q_{i+1}...q_{L} (\ln q_{1}+...+\ln q_{L}) dZ_{-i} \\ &-& \int q_{1}...q_{i-1}q_{i+1}...q_{L} dZ_{-i} \\ &=& \langle \ln p(D,Z) \rangle_{q_{-i}} - \ln q_{i} + const.\\ &=& 0 \end{eqnarray*}

\langle \ln p(D,Z) \rangle_{q_{-i}}は、\ln p(D,Z)q_{i}を「除く」分布上での期待値である。const.は、最大化しようとしているq_{i}以外の項をまとめている。本来、ここにラグランジュの未定乗数が加わり、正規化項を構成するので任意でよい。以上から、次の関係を得る。

(6)   \begin{equation*} \ln q_{i} = \langle \ln p(D,Z) \rangle_{q_{-i}} + const. \end{equation*}

(7)   \begin{equation*} q_{i} \propto exp\{ \langle \ln p(D,Z) \rangle_{q_{-i}} \} \end{equation*}

(6),(7)は同値で、さらに(6)はPRML10.1の10.9式と同値である。最後に極大条件を確認しておく。

(8)   \begin{eqnarray*} \frac{\partial^{2} Q}{\partial q_{i}^{2}} =  - \frac{1}{q_{i}} < 0\\ \end{eqnarray*}


以上で、当初の目標のPRML10.1の穴埋めである「変分ベイズの定式化から近似事後分布の導出」は完成です。(7)式は独立を仮定した確率変数の数だけ出てくるので、それらを連立して解いていきます。これは完全に問題依存で、紙をたくさん消費してがんばります。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA