変分ベイズの定式化から近似事後分布の導出まで(1)

PRML10.1の所で変分法を知らずに「なぜ?」と結構苦労したので、その備忘録です。

話の流れは以下になります。

  1. 変分ベイズの定式化(この記事)
  2. 準備:変分法
  3. 変分事後分布の導出

今日は1についてです。


1. 変分ベイズの定式化

注:全ての変数はスカラー、ベクトル、行列の何れかだが表記上は区別しない。また、離散変数の場合にも積和ではなく積分で一括表記する。

データDと潜在変数, パラメータ等のUnknownな全ての変数をZ=[Z_{1}, Z_{2}, ..., Z_{L}]とする。また、Zに関する任意の確率分布q(Z)を考える。この時、Dの対数周辺尤度について次の2つの関係が成り立つ。

(1)   \begin{equation*} \ln p(D) = \int q(Z) \ln p(D) dZ \end{equation*}

(2)   \begin{equation*} \ln p(D) = \ln p(D,Z) - \ln p(Z|D) \end{equation*}

(1)は1を掛けただけ、(2)はベイズの定理で対数をとっただけである。ここで、(2)を(1)に代入する。

(3)   \begin{eqnarray*} \lefteqn{ \ln p(D)  = \int q(Z) \{  \ln p(D,Z) - \ln p(Z|D)  \} dZ } \\ &=& \int q(Z) \{  \ln p(D, Z) - \ln p(Z|D) + \ln q(Z) - \ln q(Z)  \} dZ \\ &=& \int q(Z) \frac{ \ln p(D, Z) }{ \ln q(Z) } dZ + \int q(Z) \frac{ \ln q(Z) }{ \ln p(Z|D) } dZ \\ &=& F[q(Z)] + KL(q(Z) \| p(Z|D)) \\ \lefteqn{ F[q(Z)] =  \int q(Z) \frac{ \ln p(D, Z) }{ \ln q(Z) } dZ } \end{eqnarray*}

第二項KLZについての任意の分布q(Z)と真の事後分布p(Z|D)のカルバック・ライブラー情報量であり、2つの分布の近さを表す。KL \ge 0で二つの分布が一致する時にのみ0となる。

真の事後分布は未知なのでKLは操作できないが、(3)で定義した汎関数Fq(Z)に関して最大化することで、q(Z)p(Z|D)へとカルバック・ライブラー情報量の観点から接近し、結果として得られるq(Z)は事後分布の近似となる。よって、変分ベイズとは次の問題として定式化される。

(4)   \begin{equation*} p(Z|D) \approx \arg \max F[q(Z)] \end{equation*}

20130119a_VB

Fは変分下界と呼ばれ、対数周辺尤度ln p(D)の下限値を与えている。また、q(Z)のことを変分事後分布と呼ぶ。定式化は以上だが少し補足する。ここで、Fを分解してみる。

(5)   \begin{eqnarray*} F[q(Z)] &=&  \int q(Z) \frac{ \ln p(D, Z) }{ \ln q(Z) } dZ \\ &=&  \int q(Z) \ln p(D, Z) dZ + \int q(Z) \frac{ 1 }{ \ln q(Z) } dZ \\ &=&  \int q(Z) \ln p(D, Z) dZ - \int q(Z) \ln q(Z) dZ \\ \end{eqnarray*}

第1項の\ln p(D,Z)はUnknownな変数が与えられた時の対数尤度で、完全データの対数尤度と呼ぶ。完全データとは[D,Z]を指している。第1項の最大化は、「データとUnknownな変数の尤もらしい組合せを、期待値として評価して探せ」ということになる。一方で、第2項は変分事後分布q(Z)の平均エントロピー、すなわち分布のフラットさを表している(離散変数であれば、一様分布が平均エントロピー最大)。よって、第2項の最大化は、「変分事後分布が出来るだけフラットになるようにせよ」ということになる。

完全データの対数尤度の期待値は、変分事後分布がシャープなほど大きくなるが、エントロピーは変分事後分布がシャープなほど小さくなる。第1項と第2項は互いに対立する評価値で、変分ベイズはバランス点を探していることになる。

なぜ第1項だけを考えてはいけないか?それが変分ベイズ導入のモチベーションである。第一項を最大化するZを一点で推定するアルゴリズムをEMアルゴリズムと呼び、最尤法によるオーバーフィッティング問題が顕在化するためである。変分ベイズにおいては第2項が、オーバーフィッティングを回避するための正則化の役割を果たしている。


以上が変分ベイズによる事後分布近似方法の定式化になります。この解き方はまた今度。

 


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA