無限混合正規分布

と書くと、とても格好良い。
最終兵器感がある。

別名、正規分布版のDirichlet Process Mixture(DPM)。ノンパラメトリックベイズ推定の1つである。

詳細は、M.D. Escober, M. West, “Bayesian Density Estimation and Inference Using Mixtures”やRadford M. Neal, “Markov Chain Sampling Methods for Dirichlet Process Mixture Models”に詳しい。

連続の確率分布を無限の点で離散化するDirichlet Processを混合モデルの事前分布に置くことで、理論的には無限の混合が可能になる・・・らしい。原理を理解するには、測度論という抽象数学が必要かつ自分にはハードルが高すぎなので、諦めてそういうものかと納得して使っている。

DPMは、実利的には、データの複雑さに応じてモデルの混合数を自動的に推定するための枠組みである。実装の詳細は、別の機会にまとめるが、Neal’s algorithm 3 (collapsed gibbs sampler) を正規分布の尤度関数+Normal-inverse-Wishartのパラメータ分布に対して、実行するとこんな感じになる。

iGM

左下の図が、分割数の学習による変化を表したグラフである。最初は単純な混合モデルに始まり、次第にデータに適した形で複雑さを学習していっていることがわかる。

通常の混合正規分布推定の場合、混合数は予め与えられていなければならない。混合数として、データ数Nを指定しておけば、同じことは一応できるが、全要素について計算しつづけなければならず、負荷は非常に大きい。一方、DPMの場合は、現時点の混合数K+1のみを扱えばよいので、遥かに効率的である。

個人的にはDeep Learningのようにブラックボックスなモデルよりも、こういうわかりやすい(?)モデルのほうが好き。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA