インテル® DAAL 2017 デベロッパー・ガイド
次元 p の n 特徴ベクトルのセット X、x1= (x11,…,x1p), ..., xn= (xn1,…,xnp) で、データが不完全か、欠測値があるときに、根本的な分散のパラメーターの最尤推定を見つけます。
X をパラメーター θ に応じて対数尤度 l(θ; X) になる観測値とします。Xm を潜在値または欠測値とすると、T=(X, Xm) は対数尤度 l0 (θ; X) の完全なデータです。一般的な形式の問題を解くアルゴリズムは、次の EM アルゴリズム ([Dempster77]、[Hastie2009]) です。
ガウス混合モデル (GMM) は、以下のように表される k p 次元多変量ガウス分布の混合モデルです。
ここで、Σki = 1αi = 1 および αi ≥ 0。
pd( x|θi ) は、パラメーター θi = (mi , Σi ) の確率密度関数です。ここで、mi は平均ベクトル、Σi は分散共分散行列です。p 次元多変量ガウス分布の確率密度関数は、次のように定義されます。
zij = I{xi belongs to j mixture component} を指示関数、θ=(α1, ..., αk ; θ1, ..., θk) とします。
計算
GMM 用 EM アルゴリズムには以下のステップが含まれます。
次のように重みを定義します。
i=1, ..., n で j=1, …, k。
初期化
GMM 用 EM アルゴリズムには、重みの初期化されたベクトル、平均のベクトル、分散共分散行が必要です [Biernacki2003, Maitra2009]。
GMM 用 EM 初期化アルゴリズムには以下のステップが含まれます。
nIterations 反復および以下の開始値で EM アルゴリズムの開始を nTrials 回実行します。
初期平均 - 入力データセットの k の異なるランダムな観測
初期重み - 1/k の値
初期共分散行列 - 入力データの共分散
尤度関数値の点から最良の EM アルゴリズムの結果を初期化の結果として見なします。