インテル® DAAL 2018 デベロッパー・ガイド
np 次元の特徴ベクトルの n 特徴ベクトル X = { x1= (x11, … , x1p), ..., xn= (xn1, … , xnp) } および n 応答 Y = {y1, … , yn} で、ランダムフォレスト分類または回帰モデルを作成します。
ライブラリーは、訓練段階に次のアルゴリズム・フレームワークを使用します。S = (X, Y) を観察点のセットにします。木の数 B、ブートストラップ・パラメーター N = f*n (ここで、f は 1 つの木の訓練に使用された観測数の割合、ノードごとの特徴の数 m のような正の整数パラメーターで、アルゴリズムは b = 1, ..., B について次の操作を行います。
決定木 T は、サイズ N の訓練セット D を使用して訓練されます。木の各ノード t は、訓練セット D のサブセット Dt に対応します。根ノードは D 自身です。内部ノード t は、子 tL および tR に対応する、Xt 2 つのサブセット XtL および XtR でサブセットを分割する二分テスト (分割) で表されます。
最良の分割を測定するメトリックは「不純度」i(t) と呼ばれます。一般に、ノード t のサブセット Dt 内の応答の均一性を反映します。
i(t) メトリックの詳細な定義は、各アルゴリズムの説明を参照してください。
ノード t の「不純度減少」を次の式とします。
ライブラリーは、次のランダムフォレスト訓練の終了基準をサポートします。
決定木は、各ターミナルノード t に適用される下記の再帰プロシージャーに従います。
ランダムフォレスト分類器とベクトル x1, ..., xr で、これらのベクトルの応答を計算します。指定された各クエリーベクトル xi について解くため、アルゴリズムはその木に応答する森の木の葉ノードを見つけます。森の応答は、森のすべての木からの応答の合算に基づきます。詳細な定義は、各アルゴリズムの説明を参照してください。
ランダムフォレストは、汎化誤差の推定や p 特徴 (変数) の重要度測定 (相対的な決定権) のような、追加の特定を生成することができます。
訓練データに基づく汎化誤差の推定は次のように計算することができます。
詳細な定義は、各アルゴリズムの説明を参照してください。
主な変数の重要度測定の種類は次の 2 つです。
Mean Decrease Impurity (MDI) 重要度。
Y を予測する j 番目の変数の重要度は、森のすべての B 木で平均にされた、xj を使用するすべてのノード t について重み付けされた不純度減少 p(t)∆i(st,t) の合計です。
ここで、 は木 Tb のノード t に達する観測数の割合、v(st) は分割 st で使用される変数のインデックスです。
Mean Decrease Accuracy (MDA)。
Y を予測する j 番目の変数の重要度は、j 番目の変数の値が OOB セットでランダムに並べ替えられたときの、森のすべての木における OOB 誤差の平均増加です。その理由により、この後者の測定は Permutation Importance としても知られます。
具体的には、ライブラリーは、MDA 重要度を次のように計算します。
Eb,j を を使用して Tb について計算した OOB 誤差とします。その OOB データセット
は j 番目の変数で並べ替えられます。ここで、