インテル® DAAL 2018 デベロッパー・ガイド

詳細

np 次元の特徴ベクトルの n 特徴ベクトル X = { x1= (x11, … , x1p), ..., xn= (xn1, … , xnp) } および n 応答 Y = {y1, … , yn} で、ランダムフォレスト分類または回帰モデルを作成します。

訓練段階

ライブラリーは、訓練段階に次のアルゴリズム・フレームワークを使用します。S = (X, Y) を観察点のセットにします。木の数 B、ブートストラップ・パラメーター N = f*n (ここで、f は 1 つの木の訓練に使用された観測数の割合、ノードごとの特徴の数 m のような正の整数パラメーターで、アルゴリズムは b = 1, ..., B について次の操作を行います。

決定木 T は、サイズ N の訓練セット D を使用して訓練されます。木の各ノード t は、訓練セット D のサブセット Dt に対応します。根ノードは D 自身です。内部ノード t は、子 tL および tR に対応する、Xt 2 つのサブセット XtL および XtR でサブセットを分割する二分テスト (分割) で表されます。

最良の分割を測定するメトリックは「不純度」i(t) と呼ばれます。一般に、ノード t のサブセット Dt 内の応答の均一性を反映します。

i(t) メトリックの詳細な定義は、各アルゴリズムの説明を参照してください。

ノード t の「不純度減少」を次の式とします。



ライブラリーは、次のランダムフォレスト訓練の終了基準をサポートします。

決定木は、各ターミナルノード t に適用される下記の再帰プロシージャーに従います。

予測段階

ランダムフォレスト分類器とベクトル x1, ..., xr で、これらのベクトルの応答を計算します。指定された各クエリーベクトル xi について解くため、アルゴリズムはその木に応答する森の木の葉ノードを見つけます。森の応答は、森のすべての木からの応答の合算に基づきます。詳細な定義は、各アルゴリズムの説明を参照してください。

ランダムフォレストで計算される追加の特性

ランダムフォレストは、汎化誤差の推定や p 特徴 (変数) の重要度測定 (相対的な決定権) のような、追加の特定を生成することができます。

OOB (Out-of-bag) 誤差

訓練データに基づく汎化誤差の推定は次のように計算することができます。

詳細な定義は、各アルゴリズムの説明を参照してください。

変数の重要度

主な変数の重要度測定の種類は次の 2 つです。