インテル® DAAL 2018 デベロッパー・ガイド

詳細

次元 pn 特徴ベクトル x1= (x11,…,x1p), ..., xn= (xn1,…,xnp) のセット X で、BACON メソッド ([Billor2000] を参照) を使用して分布に属さないベクトルを識別します。

反復法では、各反復は複数のステップを含みます。

  1. 外れ値を含まないと仮定できる m > p 特徴ベクトルの初期基本サブセットを識別します。定数 m は 5p に設定します。ライブラリーは、初期サブセットを選択する 2 つのアプローチをサポートします。
    1. 中央値 ||xi - med|| からの距離ベース。ここで、
      • med は座標方向の中央値のベクトル
      • ||.|| はベクトルノルム
      • i=1, ..., n
    2. マハラノビス距離ベース

      ここで、
      • mean および S はそれぞれ、n 特徴ベクトルの平均行列および共分散行列
      • i=1, ..., n

    各メソッドは、距離の値が最も小さい m 特徴ベクトルを選択します。

  2. 上記のマハラノビス距離を使用して不一致を計算します。ここで、mean および S はそれぞれ、基本サブセットに含まれる特徴ベクトルについて計算された平均行列および共分散行列です。
  3. 不一致が次の値未満のすべての特徴ベクトルに新しい基本サブセットを設定します。

    ここで、


    1. は自由度 p の Chi2 分布の (1 - α) パーセンタイル


    2. ここで、

      • r は現在の基本サブセットのサイズ


      • ここで、

        および [ ] は数の整数部


  4. 基本サブセットのサイズが変更されなくなるまでステップ 2 と 3 を反復します。
  5. 最終的な基本サブセットの一部でない特徴ベクトルを外れ値として選択します。