マルチコア・プラットフォーム向けのループの並列化

マルチコア・プラットフォーム向けのループの並列化は特定の条件を前提としています。 コンパイラーでループを並列化するには、次の 3 つの要件が満たされなければなりません。

つまり、反復が実行される順序に論理的に依存してはなりません。ただし、例えば、同じデータが異なる順で追加された場合、蓄積される丸め誤差の変分はわずかです。配列を合計するようないくつかのケースでは、コンパイラーは単純な変換を行うことで明らかな依存性を排除できることがあります。

また、ポインターや配列参照の潜在的なエイリアスも、安全な並列化にとっては一般的に知られている障害です。2 つのポインターが同じメモリーの場所を指す場合、両方のエイリアスが作成されます。コンパイラーは、2 つのポインターまたは配列参照が同じメモリーの場所を指しているかどうかを判断できません。例えば、関数の引数、ランタイムデータ、または複雑な計算の結果に依存する場合、

コンパイラーは、ポインターあるいは配列参照が安全なことを証明できなければ、ループを並列化しません (ただし、ランタイム時にエイリアスを明示的にテストするための代替コードパスの生成が有益であると考えられる場合を除きます)。

特定のループの並列化が安全で潜在的なエイリアスが無視できることが判明していれば、!DIR$ PARALLEL 宣言子を使用してループを並列化するようにコンパイラーに指示できます。

繰り返し間の依存関係を持つループの並列化

ループの自動並列化の前に、コンパイラーは、並列化を阻む繰り返し間の依存関係がループにないことを証明しなければなりません。 ループのある反復でメモリー位置が書き込まれ、ループの別の反復でその場所がアクセス ( 読み取り/書き込み) される場合、繰り返し間の依存関係が存在します。繰り返し間の依存関係は、a[1:100] から読み取ったり、a[0:99] へ書き込んだりするループのように、重複する配列範囲へアクセスするループでよく発生します。

ループに繰り返し間の依存関係がなくても、それを証明するのに十分な情報がない場合、コンパイラーはそのループを並列化しないこともあります。 そのような場合、!DIR$ PARALLEL 宣言子を使用してループに関する追加情報をコンパイラーに提供することができます。 for ループの前に !DIR$ PARALLEL 宣言子を追加して、ループに繰り返し間の依存関係がないことをコンパイラーに知らせます。 これにより、自動並列化の解析では、依存関係の可能性が無視されます。 しかし、それでも並列化がループのパフォーマンスを向上する見込みが低いと判断した場合、コンパイラーはループを並列化しないこともあります。

!DIR$ PARALLEL ALWAYS 宣言子は、!DIR$ PARALLEL 宣言子と同じように依存性の可能性を無視する効果があります。ただし、ループの並列化によるパフォーマンス向上の可能性を推定するコンパイラーのヒューリスティックも無効にします。 これにより、並列化がパフォーマンスを向上しないと推定された場合でも、ループが並列化されることがあります。

!DIR$ NOPARALLEL 宣言子 は、DO ループの直後の自動並列化を抑止します。 ヒントである !DIR$ PARALLEL とは異なり、NOPARALLEL 宣言子はループ直後の並列化の抑止を保証します。

これらの宣言子は、自動並列化が /Qparallel オプション (Windows*) または -parallel (Linux* および Mac OS* X) で有効にされている場合にのみ効果があります。

private 節によるループの並列化

ガイド付き自動並列化ツールを使用すると、コンパイラーの自動パラレライザーは、並列化を促進するためにプログラムのどこを変更するべきか、アドバイスを提供します。例えば、条件が真であるかをチェックして、真であれば、!DIR$ PARALLEL をコードに挿入するようアドバイスします。これにより、関連するループが再コンパイル時に並列化されます。

コンパイラーが検証を求める 1 つの条件は、変数のプライベート化が可能かどうかです。各スレッドによる変数の新しいプライベート・コピー (ほかのスレッドからは不可視) の作成が有効であることを示し、ループのオリジナル変数を新規のプライベート変数に置換するには、!DIR$ PARALLEL 宣言子private 節とともに使用します。private 節では、スカラーおよび配列型変数をリストでき、プライベート化する配列要素の数を指定することが可能です。

並列ループに入る前にオリジナルの値でプライベート変数を初期化する必要がある場合は、firstprivate 節を使用してその変数を指定します。

並列化されたループの終了後も変数の値を再利用したい場合は、lastprivate 節を使用してその変数を指定します。lastprivate 節でプライベート化された特定の変数を指定すると、並列化されたループの終了後、その値はオリジナルの変数にコピーされます。

Note icon

同一ループに対して privatelastprivate 節で同じ変数を使用しないでください。エラーメッセージが出力されます。

外部関数の呼び出しを持つ並列化のループ

コンパイラーは、相対的に単純な構造のループのみを効率的に解析できます。例えば、コンパイラーは関数呼び出しに依存性をもたらす副作用があるかどうかわからないため、外部関数の呼び出しを含むループのスレッド安全性を判断できません。Fortran 90 の開発者は、PURE 属性を使用して、サブルーチンと関数に副作用がないことを表明できます。 -ipo (Linux* および Mac OS* X) または /Qipo (Windows*) コンパイラー・オプションを使用すると、プロシージャー間の最適化を行えます。このオプションを使用して、コンパイラーは呼び出された関数の副作用を解析できます。

OpenMP* による並列化のループ

並列化が可能であることがわかっており、コンパイラーが自動的にループを並列化できない場合、OpenMP* を使用してください。 開発者は、コンパイラーよりもコードを理解し、より粗い粒度で並列化を表現できるため、OpenMP* は、推奨されるソリューションです。一方、自動並列化は、行列乗算のように、入れ子したループに有効です。適度な粗粒度の並列化は、外部ループのスレッド化に起因し、ベクトル化やソフトウェアのパイプライン化を使用して内部ループをより細かい粒度の並列化に最適化できるようにします。

ループを並列化するしきい値パラメーター

ループが並列化できる場合でも、常に並列化すべきであるとは限りません。コンパイラーは、しきい値パラメーターを使用して、ループを並列化するかどうかを決定します。-par-threshold (Linux* および Mac OS* X) または /Qpar-threshold (Windows*) コンパイラー・オプションは、この動作を調整します。しきい値の範囲は 0 から 100 です。0 は、安全なループを常に並列化するようにコンパイラーに指示します。100 は、パフォーマンスの向上が期待できるループのみを並列化するようにコンパイラーに指示します。ループが並列化されたかどうかを判断するには、-par-report (Linux* および Mac OS* X) または /Qpar-report (Windows*) コンパイラー・オプションを使用します。コンパイラーは、並列化できなかった理由を示し、並列化できなかったループもレポートします。これらのコンパイラー・オプションについての詳細は、「OpenMP* オプションおよび並列処理オプション」を参照してください。

次に、これらのオプションを組み合わせて使用する例を示します。次のコードがあると仮定します。

コンパイラーは k の値がわからないため、例えば、k-1 の場合でも、反復は互いに依存すると仮定します。!$DEC PARALLEL directive を挿入して、コンパイラーの仮定を無効にすることができます。

subroutine add(k, a, b)
  integer :: k
  real :: a(10000), b(10000)
  !$DEC PARALLEL
   DO i = 1, 10000
    a(i) = a(i+k) + b(i)
     end do
end subroutine add

k の値が 10000 未満の場合にこの関数を呼ばないようにするのは、開発者の責任で行ってください。10000 未満の値を渡すと、正しくない結果を引き起こす場合があります。

関連情報


このヘルプトピックについてのフィードバックを送信

© 1996-2011 Intel Corporation. 無断での引用、転載を禁じます。