インテル® C++ コンパイラー 17.0 デベロッパー・ガイドおよびリファレンス

インテル® グラフィックス・テクノロジー固有の並列性を使いこなす

このトピックは、インテル® グラフィックス・テクノロジーをターゲットとする IA-32 およびインテル® 64 アーキテクチャーにのみ適用されます。

インテル® グラフィックス・テクノロジーでは、複数のベクトル実行ユニットを使用します。各実行ユニットは、それぞれリソースの一部を共有することで同時に複数のスレッドを実行できます。各実行ユニットで同時に多数のスレッドを実行することで、一部の操作のレイテンシーを隠蔽できます。スレッド数の大幅な増加によりコードのオフロードにかかるコストが高くなりますが、通常、スレッド数を適度に大きくすることで最適な結果が得られます。

_Cilk_for のループの入れ子を並列化する際のターゲットスレッドの最大数は、ヘテロジニアス・アプリケーションを開始する前に、GFX_MAX_THREAD_COUNT 環境変数を設定することで制御できます。 デフォルト値は -1 で、ランタイムは自動的に最大スレッド数を決定します。特定のオフロード実行における実際のスレッド数は、実際の反復空間に応じてオフロードランタイムによって決定され、最大値よりも小さくなる可能性があります。

_Cilk_for セクション内の最上位のループの反復空間は、特にこのループがベクトル化される場合、インテル® グラフィックス・テクノロジーによる並列性を最大限に活用できないことがあります。 オフロードループの入れ子構造で、最外ループの反復回数は、最適なパフォーマンスをもたらすターゲットスレッド数よりも小さくなる可能性があります。しかし、ソースコードで明示的にループの入れ子を 1 つのループに結合するのは不便です。コンパイラーは、offload プラグマ以下の完全な入れ子構造の _Cilk_for 並列ループを結合して、より大きな反復空間を並列化することができます。

コンパイラーは、_Cilk_for ループのホストバージョンでもループを生成しますが、これは並列化されません。 オフロード実行が行われない場合、これはパフォーマンスに大きく影響します。

関連情報