インテル® C++ コンパイラー 15.0 ユーザー・リファレンス・ガイド

インテル® グラフィックス・テクノロジー固有の並列性を使いこなす

このトピックは、インテル® グラフィックス・テクノロジー向けのインテル® 64 アーキテクチャーと IA-32 アーキテクチャーにのみ適用されます。

インテル® グラフィックス・テクノロジーでは、複数のベクトル実行ユニットを使用します。各実行ユニットは、それぞれリソースの一部を共有することで同時に複数のスレッドを実行できます。各実行ユニットで同時に多数のスレッドを実行することで、一部の操作のレイテンシーを隠蔽できます。スレッド数の大幅な増加によりコードのオフロードにかかるコストが高くなりますが、通常、スレッド数を適度に大きくすることで最適な結果が得られます。

_Cilk_for のループの入れ子を並列化する際のターゲットスレッドの最大数は、ヘテロジニアス・アプリケーションを開始する前に、GFX_MAX_THREAD_COUNT 環境変数を設定することで制御できます。 デフォルト値は -1 で、ランタイムは自動的に最大スレッド数を決定します。特定のオフロード実行における実際のスレッド数は、実際の反復空間に応じてオフロードランタイムによって決定され、最大値よりも小さくなる可能性があります。

_Cilk_for セクション内の最上位のループの反復空間は、特にこのループがベクトル化される場合、インテル® グラフィックス・テクノロジーによる並列性を最大限に活用できないことがあります。 オフロードループの入れ子構造で、最外ループの反復回数は、最適なパフォーマンスをもたらすターゲットスレッド数よりも小さくなる可能性があります。しかし、ソースコードで明示的にループの入れ子を 1 つのループに結合するのは不便です。コンパイラーは、offload プラグマ以下の完全な入れ子構造の _Cilk_for 並列ループを結合して、より大きな反復空間を並列化することができます。

コンパイラーは、_Cilk_for ループのホストバージョンでもループを生成しますが、これは並列化されません。 オフロード実行が行われない場合、これはパフォーマンスに大きく影響します。

最適化に関する注意事項

インテル® コンパイラーは、互換マイクロプロセッサー向けには、インテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性があります。これには、インテル® ストリーミング SIMD 拡張命令 2 (インテル® SSE2)、インテル® ストリーミング SIMD 拡張命令 3 (インテル® SSE3)、ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれます。インテルでは、インテル製ではないマイクロプロセッサーに対して、最適化の提供、機能、効果を保証していません。本製品のマイクロプロセッサー固有の最適化は、インテル製マイクロプロセッサーでの使用を目的としています。インテル® マイクロアーキテクチャーに非固有の特定の最適化は、インテル製マイクロプロセッサー向けに予約されています。この注意事項の適用対象である特定の命令セットの詳細は、該当する製品のユーザー・リファレンス・ガイドを参照してください。

改訂 #20110804

関連情報


このヘルプトピックについてのフィードバックを送信