インテル® C++ コンパイラー 15.0 ユーザー・リファレンス・ガイド
このトピックは、インテル® グラフィックス・テクノロジー向けのインテル® 64 アーキテクチャーと IA-32 アーキテクチャーにのみ適用されます。
#pragma offload target(gfx) の後の _Cilk_for ループや _Cilk_for ループの入れ子構造内部のコード、および #pragma offload target(gfx) や #pragma offload target(gfx_kernel) が指定された関数コードは、ターゲットと CPU 用にコンパイルされます。 target 属性に加えて、関数コードでは __declspec(target(gfx)) (Windows* および Linux*) または __attribute__((target(gfx))) (Linux* のみ) を使用して vector 属性を指定することもできます。 target(gfx_kernel) を使用すると、ホストとターゲット用のバージョンが生成されますが、ターゲット用のバージョンをオフロード領域から呼び出すことはできません。 代わりに、引数として非同期オフロード API に渡す必要があります。詳しくは、「非同期オフロード」で説明します。
#pragma offload target(gfx) は、並列ループの前、完全入れ子並列ループの前、またはインテル® Cilk™ Plus の配列表記文の前でのみ指定できます。 並列ループは、_Cilk_for ループとして明記されていなければなりません。
インテル® グラフィックス・テクノロジー向けにプログラムしている場合、#pragma offload に次の節を指定できます。
target(gfx) – ターゲットにオフロードされたコードセクションのヘテロジニアス実行に必須の節です。
if (condition) – 条件が true の場合、コードはターゲットでのみ実行されます。
in|out|inout|pin(variable_list: length(length_variable_in_elements))
in, out, or inout – 変数は CPU とターゲットメモリー間でコピーされます。
pin – 変数は CPU とターゲット間で共有されます。
ポインターの length 節を含める必要があります。 この節は、ポインターで参照されている型の要素で、ターゲットとコピーまたは共有するデータのサイズを示します。配列へのポインターでは、サイズは参照されている配列の要素で指定されます。
pin 節は、ターゲットがアクセス可能なメモリーとの間でデータをコピーする代わりに、ホストとターゲット間で同じ物理メモリー領域を共有するため、はるかに高速です。このため、pin 節を使用することで、オフロードのコストは大幅に減ります。 O(N2)) のように比較的小さなデータサイズの大量のワークを実行するカーネルでは、この最適化は重要ではありません。
ただし、OS は共有されるメモリーページをロックし、スワップできないようにするため、共有変数を多数使用するとシステム全体のパフォーマンスが低下する恐れがあります。
デフォルトでは、コンパイラーはホスト CPU とターゲットの両方で実行するアプリケーションを生成しますが、[Q]offload コンパイラー・オプションの否定形を使用して、同じソースコードから CPU のみで実行するアプリケーションを生成することもできます。
unsigned parArrayRHist[256][256], parArrayGHist[256][256], parArrayBHist[256][256]; #pragma offload target(gfx) if (do_offload) \ pin(inputImage: length(imageSize)) \ out(parArrayRHist, parArrayGHist, parArrayBHist) __Cilk_for (int ichunk = 0; ichunk < chunkCount; ichunk++){ … }
上記の例では、CPU コードが生成され、ランタイムは次の処理を行います。
ターゲットがシステムで利用できるかどうかを判断します。
ターゲットが利用できない場合、または do_offload の評価に失敗した場合、for ループを CPU で実行します。
それ以外の場合は、次の処理を行います。
ポインター inputImage で参照される imageSize * sizeof(inputImage[0]) バイトを固定して、ターゲットメモリーとの間でデータをコピーせずに、そのメモリーをターゲットと共有します。
parArrayRHist、parArrayGHist、および parArrayBHist のターゲットメモリー領域を作成します。
for ループの反復空間を N 個のチャンクに分割します (N は chunkCount 以下)。 N の特定の値の選択はオフロードランタイムによって行われます。ドキュメントで説明されているように、境界やストライドのような反復空間構成や、環境変数で制御できる最大値のような要因に依存します。
それぞれ独自の反復空間チャンクを割り当てた N 個のターゲットスレッドでタスクを作成します。
ターゲットで実行するタスクをキューに入れます。
ターゲットのタスクの実行が完了するのを待ちます。
ターゲットメモリーから CPU メモリーに parArrayRHist、parArrayGHist、および parArrayBHist をコピーして、結果が直ちにすべての CPU スレッドで認識されるようにします。
float (* A)[k] = (float (*)[k])matA; float (* B)[n] = (float (*)[n])matB; float (* C)[n] = (float (*)[n])matC; #pragma offload target(gfx) if (do_offload) \ pin(A: length(m*k)), pin(B: length(k*n)), pin(C: length(m*n)) __Cilk_for (int r = 0; r < m; r += TILE_m) { __Cilk_for (int c = 0; c < n; c += TILE_n) { … } }
上の例では、次のことが言えます。
完全な入れ子構造の __Cilk_for ループを使用することで、コンパイラーが入れ子構造のループを結合できるようになります。 オフロードされる入れ子構造のループの反復空間は r ループと c ループの両方を含む 2 次元で、各ターゲットスレッドに並列実行用の 2 次元の反復空間チャンクが割り当てられます。
A、B および C は配列へのポインターとして定義されますが、length はポインターによって参照された float 型配列の要素で指定されます。
インテル® コンパイラーは、互換マイクロプロセッサー向けには、インテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性があります。これには、インテル® ストリーミング SIMD 拡張命令 2 (インテル® SSE2)、インテル® ストリーミング SIMD 拡張命令 3 (インテル® SSE3)、ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれます。インテルでは、インテル製ではないマイクロプロセッサーに対して、最適化の提供、機能、効果を保証していません。本製品のマイクロプロセッサー固有の最適化は、インテル製マイクロプロセッサーでの使用を目的としています。インテル® マイクロアーキテクチャーに非固有の特定の最適化は、インテル製マイクロプロセッサー向けに予約されています。この注意事項の適用対象である特定の命令セットの詳細は、該当する製品のユーザー・リファレンス・ガイドを参照してください。 改訂 #20110804 |