インテル® C++ コンパイラー 15.0 ユーザー・リファレンス・ガイド
このトピックは、インテル® グラフィックス・テクノロジー向けのインテル® 64 アーキテクチャーと IA-32 アーキテクチャーにのみ適用されます。
並列コードを繰り返し実行するには、アルゴリズムが必要です。次の例の最外 for ループについて考えてみます。
for (int k = 0; k < numNodes; k++) { #pragma offload target(gfx) … _Cilk_for (unsigned int y = 0; y < numNodes; ++y) { … } }
オフロードブロックは numNodes 回実行され、k ループの各反復の結果に依存する CPU 側の実行はありません。 コンパイラーとランタイムは、ループ不変のオフロードロジックをループ (ここでは k ループ) から取り出し、個々のオフロードタスクの完了を待たずに複数のオフロードタスクをキューに追加することで、このようなパターンをさらに最適化できます。これにより、速度が大幅に向上します。 ただし、次の条件を満たしていなければなりません。
手動または自動で、#pragma offload ブロックをループ内にインライン展開します。
ループ・インデックスのインクリメントを除いて、ループにはホスト側の処理を含めてはなりません。
インテル® コンパイラーは、互換マイクロプロセッサー向けには、インテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性があります。これには、インテル® ストリーミング SIMD 拡張命令 2 (インテル® SSE2)、インテル® ストリーミング SIMD 拡張命令 3 (インテル® SSE3)、ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれます。インテルでは、インテル製ではないマイクロプロセッサーに対して、最適化の提供、機能、効果を保証していません。本製品のマイクロプロセッサー固有の最適化は、インテル製マイクロプロセッサーでの使用を目的としています。インテル® マイクロアーキテクチャーに非固有の特定の最適化は、インテル製マイクロプロセッサー向けに予約されています。この注意事項の適用対象である特定の命令セットの詳細は、該当する製品のユーザー・リファレンス・ガイドを参照してください。 改訂 #20110804 |