インテル® C++ コンパイラー XE 13.1 ユーザー・リファレンス・ガイド

自動並列化の概要

インテル® コンパイラーの自動並列化機能は、入力プログラムのシリアル部分を同等のマルチスレッド・コードに自動的に変換します。自動並列化機能は、ワークシェア候補のループを特定し、正しい並列実行を確認するためにデータフロー解析を行います。また、OpenMP* 宣言子のプログラミングに必要な場合には、スレッドコード生成のデータをパーティショニングします。OpenMP* と自動並列化機能では、マルチプロセッサー・システム、デュアルコア・プロセッサー・システム上の共有メモリーによるパフォーマンス・ゲインも実現します。

自動パラレライザーは、アプリケーション・ソース・コード中のループのデータフローを解析して、安全かつ効率的に並列実行可能なループに対するマルチスレッド・コードを生成します。

これにより、対称型マルチプロセッサー (SMP) システムの並列アーキテクチャーを活用できます。

インテル® コンパイラーのガイド付き自動並列化機能は、並列化を行える可能性のあるシリアルコードの部分を見つけるのに役立ちます。-guide (Linux*) または /Qguide (Windows*) コンパイラー・オプションを使用して、並列化、ベクトル化、データ変換に関するアドバイスを得られます。

自動並列化は、次のような開発者の負担を軽減します。

並列ランタイムコードは、ループの反復修正、スレッド・スケジューリング、および同期化の詳細を処理するような、OpenMP* と同じランタイム機能を提供します。-par-runtime-control (Linux*) または /Qpar-runtime-control (Windows*) コンパイラー・オプションを使用して、シンボリック・ループ境界のあるループのランタイムチェックを実行するコードを生成できます。 ループは、ループ粒度が並列化しきい値より高い場合、並列実行されます。並列化しきい値は、-par-threshold (Linux*) または /Qpar-threshold (Windows*) コンパイラー・オプションを使用して設定できます。これは、並列実行が効果的である可能性に基づいてループの自動並列化のしきい値を設定します。

OpenMP* 宣言子はシリアル・アプリケーションを素早く並列アプリケーションに変換できますが、開発者は、並列処理を含み、適切なコンパイラー宣言子を追加するアプリケーション・コードの特定部分を明示的に識別する必要があります。-parallel (Linux* および OS X*) または /Qparallel (Windows*) オプションで起動された自動並列化は、並列処理を含むループ構造を自動的に識別します。コンパイル中、コンパイラーは、並列処理のためにコードシーケンスを別々のスレッドに自動的に分割しようと試みます。ほかに開発者にかかる負荷はありません。

Linux* または OS X* システムで、自動並列化を使用するプログラムを実行するには、プログラムをコンパイルおよびリンクする際に、-parallel コンパイラー・オプションを含める必要があります。

このオプションを使用すると、互換マイクロプロセッサーおよびインテル製マイクロプロセッサーの両方で並列化が有効になります。実行ファイルでは、互換マイクロプロセッサーよりもインテル製マイクロプロセッサーにおいてより優れたパフォーマンスが得られる可能性があります。また、並列化は、/arch/Qx (Windows*) または -m-x (Linux* および OS X*) などの特定のオプションによる影響を受けます。

シリアルコードは分割できるので、コードを複数のスレッドで同時に実行することができます。例えば、次のようなシリアルコードの例を考えてみます。

例 1: オリジナルのシリアルコード

void ser(int *a, int *b, int *c)
{
  for (int i=0; i<100; i++)
    a[i] = a[i] + b[i] * c[i];
}

次の例は、2 つのスレッドで同時に実行できるように、前の例で示したループの反復空間を分割する方法を示しています。

例 2: 変換された並列コード

void par(int *a, int *b, int *c)
{
  int i;
  // Thread 1
  for (i=0; i<50; i++)
    a[i] = a[i] + b[i] * c[i];
  // Thread 2
  for (i=50; i<100; i++)
    a[i] = a[i] + b[i] * c[i];
}

自動ベクトル化と並列化

ベクトル化の自動処理機能は、並列で実行できるプログラム内の演算を検出し、シーケンシャル・プログラムをデータ型に応じて、2、4、8、または 16 までの要素を 1 つの演算で処理するように変換します。場合によっては、自動並列化とベクトル化を組み合わせて最良のパフォーマンスを得ることができます。

-vec (Linux*) または /Qvec (Windows*) オプションを使用すると、インテル製マイクロプロセッサーおよび互換マイクロプロセッサーにおいて、デフォルトの最適化レベルでベクトル化が有効になります。ベクトル化により呼び出されるライブラリー・ルーチンは、互換マイクロプロセッサーよりもインテル製マイクロプロセッサーにおいてより優れたパフォーマンスが得られる可能性があります。また、ベクトル化は、/arch/Qx (Windows*) または -m-x (Linux* および OS X*) などの特定のオプションによる影響を受けます。

次の例では、並列化とベクトル化による利点を明示的に得るためのコードの記述方法を示します。-parallel (Linux*) または /Qparallel (Windows*) を使用して下記のコードをコンパイルすると、コンパイラーは外側のループを並列化して、最内ループをベクトル化します。

#include <stdio.h>
#define ARR_SIZE 500 //Define array
int main()
{
  int matrix[ARR_SIZE][ARR_SIZE];
  int arrA[ARR_SIZE]={10};
  int arrB[ARR_SIZE]={30};
  int i, j;
  for(i=0;i<ARR_SIZE;i++)
   {
     for(j=0;j<ARR_SIZE;j++)
      {
       matrix[i][j] = arrB[i]*(arrA[i]%2+10);
      }
   }
   printf("%d\n",matrix[0][0]);
}

正しいオプションを使用して上記の例をコンパイルすると、コンパイラーは次のような結果を表示します。

vectorization.c(18) : (列 6) リマーク: ループがベクトル化されました

vectorization.c(16) : (列 3) リマーク: ループが自動並列化されました

OpenMP* 宣言子を各自のコードに追加するだけの簡単な処理で、開発者はシーケンシャル・プログラムを並列プログラムに変換できます。OpenMP* を使用するオプションは、インテル製マイクロプロセッサーおよび互換マイクロプロセッサーの両方で利用可能ですが、両者では結果が異なります。両者の結果が異なる可能性のある OpenMP* 構造および機能の主なリストは次のとおりです: ロック (内部的なものおよびユーザーが利用可能なもの)、SINGLE 構造、バリア (暗黙的および明示的)、並列ループ・スケジューリング、リダクション、メモリーの割り当て、スレッド・アフィニティー、バインド。

次の例では、コード内で OpenMP* プラグマを使用する 1 つの方法を示します。

#include <stdio.h>
#define ARR_SIZE 100 //Define array
void foo(int ma[][ARR_SIZE], int mb[][ARR_SIZE], int *a, int *b, int *c);
int main()
{
  int arr_a[ARR_SIZE];
  int arr_b[ARR_SIZE];
  int arr_c[ARR_SIZE];
  int i,j;
  int matrix_a[ARR_SIZE][ARR_SIZE];
  int matrix_b[ARR_SIZE][ARR_SIZE];
  #pragma omp parallel for
// Initialize the arrays and matrices.
  for(i=0;i<ARR_SIZE; i++)
  {
    arr_a[i]= i;
    arr_b[i]= i;
    arr_c[i]= ARR_SIZE-i;
    for(j=0; j<ARR_SIZE;j++)
    {
       matrix_a[i][j]= j;
       matrix_b[i][j]= i;
    }
  }
  foo(matrix_a, matrix_b, arr_a, arr_b, arr_c);
}
void foo(int ma[][ARR_SIZE], int mb[][ARR_SIZE], int *a, int *b, int *c)
{                                  
  int i, num, arr_x[ARR_SIZE];
  #pragma omp parallel for private(num)
// Expresses the parallelism using the OpenMP pragma: parallel for.
// The pragma guides the compiler generating multithreaded code.
// Array arr_X, mb, b, and c are shared among threads based on OpenMP
// data sharing rules. Scalar num si specifed as private
// for each thread.
  for(i=0;i<ARR_SIZE;i++)
   {
     num = ma[b[i]][c[i]];
     arr_x[i]= mb[a[i]][num];
     printf("Values: %d\n", arr_x[i]); //prints values 0-ARR_SIZE-1
   }
}

最適化に関する注意事項

インテル® コンパイラーは、互換マイクロプロセッサー向けには、インテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性があります。これには、インテル® ストリーミング SIMD 拡張命令 2 (インテル® SSE2)、インテル® ストリーミング SIMD 拡張命令 3 (インテル® SSE3)、ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれます。インテルでは、インテル製ではないマイクロプロセッサーに対して、最適化の提供、機能、効果を保証していません。本製品のマイクロプロセッサー固有の最適化は、インテル製マイクロプロセッサーでの使用を目的としています。インテル® マイクロアーキテクチャーに非固有の特定の最適化は、インテル製マイクロプロセッサー向けに予約されています。この注意事項の適用対象である特定の命令セットの詳細は、該当する製品のユーザー・リファレンス・ガイドを参照してください。

改訂 #20110804

関連情報


このヘルプトピックについてのフィードバックを送信