自動並列化

インテル® Fortran コンパイラー 18.0 デベロッパー・ガイドおよびリファレンス

インテル® Fortran コンパイラーの自動並列化機能は、入力プログラムのシリアル部分を同等のマルチスレッド・コードに自動的に変換します。自動並列化機能は、ワークシェア候補のループを特定し、正しい並列実行を確認するためにデータフロー解析を行います。また、OpenMP* ディレクティブのプログラミングに必要な場合には、スレッドコード生成のデータをパーティショニングします。OpenMP* と自動並列化機能では、マルチプロセッサー・システム、デュアルコア・プロセッサー・システム上の共有メモリーによるパフォーマンス・ゲインも実現します。

自動並列化は、アプリケーション・ソース・コード中のループのデータフローを解析して、安全かつ効率的に並列実行可能なループに対するマルチスレッド・コードを生成します。

これにより、対称型マルチプロセッサー (SMP) システムの並列アーキテクチャーを活用できます。

インテル® Fortran コンパイラーのガイド付き自動並列化機能は、並列化を行える可能性のあるシリアルコードの部分を見つけるのに役立ちます。[Q]guide コンパイラー・オプションを使用して、並列化、ベクトル化、データ変換に関するアドバイスを得られます。

自動並列化は、次のような開発者の負担を軽減します。

ワークシェア候補であるループを見つける。
正しい並列実行を確認するためにデータフロー解析を行う。
OpenMP* ディレクティブのプログラミングに必要な場合、スレッドコード生成のデータをパーティショニングする。

OpenMP* ディレクティブはシリアル・アプリケーションを素早く並列アプリケーションに変換できますが、開発者は、並列処理を含み、適切なコンパイラー・ディレクティブを追加するアプリケーション・コードの特定部分を明示的に識別する必要があります。[Q]parallel オプションで起動された自動並列化は、並列処理を含むループ構造を自動的に識別します。コンパイル中、コンパイラーは、並列処理のためにコードシーケンスを別々のスレッドに自動的に分割しようと試みます。ほかに開発者にかかる負荷はありません。

注

Linux* または macOS* システムで、自動並列化を使用するプログラムを実行するには、プログラムをコンパイルおよびリンクする際に、-parallel コンパイラー・オプションを含める必要があります。

注

このオプションを使用すると、互換マイクロプロセッサーおよびインテル製マイクロプロセッサーの両方で並列化が有効になります。実行ファイルは、互換マイクロプロセッサーよりもインテル製マイクロプロセッサーにおいてより優れたパフォーマンスが得られる可能性があります。また、並列化は、/arch (Windows*)、-m (Linux* および macOS*)、[Q]x などの特定のオプションによる影響を受けます。

シリアルコードは分割できるので、コードを複数のスレッドで同時に実行することができます。例えば、次のようなシリアルコードの例を考えてみます。

例 1: オリジナルのシリアルコード
`subroutine ser(a, b, c) integer, dimension(100) :: a, b, c do i=1,100 a(i) = a(i) + b(i) * c(i) enddo end subroutine ser`

次の例は、2 つのスレッドで同時に実行できるように、前の例で示したループの反復空間を分割する方法を示しています。

例 2: 変換された並列コード
`subroutine par(a, b, c) integer, dimension(100) :: a, b, c ! スレッド 1 do i=1,50 a(i) = a(i) + b(i) * c(i) enddo ! スレッド 2 do i=51,100 a(i) = a(i) + b(i) * c(i) enddo end subroutine par`

自動ベクトル化と並列化

ベクトル化の自動処理機能は、並列で実行できるプログラム内の演算を検出し、シーケンシャル・プログラムをデータ型に応じて、2、4、8、または 16 までの要素を 1 つの演算で処理するように変換します。場合によっては、自動並列化とベクトル化を組み合わせて最良のパフォーマンスを得ることができます。下記のコードでは、スレッドレベルの並列処理は最外ループで、命令レベルの並列処理は最内ループで使用できます。

例
`DO I = 1, 100 ! 異なるスレッドで反復のグループを実行 (TLP) DO J = 1, 32 ! マルチメディア拡張を含む SIMD スタイルで実行 (ILP) A(J,I) = A(J,I) + 1 ENDDO ENDDO`

OpenMP* ディレクティブを各自のコードに追加するだけの簡単な処理で、開発者はシーケンシャル・プログラムを並列プログラムに変換できます。OpenMP* ディレクティブを有効にするには、[Q]openmp オプションを指定する必要があります。次に、コード内の OpenMP* ディレクティブの例を示します。

例
`!OMP$ PARALLEL PRIVATE(NUM), SHARED (X,A,B,C) ! 並列実行領域を定義します !OMP$ PARALLEL DO ! 暗黙的に 1 つの DO ディレクティブを ! 含む並列領域を指定します DO I = 1, 1000 NUM = FOO(B(i), C(I)) X(I) = BAR(A(I), NUM) ! FOO と BAR にその他の効果がないことを仮定します ENDDO`

例

!OMP$ PARALLEL PRIVATE(NUM), SHARED (X,A,B,C) 
! 並列実行領域を定義します
!OMP$ PARALLEL DO 
! 暗黙的に 1 つの DO ディレクティブを
! 含む並列領域を指定します
DO I = 1, 1000
  NUM = FOO(B(i), C(I))
  X(I) = BAR(A(I), NUM) 
! FOO と BAR にその他の効果がないことを仮定します
ENDDO

注

OpenMP* を使用するオプションは、インテル製マイクロプロセッサーおよび互換マイクロプロセッサーの両方で利用可能ですが、両者では結果が異なります。両者の結果が異なる可能性のある OpenMP* 構造および機能の主なリストは次のとおりです: ロック (内部的なものおよびユーザーが利用可能なもの)、SINGLE 構造、バリア (暗黙的および明示的)、並列ループ・スケジュール、リダクション、メモリーの割り当て、スレッド・アフィニティー、バインド。

並列化レポートの使用

並列化レポートを生成するには、-qopt-report-phase=par (Linux* および macOS*) または /Qopt-report-phase:par (Windows*) と -qopt-report=n (Linux* および macOS*) または /Qopt-report:n (Windows*) を一緒に指定します。デフォルトでは、中レベルの詳細 (n=2) が含まれる自動並列化レポートを生成します。異なる詳細レベルのレポートを生成するには、[Q]opt-report オプションと [Q]opt-report-phase の引数を変更します。n=5 を指定すると、最大限の情報を含むレポートが生成されます。

次のようなコマンドを入力して、レポートを生成します。

オペレーティング・システム	コマンド
Linux*	`ifort -c -parallel -qopt-report-phase=par -qopt-report:5 sample.cpp`
macOS*	`ifort -c -parallel -qopt-report-phase=par -qopt-report:5 sample.cpp`
Windows*	`ifort sample.cpp /c /Qparallel /Qopt-report-phase=par /Qopt-report:5`

注

-c (Linux* および macOS*) または /c (Windows*) を指定すると、リンクは行われず、オブジェクト・ファイル生成後にコンパイルが停止されます。上記のコマンド例は、実行ファイルを生成せずにコンパイルします。

レポートは、デフォルトでオブジェクト・ファイルと同じディレクトリーに出力され、ファイル名はオブジェクト・ファイルと同じで拡張子は .optrpt になります。上記のコマンドライン例では、sample.optrpt という名前の出力ファイルが生成されます。異なる出力ファイル名を指定するには、[Q]opt-report-file を使用します。stdout または stderr に出力するには、引数 stdout または stderr を指定します。

レポート生成オプションの詳細は、「最適化レポートオプション」を参照してください。

自動並列化

注

注

自動ベクトル化と並列化

注

並列化レポートの使用

注

関連情報