インテル® Fortran コンパイラー 19.0 デベロッパー・ガイドおよびリファレンス
ループには、一般的な DO-END DO や DO WHILE、あるいは IF/GOTO やラベルを使用できます。ループは、入口が 1 つだけでかつ出口が 1 つだけでなければ、ベクトル化できません。以下の例は、ベクトル化が可能なループ構造とベクトル化が不可能なループ構造を示しています。
ベクトル化が可能な構造の例 |
---|
|
次の例は、ループが途中で終了する可能性があるために、ベクトル化が不可能なループを示しています。
ベクトル化が不可能な構造の例 |
---|
|
ループ出口条件とは、1 つのループ実行の反復回数を決める条件のことです。for ループの場合は、固定インデックスによって反復回数が決まっています。ループの反復回数は数えられるものでなければなりません。つまり、反復回数を指定するときは次のいずれかを使用しなければなりません。
定数
ループ不変項
最外ループ添字の線形関数
ループ出口が計算に依存する場合、ループは可算ではありません。以下の例は、可算/不可算ループの構造を示しています。
可算ループの例 |
---|
|
次の例は、異なる可算ループ構造を示しています。
可算ループの例 |
---|
|
次の例は、カウント値が異なる依存性ループであるために不可算のループ構造を示しています。
不可算ループの例 |
---|
|
ループのセクション化として知られるストリップマイニングは、メモリーのパフォーマンスを改善する手段で、ループの SIMD エンコーディングを可能にするループ変換テクニックです。大きなループをより小さなセグメントやストリップに断片化することで、このテクニックは次の 2 つの方法でループ構造を変更します。
データがアルゴリズムの異なるパスで再利用可能な場合、データキャッシュ中の一時的な空間を増やします。
各ベクトルの長さ、または SIMD 演算ごとに実行される演算の数により、ループの反復数を減らします。インテル® SSE の場合、このベクトルまたはストリップの長さは 4 分の 1 に減ります (1 つの単精度浮動小数点 SIMD 演算につき 4 つの浮動小数点データ項目が処理されます)。
最初にベクトル化で導入されたこのテクニックは、指定されたベクトルマシンの最大ベクトル長以下のサイズで各ベクトル演算が行われる場合にコードを生成します。
コンパイラーは、自動的にループをストリップマイニングし、クリーンアップ・ループを生成します。例えば、コンパイラーが次のループをストリップマイニングしたと仮定します。
ベクトル化前のコード例 |
---|
|
コンパイラーは、次の方法でループを再構築することにより、ストリップマイニングとループ・クリーニングを制御します。
ベクトル化後のコード例 |
---|
|
ループ・ブロッキング
ループ・ブロッキングを、2 次元またはそれ以上の次元におけるストリップマイニングとして処理することができます。ループ・ブロッキングは、メモリー・パフォーマンスの最適化に有用な手法です。その主な目的は、できるだけ多くのキャッシュミスを排除することです。メモリー領域全域をシーケンシャルにトラバースするのではなく、小さなチャンクに変換します。特定の計算用の全データがキャッシュに格納できるように、各チャンクのサイズは小さいことが条件になります。これにより、最大限のデータ再利用が可能になります。
次の例について考えてみます。2 次元配列 A は、まず j (列) 方向に、その後、i (行) 方向に参照されます (列優先順)。配列 B は逆の順序で参照されます (行優先順)。メモリー配置が列優先順であると仮定します。したがって、このコードの配列 A と B のアクセスのストライドは、それぞれ、1 と MAX になります。BS = block_size となり、MAX は BS で割り切れる必要があります。
次のようなループの例を考えてみます。
元のループの例 |
---|
REAL A(MAX,MAX), B(MAX,MAX) DO I =1, MAX DO J = 1, MAX A(I,J) = A(I,J) + B(J,I) ENDDO ENDDO |
配列は小さなチャンクにブロック化され、2 つのブロック化されたチャンクの合計サイズはキャッシュサイズよりも小さくなります。この結果、データの再利用が改善されます。この処理を行う 1 つの方法を次に示します。
ブロッキングの後の変換されたループの例 |
---|
|
ループ交換はメモリー・アクセス・パターンを向上するためによく使用されます。一般に、行列乗算は下の例のように記述します。
一般的な行列乗算の例 |
---|
|
B(K,J) を使用するのは、ストライド-1 での参照ではないため、効率的にベクトル化されません。
しかし、ループを交換すると、次の例に示すように、すべての参照がストライド-1 となります。
ストライド-1 での行列積の例 |
---|
|
依存関係があるため、交換は常に可能であるとは限りません。依存関係によって異なる結果になる可能性があります。