インテル® MKL 11.3 ユーザーズガイド

クラスターにおける結果の最適化

クラスターのベンチマークを行うには、以下の手順に従ってください (一部の手順はオプションです)。ステップ 34 の繰り返しには特に注意してください。 クラスターのパフォーマンスを最大限に引き出せる HPL パラメーター (HPL.dat で指定) の検索が繰り返されます。

  1. HPL をインストールして、HPL がすべてのノードで機能していることを確認します。
  2. (オプション) ディストリビューションに含まれている nodeperf.c を実行し、すべてのノードで DGEMM のパフォーマンスを確認します。

    MPI およびインテル® MKL を使用して nodeperf.c をコンパイルします。 次に例を示します。

    
    icl /Za /O3 /w /D_WIN_ /I"<MPI ライブラリーのホーム・ディレクトリー>\include" "<MPI のホーム・ディレクトリー>\<MPI ライブラリー>"
    "<mkl ディレクトリー>\lib\intel64\mkl_core.lib"
    "<親製品のディレクトリー>\lib\intel64\libiomp5md.lib" nodeperf.c 
                    
                    

    <MPI ライブラリー> は、Microsoft* MPI の場合は msmpi.lib、MPICH の場合は mpi.lib です。

    すべてのノードで nodeperf を起動することは、非常に大規模なクラスターでは特に有用です。nodeperf を使用すると、悪いノードを見つけるためにクラスターでさまざまな小さな Intel® Optimized MP LINPACK Benchmark 実行を行うことなく、潜在的な問題のスポットを素早く識別することができます。 検索はすべてのノードに対して 1 つずつ行われ、DGEMM のパフォーマンスに続けてホスト識別子が報告されます。 このため、DGEMM のパフォーマンスが高いほど、ノードの実行が高速であったことになります。

  3. 使用するクラスターに合わせて HPL.dat を編集します。
    詳細は、HPL のドキュメントを参照してください。 ただし、少なくとも 4 つのノードを使用するようにしてください。

  4. -DASYOUGO-DASYOUGO2 または -DENDEARLY などのコンパイラー・オプションを使用して HPL を実行します。 これらのオプションを使用することで、パフォーマンスに対する考察が、HPL から通常得られるよりも早く得ることができます。

    実行するときは、以下の推奨事項に従ってください。

    • 検索時間を短縮するため、Intel® Optimized MP LINPACK Benchmark (HPL のパッチ済みバージョン) を使用してください。

      Intel® Optimized MP LINPACK Benchmark では、パフォーマンスに影響を与える可能性のある機能はすべてオプションです。このため、検索時間を短縮する新しいオプションを使用しない場合、これらの機能は無効になります。拡張の主な目的は、ソリューションを見つけるための支援です。

      HPL では、多くの異なるパラメーターの検索に長い時間がかかりますが、Intel® Optimized MP LINPACK Benchmark では、最適な数を得ることを目標にしています。

      入力が固定でない場合、大きなパラメーター空間を検索する必要があります。あらゆる入力の全数検索は、強力なクラスターでもかなりの時間がかかります。Intel®Optimized MP LINPACK Benchmark は、オプションで実行中のパフォーマンスの情報を出力します。早く終了することもできます。

    • -DENDEARLY-DASYOUGO2 を使用してコンパイルし、負のしきい値を使用して時間を短縮できます (TOP 500 に提出する最終的な実行で負のしきい値を使用しないでください)。 HPL 2.1 入力ファイル HPL.dat の 13 行でしきい値を設定することができます。

    • 問題の完了まで実行する場合は、-DASYOUGO を使用してください。

  5. 迅速なパフォーマンス・フィードバックを使用し、最良のパフォーマンスが得られるまでステップ 3 と 4 を繰り返します。

最適化に関する注意事項

インテル® コンパイラーは、互換マイクロプロセッサー向けには、インテル製マイクロプロセッサー向けと同等レベルの最適化が行われない可能性があります。これには、インテル® ストリーミング SIMD 拡張命令 2 (インテル® SSE2)、インテル® ストリーミング SIMD 拡張命令 3 (インテル® SSE3)、ストリーミング SIMD 拡張命令 3 補足命令 (SSSE3) 命令セットに関連する最適化およびその他の最適化が含まれます。インテルでは、インテル製ではないマイクロプロセッサーに対して、最適化の提供、機能、効果を保証していません。本製品のマイクロプロセッサー固有の最適化は、インテル製マイクロプロセッサーでの使用を目的としています。インテル® マイクロアーキテクチャーに非固有の特定の最適化は、インテル製マイクロプロセッサー向けに予約されています。この注意事項の適用対象である特定の命令セットの詳細は、該当する製品のユーザー・リファレンス・ガイドを参照してください。

改訂 #20110804

関連情報