クラスターのベンチマークを行うには、以下の手順に従ってください (一部の手順はオプションです)。ステップ 3 と 4 の繰り返しには特に注意してください。 クラスターが最高のパフォーマンスを得られる HPL パラメーター (HPL.dat で指定) の検索が繰り返されます。
ディストリビューションに含まれている nodeperf.c を実行し、すべてのノードで DGEMM のパフォーマンスを確認します。
MPI およびインテル® マス・カーネル・ライブラリー (インテル® MKL) を使用して nodeperf.c をコンパイルします。 次に例を示します。
mpiicc -O3 nodeperf.c -L$MKLPATH $MKLPATH/libmkl_intel_lp64.a \
-Wl,--start-group $MKLPATH/libmkl_sequential.a \
$MKLPATH/libmkl_core.a -Wl,--end-group -lpthread .
すべてのノードで nodeperf.c を起動することは、非常に大規模なクラスターでは特に有用です。 nodeperf を使用すると、悪いノードを見つけるためにクラスターでさまざまな小さな MP LINPACK 実行を行うことなく、潜在的な問題のスポットを素早く識別することができます。 検索はすべてのノードに対して1 つずつ行われ、DGEMM のパフォーマンスに続けてホスト識別子が報告されます。 このため、DGEMM のパフォーマンスが高いほど、ノードの実行が高速であったことになります。
使用するクラスターに合わせて HPL.dat を編集します。
詳細は、HPL のドキュメントを参照してください。ただし、少なくとも 4 つのノードを使用するようにしてください。
ASYOUGO、ASYOUGO2 または ENDEARLY などのコンパイラー・オプションを使用して HPL を実行します。 これらのオプションを使用することで、パフォーマンスに対する考察が、HPL から通常得られるよりも早く得ることができます。
実行するときは、以下の推奨事項に従ってください。
検索時間を短縮するため、MP LINPACK (HPL のパッチ済みバージョン) を使用してください。
パフォーマンスに影響を与える可能性のあるすべての機能は、MP LINPACK ではコンパイラー・オプションとして提供されています。このため、検索時間を短縮する新しいオプションを使用しない場合、これらの機能は無効になります。拡張の主な目的は、ソリューションを見つけるための支援です。
HPL では、多くの異なるパラメーターの検索に長い時間がかかります。MP LINPACK では、最適な数を得ることが目標です。
入力が固定でない場合、大きなパラメーター空間を検索する必要があります。あらゆる入力の全数検索は、強力なクラスターでもかなりの時間がかかります。MP LINPACK は、オプションで実行中のパフォーマンスの情報を出力します。早く終了することもできます。
-DENDEARLY -DASYOUGO2 を使用してコンパイルし、負のしきい値を使用して時間を短縮できます (Top 500 に提出する最終的な実行で負のしきい値を使用しないでください)。 HPL 2.0 入力ファイル HPL.dat の 13 行でしきい値を設定することができます。
問題の完了まで実行する場合は、-DASYOUGO を使用してください。
迅速なパフォーマンス・フィードバックを使用し、最良のパフォーマンスが得られるまでステップ 3 と 4 を繰り返します。
© 2006 - 2010 Intel Corporation. 無断での引用、転載を禁じます。