インテル® MKL 2020 デベロッパー・ガイド
インテル® Optimized HPCG のパフォーマンスは、ホストのハードウェア構成、使用される MPI 実装を含む (ただし、これらに限定されない)、多くのシステム・パラメーターに依存します。特定のシステム構成で最適なパフォーマンスを得るには、以下のパラメーターの組み合わせを選択します。
ホストごとの MPI プロセスの数およびプロセスごとの OpenMPI スレッドの数
ローカル問題サイズ
インテル® Xeon® プロセッサー・ベースのクラスターでは、対応している命令セットに応じてベンチマークのインテル® AVX、インテル® AVX2、またはインテル® AVX-512 向けに最適化されたバージョンを使用し、CPU ソケットごとに 1 つの MPI プロセス、物理 CPU コアごとに 1 つの OpenMP* スレッドを実行して、SMT スレッドをスキップします。
インテル® Xeon Phi™ プロセッサー・ベースのシステムでは、インテル® AVX-512 向けに最適化されたバージョンを使用し、プロセッサーごとに 4 つの MPI プロセスを実行します。各プロセッサー・コアでは、OpenMP* スレッドの数は 2 に設定し、SMT を有効にします。例: インテル® Xeon Phi™ プロセッサー 7250 (68 コア) では、各 MPI プロセスで 34 の OpenMP* スレッドを実行します。
最高のパフォーマンスを得るには、利用可能なコアを適切に使用する十分大きな (ただし大きすぎない) 問題サイズを使用して、すべてのタスクが利用可能なメモリーに収まるようにします。
最適化に関する注意事項 |
---|
インテル® コンパイラーでは、インテル® マイクロプロセッサーに限定されない最適化に関して、他社製マイクロプロセッサー用に同等の最適化を行えないことがあります。これには、インテル® ストリーミング SIMD 拡張命令 2、インテル® ストリーミング SIMD 拡張命令 3、インテル® ストリーミング SIMD 拡張命令 3 補足命令などの最適化が該当します。インテルは、他社製マイクロプロセッサーに関して、いかなる最適化の利用、機能、または効果も保証いたしません。本製品のマイクロプロセッサー依存の最適化は、インテル® マイクロプロセッサーでの使用を前提としています。インテル® マイクロアーキテクチャーに限定されない最適化のなかにも、インテル® マイクロプロセッサー用のものがあります。この注意事項で言及した命令セットの詳細については、該当する製品のユーザー・リファレンス・ガイドを参照してください。 注意事項の改訂 #20110804 |