インテル® MKL 2020 デベロッパー・ガイド
小行列乗算のパフォーマンスをさらに向上するため、インテル® MKL はインテル® Xeon® プロセッサーのインテル® アドバンスト・ベクトル・エクステンション 2 (インテル® AVX2) およびインテル® アドバンスト・ベクトル・エクステンション 512 (インテル® AVX-512) アーキテクチャーにおいて、sgemm および dgemm の Just-in-Time (JIT) コード生成を提供します。JIT コード生成を利用することで、特定の入力パラメーター (行列サイズなど) 向けにカスタマイズされた GEMM カーネルを使用して、小行列乗算のパフォーマンスを大幅に向上できます。
MKL_DIRECT_CALL の JIT ?gemm 機能は、ユーザーによるコード変更が不要です。サイズが小さい場合 (M、N、K≤ 16)、標準の ?gemm 呼び出しは、一部の ?gemm カーネルに対して JIT を起動します。
パフォーマンスをさらに向上するため、専用の JIT API が追加されました。カスタム GEMM カーネルによってもたらされる利点に加えて、この API を利用することで、生成されるカーネルを直接呼出して、ライブラリー・オーバーヘッドを排除できます。詳細は、JIT API ドキュメントを参照してください。
?gemm の JIT コード生成を有効にするには、インテル® MKL のモード (マルチスレッドあるいはシーケンシャル) に応じて、以下のプリプロセッサー・マクロを指定して C または Fortran コードをコンパイルします。
インテル® MKL のモード | マクロ | コンパイラー・オプション |
---|---|---|
マルチスレッド | MKL_DIRECT_CALL_JIT | -DMKL_DIRECT_CALL_JIT |
シーケンシャル | MKL_DIRECT_CALL_SEQ_JIT | -DMKL_DIRECT_CALL_SEQ_JIT |
Fortran アプリケーションの場合:
-fpp オプション (インテル® Fortran コンパイラー) または -Mpreprocess オプション (PGI* コンパイラー) を使用してプリプロセッサーを有効にします。
インテル® MKL の Fortran インクルード・ファイル mkl_direct_call.fi をインクルードします。
JIT コード生成では、次の入力パラメーターを使用する場合、最初に ?gemm を呼び出した際にランタイム・オーバーヘッドが発生します: layout (C のみ)、transa、transb、m、n、k、alpha、lda、ldb、beta、および ldc。JIT コード生成の利点を得るため、同じ GEMM カーネルを (同じ入力パラメーター - layout (C のみ)、transa、transb、m、n、k、alpha、lda、ldb、beta、および ldc で) 複数回 (例えば数百回) 呼び出す必要がある場合にこの機能を使用します。
MKL_DIRECT_CALL_JIT を有効にすると、?gemm を呼び出すたびに、インテル® MKL によって格納されるカーネルが生成される可能性があります。カーネルの格納に使用されるメモリーは、ユーザーが解放することはできず、mkl_finalize が呼び出されるか、インテル® MKL がアンロードされると解放されます。機能のメモリー・フットプリントを制限するため、格納されるカーネルの数は、IA-32 では 1024、インテル® 64 では 4096 に制限されています。
最適化に関する注意事項 |
---|
インテル® コンパイラーでは、インテル® マイクロプロセッサーに限定されない最適化に関して、他社製マイクロプロセッサー用に同等の最適化を行えないことがあります。これには、インテル® ストリーミング SIMD 拡張命令 2、インテル® ストリーミング SIMD 拡張命令 3、インテル® ストリーミング SIMD 拡張命令 3 補足命令などの最適化が該当します。インテルは、他社製マイクロプロセッサーに関して、いかなる最適化の利用、機能、または効果も保証いたしません。本製品のマイクロプロセッサー依存の最適化は、インテル® マイクロプロセッサーでの使用を前提としています。インテル® マイクロアーキテクチャーに限定されない最適化のなかにも、インテル® マイクロプロセッサー用のものがあります。この注意事項で言及した命令セットの詳細については、該当する製品のユーザー・リファレンス・ガイドを参照してください。 注意事項の改訂 #20110804 |