インテル® MKL 11.3 を使用した行列乗算チュートリアル
インテル® MKL には、パフォーマンスを測定する関数が用意されています。ここでは、このチュートリアルでインテル® MKL ルーチンを使用したことによりどの程度パフォーマンスが向上したかを測定する方法を示します。
dsecnd ルーチンを使用して経過 CPU 時間を秒で返します。
dgemm ルーチンは迅速に実行されるため、大きな行列を計算した場合でも、速度を測定することは困難です。 このため、演習では乗算を複数回実行します。合計実行時間が約 1 秒になるように LOOP_COUNT 定数の値を設定します。
* Fortran ソースコードは dgemm_with_timing.f を参照 PRINT *, "Making the first run of matrix product using " PRINT *, "Intel® MKL DGEMM subroutine to get stable " PRINT *, "run time measurements" PRINT *, "" CALL DGEMM('N','N',M,N,K,ALPHA,A,M,B,K,BETA,C,M) PRINT *, "Measuring performance of matrix product using " PRINT *, "Intel® MKL DGEMM subroutine" PRINT *, "" S_INITIAL = DSECND() DO R = 1, LOOP_COUNT CALL DGEMM('N','N',M,N,K,ALPHA,A,M,B,K,BETA,C,M) END DO S_ELAPSED = (DSECND() - S_INITIAL) / LOOP_COUNT PRINT *, "== Matrix multiplication using Intel® MKL DGEMM ==" PRINT 50, " == completed at ",S_ELAPSED*1000," milliseconds ==" 50 FORMAT(A,F12.5,A) PRINT *, ""
dgemm を使用した場合のパフォーマンスの向上を示すため、三重に入れ子にしたループを使用して同じ行列乗算を行った結果を測定します。
* Fortran ソースコードは matrix_multiplication.f を参照 PRINT *, "Making the first run of matrix product using " PRINT *, "triple nested loop to get stable run time" PRINT *, "measurements" PRINT *, "" DO I = 1, M DO J = 1, N TEMP = 0.0 DO L = 1, K TEMP = TEMP + A(I,L) * B(L,J) END DO C(I,J) = TEMP END DO END DO PRINT *, "Measuring performance of matrix product using " PRINT *, "triple nested loop" PRINT *, "" S_INITIAL = DSECND() DO R = 1, LOOP_COUNT DO I = 1, M DO J = 1, N TEMP = 0.0 DO L = 1, K TEMP = TEMP + A(I,L) * B(L,J) END DO C(I,J) = TEMP END DO END DO END DO S_ELAPSED = (DSECND() - S_INITIAL) / LOOP_COUNT PRINT *, "== Matrix multiplication using triple nested loop ==" PRINT 50, " == completed at ",S_ELAPSED*1000," milliseconds ==" 50 FORMAT(A,F12.5,A) PRINT *, ""
dgemm を使用した最初の演習の結果と、dgemm を使用しない 2 つ目の演習の結果を比較します。
インテル® MKL のパフォーマンス測定の詳細については、インテル® MKL ナレッジベースの記事、「A simple example to measure the performance of an Intel MKL function (インテル® MKL 関数のパフォーマンスを測定する単純な例)」を参照してください。