インテル® C++ コンパイラー 19.0 デベロッパー・ガイドおよびリファレンス

算術演算の組込み関数

インテル® アドバンスト・ベクトル・エクステンション 512 (インテル® AVX-512) 組込み関数のプロトタイプは、zmmintrin.h ヘッダーファイルで定義されていますが、これらの組込み関数を使用する場合、次のように immintrin.h ファイルをインクルードします。

#include <immintrin.h>


変数 定義
src

書き込みマスクの結果に応じて使用されるソース要素

k

セレクターとして使用される書き込みマスク

a

1 つ目のソースベクトルの要素

b

2 つ目のソースベクトルの要素

c

3 つ目のソースベクトルの要素


_mm_mask_add_pd

__m128d _mm_mask_add_pd(__m128d src, __mmask8 k, __m128d a, __m128d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vaddpd

ab のパックド倍精度 (64 ビット) 浮動小数点要素を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_add_pd

__m128d _mm_maskz_add_pd(__mmask8 k, __m128d a, __m128d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vaddpd

ab のパックド倍精度 (64 ビット) 浮動小数点要素を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_add_pd

__m256d _mm256_mask_add_pd(__m256d src, __mmask8 k, __m256d a, __m256d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vaddpd

ab のパックド倍精度 (64 ビット) 浮動小数点要素を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_add_pd

__m256d _mm256_maskz_add_pd(__mmask8 k, __m256d a, __m256d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vaddpd

ab のパックド倍精度 (64 ビット) 浮動小数点要素を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_add_ps

__m128 _mm_mask_add_ps(__m128 src, __mmask8 k, __m128 a, __m128 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vaddps

ab のパックド単精度 (32 ビット) 浮動小数点要素を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_add_ps

__m128 _mm_maskz_add_ps(__mmask8 k, __m128 a, __m128 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vaddps

ab のパックド単精度 (32 ビット) 浮動小数点要素を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_add_ps

__m256 _mm256_mask_add_ps(__m256 src, __mmask8 k, __m256 a, __m256 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vaddps

ab のパックド単精度 (32 ビット) 浮動小数点要素を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_add_ps

__m256 _mm256_maskz_add_ps(__mmask8 k, __m256 a, __m256 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vaddps

ab のパックド単精度 (32 ビット) 浮動小数点要素を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_div_pd

__m128d _mm_mask_div_pd(__m128d src, __mmask8 k, __m128d a, __m128d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vdivpd

a のパックド倍精度 (64 ビット) 浮動小数点要素を b のパックド要素で割り、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_div_pd

__m128d _mm_maskz_div_pd(__mmask8 k, __m128d a, __m128d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vdivpd

a のパックド倍精度 (64 ビット) 浮動小数点要素を b のパックド要素で割り、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_div_pd

__m256d _mm256_mask_div_pd(__m256d src, __mmask8 k, __m256d a, __m256d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vdivpd

a のパックド倍精度 (64 ビット) 浮動小数点要素を b のパックド要素で割り、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_div_pd

__m256d _mm256_maskz_div_pd(__mmask8 k, __m256d a, __m256d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vdivpd

a のパックド倍精度 (64 ビット) 浮動小数点要素を b のパックド要素で割り、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_div_ps

__m128 _mm_mask_div_ps(__m128 src, __mmask8 k, __m128 a, __m128 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vdivps

a のパックド単精度 (32 ビット) 浮動小数点要素を b のパックド要素で割り、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_div_ps

__m128 _mm_maskz_div_ps(__mmask8 k, __m128 a, __m128 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vdivps

a のパックド単精度 (32 ビット) 浮動小数点要素を b のパックド要素で割り、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_div_ps

__m256 _mm256_mask_div_ps(__m256 src, __mmask8 k, __m256 a, __m256 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vdivps

a のパックド単精度 (32 ビット) 浮動小数点要素を b のパックド要素で割り、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_div_ps

__m256 _mm256_maskz_div_ps(__mmask8 k, __m256 a, __m256 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vdivps

a のパックド単精度 (32 ビット) 浮動小数点要素を b のパックド要素で割り、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_fmadd_pd

__m128d _mm_mask_fmadd_pd(__m128d a, __mmask8 k, __m128d b, __m128d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmadd132pd、vfmadd213pd、vfmadd231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に中間結果を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm_mask3_fmadd_pd

__m128d _mm_mask3_fmadd_pd(__m128d a, __m128d b, __m128d c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmadd132pd、vfmadd213pd、vfmadd231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に中間結果を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm_maskz_fmadd_pd

__m128d _mm_maskz_fmadd_pd(__mmask8 k, __m128d a, __m128d b, __m128d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmadd132pd、vfmadd213pd、vfmadd231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に中間結果を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_fmadd_pd

__m256d _mm256_mask_fmadd_pd(__m256d a, __mmask8 k, __m256d b, __m256d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmadd132pd、vfmadd213pd、vfmadd231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に中間結果を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm256_mask3_fmadd_pd

__m256d _mm256_mask3_fmadd_pd(__m256d a, __m256d b, __m256d c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmadd132pd、vfmadd213pd、vfmadd231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に中間結果を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm256_maskz_fmadd_pd

__m256d _mm256_maskz_fmadd_pd(__mmask8 k, __m256d a, __m256d b, __m256d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmadd132pd、vfmadd213pd、vfmadd231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に中間結果を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_fmadd_ps

__m128 _mm_mask_fmadd_ps(__m128 a, __mmask8 k, __m128 b, __m128 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmadd132ps、vfmadd213ps、vfmadd231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に中間結果を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm_mask3_fmadd_ps

__m128 _mm_mask3_fmadd_ps(__m128 a, __m128 b, __m128 c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmadd132ps、vfmadd213ps、vfmadd231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に中間結果を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm_maskz_fmadd_ps

__m128 _mm_maskz_fmadd_ps(__mmask8 k, __m128 a, __m128 b, __m128 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmadd132ps、vfmadd213ps、vfmadd231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に中間結果を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_fmadd_ps

__m256 _mm256_mask_fmadd_ps(__m256 a, __mmask8 k, __m256 b, __m256 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmadd132ps、vfmadd213ps、vfmadd231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に中間結果を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm256_mask3_fmadd_ps

__m256 _mm256_mask3_fmadd_ps(__m256 a, __m256 b, __m256 c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmadd132ps、vfmadd213ps、vfmadd231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に中間結果を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm256_maskz_fmadd_ps

__m256 _mm256_maskz_fmadd_ps(__mmask8 k, __m256 a, __m256 b, __m256 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmadd132ps、vfmadd213ps、vfmadd231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に中間結果を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_fmaddsub_pd

__m128d _mm_mask_fmaddsub_pd(__m128d a, __mmask8 k, __m128d b, __m128d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmaddsub132pd、vfmaddsub213pd、vfmaddsub231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素と中間結果の加算および減算を行い、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm_mask3_fmaddsub_pd

__m128d _mm_mask3_fmaddsub_pd(__m128d a, __m128d b, __m128d c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmaddsub132pd、vfmaddsub213pd、vfmaddsub231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素と中間結果の加算および減算を行い、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm_maskz_fmaddsub_pd

__m128d _mm_maskz_fmaddsub_pd(__mmask8 k, __m128d a, __m128d b, __m128d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmaddsub132pd、vfmaddsub213pd、vfmaddsub231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素と中間結果の加算および減算を行い、ゼロマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_fmaddsub_pd

__m256d _mm256_mask_fmaddsub_pd(__m256d a, __mmask8 k, __m256d b, __m256d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmaddsub132pd、vfmaddsub213pd、vfmaddsub231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素と中間結果の加算および減算を行い、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm256_mask3_fmaddsub_pd

__m256d _mm256_mask3_fmaddsub_pd(__m256d a, __m256d b, __m256d c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmaddsub132pd、vfmaddsub213pd、vfmaddsub231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素と中間結果の加算および減算を行い、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm256_maskz_fmaddsub_pd

__m256d _mm256_maskz_fmaddsub_pd(__mmask8 k, __m256d a, __m256d b, __m256d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmaddsub132pd、vfmaddsub213pd、vfmaddsub231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素と中間結果の加算および減算を行い、ゼロマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_fmaddsub_ps

__m128 _mm_mask_fmaddsub_ps(__m128 a, __mmask8 k, __m128 b, __m128 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmaddsub132ps、vfmaddsub213ps、vfmaddsub231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素と中間結果の加算および減算を行い、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm_mask3_fmaddsub_ps

__m128 _mm_mask3_fmaddsub_ps(__m128 a, __m128 b, __m128 c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmaddsub132ps、vfmaddsub213ps、vfmaddsub231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素と中間結果の加算および減算を行い、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm_maskz_fmaddsub_ps

__m128 _mm_maskz_fmaddsub_ps(__mmask8 k, __m128 a, __m128 b, __m128 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmaddsub132ps、vfmaddsub213ps、vfmaddsub231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素と中間結果の加算および減算を行い、ゼロマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_fmaddsub_ps

__m256 _mm256_mask_fmaddsub_ps(__m256 a, __mmask8 k, __m256 b, __m256 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmaddsub132ps、vfmaddsub213ps、vfmaddsub231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素と中間結果の加算および減算を行い、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm256_mask3_fmaddsub_ps

__m256 _mm256_mask3_fmaddsub_ps(__m256 a, __m256 b, __m256 c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmaddsub132ps、vfmaddsub213ps、vfmaddsub231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素と中間結果の加算および減算を行い、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm256_maskz_fmaddsub_ps

__m256 _mm256_maskz_fmaddsub_ps(__mmask8 k, __m256 a, __m256 b, __m256 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmaddsub132ps、vfmaddsub213ps、vfmaddsub231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素と中間結果の加算および減算を行い、ゼロマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_fmsub_pd

__m128d _mm_mask_fmsub_pd(__m128d a, __mmask8 k, __m128d b, __m128d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsub132pd、vfmsub213pd、vfmsub231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、中間結果から c のパックド要素を減算し、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm_mask3_fmsub_pd

__m128d _mm_mask3_fmsub_pd(__m128d a, __m128d b, __m128d c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsub132pd、vfmsub213pd、vfmsub231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、中間結果から c のパックド要素を減算し、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm_maskz_fmsub_pd

__m128d _mm_maskz_fmsub_pd(__mmask8 k, __m128d a, __m128d b, __m128d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsub132pd、vfmsub213pd、vfmsub231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、中間結果から c のパックド要素を減算し、ゼロマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_fmsub_pd

__m256d _mm256_mask_fmsub_pd(__m256d a, __mmask8 k, __m256d b, __m256d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsub132pd、vfmsub213pd、vfmsub231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、中間結果から c のパックド要素を減算し、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm256_mask3_fmsub_pd

__m256d _mm256_mask3_fmsub_pd(__m256d a, __m256d b, __m256d c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsub132pd、vfmsub213pd、vfmsub231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、中間結果から c のパックド要素を減算し、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm256_maskz_fmsub_pd

__m256d _mm256_maskz_fmsub_pd(__mmask8 k, __m256d a, __m256d b, __m256d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsub132pd、vfmsub213pd、vfmsub231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、中間結果から c のパックド要素を減算し、ゼロマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_fmsub_ps

__m128 _mm_mask_fmsub_ps(__m128 a, __mmask8 k, __m128 b, __m128 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsub132ps、vfmsub213ps、vfmsub231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、中間結果から c のパックド要素を減算し、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm_mask3_fmsub_ps

__m128 _mm_mask3_fmsub_ps(__m128 a, __m128 b, __m128 c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsub132ps、vfmsub213ps、vfmsub231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、中間結果から c のパックド要素を減算し、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm_maskz_fmsub_ps

__m128 _mm_maskz_fmsub_ps(__mmask8 k, __m128 a, __m128 b, __m128 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsub132ps、vfmsub213ps、vfmsub231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、中間結果から c のパックド要素を減算し、ゼロマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_fmsub_ps

__m256 _mm256_mask_fmsub_ps(__m256 a, __mmask8 k, __m256 b, __m256 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsub132ps、vfmsub213ps、vfmsub231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、中間結果から c のパックド要素を減算し、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm256_mask3_fmsub_ps

__m256 _mm256_mask3_fmsub_ps(__m256 a, __m256 b, __m256 c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsub132ps、vfmsub213ps、vfmsub231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、中間結果から c のパックド要素を減算し、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm256_maskz_fmsub_ps

__m256 _mm256_maskz_fmsub_ps(__mmask8 k, __m256 a, __m256 b, __m256 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsub132ps、vfmsub213ps、vfmsub231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、中間結果から c のパックド要素を減算し、ゼロマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_fmsubadd_pd

__m128d _mm_mask_fmsubadd_pd(__m128d a, __mmask8 k, __m128d b, __m128d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsubadd132pd、vfmsubadd213pd、vfmsubadd231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、中間結果と c のパックド要素の減算および加算を行い、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm_mask3_fmsubadd_pd

__m128d _mm_mask3_fmsubadd_pd(__m128d a, __m128d b, __m128d c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsubadd132pd、vfmsubadd213pd、vfmsubadd231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、中間結果と c のパックド要素の減算および加算を行い、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm_maskz_fmsubadd_pd

__m128d _mm_maskz_fmsubadd_pd(__mmask8 k, __m128d a, __m128d b, __m128d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsubadd132pd、vfmsubadd213pd、vfmsubadd231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、中間結果と c のパックド要素の減算および加算を行い、ゼロマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_fmsubadd_pd

__m256d _mm256_mask_fmsubadd_pd(__m256d a, __mmask8 k, __m256d b, __m256d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsubadd132pd、vfmsubadd213pd、vfmsubadd231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、中間結果と c のパックド要素の減算および加算を行い、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm256_mask3_fmsubadd_pd

__m256d _mm256_mask3_fmsubadd_pd(__m256d a, __m256d b, __m256d c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsubadd132pd、vfmsubadd213pd、vfmsubadd231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、中間結果と c のパックド要素の減算および加算を行い、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm256_maskz_fmsubadd_pd

__m256d _mm256_maskz_fmsubadd_pd(__mmask8 k, __m256d a, __m256d b, __m256d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsubadd132pd、vfmsubadd213pd、vfmsubadd231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、中間結果と c のパックド要素の減算および加算を行い、ゼロマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_fmsubadd_ps

__m128 _mm_mask_fmsubadd_ps(__m128 a, __mmask8 k, __m128 b, __m128 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsubadd132ps、vfmsubadd213ps、vfmsubadd231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、中間結果と c のパックド要素の減算および加算を行い、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm_mask3_fmsubadd_ps

__m128 _mm_mask3_fmsubadd_ps(__m128 a, __m128 b, __m128 c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsubadd132ps、vfmsubadd213ps、vfmsubadd231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、中間結果と c のパックド要素の減算および加算を行い、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm_maskz_fmsubadd_ps

__m128 _mm_maskz_fmsubadd_ps(__mmask8 k, __m128 a, __m128 b, __m128 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsubadd132ps、vfmsubadd213ps、vfmsubadd231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、中間結果と c のパックド要素の減算および加算を行い、ゼロマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_fmsubadd_ps

__m256 _mm256_mask_fmsubadd_ps(__m256 a, __mmask8 k, __m256 b, __m256 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsubadd132ps、vfmsubadd213ps、vfmsubadd231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、中間結果と c のパックド要素の減算および加算を行い、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm256_mask3_fmsubadd_ps

__m256 _mm256_mask3_fmsubadd_ps(__m256 a, __m256 b, __m256 c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsubadd132ps、vfmsubadd213ps、vfmsubadd231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、中間結果と c のパックド要素の減算および加算を行い、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm256_maskz_fmsubadd_ps

__m256 _mm256_maskz_fmsubadd_ps(__mmask8 k, __m256 a, __m256 b, __m256 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfmsubadd132ps、vfmsubadd213ps、vfmsubadd231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、中間結果と c のパックド要素の減算および加算を行い、ゼロマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_fnmadd_pd

__m128d _mm_mask_fnmadd_pd(__m128d a, __mmask8 k, __m128d b, __m128d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmadd132pd、vfnmadd213pd、vfnmadd231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に符号を反転した中間結果を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm_mask3_fnmadd_pd

__m128d _mm_mask3_fnmadd_pd(__m128d a, __m128d b, __m128d c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmadd132pd、vfnmadd213pd、vfnmadd231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に符号を反転した中間結果を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm_maskz_fnmadd_pd

__m128d _mm_maskz_fnmadd_pd(__mmask8 k, __m128d a, __m128d b, __m128d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmadd132pd、vfnmadd213pd、vfnmadd231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に符号を反転した中間結果を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_fnmadd_pd

__m256d _mm256_mask_fnmadd_pd(__m256d a, __mmask8 k, __m256d b, __m256d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmadd132pd、vfnmadd213pd、vfnmadd231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に符号を反転した中間結果を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm256_mask3_fnmadd_pd

__m256d _mm256_mask3_fnmadd_pd(__m256d a, __m256d b, __m256d c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmadd132pd、vfnmadd213pd、vfnmadd231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に符号を反転した中間結果を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm256_maskz_fnmadd_pd

__m256d _mm256_maskz_fnmadd_pd(__mmask8 k, __m256d a, __m256d b, __m256d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmadd132pd、vfnmadd213pd、vfnmadd231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に符号を反転した中間結果を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_fnmadd_ps

__m128 _mm_mask_fnmadd_ps(__m128 a, __mmask8 k, __m128 b, __m128 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmadd132ps、vfnmadd213ps、vfnmadd231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に符号を反転した中間結果を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm_mask3_fnmadd_ps

__m128 _mm_mask3_fnmadd_ps(__m128 a, __m128 b, __m128 c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmadd132ps、vfnmadd213ps、vfnmadd231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に符号を反転した中間結果を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm_maskz_fnmadd_ps

__m128 _mm_maskz_fnmadd_ps(__mmask8 k, __m128 a, __m128 b, __m128 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmadd132ps、vfnmadd213ps、vfnmadd231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に符号を反転した中間結果を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_fnmadd_ps

__m256 _mm256_mask_fnmadd_ps(__m256 a, __mmask8 k, __m256 b, __m256 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmadd132ps、vfnmadd213ps、vfnmadd231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に符号を反転した中間結果を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm256_mask3_fnmadd_ps

__m256 _mm256_mask3_fnmadd_ps(__m256 a, __m256 b, __m256 c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmadd132ps、vfnmadd213ps、vfnmadd231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に符号を反転した中間結果を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm256_maskz_fnmadd_ps

__m256 _mm256_maskz_fnmadd_ps(__mmask8 k, __m256 a, __m256 b, __m256 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmadd132ps、vfnmadd213ps、vfnmadd231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、c のパックド要素に符号を反転した中間結果を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_fnmsub_pd

__m128d _mm_mask_fnmsub_pd(__m128d a, __mmask8 k, __m128d b, __m128d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmsub132pd、vfnmsub213pd、vfnmsub231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、符号を反転した中間結果から c のパックド要素を減算し、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm_mask3_fnmsub_pd

__m128d _mm_mask3_fnmsub_pd(__m128d a, __m128d b, __m128d c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmsub132pd、vfnmsub213pd、vfnmsub231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、符号を反転した中間結果から c のパックド要素を減算し、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm_maskz_fnmsub_pd

__m128d _mm_maskz_fnmsub_pd(__mmask8 k, __m128d a, __m128d b, __m128d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmsub132pd、vfnmsub213pd、vfnmsub231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、符号を反転した中間結果から c のパックド要素を減算し、ゼロマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_fnmsub_pd

__m256d _mm256_mask_fnmsub_pd(__m256d a, __mmask8 k, __m256d b, __m256d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmsub132pd、vfnmsub213pd、vfnmsub231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、符号を反転した中間結果から c のパックド要素を減算し、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm256_mask3_fnmsub_pd

__m256d _mm256_mask3_fnmsub_pd(__m256d a, __m256d b, __m256d c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmsub132pd、vfnmsub213pd、vfnmsub231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、符号を反転した中間結果から c のパックド要素を減算し、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm256_maskz_fnmsub_pd

__m256d _mm256_maskz_fnmsub_pd(__mmask8 k, __m256d a, __m256d b, __m256d c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmsub132pd、vfnmsub213pd、vfnmsub231pd

ab のパックド倍精度 (64 ビット) 浮動小数点要素の乗算を行った後、符号を反転した中間結果から c のパックド要素を減算し、ゼロマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_fnmsub_ps

__m128 _mm_mask_fnmsub_ps(__m128 a, __mmask8 k, __m128 b, __m128 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmsub132ps、vfnmsub213ps、vfnmsub231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、符号を反転した中間結果から c のパックド要素を減算し、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm_mask3_fnmsub_ps

__m128 _mm_mask3_fnmsub_ps(__m128 a, __m128 b, __m128 c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmsub132ps、vfnmsub213ps、vfnmsub231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、符号を反転した中間結果から c のパックド要素を減算し、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm_maskz_fnmsub_ps

__m128 _mm_maskz_fnmsub_ps(__mmask8 k, __m128 a, __m128 b, __m128 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmsub132ps、vfnmsub213ps、vfnmsub231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、符号を反転した中間結果から c のパックド要素を減算し、ゼロマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_fnmsub_ps

__m256 _mm256_mask_fnmsub_ps(__m256 a, __mmask8 k, __m256 b, __m256 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmsub132ps、vfnmsub213ps、vfnmsub231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、符号を反転した中間結果から c のパックド要素を減算し、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm256_mask3_fnmsub_ps

__m256 _mm256_mask3_fnmsub_ps(__m256 a, __m256 b, __m256 c, __mmask8 k)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmsub132ps、vfnmsub213ps、vfnmsub231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、符号を反転した中間結果から c のパックド要素を減算し、書き込みマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は c の要素がコピーされます)。



_mm256_maskz_fnmsub_ps

__m256 _mm256_maskz_fnmsub_ps(__mmask8 k, __m256 a, __m256 b, __m256 c)

CPUID フラグ: AVX512F、AVX512VL

命令: vfnmsub132ps、vfnmsub213ps、vfnmsub231ps

ab のパックド単精度 (32 ビット) 浮動小数点要素の乗算を行った後、符号を反転した中間結果から c のパックド要素を減算し、ゼロマスク k を使用して最終結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_max_pd

__m128d _mm_mask_max_pd(__m128d src, __mmask8 k, __m128d a, __m128d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vmaxpd

ab のパックド倍精度 (64 ビット) 浮動小数点要素を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_max_pd

__m128d _mm_maskz_max_pd(__mmask8 k, __m128d a, __m128d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vmaxpd

ab のパックド倍精度 (64 ビット) 浮動小数点要素を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_max_pd

__m256d _mm256_mask_max_pd(__m256d src, __mmask8 k, __m256d a, __m256d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vmaxpd

ab のパックド倍精度 (64 ビット) 浮動小数点要素を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_max_pd

__m256d _mm256_maskz_max_pd(__mmask8 k, __m256d a, __m256d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vmaxpd

ab のパックド倍精度 (64 ビット) 浮動小数点要素を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_max_ps

__m128 _mm_mask_max_ps(__m128 src, __mmask8 k, __m128 a, __m128 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vmaxps

ab のパックド単精度 (32 ビット) 浮動小数点要素を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_max_ps

__m128 _mm_maskz_max_ps(__mmask8 k, __m128 a, __m128 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vmaxps

ab のパックド単精度 (32 ビット) 浮動小数点要素を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_max_ps

__m256 _mm256_mask_max_ps(__m256 src, __mmask8 k, __m256 a, __m256 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vmaxps

ab のパックド単精度 (32 ビット) 浮動小数点要素を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_max_ps

__m256 _mm256_maskz_max_ps(__mmask8 k, __m256 a, __m256 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vmaxps

ab のパックド単精度 (32 ビット) 浮動小数点要素を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_min_pd

__m128d _mm_mask_min_pd(__m128d src, __mmask8 k, __m128d a, __m128d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vminpd

ab のパックド倍精度 (64 ビット) 浮動小数点要素を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_min_pd

__m128d _mm_maskz_min_pd(__mmask8 k, __m128d a, __m128d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vminpd

ab のパックド倍精度 (64 ビット) 浮動小数点要素を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_min_pd

__m256d _mm256_mask_min_pd(__m256d src, __mmask8 k, __m256d a, __m256d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vminpd

ab のパックド倍精度 (64 ビット) 浮動小数点要素を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_min_pd

__m256d _mm256_maskz_min_pd(__mmask8 k, __m256d a, __m256d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vminpd

ab のパックド倍精度 (64 ビット) 浮動小数点要素を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_min_ps

__m128 _mm_mask_min_ps(__m128 src, __mmask8 k, __m128 a, __m128 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vminps

ab のパックド単精度 (32 ビット) 浮動小数点要素を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_min_ps

__m128 _mm_maskz_min_ps(__mmask8 k, __m128 a, __m128 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vminps

ab のパックド単精度 (32 ビット) 浮動小数点要素を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_min_ps

__m256 _mm256_mask_min_ps(__m256 src, __mmask8 k, __m256 a, __m256 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vminps

ab のパックド単精度 (32 ビット) 浮動小数点要素を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_min_ps

__m256 _mm256_maskz_min_ps(__mmask8 k, __m256 a, __m256 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vminps

ab のパックド単精度 (32 ビット) 浮動小数点要素を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_mul_pd

__m128d _mm_mask_mul_pd(__m128d src, __mmask8 k, __m128d a, __m128d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vmulpd

ab のパックド倍精度 (64 ビット) 浮動小数点要素を乗算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_mul_pd

__m128d _mm_maskz_mul_pd(__mmask8 k, __m128d a, __m128d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vmulpd

ab のパックド倍精度 (64 ビット) 浮動小数点要素を乗算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_mul_pd

__m256d _mm256_mask_mul_pd(__m256d src, __mmask8 k, __m256d a, __m256d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vmulpd

ab のパックド倍精度 (64 ビット) 浮動小数点要素を乗算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_mul_pd

__m256d _mm256_maskz_mul_pd(__mmask8 k, __m256d a, __m256d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vmulpd

ab のパックド倍精度 (64 ビット) 浮動小数点要素を乗算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_mul_ps

__m128 _mm_mask_mul_ps(__m128 src, __mmask8 k, __m128 a, __m128 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vmulps

ab のパックド単精度 (32 ビット) 浮動小数点要素を乗算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_mul_ps

__m128 _mm_maskz_mul_ps(__mmask8 k, __m128 a, __m128 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vmulps

ab のパックド単精度 (32 ビット) 浮動小数点要素を乗算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_mul_ps

__m256 _mm256_mask_mul_ps(__m256 src, __mmask8 k, __m256 a, __m256 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vmulps

ab のパックド単精度 (32 ビット) 浮動小数点要素を乗算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_mul_ps

__m256 _mm256_maskz_mul_ps(__mmask8 k, __m256 a, __m256 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vmulps

ab のパックド単精度 (32 ビット) 浮動小数点要素を乗算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_rcp14_pd

__m128d _mm_mask_rcp14_pd(__m128d src, __mmask8 k, __m128d a)

CPUID フラグ: AVX512F、AVX512VL

命令: vrcp14pd

a のパックド倍精度 (64 ビット) 浮動小数点要素の逆数の近似値を計算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。この近似値の最大相対誤差は 2^-14 未満です。



_mm_maskz_rcp14_pd

__m128d _mm_maskz_rcp14_pd(__mmask8 k, __m128d a)

CPUID フラグ: AVX512F、AVX512VL

命令: vrcp14pd

a のパックド倍精度 (64 ビット) 浮動小数点要素の逆数の近似値を計算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。この近似値の最大相対誤差は 2^-14 未満です。



_mm_rcp14_pd

__m128d _mm_rcp14_pd(__m128d a)

CPUID フラグ: AVX512F、AVX512VL

命令: vrcp14pd

a のパックド倍精度 (64 ビット) 浮動小数点要素の逆数の近似値を計算し、結果を返します。この近似値の最大相対誤差は 2^-14 未満です。



_mm256_mask_rcp14_pd

__m256d _mm256_mask_rcp14_pd(__m256d src, __mmask8 k, __m256d a)

CPUID フラグ: AVX512F、AVX512VL

命令: vrcp14pd

a のパックド倍精度 (64 ビット) 浮動小数点要素の逆数の近似値を計算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。この近似値の最大相対誤差は 2^-14 未満です。



_mm256_maskz_rcp14_pd

__m256d _mm256_maskz_rcp14_pd(__mmask8 k, __m256d a)

CPUID フラグ: AVX512F、AVX512VL

命令: vrcp14pd

a のパックド倍精度 (64 ビット) 浮動小数点要素の逆数の近似値を計算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。この近似値の最大相対誤差は 2^-14 未満です。



_mm256_rcp14_pd

__m256d _mm256_rcp14_pd(__m256d a)

CPUID フラグ: AVX512F、AVX512VL

命令: vrcp14pd

a のパックド倍精度 (64 ビット) 浮動小数点要素の逆数の近似値を計算し、結果を返します。この近似値の最大相対誤差は 2^-14 未満です。



_mm_mask_rcp14_ps

__m128 _mm_mask_rcp14_ps(__m128 src, __mmask8 k, __m128 a)

CPUID フラグ: AVX512F、AVX512VL

命令: vrcp14ps

a のパックド単精度 (32 ビット) 浮動小数点要素の逆数の近似値を計算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。この近似値の最大相対誤差は 2^-14 未満です。



_mm_maskz_rcp14_ps

__m128 _mm_maskz_rcp14_ps(__mmask8 k, __m128 a)

CPUID フラグ: AVX512F、AVX512VL

命令: vrcp14ps

a のパックド単精度 (32 ビット) 浮動小数点要素の逆数の近似値を計算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。この近似値の最大相対誤差は 2^-14 未満です。



_mm_rcp14_ps

__m128 _mm_rcp14_ps(__m128 a)

CPUID フラグ: AVX512F、AVX512VL

命令: vrcp14ps

a のパックド単精度 (32 ビット) 浮動小数点要素の逆数の近似値を計算し、結果を返します。この近似値の最大相対誤差は 2^-14 未満です。



_mm256_mask_rcp14_ps

__m256 _mm256_mask_rcp14_ps(__m256 src, __mmask8 k, __m256 a)

CPUID フラグ: AVX512F、AVX512VL

命令: vrcp14ps

a のパックド単精度 (32 ビット) 浮動小数点要素の逆数の近似値を計算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。この近似値の最大相対誤差は 2^-14 未満です。



_mm256_maskz_rcp14_ps

__m256 _mm256_maskz_rcp14_ps(__mmask8 k, __m256 a)

CPUID フラグ: AVX512F、AVX512VL

命令: vrcp14ps

a のパックド単精度 (32 ビット) 浮動小数点要素の逆数の近似値を計算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。この近似値の最大相対誤差は 2^-14 未満です。



_mm256_rcp14_ps

__m256 _mm256_rcp14_ps(__m256 a)

CPUID フラグ: AVX512F、AVX512VL

命令: vrcp14ps

a のパックド単精度 (32 ビット) 浮動小数点要素の逆数の近似値を計算し、結果を返します。この近似値の最大相対誤差は 2^-14 未満です。



_mm_mask_rsqrt14_pd

__m128d _mm_mask_rsqrt14_pd(__m128d src, __mmask8 k, __m128d a)

CPUID フラグ: AVX512F、AVX512VL

命令: vrsqrt14pd

a のパックド倍精度 (64 ビット) 浮動小数点要素の平方根の逆数の近似値を計算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。この近似値の最大相対誤差は 2^-14 未満です。



_mm_maskz_rsqrt14_pd

__m128d _mm_maskz_rsqrt14_pd(__mmask8 k, __m128d a)

CPUID フラグ: AVX512F、AVX512VL

命令: vrsqrt14pd

a のパックド倍精度 (64 ビット) 浮動小数点要素の平方根の逆数の近似値を計算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。この近似値の最大相対誤差は 2^-14 未満です。



_mm256_mask_rsqrt14_pd

__m256d _mm256_mask_rsqrt14_pd(__m256d src, __mmask8 k, __m256d a)

CPUID フラグ: AVX512F、AVX512VL

命令: vrsqrt14pd

a のパックド倍精度 (64 ビット) 浮動小数点要素の平方根の逆数の近似値を計算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。この近似値の最大相対誤差は 2^-14 未満です。



_mm256_maskz_rsqrt14_pd

__m256d _mm256_maskz_rsqrt14_pd(__mmask8 k, __m256d a)

CPUID フラグ: AVX512F、AVX512VL

命令: vrsqrt14pd

a のパックド倍精度 (64 ビット) 浮動小数点要素の平方根の逆数の近似値を計算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。この近似値の最大相対誤差は 2^-14 未満です。



_mm_mask_rsqrt14_ps

__m128 _mm_mask_rsqrt14_ps(__m128 src, __mmask8 k, __m128 a)

CPUID フラグ: AVX512F、AVX512VL

命令: vrsqrt14ps

a のパックド単精度 (32 ビット) 浮動小数点要素の平方根の逆数の近似値を計算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。この近似値の最大相対誤差は 2^-14 未満です。



_mm_maskz_rsqrt14_ps

__m128 _mm_maskz_rsqrt14_ps(__mmask8 k, __m128 a)

CPUID フラグ: AVX512F、AVX512VL

命令: vrsqrt14ps

a のパックド単精度 (32 ビット) 浮動小数点要素の平方根の逆数の近似値を計算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。この近似値の最大相対誤差は 2^-14 未満です。



_mm256_mask_rsqrt14_ps

__m256 _mm256_mask_rsqrt14_ps(__m256 src, __mmask8 k, __m256 a)

CPUID フラグ: AVX512F、AVX512VL

命令: vrsqrt14ps

a のパックド単精度 (32 ビット) 浮動小数点要素の平方根の逆数の近似値を計算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。この近似値の最大相対誤差は 2^-14 未満です。



_mm256_maskz_rsqrt14_ps

__m256 _mm256_maskz_rsqrt14_ps(__mmask8 k, __m256 a)

CPUID フラグ: AVX512F、AVX512VL

命令: vrsqrt14ps

a のパックド単精度 (32 ビット) 浮動小数点要素の平方根の逆数の近似値を計算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。この近似値の最大相対誤差は 2^-14 未満です。



_mm_mask_sqrt_pd

__m128d _mm_mask_sqrt_pd(__m128d src, __mmask8 k, __m128d a)

CPUID フラグ: AVX512F、AVX512VL

命令: vsqrtpd

a のパックド倍精度 (64 ビット) 浮動小数点要素の平方根を計算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_sqrt_pd

__m128d _mm_maskz_sqrt_pd(__mmask8 k, __m128d a)

CPUID フラグ: AVX512F、AVX512VL

命令: vsqrtpd

a のパックド倍精度 (64 ビット) 浮動小数点要素の平方根を計算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_sqrt_pd

__m256d _mm256_mask_sqrt_pd(__m256d src, __mmask8 k, __m256d a)

CPUID フラグ: AVX512F、AVX512VL

命令: vsqrtpd

a のパックド倍精度 (64 ビット) 浮動小数点要素の平方根を計算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_sqrt_pd

__m256d _mm256_maskz_sqrt_pd(__mmask8 k, __m256d a)

CPUID フラグ: AVX512F、AVX512VL

命令: vsqrtpd

a のパックド倍精度 (64 ビット) 浮動小数点要素の平方根を計算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_sqrt_ps

__m128 _mm_mask_sqrt_ps(__m128 src, __mmask8 k, __m128 a)

CPUID フラグ: AVX512F、AVX512VL

命令: vsqrtps

a のパックド単精度 (32 ビット) 浮動小数点要素の平方根を計算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_sqrt_ps

__m128 _mm_maskz_sqrt_ps(__mmask8 k, __m128 a)

CPUID フラグ: AVX512F、AVX512VL

命令: vsqrtps

a のパックド単精度 (32 ビット) 浮動小数点要素の平方根を計算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_sqrt_ps

__m256 _mm256_mask_sqrt_ps(__m256 src, __mmask8 k, __m256 a)

CPUID フラグ: AVX512F、AVX512VL

命令: vsqrtps

a のパックド単精度 (32 ビット) 浮動小数点要素の平方根を計算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_sqrt_ps

__m256 _mm256_maskz_sqrt_ps(__mmask8 k, __m256 a)

CPUID フラグ: AVX512F、AVX512VL

命令: vsqrtps

a のパックド単精度 (32 ビット) 浮動小数点要素の平方根を計算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_sub_pd

__m128d _mm_mask_sub_pd(__m128d src, __mmask8 k, __m128d a, __m128d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vsubpd

a のパックド倍精度 (64 ビット) 浮動小数点要素から、b のパックド倍精度 (64 ビット) 浮動小数点要素を減算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_sub_pd

__m128d _mm_maskz_sub_pd(__mmask8 k, __m128d a, __m128d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vsubpd

a のパックド倍精度 (64 ビット) 浮動小数点要素から、b のパックド倍精度 (64 ビット) 浮動小数点要素を減算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_sub_pd

__m256d _mm256_mask_sub_pd(__m256d src, __mmask8 k, __m256d a, __m256d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vsubpd

a のパックド倍精度 (64 ビット) 浮動小数点要素から、b のパックド倍精度 (64 ビット) 浮動小数点要素を減算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_sub_pd

__m256d _mm256_maskz_sub_pd(__mmask8 k, __m256d a, __m256d b)

CPUID フラグ: AVX512F、AVX512VL

命令: vsubpd

a のパックド倍精度 (64 ビット) 浮動小数点要素から、b のパックド倍精度 (64 ビット) 浮動小数点要素を減算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_sub_ps

__m128 _mm_mask_sub_ps(__m128 src, __mmask8 k, __m128 a, __m128 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vsubps

a のパックド単精度 (32 ビット) 浮動小数点要素から、b のパックド単精度 (32 ビット) 浮動小数点要素を減算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_sub_ps

__m128 _mm_maskz_sub_ps(__mmask8 k, __m128 a, __m128 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vsubps

a のパックド単精度 (32 ビット) 浮動小数点要素から、b のパックド単精度 (32 ビット) 浮動小数点要素を減算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_sub_ps

__m256 _mm256_mask_sub_ps(__m256 src, __mmask8 k, __m256 a, __m256 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vsubps

a のパックド単精度 (32 ビット) 浮動小数点要素から、b のパックド単精度 (32 ビット) 浮動小数点要素を減算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_sub_ps

__m256 _mm256_maskz_sub_ps(__mmask8 k, __m256 a, __m256 b)

CPUID フラグ: AVX512F、AVX512VL

命令: vsubps

a のパックド単精度 (32 ビット) 浮動小数点要素から、b のパックド単精度 (32 ビット) 浮動小数点要素を減算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_abs_epi8

__m128i _mm_mask_abs_epi8(__m128i src, __mmask16 k, __m128i a)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpabsb

a のパックド 8 ビット整数の絶対値を計算し、書き込みマスク k を使用して符号なし結果を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_abs_epi8

__m128i _mm_maskz_abs_epi8(__mmask16 k, __m128i a)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpabsb

a のパックド 8 ビット整数の絶対値を計算し、ゼロマスク k を使用して符号なし結果を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_abs_epi8

__m256i _mm256_mask_abs_epi8(__m256i src, __mmask32 k, __m256i a)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpabsb

a のパックド 8 ビット整数の絶対値を計算し、書き込みマスク k を使用して符号なし結果を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_abs_epi8

__m256i _mm256_maskz_abs_epi8(__mmask32 k, __m256i a)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpabsb

a のパックド 8 ビット整数の絶対値を計算し、ゼロマスク k を使用して符号なし結果を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_abs_epi8

__m512i _mm512_abs_epi8(__m512i a)

CPUID フラグ: AVX512BW

命令: vpabsb

a のパックド 8 ビット整数の絶対値を計算し、符号なし結果を戻り値に格納します。



_mm512_mask_abs_epi8

__m512i _mm512_mask_abs_epi8(__m512i src, __mmask64 k, __m512i a)

CPUID フラグ: AVX512BW

命令: vpabsb

a のパックド 8 ビット整数の絶対値を計算し、書き込みマスク k を使用して符号なし結果を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_abs_epi8

__m512i _mm512_maskz_abs_epi8(__mmask64 k, __m512i a)

CPUID フラグ: AVX512BW

命令: vpabsb

a のパックド 8 ビット整数の絶対値を計算し、ゼロマスク k を使用して符号なし結果を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_abs_epi32

__m128i _mm_mask_abs_epi32(__m128i src, __mmask8 k, __m128i a)

CPUID フラグ: AVX512F、AVX512VL

命令: vpabsd

a のパックド 32 ビット整数の絶対値を計算し、書き込みマスク k を使用して符号なし結果を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_abs_epi32

__m128i _mm_maskz_abs_epi32(__mmask8 k, __m128i a)

CPUID フラグ: AVX512F、AVX512VL

命令: vpabsd

a のパックド 32 ビット整数の絶対値を計算し、ゼロマスク k を使用して符号なし結果を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_abs_epi32

__m256i _mm256_mask_abs_epi32(__m256i src, __mmask8 k, __m256i a)

CPUID フラグ: AVX512F、AVX512VL

命令: vpabsd

a のパックド 32 ビット整数の絶対値を計算し、書き込みマスク k を使用して符号なし結果を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_abs_epi32

__m256i _mm256_maskz_abs_epi32(__mmask8 k, __m256i a)

CPUID フラグ: AVX512F、AVX512VL

命令: vpabsd

a のパックド 32 ビット整数の絶対値を計算し、ゼロマスク k を使用して符号なし結果を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_abs_epi64

__m128i _mm_abs_epi64(__m128i a)

CPUID フラグ: AVX512F、AVX512VL

命令: vpabsq

a のパックド 64 ビット整数の絶対値を計算し、符号なし結果を戻り値に格納します。



_mm_mask_abs_epi64

__m128i _mm_mask_abs_epi64(__m128i src, __mmask8 k, __m128i a)

CPUID フラグ: AVX512F、AVX512VL

命令: vpabsq

a のパックド 64 ビット整数の絶対値を計算し、書き込みマスク k を使用して符号なし結果を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_abs_epi64

__m128i _mm_maskz_abs_epi64(__mmask8 k, __m128i a)

CPUID フラグ: AVX512F、AVX512VL

命令: vpabsq

a のパックド 64 ビット整数の絶対値を計算し、ゼロマスク k を使用して符号なし結果を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_abs_epi64

__m256i _mm256_abs_epi64(__m256i a)

CPUID フラグ: AVX512F、AVX512VL

命令: vpabsq

a のパックド 64 ビット整数の絶対値を計算し、符号なし結果を戻り値に格納します。



_mm256_mask_abs_epi64

__m256i _mm256_mask_abs_epi64(__m256i src, __mmask8 k, __m256i a)

CPUID フラグ: AVX512F、AVX512VL

命令: vpabsq

a のパックド 64 ビット整数の絶対値を計算し、書き込みマスク k を使用して符号なし結果を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_abs_epi64

__m256i _mm256_maskz_abs_epi64(__mmask8 k, __m256i a)

CPUID フラグ: AVX512F、AVX512VL

命令: vpabsq

a のパックド 64 ビット整数の絶対値を計算し、ゼロマスク k を使用して符号なし結果を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_abs_epi16

__m128i _mm_mask_abs_epi16(__m128i src, __mmask8 k, __m128i a)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpabsw

a のパックド 16 ビット整数の絶対値を計算し、書き込みマスク k を使用して符号なし結果を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_abs_epi16

__m128i _mm_maskz_abs_epi16(__mmask8 k, __m128i a)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpabsw

a のパックド 16 ビット整数の絶対値を計算し、ゼロマスク k を使用して符号なし結果を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_abs_epi16

__m256i _mm256_mask_abs_epi16(__m256i src, __mmask16 k, __m256i a)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpabsw

a のパックド 16 ビット整数の絶対値を計算し、書き込みマスク k を使用して符号なし結果を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_abs_epi16

__m256i _mm256_maskz_abs_epi16(__mmask16 k, __m256i a)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpabsw

a のパックド 16 ビット整数の絶対値を計算し、ゼロマスク k を使用して符号なし結果を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_abs_epi16

__m512i _mm512_abs_epi16(__m512i a)

CPUID フラグ: AVX512BW

命令: vpabsw

a のパックド 16 ビット整数の絶対値を計算し、符号なし結果を戻り値に格納します。



_mm512_mask_abs_epi16

__m512i _mm512_mask_abs_epi16(__m512i src, __mmask32 k, __m512i a)

CPUID フラグ: AVX512BW

命令: vpabsw

a のパックド 16 ビット整数の絶対値を計算し、書き込みマスク k を使用して符号なし結果を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_abs_epi16

__m512i _mm512_maskz_abs_epi16(__mmask32 k, __m512i a)

CPUID フラグ: AVX512BW

命令: vpabsw

a のパックド 16 ビット整数の絶対値を計算し、ゼロマスク k を使用して符号なし結果を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_add_epi8

__m128i _mm_mask_add_epi8(__m128i src, __mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddb

ab のパックド 8 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_add_epi8

__m128i _mm_maskz_add_epi8(__mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddb

ab のパックド 8 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_add_epi8

__m256i _mm256_mask_add_epi8(__m256i src, __mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddb

ab のパックド 8 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_add_epi8

__m256i _mm256_maskz_add_epi8(__mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddb

ab のパックド 8 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_add_epi8

__m512i _mm512_add_epi8(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpaddb

ab のパックド 8 ビット整数を加算し、結果を返します。



_mm512_mask_add_epi8

__m512i _mm512_mask_add_epi8(__m512i src, __mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpaddb

ab のパックド 8 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_add_epi8

__m512i _mm512_maskz_add_epi8(__mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpaddb

ab のパックド 8 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_add_epi32

__m128i _mm_mask_add_epi32(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpaddd

ab のパックド 32 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_add_epi32

__m128i _mm_maskz_add_epi32(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpaddd

ab のパックド 32 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_add_epi32

__m256i _mm256_mask_add_epi32(__m256i src, __mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpaddd

ab のパックド 32 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_add_epi32

__m256i _mm256_maskz_add_epi32(__mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpaddd

ab のパックド 32 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_add_epi64

__m128i _mm_mask_add_epi64(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpaddq

ab のパックド 64 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_add_epi64

__m128i _mm_maskz_add_epi64(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpaddq

ab のパックド 64 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_add_epi64

__m256i _mm256_mask_add_epi64(__m256i src, __mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpaddq

ab のパックド 64 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_add_epi64

__m256i _mm256_maskz_add_epi64(__mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpaddq

ab のパックド 64 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_adds_epi8

__m128i _mm_mask_adds_epi8(__m128i src, __mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddsb

飽和演算を使用して ab のパックド 8 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_adds_epi8

__m128i _mm_maskz_adds_epi8(__mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddsb

飽和演算を使用して ab のパックド 8 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_adds_epi8

__m256i _mm256_mask_adds_epi8(__m256i src, __mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddsb

飽和演算を使用して ab のパックド 8 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_adds_epi8

__m256i _mm256_maskz_adds_epi8(__mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddsb

飽和演算を使用して ab のパックド 8 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_adds_epi8

__m512i _mm512_adds_epi8(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpaddsb

飽和演算を使用して ab のパックド 8 ビット整数を加算し、結果を返します。



_mm512_mask_adds_epi8

__m512i _mm512_mask_adds_epi8(__m512i src, __mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpaddsb

飽和演算を使用して ab のパックド 8 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_adds_epi8

__m512i _mm512_maskz_adds_epi8(__mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpaddsb

飽和演算を使用して ab のパックド 8 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_adds_epi16

__m128i _mm_mask_adds_epi16(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddsw

飽和演算を使用して ab のパックド 16 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_adds_epi16

__m128i _mm_maskz_adds_epi16(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddsw

飽和演算を使用して ab のパックド 16 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_adds_epi16

__m256i _mm256_mask_adds_epi16(__m256i src, __mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddsw

飽和演算を使用して ab のパックド 16 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_adds_epi16

__m256i _mm256_maskz_adds_epi16(__mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddsw

飽和演算を使用して ab のパックド 16 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_adds_epi16

__m512i _mm512_adds_epi16(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpaddsw

飽和演算を使用して ab のパックド 16 ビット整数を加算し、結果を返します。



_mm512_mask_adds_epi16

__m512i _mm512_mask_adds_epi16(__m512i src, __mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpaddsw

飽和演算を使用して ab のパックド 16 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_adds_epi16

__m512i _mm512_maskz_adds_epi16(__mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpaddsw

飽和演算を使用して ab のパックド 16 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_adds_epu8

__m128i _mm_mask_adds_epu8(__m128i src, __mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddusb

飽和演算を使用して ab のパックド符号なし 8 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_adds_epu8

__m128i _mm_maskz_adds_epu8(__mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddusb

飽和演算を使用して ab のパックド符号なし 8 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_adds_epu8

__m256i _mm256_mask_adds_epu8(__m256i src, __mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddusb

飽和演算を使用して ab のパックド符号なし 8 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_adds_epu8

__m256i _mm256_maskz_adds_epu8(__mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddusb

飽和演算を使用して ab のパックド符号なし 8 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_adds_epu8

__m512i _mm512_adds_epu8(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpaddusb

飽和演算を使用して ab のパックド符号なし 8 ビット整数を加算し、結果を返します。



_mm512_mask_adds_epu8

__m512i _mm512_mask_adds_epu8(__m512i src, __mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpaddusb

飽和演算を使用して ab のパックド符号なし 8 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_adds_epu8

__m512i _mm512_maskz_adds_epu8(__mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpaddusb

飽和演算を使用して ab のパックド符号なし 8 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_adds_epu16

__m128i _mm_mask_adds_epu16(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddusw

飽和演算を使用して ab のパックド符号なし 16 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_adds_epu16

__m128i _mm_maskz_adds_epu16(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddusw

飽和演算を使用して ab のパックド符号なし 16 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_adds_epu16

__m256i _mm256_mask_adds_epu16(__m256i src, __mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddusw

飽和演算を使用して ab のパックド符号なし 16 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_adds_epu16

__m256i _mm256_maskz_adds_epu16(__mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddusw

飽和演算を使用して ab のパックド符号なし 16 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_adds_epu16

__m512i _mm512_adds_epu16(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpaddusw

飽和演算を使用して ab のパックド符号なし 16 ビット整数を加算し、結果を返します。



_mm512_mask_adds_epu16

__m512i _mm512_mask_adds_epu16(__m512i src, __mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpaddusw

飽和演算を使用して ab のパックド符号なし 16 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_adds_epu16

__m512i _mm512_maskz_adds_epu16(__mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpaddusw

飽和演算を使用して ab のパックド符号なし 16 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_add_epi16

__m128i _mm_mask_add_epi16(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddw

ab のパックド 16 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_add_epi16

__m128i _mm_maskz_add_epi16(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddw

ab のパックド 16 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_add_epi16

__m256i _mm256_mask_add_epi16(__m256i src, __mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddw

ab のパックド 16 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_add_epi16

__m256i _mm256_maskz_add_epi16(__mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpaddw

ab のパックド 16 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_add_epi16

__m512i _mm512_add_epi16(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpaddw

ab のパックド 16 ビット整数を加算し、結果を返します。



_mm512_mask_add_epi16

__m512i _mm512_mask_add_epi16(__m512i src, __mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpaddw

ab のパックド 16 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_add_epi16

__m512i _mm512_maskz_add_epi16(__mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpaddw

ab のパックド 16 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_avg_epu8

__m128i _mm_mask_avg_epu8(__m128i src, __mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpavgb

ab のパックド符号なし 8 ビット整数の平均を計算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_avg_epu8

__m128i _mm_maskz_avg_epu8(__mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpavgb

ab のパックド符号なし 8 ビット整数の平均を計算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_avg_epu8

__m256i _mm256_mask_avg_epu8(__m256i src, __mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpavgb

ab のパックド符号なし 8 ビット整数の平均を計算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_avg_epu8

__m256i _mm256_maskz_avg_epu8(__mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpavgb

ab のパックド符号なし 8 ビット整数の平均を計算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_avg_epu8

__m512i _mm512_avg_epu8(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpavgb

ab のパックド符号なし 8 ビット整数の平均を計算し、結果を返します。



_mm512_mask_avg_epu8

__m512i _mm512_mask_avg_epu8(__m512i src, __mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpavgb

ab のパックド符号なし 8 ビット整数の平均を計算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_avg_epu8

__m512i _mm512_maskz_avg_epu8(__mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpavgb

ab のパックド符号なし 8 ビット整数の平均を計算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_avg_epu16

__m128i _mm_mask_avg_epu16(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpavgw

ab のパックド符号なし 16 ビット整数の平均を計算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_avg_epu16

__m128i _mm_maskz_avg_epu16(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpavgw

ab のパックド符号なし 16 ビット整数の平均を計算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_avg_epu16

__m256i _mm256_mask_avg_epu16(__m256i src, __mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpavgw

ab のパックド符号なし 16 ビット整数の平均を計算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_avg_epu16

__m256i _mm256_maskz_avg_epu16(__mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpavgw

ab のパックド符号なし 16 ビット整数の平均を計算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_avg_epu16

__m512i _mm512_avg_epu16(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpavgw

ab のパックド符号なし 16 ビット整数の平均を計算し、結果を返します。



_mm512_mask_avg_epu16

__m512i _mm512_mask_avg_epu16(__m512i src, __mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpavgw

ab のパックド符号なし 16 ビット整数の平均を計算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_avg_epu16

__m512i _mm512_maskz_avg_epu16(__mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpavgw

ab のパックド符号なし 16 ビット整数の平均を計算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_maddubs_epi16

__m128i _mm_mask_maddubs_epi16(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaddubsw

a のパックド符号なし 8 ビット整数と b のパックド符号付き 8 ビット整数を乗算し、生成される符号付き 16 ビット整数の隣接するペアを水平加算し、不飽和処理した結果を書き込みマスク k を使用して戻り値にパックします (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_maddubs_epi16

__m128i _mm_maskz_maddubs_epi16(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaddubsw

a のパックド符号なし 8 ビット整数と b のパックド符号付き 8 ビット整数を乗算し、生成される符号付き 16 ビット整数の隣接するペアを水平加算し、不飽和処理した結果をゼロマスク k を使用して戻り値にパックします (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_maddubs_epi16

__m256i _mm256_mask_maddubs_epi16(__m256i src, __mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaddubsw

a のパックド符号なし 8 ビット整数と b のパックド符号付き 8 ビット整数を乗算し、生成される符号付き 16 ビット整数の隣接するペアを水平加算し、不飽和処理した結果を書き込みマスク k を使用して戻り値にパックします (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_maddubs_epi16

__m256i _mm256_maskz_maddubs_epi16(__mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaddubsw

a のパックド符号なし 8 ビット整数と b のパックド符号付き 8 ビット整数を乗算し、生成される符号付き 16 ビット整数の隣接するペアを水平加算し、不飽和処理した結果をゼロマスク k を使用して戻り値にパックします (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_maddubs_epi16

__m512i _mm512_maddubs_epi16(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmaddubsw

a の各符号なし 8 ビット整数と b の対応する符号付き整数を垂直乗算し、生成される符号付き 16 ビット整数の隣接するペアを水平加算し、不飽和処理した結果を戻り値にパックします。



_mm512_mask_maddubs_epi16

__m512i _mm512_mask_maddubs_epi16(__m512i src, __mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmaddubsw

a のパックド符号なし 8 ビット整数と b のパックド符号付き 8 ビット整数を乗算し、生成される符号付き 16 ビット整数の隣接するペアを水平加算し、不飽和処理した結果を書き込みマスク k を使用して戻り値にパックします (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_maddubs_epi16

__m512i _mm512_maskz_maddubs_epi16(__mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmaddubsw

a のパックド符号なし 8 ビット整数と b のパックド符号付き 8 ビット整数を乗算し、生成される符号付き 16 ビット整数の隣接するペアを水平加算し、不飽和処理した結果をゼロマスク k を使用して戻り値にパックします (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_madd_epi16

__m128i _mm_mask_madd_epi16(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaddwd

ab のパックド 16 ビット整数を乗算し、生成される 32 ビット整数の隣接するペアを水平加算し、不飽和処理した結果を書き込みマスク k を使用して戻り値にパックします (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_madd_epi16

__m128i _mm_maskz_madd_epi16(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaddwd

ab のパックド 16 ビット整数を乗算し、生成される 32 ビット整数の隣接するペアを水平加算し、不飽和処理した結果をゼロマスク k を使用して戻り値にパックします (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_madd_epi16

__m256i _mm256_mask_madd_epi16(__m256i src, __mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaddwd

ab のパックド 16 ビット整数を乗算し、生成される 32 ビット整数の隣接するペアを水平加算し、不飽和処理した結果を書き込みマスク k を使用して戻り値にパックします (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_madd_epi16

__m256i _mm256_maskz_madd_epi16(__mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaddwd

ab のパックド 16 ビット整数を乗算し、生成される 32 ビット整数の隣接するペアを水平加算し、不飽和処理した結果をゼロマスク k を使用して戻り値にパックします (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_madd_epi16

__m512i _mm512_madd_epi16(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmaddwd

ab のパックド 16 ビット整数を乗算し、生成される 32 ビット整数の隣接するペアを水平加算し、不飽和処理した結果を戻り値にパックします。



_mm512_mask_madd_epi16

__m512i _mm512_mask_madd_epi16(__m512i src, __mmask16 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmaddwd

ab のパックド 16 ビット整数を乗算し、生成される 32 ビット整数の隣接するペアを水平加算し、不飽和処理した結果を書き込みマスク k を使用して戻り値にパックします (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_madd_epi16

__m512i _mm512_maskz_madd_epi16(__mmask16 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmaddwd

ab のパックド 16 ビット整数を乗算し、生成される 32 ビット整数の隣接するペアを水平加算し、不飽和処理した結果をゼロマスク k を使用して戻り値にパックします (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_max_epi8

__m128i _mm_mask_max_epi8(__m128i src, __mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaxsb

ab のパックド 8 ビット整数を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_max_epi8

__m128i _mm_maskz_max_epi8(__mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaxsb

ab のパックド 8 ビット整数を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_max_epi8

__m256i _mm256_mask_max_epi8(__m256i src, __mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaxsb

ab のパックド 8 ビット整数を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_max_epi8

__m256i _mm256_maskz_max_epi8(__mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaxsb

ab のパックド 8 ビット整数を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mask_max_epi8

__m512i _mm512_mask_max_epi8(__m512i src, __mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmaxsb

ab のパックド 8 ビット整数を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_max_epi8

__m512i _mm512_maskz_max_epi8(__mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmaxsb

ab のパックド 8 ビット整数を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_max_epi8

__m512i _mm512_max_epi8(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmaxsb

ab のパックド 8 ビット整数を比較し、パックド最大値を戻り値に格納します。



_mm_mask_max_epi32

__m128i _mm_mask_max_epi32(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmaxsd

ab のパックド 32 ビット整数を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_max_epi32

__m128i _mm_maskz_max_epi32(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmaxsd

ab のパックド 32 ビット整数を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_max_epi32

__m256i _mm256_mask_max_epi32(__m256i src, __mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmaxsd

ab のパックド 32 ビット整数を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_max_epi32

__m256i _mm256_maskz_max_epi32(__mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmaxsd

ab のパックド 32 ビット整数を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_max_epi64

__m128i _mm_mask_max_epi64(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmaxsq

ab のパックド 64 ビット整数を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_max_epi64

__m128i _mm_maskz_max_epi64(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmaxsq

ab のパックド 64 ビット整数を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_max_epi64

__m128i _mm_max_epi64(__m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmaxsq

ab のパックド 64 ビット整数を比較し、パックド最大値を戻り値に格納します。



_mm256_mask_max_epi64

__m256i _mm256_mask_max_epi64(__m256i src, __mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmaxsq

ab のパックド 64 ビット整数を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_max_epi64

__m256i _mm256_maskz_max_epi64(__mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmaxsq

ab のパックド 64 ビット整数を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_max_epi64

__m256i _mm256_max_epi64(__m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmaxsq

ab のパックド 64 ビット整数を比較し、パックド最大値を戻り値に格納します。



_mm_mask_max_epi16

__m128i _mm_mask_max_epi16(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaxsw

ab のパックド 16 ビット整数を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_max_epi16

__m128i _mm_maskz_max_epi16(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaxsw

ab のパックド 16 ビット整数を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_max_epi16

__m256i _mm256_mask_max_epi16(__m256i src, __mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaxsw

ab のパックド 16 ビット整数を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_max_epi16

__m256i _mm256_maskz_max_epi16(__mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaxsw

ab のパックド 16 ビット整数を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mask_max_epi16

__m512i _mm512_mask_max_epi16(__m512i src, __mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmaxsw

ab のパックド 16 ビット整数を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_max_epi16

__m512i _mm512_maskz_max_epi16(__mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmaxsw

ab のパックド 16 ビット整数を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_max_epi16

__m512i _mm512_max_epi16(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmaxsw

ab のパックド 16 ビット整数を比較し、パックド最大値を戻り値に格納します。



_mm_mask_max_epu8

__m128i _mm_mask_max_epu8(__m128i src, __mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaxub

ab のパックド符号なし 8 ビット整数を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_max_epu8

__m128i _mm_maskz_max_epu8(__mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaxub

ab のパックド符号なし 8 ビット整数を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_max_epu8

__m256i _mm256_mask_max_epu8(__m256i src, __mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaxub

ab のパックド符号なし 8 ビット整数を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_max_epu8

__m256i _mm256_maskz_max_epu8(__mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaxub

ab のパックド符号なし 8 ビット整数を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mask_max_epu8

__m512i _mm512_mask_max_epu8(__m512i src, __mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmaxub

ab のパックド符号なし 8 ビット整数を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_max_epu8

__m512i _mm512_maskz_max_epu8(__mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmaxub

ab のパックド符号なし 8 ビット整数を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_max_epu8

__m512i _mm512_max_epu8(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmaxub

ab のパックド符号なし 8 ビット整数を比較し、パックド最大値を戻り値に格納します。



_mm_mask_max_epu32

__m128i _mm_mask_max_epu32(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmaxud

ab のパックド符号なし 32 ビット整数を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_max_epu32

__m128i _mm_maskz_max_epu32(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmaxud

ab のパックド符号なし 32 ビット整数を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_max_epu32

__m256i _mm256_mask_max_epu32(__m256i src, __mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmaxud

ab のパックド符号なし 32 ビット整数を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_max_epu32

__m256i _mm256_maskz_max_epu32(__mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmaxud

ab のパックド符号なし 32 ビット整数を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_max_epu64

__m128i _mm_mask_max_epu64(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmaxuq

ab のパックド符号なし 64 ビット整数を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_max_epu64

__m128i _mm_maskz_max_epu64(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmaxuq

ab のパックド符号なし 64 ビット整数を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_max_epu64

__m128i _mm_max_epu64(__m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmaxuq

ab のパックド符号なし 64 ビット整数を比較し、パックド最大値を戻り値に格納します。



_mm256_mask_max_epu64

__m256i _mm256_mask_max_epu64(__m256i src, __mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmaxuq

ab のパックド符号なし 64 ビット整数を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_max_epu64

__m256i _mm256_maskz_max_epu64(__mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmaxuq

ab のパックド符号なし 64 ビット整数を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_max_epu64

__m256i _mm256_max_epu64(__m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmaxuq

ab のパックド符号なし 64 ビット整数を比較し、パックド最大値を戻り値に格納します。



_mm_mask_max_epu16

__m128i _mm_mask_max_epu16(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaxuw

ab のパックド符号なし 16 ビット整数を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_max_epu16

__m128i _mm_maskz_max_epu16(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaxuw

ab のパックド符号なし 16 ビット整数を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_max_epu16

__m256i _mm256_mask_max_epu16(__m256i src, __mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaxuw

ab のパックド符号なし 16 ビット整数を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_max_epu16

__m256i _mm256_maskz_max_epu16(__mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmaxuw

ab のパックド符号なし 16 ビット整数を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mask_max_epu16

__m512i _mm512_mask_max_epu16(__m512i src, __mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmaxuw

ab のパックド符号なし 16 ビット整数を比較し、書き込みマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_max_epu16

__m512i _mm512_maskz_max_epu16(__mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmaxuw

ab のパックド符号なし 16 ビット整数を比較し、ゼロマスク k を使用してパックド最大値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_max_epu16

__m512i _mm512_max_epu16(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmaxuw

ab のパックド符号なし 16 ビット整数を比較し、パックド最大値を戻り値に格納します。



_mm_mask_min_epi8

__m128i _mm_mask_min_epi8(__m128i src, __mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpminsb

ab のパックド 8 ビット整数を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_min_epi8

__m128i _mm_maskz_min_epi8(__mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpminsb

ab のパックド 8 ビット整数を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_min_epi8

__m256i _mm256_mask_min_epi8(__m256i src, __mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpminsb

ab のパックド 8 ビット整数を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_min_epi8

__m256i _mm256_maskz_min_epi8(__mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpminsb

ab のパックド 8 ビット整数を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mask_min_epi8

__m512i _mm512_mask_min_epi8(__m512i src, __mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpminsb

ab のパックド 8 ビット整数を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_min_epi8

__m512i _mm512_maskz_min_epi8(__mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpminsb

ab のパックド 8 ビット整数を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_min_epi8

__m512i _mm512_min_epi8(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpminsb

ab のパックド 8 ビット整数を比較し、パックド最小値を戻り値に格納します。



_mm_mask_min_epi32

__m128i _mm_mask_min_epi32(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpminsd

ab のパックド 32 ビット整数を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_min_epi32

__m128i _mm_maskz_min_epi32(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpminsd

ab のパックド 32 ビット整数を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_min_epi32

__m256i _mm256_mask_min_epi32(__m256i src, __mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpminsd

ab のパックド 32 ビット整数を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_min_epi32

__m256i _mm256_maskz_min_epi32(__mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpminsd

ab のパックド 32 ビット整数を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_min_epi64

__m128i _mm_mask_min_epi64(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpminsq

ab のパックド 64 ビット整数を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_min_epi64

__m128i _mm_maskz_min_epi64(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpminsq

ab のパックド 64 ビット整数を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_min_epi64

__m128i _mm_min_epi64(__m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpminsq

ab のパックド 64 ビット整数を比較し、パックド最小値を戻り値に格納します。



_mm256_mask_min_epi64

__m256i _mm256_mask_min_epi64(__m256i src, __mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpminsq

ab のパックド 64 ビット整数を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_min_epi64

__m256i _mm256_maskz_min_epi64(__mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpminsq

ab のパックド 64 ビット整数を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_min_epi64

__m256i _mm256_min_epi64(__m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpminsq

ab のパックド 64 ビット整数を比較し、パックド最小値を戻り値に格納します。



_mm_mask_min_epi16

__m128i _mm_mask_min_epi16(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpminsw

ab のパックド 16 ビット整数を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_min_epi16

__m128i _mm_maskz_min_epi16(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpminsw

ab のパックド 16 ビット整数を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_min_epi16

__m256i _mm256_mask_min_epi16(__m256i src, __mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpminsw

ab のパックド 16 ビット整数を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_min_epi16

__m256i _mm256_maskz_min_epi16(__mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpminsw

ab のパックド 16 ビット整数を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mask_min_epi16

__m512i _mm512_mask_min_epi16(__m512i src, __mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpminsw

ab のパックド 16 ビット整数を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_min_epi16

__m512i _mm512_maskz_min_epi16(__mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpminsw

ab のパックド 16 ビット整数を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_min_epi16

__m512i _mm512_min_epi16(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpminsw

ab のパックド 16 ビット整数を比較し、パックド最小値を戻り値に格納します。



_mm_mask_min_epu8

__m128i _mm_mask_min_epu8(__m128i src, __mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpminub

ab のパックド符号なし 8 ビット整数を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_min_epu8

__m128i _mm_maskz_min_epu8(__mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpminub

ab のパックド符号なし 8 ビット整数を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_min_epu8

__m256i _mm256_mask_min_epu8(__m256i src, __mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpminub

ab のパックド符号なし 8 ビット整数を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_min_epu8

__m256i _mm256_maskz_min_epu8(__mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpminub

ab のパックド符号なし 8 ビット整数を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mask_min_epu8

__m512i _mm512_mask_min_epu8(__m512i src, __mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpminub

ab のパックド符号なし 8 ビット整数を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_min_epu8

__m512i _mm512_maskz_min_epu8(__mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpminub

ab のパックド符号なし 8 ビット整数を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_min_epu8

__m512i _mm512_min_epu8(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpminub

ab のパックド符号なし 8 ビット整数を比較し、パックド最小値を戻り値に格納します。



_mm_mask_min_epu32

__m128i _mm_mask_min_epu32(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpminud

ab のパックド符号なし 32 ビット整数を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_min_epu32

__m128i _mm_maskz_min_epu32(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpminud

ab のパックド符号なし 32 ビット整数を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_min_epu32

__m256i _mm256_mask_min_epu32(__m256i src, __mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpminud

ab のパックド符号なし 32 ビット整数を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_min_epu32

__m256i _mm256_maskz_min_epu32(__mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpminud

ab のパックド符号なし 32 ビット整数を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_min_epu64

__m128i _mm_mask_min_epu64(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpminuq

ab のパックド符号なし 64 ビット整数を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_min_epu64

__m128i _mm_maskz_min_epu64(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpminuq

ab のパックド符号なし 64 ビット整数を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_min_epu64

__m128i _mm_min_epu64(__m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpminuq

ab のパックド符号なし 64 ビット整数を比較し、パックド最小値を戻り値に格納します。



_mm256_mask_min_epu64

__m256i _mm256_mask_min_epu64(__m256i src, __mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpminuq

ab のパックド符号なし 64 ビット整数を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_min_epu64

__m256i _mm256_maskz_min_epu64(__mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpminuq

ab のパックド符号なし 64 ビット整数を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_min_epu64

__m256i _mm256_min_epu64(__m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpminuq

ab のパックド符号なし 64 ビット整数を比較し、パックド最小値を戻り値に格納します。



_mm_mask_min_epu16

__m128i _mm_mask_min_epu16(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpminuw

ab のパックド符号なし 16 ビット整数を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_min_epu16

__m128i _mm_maskz_min_epu16(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpminuw

ab のパックド符号なし 16 ビット整数を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_min_epu16

__m256i _mm256_mask_min_epu16(__m256i src, __mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpminuw

ab のパックド符号なし 16 ビット整数を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_min_epu16

__m256i _mm256_maskz_min_epu16(__mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpminuw

ab のパックド符号なし 16 ビット整数を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mask_min_epu16

__m512i _mm512_mask_min_epu16(__m512i src, __mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpminuw

ab のパックド符号なし 16 ビット整数を比較し、書き込みマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_min_epu16

__m512i _mm512_maskz_min_epu16(__mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpminuw

ab のパックド符号なし 16 ビット整数を比較し、ゼロマスク k を使用してパックド最小値を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_min_epu16

__m512i _mm512_min_epu16(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpminuw

ab のパックド符号なし 16 ビット整数を比較し、パックド最小値を戻り値に格納します。



_mm_mask_mul_epi32

__m128i _mm_mask_mul_epi32(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmuldq

ab の各パックド 64 ビット要素の下位 32 ビット整数を乗算し、書き込みマスク k を使用して結果の符号付き 64 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_mul_epi32

__m128i _mm_maskz_mul_epi32(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmuldq

ab の各パックド 64 ビット要素の下位 32 ビット整数を乗算し、ゼロマスク k を使用して結果の符号付き 64 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_mul_epi32

__m256i _mm256_mask_mul_epi32(__m256i src, __mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmuldq

ab の各パックド 64 ビット要素の下位 32 ビット整数を乗算し、書き込みマスク k を使用して結果の符号付き 64 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_mul_epi32

__m256i _mm256_maskz_mul_epi32(__mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmuldq

ab の各パックド 64 ビット要素の下位 32 ビット整数を乗算し、ゼロマスク k を使用して結果の符号付き 64 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_mulhrs_epi16

__m128i _mm_mask_mulhrs_epi16(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmulhrsw

ab のパックド 16 ビット整数を乗算し、生成される各符号付き 32 ビット整数を最上位 18 ビットに切り捨て、1 を足して丸め、書き込みマスク k を使用して結果のビット [16:1] を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_mulhrs_epi16

__m128i _mm_maskz_mulhrs_epi16(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmulhrsw

ab のパックド 16 ビット整数を乗算し、生成される各符号付き 32 ビット整数を最上位 18 ビットに切り捨て、1 を足して丸め、ゼロマスク k を使用して結果のビット [16:1] を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_mulhrs_epi16

__m256i _mm256_mask_mulhrs_epi16(__m256i src, __mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmulhrsw

ab のパックド 16 ビット整数を乗算し、生成される各符号付き 32 ビット整数を最上位 18 ビットに切り捨て、1 を足して丸め、書き込みマスク k を使用して結果のビット [16:1] を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_mulhrs_epi16

__m256i _mm256_maskz_mulhrs_epi16(__mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmulhrsw

ab のパックド 16 ビット整数を乗算し、生成される各符号付き 32 ビット整数を最上位 18 ビットに切り捨て、1 を足して丸め、ゼロマスク k を使用して結果のビット [16:1] を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mask_mulhrs_epi16

__m512i _mm512_mask_mulhrs_epi16(__m512i src, __mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmulhrsw

ab のパックド 16 ビット整数を乗算し、生成される各符号付き 32 ビット整数を最上位 18 ビットに切り捨て、1 を足して丸め、書き込みマスク k を使用して結果のビット [16:1] を戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_mulhrs_epi16

__m512i _mm512_maskz_mulhrs_epi16(__mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmulhrsw

ab のパックド 16 ビット整数を乗算し、生成される各符号付き 32 ビット整数を最上位 18 ビットに切り捨て、1 を足して丸め、ゼロマスク k を使用して結果のビット [16:1] を戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mulhrs_epi16

__m512i _mm512_mulhrs_epi16(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmulhrsw

ab のパックド 16 ビット整数を乗算し、生成される各符号付き 32 ビット整数を最上位 18 ビットに切り捨て、1 を足して丸め、結果のビット [16:1] を戻り値に格納します。



_mm_mask_mulhi_epu16

__m128i _mm_mask_mulhi_epu16(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmulhuw

ab のパックド符号なし 16 ビット整数を乗算し、書き込みマスク k を使用して結果の 32 ビット整数の上位 16 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_mulhi_epu16

__m128i _mm_maskz_mulhi_epu16(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmulhuw

ab のパックド符号なし 16 ビット整数を乗算し、ゼロマスク k を使用して結果の 32 ビット整数の上位 16 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_mulhi_epu16

__m256i _mm256_mask_mulhi_epu16(__m256i src, __mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmulhuw

ab のパックド符号なし 16 ビット整数を乗算し、書き込みマスク k を使用して結果の 32 ビット整数の上位 16 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_mulhi_epu16

__m256i _mm256_maskz_mulhi_epu16(__mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmulhuw

ab のパックド符号なし 16 ビット整数を乗算し、ゼロマスク k を使用して結果の 32 ビット整数の上位 16 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mask_mulhi_epu16

__m512i _mm512_mask_mulhi_epu16(__m512i src, __mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmulhuw

ab のパックド符号なし 16 ビット整数を乗算し、書き込みマスク k を使用して結果の 32 ビット整数の上位 16 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_mulhi_epu16

__m512i _mm512_maskz_mulhi_epu16(__mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmulhuw

ab のパックド符号なし 16 ビット整数を乗算し、ゼロマスク k を使用して結果の 32 ビット整数の上位 16 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mulhi_epu16

__m512i _mm512_mulhi_epu16(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmulhuw

ab のパックド符号なし 16 ビット整数を乗算し、結果の 32 ビット整数の上位 16 ビットを戻り値に格納します。



_mm_mask_mulhi_epi16

__m128i _mm_mask_mulhi_epi16(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmulhw

ab のパックド 16 ビット整数を乗算し、書き込みマスク k を使用して結果の 32 ビット整数の上位 16 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_mulhi_epi16

__m128i _mm_maskz_mulhi_epi16(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmulhw

ab のパックド 16 ビット整数を乗算し、ゼロマスク k を使用して結果の 32 ビット整数の上位 16 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_mulhi_epi16

__m256i _mm256_mask_mulhi_epi16(__m256i src, __mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmulhw

ab のパックド 16 ビット整数を乗算し、書き込みマスク k を使用して結果の 32 ビット整数の上位 16 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_mulhi_epi16

__m256i _mm256_maskz_mulhi_epi16(__mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmulhw

ab のパックド 16 ビット整数を乗算し、ゼロマスク k を使用して結果の 32 ビット整数の上位 16 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mask_mulhi_epi16

__m512i _mm512_mask_mulhi_epi16(__m512i src, __mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmulhw

ab のパックド 16 ビット整数を乗算し、書き込みマスク k を使用して結果の 32 ビット整数の上位 16 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_mulhi_epi16

__m512i _mm512_maskz_mulhi_epi16(__mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmulhw

ab のパックド 16 ビット整数を乗算し、ゼロマスク k を使用して結果の 32 ビット整数の上位 16 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mulhi_epi16

__m512i _mm512_mulhi_epi16(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmulhw

ab のパックド 16 ビット整数を乗算し、結果の 32 ビット整数の上位 16 ビットを戻り値に格納します。



_mm_mask_mullo_epi32

__m128i _mm_mask_mullo_epi32(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmulld

ab のパックド 32 ビット整数を乗算し、書き込みマスク k を使用して結果の 64 ビット整数の下位 32 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_mullo_epi32

__m128i _mm_maskz_mullo_epi32(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmulld

ab のパックド 32 ビット整数を乗算し、ゼロマスク k を使用して結果の 64 ビット整数の下位 32 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_mullo_epi32

__m256i _mm256_mask_mullo_epi32(__m256i src, __mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmulld

ab のパックド 32 ビット整数を乗算し、書き込みマスク k を使用して結果の 64 ビット整数の下位 32 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_mullo_epi32

__m256i _mm256_maskz_mullo_epi32(__mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmulld

ab のパックド 32 ビット整数を乗算し、ゼロマスク k を使用して結果の 64 ビット整数の下位 32 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_mullo_epi64

__m128i _mm_mask_mullo_epi64(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512DQ、AVX512VL

命令: vpmullq

ab のパックド 64 ビット整数を乗算し、書き込みマスク k を使用して結果の 128 ビット整数の下位 64 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_mullo_epi64

__m128i _mm_maskz_mullo_epi64(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512DQ、AVX512VL

命令: vpmullq

ab のパックド 64 ビット整数を乗算し、ゼロマスク k を使用して結果の 128 ビット整数の下位 64 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mullo_epi64

__m128i _mm_mullo_epi64(__m128i a, __m128i b)

CPUID フラグ: AVX512DQ、AVX512VL

命令: vpmullq

ab のパックド 64 ビット整数を乗算し、結果の 128 ビット整数の下位 64 ビットを戻り値に格納します。



_mm256_mask_mullo_epi64

__m256i _mm256_mask_mullo_epi64(__m256i src, __mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512DQ、AVX512VL

命令: vpmullq

ab のパックド 64 ビット整数を乗算し、書き込みマスク k を使用して結果の 128 ビット整数の下位 64 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_mullo_epi64

__m256i _mm256_maskz_unpacklo_epi64(__mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512DQ、AVX512VL

命令: vpmullq

ab のパックド 64 ビット整数を乗算し、ゼロマスク k を使用して結果の 128 ビット整数の下位 64 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mullo_epi64

__m256i _mm256_mullo_epi64(__m256i a, __m256i b)

CPUID フラグ: AVX512DQ、AVX512VL

命令: vpmullq

ab のパックド 64 ビット整数を乗算し、結果の 128 ビット整数の下位 64 ビットを戻り値に格納します。



_mm512_mask_mullo_epi64

__m512i _mm512_mask_mullo_epi64(__m512i src, __mmask8 k, __m512i a, __m512i b)

CPUID フラグ: AVX512DQ

命令: vpmullq

ab のパックド 64 ビット整数を乗算し、書き込みマスク k を使用して結果の 128 ビット整数の下位 64 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_mullo_epi64

__m512i _mm512_maskz_mullo_epi64(__mmask8 k, __m512i a, __m512i b)

CPUID フラグ: AVX512DQ

命令: vpmullq

ab のパックド 64 ビット整数を乗算し、ゼロマスク k を使用して結果の 128 ビット整数の下位 64 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mullo_epi64

__m512i _mm512_mullo_epi64(__m512i a, __m512i b)

CPUID フラグ: AVX512DQ

命令: vpmullq

ab のパックド 64 ビット整数を乗算し、結果の 128 ビット整数の下位 64 ビットを戻り値に格納します。



_mm_mask_mullo_epi16

__m128i _mm_mask_mullo_epi16(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmullw

ab のパックド 16 ビット整数を乗算し、書き込みマスク k を使用して結果の 32 ビット整数の下位 16 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_mullo_epi16

__m128i _mm_maskz_mullo_epi16(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmullw

ab のパックド 16 ビット整数を乗算し、ゼロマスク k を使用して結果の 32 ビット整数の下位 16 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_mullo_epi16

__m256i _mm256_mask_mullo_epi16(__m256i src, __mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmullw

ab のパックド 16 ビット整数を乗算し、書き込みマスク k を使用して結果の 32 ビット整数の下位 16 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_mullo_epi16

__m256i _mm256_maskz_mullo_epi16(__mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpmullw

ab のパックド 16 ビット整数を乗算し、ゼロマスク k を使用して結果の 32 ビット整数の下位 16 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mask_mullo_epi16

__m512i _mm512_mask_mullo_epi16(__m512i src, __mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmullw

ab のパックド 16 ビット整数を乗算し、書き込みマスク k を使用して結果の 32 ビット整数の下位 16 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_mullo_epi16

__m512i _mm512_maskz_mullo_epi16(__mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmullw

ab のパックド 16 ビット整数を乗算し、ゼロマスク k を使用して結果の 32 ビット整数の下位 16 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mullo_epi16

__m512i _mm512_mullo_epi16(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpmullw

ab のパックド 16 ビット整数を乗算し、結果の 32 ビット整数の下位 16 ビットを戻り値に格納します。



_mm_mask_mul_epu32

__m128i _mm_mask_mul_epu32(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmuludq

ab の各パックド 64 ビット要素の下位符号なし 32 ビット整数を乗算し、書き込みマスク k を使用して結果の符号なし 64 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_mul_epu32

__m128i _mm_maskz_mul_epu32(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmuludq

ab の各パックド 64 ビット要素の下位符号なし 32 ビット整数を乗算し、ゼロマスク k を使用して結果の符号なし 64 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_mul_epu32

__m256i _mm256_mask_mul_epu32(__m256i src, __mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmuludq

ab の各パックド 64 ビット要素の下位符号なし 32 ビット整数を乗算し、書き込みマスク k を使用して結果の符号なし 64 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_mul_epu32

__m256i _mm256_maskz_mul_epu32(__mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpmuludq

ab の各パックド 64 ビット要素の下位符号なし 32 ビット整数を乗算し、ゼロマスク k を使用して結果の符号なし 64 ビットを戻り値に格納します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_sub_epi8

__m128i _mm_mask_sub_epi8(__m128i src, __mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubb

a のパックド 8 ビット整数から b のパックド 8 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_sub_epi8

__m128i _mm_maskz_sub_epi8(__mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubb

a のパックド 8 ビット整数から b のパックド 8 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_sub_epi8

__m256i _mm256_mask_sub_epi8(__m256i src, __mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubb

a のパックド 8 ビット整数から b のパックド 8 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_sub_epi8

__m256i _mm256_maskz_sub_epi8(__mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubb

a のパックド 8 ビット整数から b のパックド 8 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mask_sub_epi8

__m512i _mm512_mask_sub_epi8(__m512i src, __mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpsubb

a のパックド 8 ビット整数から b のパックド 8 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_sub_epi8

__m512i _mm512_maskz_sub_epi8(__mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpsubb

a のパックド 8 ビット整数から b のパックド 8 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_sub_epi8

__m512i _mm512_sub_epi8(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpsubb

a のパックド 8 ビット整数から b のパックド 8 ビット整数を減算し、結果を返します。



_mm_mask_sub_epi32

__m128i _mm_mask_sub_epi32(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpsubd

a のパックド 32 ビット整数から b のパックド 32 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_sub_epi32

__m128i _mm_maskz_sub_epi32(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpsubd

a のパックド 32 ビット整数から b のパックド 32 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_sub_epi32

__m256i _mm256_mask_sub_epi32(__m256i src, __mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpsubd

a のパックド 32 ビット整数から b のパックド 32 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_sub_epi32

__m256i _mm256_maskz_sub_epi32(__mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpsubd

a のパックド 32 ビット整数から b のパックド 32 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_sub_epi64

__m128i _mm_mask_sub_epi64(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpsubq

a のパックド 64 ビット整数から b のパックド 64 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_sub_epi64

__m128i _mm_maskz_sub_epi64(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpsubq

a のパックド 64 ビット整数から b のパックド 64 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_sub_epi64

__m256i _mm256_mask_sub_epi64(__m256i src, __mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpsubq

a のパックド 64 ビット整数から b のパックド 64 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_sub_epi64

__m256i _mm256_maskz_sub_epi64(__mmask8 k, __m256i a, __m256i b)

CPUID フラグ: AVX512F、AVX512VL

命令: vpsubq

a のパックド 64 ビット整数から b のパックド 64 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm_mask_subs_epi8

__m128i _mm_mask_subs_epi8(__m128i src, __mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubsb

飽和演算を使用して a のパックド 8 ビット整数から b のパックド 8 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_subs_epi8

__m128i _mm_maskz_subs_epi8(__mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubsb

飽和演算を使用して a のパックド 8 ビット整数から b のパックド 8 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_subs_epi8

__m256i _mm256_mask_subs_epi8(__m256i src, __mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubsb

飽和演算を使用して a のパックド 8 ビット整数から b のパックド 8 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_subs_epi8

__m256i _mm256_maskz_subs_epi8(__mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubsb

飽和演算を使用して a のパックド 8 ビット整数から b のパックド 8 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mask_subs_epi8

__m512i _mm512_mask_subs_epi8(__m512i src, __mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpsubsb

飽和演算を使用して a のパックド 8 ビット整数から b のパックド 8 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_subs_epi8

__m512i _mm512_maskz_subs_epi8(__mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpsubsb

飽和演算を使用して a のパックド 8 ビット整数から b のパックド 8 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_subs_epi8

__m512i _mm512_subs_epi8(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpsubsb

飽和演算を使用して a のパックド 8 ビット整数から b のパックド 8 ビット整数を減算し、結果を返します。



_mm_mask_subs_epi16

__m128i _mm_mask_subs_epi16(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubsw

飽和演算を使用して a のパックド 16 ビット整数から b のパックド 16 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_subs_epi16

__m128i _mm_maskz_subs_epi16(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubsw

飽和演算を使用して a のパックド 16 ビット整数から b のパックド 16 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_subs_epi16

__m256i _mm256_mask_subs_epi16(__m256i src, __mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubsw

飽和演算を使用して a のパックド 16 ビット整数から b のパックド 16 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_subs_epi16

__m256i _mm256_maskz_subs_epi16(__mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubsw

飽和演算を使用して a のパックド 16 ビット整数から b のパックド 16 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mask_subs_epi16

__m512i _mm512_mask_subs_epi16(__m512i src, __mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpsubsw

飽和演算を使用して a のパックド 16 ビット整数から b のパックド 16 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_subs_epi16

__m512i _mm512_maskz_subs_epi16(__mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpsubsw

飽和演算を使用して a のパックド 16 ビット整数から b のパックド 16 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_subs_epi16

__m512i _mm512_subs_epi16(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpsubsw

飽和演算を使用して a のパックド 16 ビット整数から b のパックド 16 ビット整数を減算し、結果を返します。



_mm_mask_subs_epu8

__m128i _mm_mask_subs_epu8(__m128i src, __mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubusb

飽和演算を使用して a のパックド符号なし 8 ビット整数から b のパックド符号なし 8 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_subs_epu8

__m128i _mm_maskz_subs_epu8(__mmask16 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubusb

飽和演算を使用して a のパックド符号なし 8 ビット整数から b のパックド符号なし 8 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_subs_epu8

__m256i _mm256_mask_subs_epu8(__m256i src, __mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubusb

飽和演算を使用して a のパックド符号なし 8 ビット整数から b のパックド符号なし 8 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_subs_epu8

__m256i _mm256_maskz_subs_epu8(__mmask32 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubusb

飽和演算を使用して a のパックド符号なし 8 ビット整数から b のパックド符号なし 8 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mask_subs_epu8

__m512i _mm512_mask_subs_epu8(__m512i src, __mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpsubusb

飽和演算を使用して a のパックド符号なし 8 ビット整数から b のパックド符号なし 8 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_subs_epu8

__m512i _mm512_maskz_subs_epu8(__mmask64 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpsubusb

飽和演算を使用して a のパックド符号なし 8 ビット整数から b のパックド符号なし 8 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_subs_epu8

__m512i _mm512_subs_epu8(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpsubusb

飽和演算を使用して a のパックド符号なし 8 ビット整数から b のパックド符号なし 8 ビット整数を減算し、結果を返します。



_mm_mask_subs_epu16

__m128i _mm_mask_subs_epu16(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubusw

飽和演算を使用して a のパックド符号なし 16 ビット整数から b のパックド符号なし 16 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_subs_epu16

__m128i _mm_maskz_subs_epu16(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubusw

飽和演算を使用して a のパックド符号なし 16 ビット整数から b のパックド符号なし 16 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_subs_epu16

__m256i _mm256_mask_subs_epu16(__m256i src, __mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubusw

飽和演算を使用して a のパックド符号なし 16 ビット整数から b のパックド符号なし 16 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_subs_epu16

__m256i _mm256_maskz_subs_epu16(__mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubusw

飽和演算を使用して a のパックド符号なし 16 ビット整数から b のパックド符号なし 16 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mask_subs_epu16

__m512i _mm512_mask_subs_epu16(__m512i src, __mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpsubusw

飽和演算を使用して a のパックド符号なし 16 ビット整数から b のパックド符号なし 16 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_subs_epu16

__m512i _mm512_maskz_subs_epu16(__mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpsubusw

飽和演算を使用して a のパックド符号なし 16 ビット整数から b のパックド符号なし 16 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_subs_epu16

__m512i _mm512_subs_epu16(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpsubusw

飽和演算を使用して a のパックド符号なし 16 ビット整数から b のパックド符号なし 16 ビット整数を減算し、結果を返します。



_mm_mask_sub_epi16

__m128i _mm_mask_sub_epi16(__m128i src, __mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubw

a のパックド 16 ビット整数から b のパックド 16 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm_maskz_sub_epi16

__m128i _mm_maskz_sub_epi16(__mmask8 k, __m128i a, __m128i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubw

a のパックド 16 ビット整数から b のパックド 16 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_mask_sub_epi16

__m256i _mm256_mask_sub_epi16(__m256i src, __mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubw

a のパックド 16 ビット整数から b のパックド 16 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm256_maskz_sub_epi16

__m256i _mm256_maskz_sub_epi16(__mmask16 k, __m256i a, __m256i b)

CPUID フラグ: AVX512BW、AVX512VL

命令: vpsubw

a のパックド 16 ビット整数から b のパックド 16 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_mask_sub_epi16

__m512i _mm512_mask_sub_epi16(__m512i src, __mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpsubw

a のパックド 16 ビット整数から b のパックド 16 ビット整数を減算し、書き込みマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は src の要素がコピーされます)。



_mm512_maskz_sub_epi16

__m512i _mm512_maskz_sub_epi16(__mmask32 k, __m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpsubw

a のパックド 16 ビット整数から b のパックド 16 ビット整数を減算し、ゼロマスク k を使用して結果を返します (対応するマスクビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_sub_epi16

__m512i _mm512_sub_epi16(__m512i a, __m512i b)

CPUID フラグ: AVX512BW

命令: vpsubw

a のパックド 16 ビット整数から b のパックド 16 ビット整数を減算し、結果を返します。



_mm_madd52hi_epu64

__m128i _mm_madd52hi_epu64(__m128i a, __m128i b, __m128i c);

CPUID フラグ: AVX512IFMA52、AVX512VL

命令: vpmadd52huq

bc の各 64 ビット要素のパックド符号なし 52 ビット整数を乗算し、生成される 104 ビットの上位 52 ビットにある符号なし整数と a の対応する符号なし 64 ビット整数を加算し、結果を返します。



_mm_mask_madd52hi_epu64

__m128i _mm_mask_madd52hi_epu64(__m128i a, __mmask8 k, __m128i b, __m128i c);

CPUID フラグ: AVX512IFMA52、AVX512VL

命令: vpmadd52huq

bc の各 64 ビット要素のパックド符号なし 52 ビット整数を乗算し、生成される 104 ビットの上位 52 ビットにある符号なし整数と a の対応する符号なし 64 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm_maskz_madd52hi_epu64

__m128i _mm_maskz_madd52hi_epu64(__mmask8 k, __m128i a, __m128i b, __m128i c);

CPUID フラグ: AVX512IFMA52、AVX512VL

命令: vpmadd52huq

bc の各 64 ビット要素のパックド符号なし 52 ビット整数を乗算し、生成される 104 ビットの上位 52 ビットにある符号なし整数と a の対応する符号なし 64 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_madd52hi_epu64

__m256i _mm256_madd52hi_epu64(__m256i a, __m256i b, __m256i c);

CPUID フラグ: AVX512IFMA52、AVX512VL

命令: vpmadd52huq

bc の各 64 ビット要素のパックド符号なし 52 ビット整数を乗算し、生成される 104 ビットの上位 52 ビットにある符号なし整数と a の対応する符号なし 64 ビット整数を加算し、結果を返します。



_mm256_mask_madd52hi_epu64

__m256i _mm256_mask_madd52hi_epu64(__m256i a, __mmask8 k, __m256i b, __m256i c);

CPUID フラグ: AVX512IFMA52、AVX512VL

命令: vpmadd52huq

bc の各 64 ビット要素のパックド符号なし 52 ビット整数を乗算し、生成される 104 ビットの上位 52 ビットにある符号なし整数と a の対応する符号なし 64 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm256_maskz_madd52hi_epu64

__m256i _mm256_maskz_madd52hi_epu64(__mmask8 k, __m256i a, __m256i b, __m256i c);

CPUID フラグ: AVX512IFMA52、AVX512VL

命令: vpmadd52huq

bc の各 64 ビット要素のパックド符号なし 52 ビット整数を乗算し、生成される 104 ビットの上位 52 ビットにある符号なし整数と a の対応する符号なし 64 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_madd52hi_epu64

__m512i _mm512_madd52hi_epu64(__m512i a, __m512i b, __m512i c);

CPUID フラグ: AVX512IFMA52

命令: vpmadd52huq

bc の各 64 ビット要素のパックド符号なし 52 ビット整数を乗算し、生成される 104 ビットの上位 52 ビットにある符号なし整数と a の対応する符号なし 64 ビット整数を加算し、結果を返します。



_mm512_mask_madd52hi_epu64

__m512i _mm512_mask_madd52hi_epu64(__m512i a, __mmask8 k, __m512i b, __m512i c);

CPUID フラグ: AVX512IFMA52

命令: vpmadd52huq

bc の各 64 ビット要素のパックド符号なし 52 ビット整数を乗算し、生成される 104 ビットの上位 52 ビットにある符号なし整数と a の対応する符号なし 64 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm512_maskz_madd52hi_epu64

__m512i _mm512_maskz_madd52hi_epu64(__mmask8 k, __m512i a, __m512i b, __m512i c);

CPUID フラグ: AVX512IFMA52

命令: vpmadd52huq

bc の各 64 ビット要素のパックド符号なし 52 ビット整数を乗算し、生成される 104 ビットの上位 52 ビットにある符号なし整数と a の対応する符号なし 64 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm_madd52lo_epu64

__m128i _mm_madd52lo_epu64(__m128i a, __m128i b, __m128i c);

CPUID フラグ: AVX512IFMA52、AVX512VL

命令: vpmadd52luq

bc の各 64 ビット要素のパックド符号なし 52 ビット整数を乗算し、生成される 104 ビットの下位 52 ビットにある符号なし整数と a の対応する符号なし 64 ビット整数を加算し、結果を返します。



_mm_mask_madd52lo_epu64

__m128i _mm_mask_madd52lo_epu64(__m128i a, __mmask8 k, __m128i b, __m128i c);

CPUID フラグ: AVX512IFMA52、AVX512VL

命令: vpmadd52luq

bc の各 64 ビット要素のパックド符号なし 52 ビット整数を乗算し、生成される 104 ビットの下位 52 ビットにある符号なし整数と a の対応する符号なし 64 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm_maskz_madd52lo_epu64

__m128i _mm_maskz_madd52lo_epu64(__mmask8 k, __m128i a, __m128i b, __m128i c);

CPUID フラグ: AVX512IFMA52、AVX512VL

命令: vpmadd52luq

bc の各 64 ビット要素のパックド符号なし 52 ビット整数を乗算し、生成される 104 ビットの下位 52 ビットにある符号なし整数と a の対応する符号なし 64 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm256_madd52lo_epu64

__m256i _mm256_madd52lo_epu64(__m256i a, __m256i b, __m256i c);

CPUID フラグ: AVX512IFMA52、AVX512VL

命令: vpmadd52luq

bc の各 64 ビット要素のパックド符号なし 52 ビット整数を乗算し、生成される 104 ビットの下位 52 ビットにある符号なし整数と a の対応する符号なし 64 ビット整数を加算し、結果を返します。



_mm256_mask_madd52lo_epu64

__m256i _mm256_mask_madd52lo_epu64(__m256i a, __mmask8 k, __m256i b, __m256i c);

CPUID フラグ: AVX512IFMA52、AVX512VL

命令: vpmadd52luq

bc の各 64 ビット要素のパックド符号なし 52 ビット整数を乗算し、生成される 104 ビットの下位 52 ビットにある符号なし整数と a の対応する符号なし 64 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm256_maskz_madd52lo_epu64

__m256i _mm256_maskz_madd52lo_epu64(__mmask8 k, __m256i a, __m256i b, __m256i c);

CPUID フラグ: AVX512IFMA52、AVX512VL

命令: vpmadd52luq

bc の各 64 ビット要素のパックド符号なし 52 ビット整数を乗算し、生成される 104 ビットの下位 52 ビットにある符号なし整数と a の対応する符号なし 64 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。



_mm512_madd52lo_epu64

__m512i _mm512_madd52lo_epu64(__m512i a, __m512i b, __m512i c);

CPUID フラグ: AVX512IFMA52

命令: vpmadd52luq

bc の各 64 ビット要素のパックド符号なし 52 ビット整数を乗算し、生成される 104 ビットの下位 52 ビットにある符号なし整数と a の対応する符号なし 64 ビット整数を加算し、結果を返します。



_mm512_mask_madd52lo_epu64

__m512i _mm512_mask_madd52lo_epu64(__m512i a, __mmask8 k, __m512i b, __m512i c);

CPUID フラグ: AVX512IFMA52

命令: vpmadd52luq

bc の各 64 ビット要素のパックド符号なし 52 ビット整数を乗算し、生成される 104 ビットの下位 52 ビットにある符号なし整数と a の対応する符号なし 64 ビット整数を加算し、書き込みマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は a の要素がコピーされます)。



_mm512_maskz_madd52lo_epu64

__m512i _mm512_maskz_madd52lo_epu64(__mmask8 k, __m512i a, __m512i b, __m512i c);

CPUID フラグ: AVX512IFMA52

命令: vpmadd52luq

bc の各 64 ビット要素のパックド符号なし 52 ビット整数を乗算し、生成される 104 ビットの下位 52 ビットにある符号なし整数と a の対応する符号なし 64 ビット整数を加算し、ゼロマスク k を使用して結果を返します (マスクの対応するビットが設定されていない場合は要素が 0 に設定されます)。