インテル® C++ コンパイラー 17.0 デベロッパー・ガイドおよびリファレンス
指定されたダブルワードのマスク値を使用して、指定されたベースアドレス、ダブルワードのインデックス、およびスケールによるメモリー参照から 2 つまたは 4 つのダブルワード値を集約 (Gather) します。対応するインテル® AVX2 命令は VPGATHERDD です。
extern __m128i _mm_mask_i32gather_epi32(__m128i def_vals, int const * base, __m128i vindex, __m128i vmask, const int scale); |
extern __m256i _mm256_mask_i32gather_epi32(__m256i def_vals, int const * base, __m256i vindex, __m256i vmask, const int scale); |
def_val |
ベクトルマスクの対応する要素が '0' の場合にデスティネーションにコピーされるダブルワード値のベクトル |
base |
ロードされるダブルワード要素の参照に使用するベースアドレス |
vindex |
ロードされるダブルワード要素の参照に使用するダブルワード・インデックスのベクトル |
vmask |
ベクトルマスクとして使用されるダブルワード要素のベクトル。各ダブルワードの最上位ビットのみがマスクとして使用されます。 |
scale |
ロードされるダブルワード要素の参照に使用する 32 ビットのスケール。'vindex' の対応する要素が掛けられます。 |
指定されたダブルワードのマスク値を使用して、指定されたベースアドレス、ダブルワードのインデックス、およびスケールによるメモリー参照から 2 つまたは 4 つのダブルワード値を条件付きでロードします。
以下にこの組込み関数の擬似コードを示します。
_mm_mask_i32gather_epi32():
result[31:0] = (vmask[31]==1) ? (mem[base+vindex[31:0]*scale]) : (def_vals[31:0]); result[63:32] = (vmask[63]==1) ? (mem[base+vindex[63:32]*scale]) : (def_vals[63:32]); result[95:64] = (vmask[95]==1) ? (mem[base+vindex[95:64]*scale]) : (def_vals[95:64]); result127:96] = (vmask[127]==1) ? (mem[base+vindex[127:96]*scale]) : (def_vals[127:96]);
_mm256_mask_i32gather_epi32():
result[31:0] = (vmask[31]==1) ? (mem[base+vindex[31:0]*scale]) : (def_vals[31:0]); result[63:32] = (vmask[63]==1) ? (mem[base+vindex[63:32]*scale]) : (def_vals[63:32]); result[95:64] = (vmask[95]==1) ? (mem[base+vindex[95:64]*scale]) : (def_vals[95:64]); result127:96] = (vmask[127]==1) ? (mem[base+vindex[127:96]*scale]) : (def_vals[127:96]); result[159:128] = (vmask[159]==1) ? (mem[base+vindex[159:128]*scale]) : (def_vals[159:128]); result[191:160] = (vmask[191]==1) ? (mem[base+vindex[191:160]*scale]) : (def_vals[191:160]); result[223:192] = (vmask[223]==1) ? (mem[base+vindex[223:192]*scale]) : (def_vals[223:192]); result[255:224] = (vmask[255]==1) ? (mem[base+vindex[255:224]*scale]) : (def_vals[255:224]);
integer32 値を条件付きで集約した 128/256 ビットのベクトル。