インテル® C++ コンパイラー 17.0 デベロッパー・ガイドおよびリファレンス
指定された単精度浮動小数点マスク値を使用して、指定されたベースアドレス、クワッドワードのインデックス、およびスケールによるメモリー参照から 2 つまたは 4 つのパックド単精度浮動小数点値を集約 (Gather) します。対応するインテル® AVX2 命令は VGATHERQPS です。
extern __m128 _mm_mask_i64gather_ps(__m128 def_vals, float const * base, __m128i vindex, __m128 vmask, const int scale); |
extern __m128 _mm256_mask_i64gather_ps(float const * base, __m256i vindex, __m256i vmask, const int scale); |
def_vals |
単精度浮動小数点マスクの対応する要素が '0' の場合にデスティネーションにコピーされる単精度浮動小数点値のベクトル |
base |
ロードされる浮動小数点要素の参照に使用するベースアドレス |
vindex |
ロードされる浮動小数点要素の参照に使用するクワッドワード・インデックスのベクトル |
vmask |
ベクトルマスクとして使用される浮動小数点要素のベクトル。各データ要素の最上位ビットのみがマスクとして使用されます。 |
scale |
ロードされる浮動小数点要素の参照に使用する 32 ビットのスケール |
クワッドワードのインデックスを使用して、メモリーから 2 つまたは 4 つのパックド単精度浮動小数点値を条件付きでロードし、デスティネーション・オペランドを更新します。組込み関数 _mm_mask_i64gather_ps() は、結果の上位 64 ビットも '0' に設定します。
以下にこの組込み関数の擬似コードを示します。
_mm_mask_i64gather_ps():
result[31:0] = (vmask[31]==1) ? (mem[base+vindex[63:0]*scale]) : (def_vals[31:0]); result[63:32] = (vmask[63]==1) ? (mem[base+vindex[127:64]*scale]) : (def_vals[63:32]); result[127:64] = 0;
_mm256_mask_i64gather_ps():
result[31:0] = (vmask[31]==1) ? (mem[base+vindex[63:0]*scale]) : (def_vals[31:0]); result[63:32] = (vmask[63]==1) ? (mem[base+vindex[127:64]*scale]) : (def_vals[63:32]); result[95:64] = (vmask[95]==1) ? (mem[base+vindex[191:128]*scale]) : (def_vals[95:64]); result[127:96] = (vmask[127]==1) ? (mem[base+vindex[255:192]*scale]) : (def_vals[127:96]);
単精度浮動小数点値を条件付きで集約した 128/256 ビットのベクトル。