Lines Matching full:reg
38 __m128i res_16 = _mm_packs_epi32(input.reg[0], input.reg[0]);
40 output.reg[0] = _mm_cvtsi128_si32(res_8);
57 __m128i res_16 = _mm_packs_epi32(input.reg[0], input.reg[1]);
59 output.reg[0] = _mm_extract_epi32(res_8, 0);
60 output.reg[1] = _mm_extract_epi32(res_8, 1);
77 __m128i res_16_0 = _mm_packs_epi32(input.reg[0], input.reg[1]);
78 __m128i res_16_1 = _mm_packs_epi32(input.reg[2], input.reg[3]);
79 output.reg[0] = _mm_packus_epi16(res_16_0, res_16_1);
96 __m128i res_16_0 = _mm_packs_epi32(input.reg[0], input.reg[1]);
97 __m128i res_16_1 = _mm_packs_epi32(input.reg[2], input.reg[3]);
98 output.reg[0] = _mm_packus_epi16(res_16_0, res_16_1);
99 __m128i res_16_2 = _mm_packs_epi32(input.reg[4], input.reg[5]);
100 __m128i res_16_3 = _mm_packs_epi32(input.reg[6], input.reg[7]);
101 output.reg[1] = _mm_packus_epi16(res_16_2, res_16_3);
118 __m128i res_16 = _mm_packs_epi32(input.reg[0], input.reg[0]);
119 output.reg[0] = _mm_extract_epi16(res_16, 0);
120 output.reg[1] = _mm_extract_epi16(res_16, 1);
121 output.reg[2] = _mm_extract_epi16(res_16, 2);
122 output.reg[3] = _mm_extract_epi16(res_16, 3);
139 output.reg[0] = _mm_packs_epi32(input.reg[0], input.reg[1]);
156 output.reg[0] = _mm_packs_epi32(input.reg[0], input.reg[1]);
157 output.reg[1] = _mm_packs_epi32(input.reg[2], input.reg[3]);
174 output.reg[0] = _mm_packs_epi32(input.reg[0], input.reg[1]);
175 output.reg[1] = _mm_packs_epi32(input.reg[2], input.reg[3]);
176 output.reg[2] = _mm_packs_epi32(input.reg[4], input.reg[5]);
177 output.reg[3] = _mm_packs_epi32(input.reg[6], input.reg[7]);
187 StoreInt32x4(dst->data(row, col), src.buf.reg[0]);
189 *dst->data(row + 0, col) = GetLane<0>(src.buf.reg[0]);
190 *dst->data(row + 1, col) = GetLane<1>(src.buf.reg[0]);
191 *dst->data(row + 2, col) = GetLane<2>(src.buf.reg[0]);
192 *dst->data(row + 3, col) = GetLane<3>(src.buf.reg[0]);
202 StoreInt32x4(dst->data(row, col), src.buf.reg[0]);
203 StoreInt32x4(dst->data(row + 4, col), src.buf.reg[1]);
205 *dst->data(row + 0, col) = GetLane<0>(src.buf.reg[0]);
206 *dst->data(row + 1, col) = GetLane<1>(src.buf.reg[0]);
207 *dst->data(row + 2, col) = GetLane<2>(src.buf.reg[0]);
208 *dst->data(row + 3, col) = GetLane<3>(src.buf.reg[0]);
209 *dst->data(row + 4, col) = GetLane<0>(src.buf.reg[1]);
210 *dst->data(row + 5, col) = GetLane<1>(src.buf.reg[1]);
211 *dst->data(row + 6, col) = GetLane<2>(src.buf.reg[1]);
212 *dst->data(row + 7, col) = GetLane<3>(src.buf.reg[1]);
221 *dst->data(row + 0, col) = src.buf.reg[0];
222 *dst->data(row + 1, col) = src.buf.reg[1];
223 *dst->data(row + 2, col) = src.buf.reg[2];
224 *dst->data(row + 3, col) = src.buf.reg[3];
233 StoreInt16x8(dst->data(row, col), src.buf.reg[0]);
235 *dst->data(row + 0, col) = _mm_extract_epi16(src.buf.reg[0], 0);
236 *dst->data(row + 1, col) = _mm_extract_epi16(src.buf.reg[0], 1);
237 *dst->data(row + 2, col) = _mm_extract_epi16(src.buf.reg[0], 2);
238 *dst->data(row + 3, col) = _mm_extract_epi16(src.buf.reg[0], 3);
239 *dst->data(row + 4, col) = _mm_extract_epi16(src.buf.reg[0], 4);
240 *dst->data(row + 5, col) = _mm_extract_epi16(src.buf.reg[0], 5);
241 *dst->data(row + 6, col) = _mm_extract_epi16(src.buf.reg[0], 6);
242 *dst->data(row + 7, col) = _mm_extract_epi16(src.buf.reg[0], 7);
248 __m128i t0 = _mm_unpacklo_epi32(src.buf.reg[0], src.buf.reg[1]);
249 __m128i t1 = _mm_unpacklo_epi32(src.buf.reg[2], src.buf.reg[3]);
250 __m128i t2 = _mm_unpackhi_epi32(src.buf.reg[0], src.buf.reg[1]);
251 __m128i t3 = _mm_unpackhi_epi32(src.buf.reg[2], src.buf.reg[3]);
254 result.buf.reg[0] = _mm_unpacklo_epi64(t0, t1);
255 result.buf.reg[1] = _mm_unpackhi_epi64(t0, t1);
256 result.buf.reg[2] = _mm_unpacklo_epi64(t2, t3);
257 result.buf.reg[3] = _mm_unpackhi_epi64(t2, t3);
267 StoreInt32x4(dst->data(row, col + i), src.buf.reg[i]);
272 StoreInt32x4(dst->data(row + i, col), transpose.buf.reg[i]);
283 StoreInt16x8(buf + 0, src.buf.reg[0]);
284 StoreInt16x8(buf + 8, src.buf.reg[1]);
299 StoreInt32x4(dst->data(row, col + i), src.buf.reg[2 * i]);
300 StoreInt32x4(dst->data(row + 4, col + i), src.buf.reg[2 * i + 1]);
304 top.buf.reg[0] = src.buf.reg[0];
305 top.buf.reg[1] = src.buf.reg[2];
306 top.buf.reg[2] = src.buf.reg[4];
307 top.buf.reg[3] = src.buf.reg[6];
310 StoreInt32x4(dst->data(row + i, col), transpose_top.buf.reg[i]);
313 bottom.buf.reg[0] = src.buf.reg[1];
314 bottom.buf.reg[1] = src.buf.reg[3];
315 bottom.buf.reg[2] = src.buf.reg[5];
316 bottom.buf.reg[3] = src.buf.reg[7];
319 StoreInt32x4(dst->data(row + 4 + i, col), transpose_bottom.buf.reg[i]);
331 StoreInt16x8(dst->data(row, col + i), src.buf.reg[i]);
335 StoreInt16x8(buf + 0, src.buf.reg[0]);
336 StoreInt16x8(buf + 8, src.buf.reg[1]);
337 StoreInt16x8(buf + 16, src.buf.reg[2]);
338 StoreInt16x8(buf + 24, src.buf.reg[3]);
354 StoreInt32x4(dst->data(row, col + i), src.buf.reg[2 * i]);
355 StoreInt32x4(dst->data(row + 4, col + i), src.buf.reg[2 * i + 1]);
359 top_left.buf.reg[0] = src.buf.reg[0];
360 top_left.buf.reg[1] = src.buf.reg[2];
361 top_left.buf.reg[2] = src.buf.reg[4];
362 top_left.buf.reg[3] = src.buf.reg[6];
365 StoreInt32x4(dst->data(row + i, col), transpose_top_left.buf.reg[i]);
368 bottom_left.buf.reg[0] = src.buf.reg[1];
369 bottom_left.buf.reg[1] = src.buf.reg[3];
370 bottom_left.buf.reg[2] = src.buf.reg[5];
371 bottom_left.buf.reg[3] = src.buf.reg[7];
375 transpose_bottom_left.buf.reg[i]);
378 top_right.buf.reg[0] = src.buf.reg[8];
379 top_right.buf.reg[1] = src.buf.reg[10];
380 top_right.buf.reg[2] = src.buf.reg[12];
381 top_right.buf.reg[3] = src.buf.reg[14];
385 transpose_top_right.buf.reg[i]);
388 bottom_right.buf.reg[0] = src.buf.reg[9];
389 bottom_right.buf.reg[1] = src.buf.reg[11];
390 bottom_right.buf.reg[2] = src.buf.reg[13];
391 bottom_right.buf.reg[3] = src.buf.reg[15];
395 transpose_bottom_right.buf.reg[i]);
407 StoreInt16x8(dst->data(row, col + i), src.buf.reg[i]);
411 __m128i t0 = _mm_unpacklo_epi16(src.buf.reg[0], src.buf.reg[1]);
412 __m128i t1 = _mm_unpacklo_epi16(src.buf.reg[2], src.buf.reg[3]);
416 __m128i t2 = _mm_unpacklo_epi16(src.buf.reg[4], src.buf.reg[5]);
417 __m128i t3 = _mm_unpacklo_epi16(src.buf.reg[6], src.buf.reg[7]);
421 __m128i t4 = _mm_unpackhi_epi16(src.buf.reg[0], src.buf.reg[1]);
422 __m128i t5 = _mm_unpackhi_epi16(src.buf.reg[2], src.buf.reg[3]);
426 __m128i t6 = _mm_unpackhi_epi16(src.buf.reg[4], src.buf.reg[5]);
427 __m128i t7 = _mm_unpackhi_epi16(src.buf.reg[6], src.buf.reg[7]);
448 *dst->data(row, col + 0) = GetLane<0>(src.buf.reg[0]);
449 *dst->data(row, col + 1) = GetLane<1>(src.buf.reg[0]);
450 *dst->data(row, col + 2) = GetLane<2>(src.buf.reg[0]);
451 *dst->data(row, col + 3) = GetLane<3>(src.buf.reg[0]);
453 StoreInt32x4(dst->data(row, col), src.buf.reg[0]);
462 const std::uint32_t src_reg = src.buf.reg[0];
474 *dst->data(row + i, col) = (src.buf.reg[0] >> (8 * i));
477 *dst->data(row + 4 + i, col) = (src.buf.reg[1] >> (8 * i));
487 *dst->data(row, col + i) = (src.buf.reg[0] >> (8 * i));
497 StoreUint8x16(buf, src.buf.reg[0]);
511 StoreUint8x16(buf, src.buf.reg[0]);
512 StoreUint8x16(buf + 16, src.buf.reg[1]);
526 StoreUint8x16(buf, src.buf.reg[0]);
527 StoreUint8x16(buf + 16, src.buf.reg[1]);
528 StoreUint8x16(buf + 32, src.buf.reg[2]);
529 StoreUint8x16(buf + 48, src.buf.reg[3]);
544 StoreUint8x16(buf, src.buf.reg[0]);
545 StoreUint8x16(buf + 16, src.buf.reg[1]);
546 StoreUint8x16(buf + 32, src.buf.reg[2]);
547 StoreUint8x16(buf + 48, src.buf.reg[3]);