Lines Matching refs:reg
40 v4i32 tmp = __builtin_msa_sat_s_w(input.reg[0], 8);
50 output.reg[0] = __builtin_msa_copy_s_w(tmp, 0);
69 v4i32 tmp_lo = __builtin_msa_sat_s_w(input.reg[0], 8);
70 v4i32 tmp_hi = __builtin_msa_sat_s_w(input.reg[1], 8);
82 output.reg[0] = __builtin_msa_copy_s_w(tmp_lo, 0);
83 output.reg[1] = __builtin_msa_copy_s_w(tmp_lo, 1);
119 GEMMLOWP_MIPS_SAT_U8_16(output.reg[0], input.reg[0], input.reg[1],
120 input.reg[2], input.reg[3]);
137 GEMMLOWP_MIPS_SAT_U8_16(output.reg[0], input.reg[0], input.reg[1],
138 input.reg[2], input.reg[3]);
139 GEMMLOWP_MIPS_SAT_U8_16(output.reg[1], input.reg[4], input.reg[5],
140 input.reg[6], input.reg[7]);
161 reinterpret_cast<v8i16>(__builtin_msa_sat_s_w(input.reg[0], 15));
162 output.reg[0] = __builtin_msa_copy_s_h(tmp, 0);
163 output.reg[1] = __builtin_msa_copy_s_h(tmp, 2);
164 output.reg[2] = __builtin_msa_copy_s_h(tmp, 4);
165 output.reg[3] = __builtin_msa_copy_s_h(tmp, 6);
190 GEMMLOWP_MIPS_SAT_I16_8(output.reg[0], input.reg[0], input.reg[1]);
207 GEMMLOWP_MIPS_SAT_I16_8(output.reg[0], input.reg[0], input.reg[1]);
208 GEMMLOWP_MIPS_SAT_I16_8(output.reg[1], input.reg[2], input.reg[3]);
225 GEMMLOWP_MIPS_SAT_I16_8(output.reg[0], input.reg[0], input.reg[1]);
226 GEMMLOWP_MIPS_SAT_I16_8(output.reg[1], input.reg[2], input.reg[3]);
227 GEMMLOWP_MIPS_SAT_I16_8(output.reg[2], input.reg[4], input.reg[5]);
228 GEMMLOWP_MIPS_SAT_I16_8(output.reg[3], input.reg[6], input.reg[7]);
249 reinterpret_cast<v8i16>(input.reg[0]),
250 reinterpret_cast<v8i16>(input.reg[0])));
255 output.reg[0] = __builtin_msa_copy_s_w(tmp, 0);
274 reinterpret_cast<v8i16>(input.reg[1]),
275 reinterpret_cast<v8i16>(input.reg[0])));
280 output.reg[0] = __builtin_msa_copy_s_w(tmp, 0);
281 output.reg[1] = __builtin_msa_copy_s_w(tmp, 1);
300 reinterpret_cast<v8i16>(input.reg[1]),
301 reinterpret_cast<v8i16>(input.reg[0]));
303 reinterpret_cast<v8i16>(input.reg[3]),
304 reinterpret_cast<v8i16>(input.reg[2]));
306 output.reg[0] = __builtin_msa_pckev_b(
326 reinterpret_cast<v8i16>(input.reg[1]),
327 reinterpret_cast<v8i16>(input.reg[0]));
329 reinterpret_cast<v8i16>(input.reg[3]),
330 reinterpret_cast<v8i16>(input.reg[2]));
332 reinterpret_cast<v8i16>(input.reg[5]),
333 reinterpret_cast<v8i16>(input.reg[4]));
335 reinterpret_cast<v8i16>(input.reg[7]),
336 reinterpret_cast<v8i16>(input.reg[6]));
338 output.reg[0] = __builtin_msa_pckev_b(
340 output.reg[1] = __builtin_msa_pckev_b(
351 StoreInt32x4(dst->data(row, col), src.buf.reg[0]);
353 *dst->data(row + 0, col) = GetLane<0>(src.buf.reg[0]);
354 *dst->data(row + 1, col) = GetLane<1>(src.buf.reg[0]);
355 *dst->data(row + 2, col) = GetLane<2>(src.buf.reg[0]);
356 *dst->data(row + 3, col) = GetLane<3>(src.buf.reg[0]);
366 StoreInt32x4(dst->data(row, col), src.buf.reg[0]);
367 StoreInt32x4(dst->data(row + 4, col), src.buf.reg[1]);
369 *dst->data(row + 0, col) = GetLane<0>(src.buf.reg[0]);
370 *dst->data(row + 1, col) = GetLane<1>(src.buf.reg[0]);
371 *dst->data(row + 2, col) = GetLane<2>(src.buf.reg[0]);
372 *dst->data(row + 3, col) = GetLane<3>(src.buf.reg[0]);
373 *dst->data(row + 4, col) = GetLane<0>(src.buf.reg[1]);
374 *dst->data(row + 5, col) = GetLane<1>(src.buf.reg[1]);
375 *dst->data(row + 6, col) = GetLane<2>(src.buf.reg[1]);
376 *dst->data(row + 7, col) = GetLane<3>(src.buf.reg[1]);
385 *dst->data(row + 0, col) = src.buf.reg[0];
386 *dst->data(row + 1, col) = src.buf.reg[1];
387 *dst->data(row + 2, col) = src.buf.reg[2];
388 *dst->data(row + 3, col) = src.buf.reg[3];
397 StoreInt16x8(dst->data(row, col), src.buf.reg[0]);
399 *dst->data(row + 0, col) = __builtin_msa_copy_s_h(src.buf.reg[0], 0);
400 *dst->data(row + 1, col) = __builtin_msa_copy_s_h(src.buf.reg[0], 1);
401 *dst->data(row + 2, col) = __builtin_msa_copy_s_h(src.buf.reg[0], 2);
402 *dst->data(row + 3, col) = __builtin_msa_copy_s_h(src.buf.reg[0], 3);
403 *dst->data(row + 4, col) = __builtin_msa_copy_s_h(src.buf.reg[0], 4);
404 *dst->data(row + 5, col) = __builtin_msa_copy_s_h(src.buf.reg[0], 5);
405 *dst->data(row + 6, col) = __builtin_msa_copy_s_h(src.buf.reg[0], 6);
406 *dst->data(row + 7, col) = __builtin_msa_copy_s_h(src.buf.reg[0], 7);
414 tmp0 = __builtin_msa_ilvr_w(src.buf.reg[1], src.buf.reg[0]);
415 tmp1 = __builtin_msa_ilvr_w(src.buf.reg[3], src.buf.reg[2]);
416 result.buf.reg[0] = reinterpret_cast<v4i32>(__builtin_msa_ilvr_d(
418 result.buf.reg[1] = reinterpret_cast<v4i32>(__builtin_msa_ilvl_d(
420 tmp0 = __builtin_msa_ilvl_w(src.buf.reg[1], src.buf.reg[0]);
421 tmp1 = __builtin_msa_ilvl_w(src.buf.reg[3], src.buf.reg[2]);
422 result.buf.reg[2] = reinterpret_cast<v4i32>(__builtin_msa_ilvr_d(
424 result.buf.reg[3] = reinterpret_cast<v4i32>(__builtin_msa_ilvl_d(
435 StoreInt32x4(dst->data(row, col + i), src.buf.reg[i]);
440 StoreInt32x4(dst->data(row + i, col), transpose.buf.reg[i]);
451 StoreInt16x8(buf + 0, src.buf.reg[0]);
452 StoreInt16x8(buf + 8, src.buf.reg[1]);
467 StoreInt32x4(dst->data(row, col + i), src.buf.reg[2 * i]);
468 StoreInt32x4(dst->data(row + 4, col + i), src.buf.reg[2 * i + 1]);
472 top.buf.reg[0] = src.buf.reg[0];
473 top.buf.reg[1] = src.buf.reg[2];
474 top.buf.reg[2] = src.buf.reg[4];
475 top.buf.reg[3] = src.buf.reg[6];
478 StoreInt32x4(dst->data(row + i, col), transpose_top.buf.reg[i]);
481 bottom.buf.reg[0] = src.buf.reg[1];
482 bottom.buf.reg[1] = src.buf.reg[3];
483 bottom.buf.reg[2] = src.buf.reg[5];
484 bottom.buf.reg[3] = src.buf.reg[7];
487 StoreInt32x4(dst->data(row + 4 + i, col), transpose_bottom.buf.reg[i]);
499 StoreInt16x8(dst->data(row, col + i), src.buf.reg[i]);
503 StoreInt16x8(buf + 0, src.buf.reg[0]);
504 StoreInt16x8(buf + 8, src.buf.reg[1]);
505 StoreInt16x8(buf + 16, src.buf.reg[2]);
506 StoreInt16x8(buf + 24, src.buf.reg[3]);
522 StoreInt32x4(dst->data(row, col + i), src.buf.reg[2 * i]);
523 StoreInt32x4(dst->data(row + 4, col + i), src.buf.reg[2 * i + 1]);
527 top_left.buf.reg[0] = src.buf.reg[0];
528 top_left.buf.reg[1] = src.buf.reg[2];
529 top_left.buf.reg[2] = src.buf.reg[4];
530 top_left.buf.reg[3] = src.buf.reg[6];
533 StoreInt32x4(dst->data(row + i, col), transpose_top_left.buf.reg[i]);
536 bottom_left.buf.reg[0] = src.buf.reg[1];
537 bottom_left.buf.reg[1] = src.buf.reg[3];
538 bottom_left.buf.reg[2] = src.buf.reg[5];
539 bottom_left.buf.reg[3] = src.buf.reg[7];
543 transpose_bottom_left.buf.reg[i]);
546 top_right.buf.reg[0] = src.buf.reg[8];
547 top_right.buf.reg[1] = src.buf.reg[10];
548 top_right.buf.reg[2] = src.buf.reg[12];
549 top_right.buf.reg[3] = src.buf.reg[14];
553 transpose_top_right.buf.reg[i]);
556 bottom_right.buf.reg[0] = src.buf.reg[9];
557 bottom_right.buf.reg[1] = src.buf.reg[11];
558 bottom_right.buf.reg[2] = src.buf.reg[13];
559 bottom_right.buf.reg[3] = src.buf.reg[15];
563 transpose_bottom_right.buf.reg[i]);
575 StoreInt16x8(dst->data(row, col + i), src.buf.reg[i]);
580 __builtin_msa_ilvr_h(src.buf.reg[1], src.buf.reg[0]));
582 __builtin_msa_ilvr_h(src.buf.reg[3], src.buf.reg[2]));
587 __builtin_msa_ilvr_h(src.buf.reg[5], src.buf.reg[4]));
589 __builtin_msa_ilvr_h(src.buf.reg[7], src.buf.reg[6]));
594 __builtin_msa_ilvl_h(src.buf.reg[1], src.buf.reg[0]));
596 __builtin_msa_ilvl_h(src.buf.reg[3], src.buf.reg[2]));
601 __builtin_msa_ilvl_h(src.buf.reg[5], src.buf.reg[4]));
603 __builtin_msa_ilvl_h(src.buf.reg[7], src.buf.reg[6]));
632 *dst->data(row, col + 0) = GetLane<0>(src.buf.reg[0]);
633 *dst->data(row, col + 1) = GetLane<1>(src.buf.reg[0]);
634 *dst->data(row, col + 2) = GetLane<2>(src.buf.reg[0]);
635 *dst->data(row, col + 3) = GetLane<3>(src.buf.reg[0]);
637 StoreInt32x4(dst->data(row, col), src.buf.reg[0]);
646 const std::uint32_t src_reg = src.buf.reg[0];
658 *dst->data(row + i, col) = (src.buf.reg[0] >> (8 * i));
661 *dst->data(row + 4 + i, col) = (src.buf.reg[1] >> (8 * i));
671 *dst->data(row, col + i) = (src.buf.reg[0] >> (8 * i));
681 StoreUint8x16(buf, src.buf.reg[0]);
733 [src0] "f"(src.buf.reg[0]), [src1] "f"(src.buf.reg[1]),
777 [src0] "f"(src.buf.reg[0]), [src1] "f"(src.buf.reg[1]),
824 [src0] "f"(src.buf.reg[0]), [src1] "f"(src.buf.reg[1]),
876 [src0] "f"(src.buf.reg[0]), [src1] "f"(src.buf.reg[1]),
922 [src0] "f"(src.buf.reg[0]), [src1] "f"(src.buf.reg[1]),
923 [src2] "f"(src.buf.reg[2]), [src3] "f"(src.buf.reg[3]),
999 [src0] "f"(src.buf.reg[0]), [src1] "f"(src.buf.reg[1]),
1000 [src2] "f"(src.buf.reg[2]), [src3] "f"(src.buf.reg[3]),
1013 v16i8 tmp0 = __builtin_msa_ilvr_b(src.buf.reg[1], src.buf.reg[0]);
1014 v16i8 tmp1 = __builtin_msa_ilvl_b(src.buf.reg[1], src.buf.reg[0]);
1016 result.buf.reg[0] = __builtin_msa_ilvr_b(tmp1, tmp0);
1017 result.buf.reg[1] = __builtin_msa_ilvl_b(tmp1, tmp0);
1023 tmp0[0] = __builtin_msa_ilvr_b(src.buf.reg[1], src.buf.reg[0]);
1024 tmp0[1] = __builtin_msa_ilvl_b(src.buf.reg[1], src.buf.reg[0]);
1025 tmp0[2] = __builtin_msa_ilvr_b(src.buf.reg[3], src.buf.reg[2]);
1026 tmp0[3] = __builtin_msa_ilvl_b(src.buf.reg[3], src.buf.reg[2]);
1033 result.buf.reg[0] = reinterpret_cast<v16i8>(__builtin_msa_ilvr_w(
1035 result.buf.reg[1] = reinterpret_cast<v16i8>(__builtin_msa_ilvl_w(
1037 result.buf.reg[2] = reinterpret_cast<v16i8>(__builtin_msa_ilvr_w(
1039 result.buf.reg[3] = reinterpret_cast<v16i8>(__builtin_msa_ilvl_w(
1080 StoreUint8x16(buf, src.buf.reg[0]);
1081 StoreUint8x16(buf + 16, src.buf.reg[1]);
1095 StoreUint8x16(buf, src.buf.reg[0]);
1096 StoreUint8x16(buf + 16, src.buf.reg[1]);
1097 StoreUint8x16(buf + 32, src.buf.reg[2]);
1098 StoreUint8x16(buf + 48, src.buf.reg[3]);