Lines Matching refs:xmm1
17 ; SSE2-NEXT: movaps %xmm1, %xmm2
18 ; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm1[1,1]
19 ; SSE2-NEXT: addss %xmm1, %xmm2
25 ; SSE41-NEXT: movshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
26 ; SSE41-NEXT: addss %xmm1, %xmm2
32 ; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
33 ; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
34 ; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
39 ; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
40 ; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0
45 ; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
46 ; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1
47 ; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
52 ; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
53 ; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
54 ; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
63 ; SSE2-NEXT: movaps %xmm1, %xmm2
64 ; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
65 ; SSE2-NEXT: addps %xmm1, %xmm2
66 ; SSE2-NEXT: movaps %xmm2, %xmm1
67 ; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm2[1,1]
68 ; SSE2-NEXT: addss %xmm2, %xmm1
69 ; SSE2-NEXT: addss %xmm1, %xmm0
74 ; SSE41-NEXT: movaps %xmm1, %xmm2
75 ; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
76 ; SSE41-NEXT: addps %xmm1, %xmm2
77 ; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
78 ; SSE41-NEXT: addss %xmm2, %xmm1
79 ; SSE41-NEXT: addss %xmm1, %xmm0
84 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
85 ; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
86 ; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
87 ; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
88 ; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
93 ; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
94 ; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
95 ; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0
100 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
101 ; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1
102 ; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
103 ; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1
104 ; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
109 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
110 ; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1
111 ; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
112 ; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
113 ; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
122 ; SSE2-NEXT: addps %xmm2, %xmm1
123 ; SSE2-NEXT: movaps %xmm1, %xmm2
124 ; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
125 ; SSE2-NEXT: addps %xmm1, %xmm2
126 ; SSE2-NEXT: movaps %xmm2, %xmm1
127 ; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm2[1,1]
128 ; SSE2-NEXT: addss %xmm2, %xmm1
129 ; SSE2-NEXT: addss %xmm1, %xmm0
134 ; SSE41-NEXT: addps %xmm2, %xmm1
135 ; SSE41-NEXT: movaps %xmm1, %xmm2
136 ; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
137 ; SSE41-NEXT: addps %xmm1, %xmm2
138 ; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
139 ; SSE41-NEXT: addss %xmm2, %xmm1
140 ; SSE41-NEXT: addss %xmm1, %xmm0
146 ; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
147 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
148 ; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
149 ; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
150 ; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
151 ; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
158 ; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm2, %xmm1
159 ; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
160 ; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
161 ; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0
168 ; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1
169 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
170 ; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1
171 ; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
172 ; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1
173 ; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
180 ; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1
181 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
182 ; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1
183 ; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
184 ; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
185 ; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
196 ; SSE2-NEXT: addps %xmm3, %xmm1
197 ; SSE2-NEXT: addps %xmm2, %xmm1
198 ; SSE2-NEXT: movaps %xmm1, %xmm2
199 ; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
200 ; SSE2-NEXT: addps %xmm1, %xmm2
201 ; SSE2-NEXT: movaps %xmm2, %xmm1
202 ; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm2[1,1]
203 ; SSE2-NEXT: addss %xmm2, %xmm1
204 ; SSE2-NEXT: addss %xmm1, %xmm0
210 ; SSE41-NEXT: addps %xmm3, %xmm1
211 ; SSE41-NEXT: addps %xmm2, %xmm1
212 ; SSE41-NEXT: movaps %xmm1, %xmm2
213 ; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
214 ; SSE41-NEXT: addps %xmm1, %xmm2
215 ; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
216 ; SSE41-NEXT: addss %xmm2, %xmm1
217 ; SSE41-NEXT: addss %xmm1, %xmm0
224 ; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
225 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
226 ; AVX1-SLOW-NEXT: vaddps %xmm2, %xmm1, %xmm1
227 ; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
228 ; AVX1-SLOW-NEXT: vaddss %xmm2, %xmm1, %xmm1
229 ; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
237 ; AVX1-FAST-NEXT: vaddps %xmm2, %xmm1, %xmm1
238 ; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
239 ; AVX1-FAST-NEXT: vaddps %xmm2, %xmm1, %xmm1
240 ; AVX1-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
241 ; AVX1-FAST-NEXT: vaddss %xmm1, %xmm0, %xmm0
249 ; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1
250 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
251 ; AVX2-NEXT: vaddps %xmm2, %xmm1, %xmm1
252 ; AVX2-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
253 ; AVX2-NEXT: vaddss %xmm2, %xmm1, %xmm1
254 ; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
263 ; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1
264 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
265 ; AVX512-NEXT: vaddps %xmm2, %xmm1, %xmm1
266 ; AVX512-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
267 ; AVX512-NEXT: vaddss %xmm2, %xmm1, %xmm1
268 ; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
282 ; SSE2-NEXT: movaps %xmm0, %xmm1
283 ; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]
284 ; SSE2-NEXT: addss %xmm0, %xmm1
285 ; SSE2-NEXT: movaps %xmm1, %xmm0
290 ; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
291 ; SSE41-NEXT: addss %xmm1, %xmm0
296 ; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
297 ; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
307 ; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
308 ; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
313 ; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
314 ; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
323 ; SSE2-NEXT: movaps %xmm0, %xmm1
324 ; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
325 ; SSE2-NEXT: addps %xmm0, %xmm1
326 ; SSE2-NEXT: movaps %xmm1, %xmm0
327 ; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[1,1]
328 ; SSE2-NEXT: addss %xmm1, %xmm0
333 ; SSE41-NEXT: movaps %xmm0, %xmm1
334 ; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
335 ; SSE41-NEXT: addps %xmm0, %xmm1
336 ; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
337 ; SSE41-NEXT: addss %xmm0, %xmm1
338 ; SSE41-NEXT: movaps %xmm1, %xmm0
343 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
344 ; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
345 ; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
346 ; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
357 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
358 ; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
359 ; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
360 ; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
365 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
366 ; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
367 ; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
368 ; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
377 ; SSE2-NEXT: addps %xmm1, %xmm0
378 ; SSE2-NEXT: movaps %xmm0, %xmm1
379 ; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
380 ; SSE2-NEXT: addps %xmm0, %xmm1
381 ; SSE2-NEXT: movaps %xmm1, %xmm0
382 ; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[1,1]
383 ; SSE2-NEXT: addss %xmm1, %xmm0
388 ; SSE41-NEXT: addps %xmm1, %xmm0
389 ; SSE41-NEXT: movaps %xmm0, %xmm1
390 ; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
391 ; SSE41-NEXT: addps %xmm0, %xmm1
392 ; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
393 ; SSE41-NEXT: addss %xmm0, %xmm1
394 ; SSE41-NEXT: movaps %xmm1, %xmm0
399 ; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
400 ; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
401 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
402 ; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
403 ; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
404 ; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
410 ; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
411 ; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm1, %xmm0
419 ; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
420 ; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
421 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
422 ; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
423 ; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
424 ; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
430 ; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
431 ; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
432 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
433 ; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
434 ; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
435 ; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
445 ; SSE2-NEXT: addps %xmm3, %xmm1
447 ; SSE2-NEXT: addps %xmm1, %xmm0
448 ; SSE2-NEXT: movaps %xmm0, %xmm1
449 ; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
450 ; SSE2-NEXT: addps %xmm0, %xmm1
451 ; SSE2-NEXT: movaps %xmm1, %xmm0
452 ; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[1,1]
453 ; SSE2-NEXT: addss %xmm1, %xmm0
458 ; SSE41-NEXT: addps %xmm3, %xmm1
460 ; SSE41-NEXT: addps %xmm1, %xmm0
461 ; SSE41-NEXT: movaps %xmm0, %xmm1
462 ; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
463 ; SSE41-NEXT: addps %xmm0, %xmm1
464 ; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
465 ; SSE41-NEXT: addss %xmm0, %xmm1
466 ; SSE41-NEXT: movaps %xmm1, %xmm0
472 ; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
473 ; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
474 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
475 ; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
476 ; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
477 ; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
484 ; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
485 ; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
486 ; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
487 ; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
495 ; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
496 ; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
497 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
498 ; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
499 ; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
500 ; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
508 ; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
509 ; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
510 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
511 ; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
512 ; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
513 ; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
527 ; SSE2-NEXT: movaps %xmm0, %xmm1
528 ; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]
529 ; SSE2-NEXT: addss %xmm0, %xmm1
530 ; SSE2-NEXT: movaps %xmm1, %xmm0
535 ; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
536 ; SSE41-NEXT: addss %xmm1, %xmm0
541 ; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
542 ; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
552 ; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
553 ; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
558 ; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
559 ; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
568 ; SSE2-NEXT: movaps %xmm0, %xmm1
569 ; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
570 ; SSE2-NEXT: addps %xmm0, %xmm1
571 ; SSE2-NEXT: movaps %xmm1, %xmm0
572 ; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[1,1]
573 ; SSE2-NEXT: addss %xmm1, %xmm0
578 ; SSE41-NEXT: movaps %xmm0, %xmm1
579 ; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
580 ; SSE41-NEXT: addps %xmm0, %xmm1
581 ; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
582 ; SSE41-NEXT: addss %xmm0, %xmm1
583 ; SSE41-NEXT: movaps %xmm1, %xmm0
588 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
589 ; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
590 ; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
591 ; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
602 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
603 ; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
604 ; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
605 ; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
610 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
611 ; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
612 ; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
613 ; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
622 ; SSE2-NEXT: addps %xmm1, %xmm0
623 ; SSE2-NEXT: movaps %xmm0, %xmm1
624 ; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
625 ; SSE2-NEXT: addps %xmm0, %xmm1
626 ; SSE2-NEXT: movaps %xmm1, %xmm0
627 ; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[1,1]
628 ; SSE2-NEXT: addss %xmm1, %xmm0
633 ; SSE41-NEXT: addps %xmm1, %xmm0
634 ; SSE41-NEXT: movaps %xmm0, %xmm1
635 ; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
636 ; SSE41-NEXT: addps %xmm0, %xmm1
637 ; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
638 ; SSE41-NEXT: addss %xmm0, %xmm1
639 ; SSE41-NEXT: movaps %xmm1, %xmm0
644 ; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
645 ; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
646 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
647 ; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
648 ; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
649 ; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
655 ; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
656 ; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm1, %xmm0
664 ; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
665 ; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
666 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
667 ; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
668 ; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
669 ; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
675 ; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
676 ; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
677 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
678 ; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
679 ; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
680 ; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
690 ; SSE2-NEXT: addps %xmm3, %xmm1
692 ; SSE2-NEXT: addps %xmm1, %xmm0
693 ; SSE2-NEXT: movaps %xmm0, %xmm1
694 ; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
695 ; SSE2-NEXT: addps %xmm0, %xmm1
696 ; SSE2-NEXT: movaps %xmm1, %xmm0
697 ; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[1,1]
698 ; SSE2-NEXT: addss %xmm1, %xmm0
703 ; SSE41-NEXT: addps %xmm3, %xmm1
705 ; SSE41-NEXT: addps %xmm1, %xmm0
706 ; SSE41-NEXT: movaps %xmm0, %xmm1
707 ; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
708 ; SSE41-NEXT: addps %xmm0, %xmm1
709 ; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
710 ; SSE41-NEXT: addss %xmm0, %xmm1
711 ; SSE41-NEXT: movaps %xmm1, %xmm0
717 ; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
718 ; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
719 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
720 ; AVX1-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
721 ; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
722 ; AVX1-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
729 ; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
730 ; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
731 ; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
732 ; AVX1-FAST-NEXT: vaddps %xmm1, %xmm0, %xmm0
740 ; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
741 ; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
742 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
743 ; AVX2-NEXT: vaddps %xmm1, %xmm0, %xmm0
744 ; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
745 ; AVX2-NEXT: vaddss %xmm1, %xmm0, %xmm0
753 ; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
754 ; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
755 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
756 ; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
757 ; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
758 ; AVX512-NEXT: vaddss %xmm1, %xmm0, %xmm0
772 ; SSE-NEXT: movapd %xmm1, %xmm2
773 ; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
774 ; SSE-NEXT: addsd %xmm1, %xmm2
780 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
781 ; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1
782 ; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
787 ; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1
788 ; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
793 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
794 ; AVX2-NEXT: vaddsd %xmm2, %xmm1, %xmm1
795 ; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
800 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
801 ; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
802 ; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
811 ; SSE-NEXT: addpd %xmm2, %xmm1
812 ; SSE-NEXT: movapd %xmm1, %xmm2
813 ; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
814 ; SSE-NEXT: addsd %xmm1, %xmm2
821 ; AVX1-SLOW-NEXT: vaddpd %xmm2, %xmm1, %xmm1
822 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
823 ; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1
824 ; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
831 ; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm2, %xmm1
832 ; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1
833 ; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
840 ; AVX2-NEXT: vaddpd %xmm2, %xmm1, %xmm1
841 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
842 ; AVX2-NEXT: vaddsd %xmm2, %xmm1, %xmm1
843 ; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
850 ; AVX512-NEXT: vaddpd %xmm2, %xmm1, %xmm1
851 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
852 ; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
853 ; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
864 ; SSE-NEXT: addpd %xmm3, %xmm1
865 ; SSE-NEXT: addpd %xmm2, %xmm1
866 ; SSE-NEXT: movapd %xmm1, %xmm2
867 ; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
868 ; SSE-NEXT: addsd %xmm1, %xmm2
876 ; AVX1-SLOW-NEXT: vaddpd %xmm2, %xmm1, %xmm1
877 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
878 ; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1
879 ; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
887 ; AVX1-FAST-NEXT: vaddpd %xmm2, %xmm1, %xmm1
888 ; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1
889 ; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
897 ; AVX2-NEXT: vaddpd %xmm2, %xmm1, %xmm1
898 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
899 ; AVX2-NEXT: vaddsd %xmm2, %xmm1, %xmm1
900 ; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
909 ; AVX512-NEXT: vaddpd %xmm2, %xmm1, %xmm1
910 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
911 ; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
912 ; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
924 ; SSE-NEXT: addpd %xmm5, %xmm1
925 ; SSE-NEXT: addpd %xmm3, %xmm1
928 ; SSE-NEXT: addpd %xmm1, %xmm4
929 ; SSE-NEXT: movapd %xmm4, %xmm1
930 ; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm4[1]
931 ; SSE-NEXT: addsd %xmm4, %xmm1
932 ; SSE-NEXT: addsd %xmm1, %xmm0
941 ; AVX1-SLOW-NEXT: vaddpd %xmm2, %xmm1, %xmm1
942 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
943 ; AVX1-SLOW-NEXT: vaddsd %xmm2, %xmm1, %xmm1
944 ; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
954 ; AVX1-FAST-NEXT: vaddpd %xmm2, %xmm1, %xmm1
955 ; AVX1-FAST-NEXT: vhaddpd %xmm1, %xmm1, %xmm1
956 ; AVX1-FAST-NEXT: vaddsd %xmm1, %xmm0, %xmm0
966 ; AVX2-NEXT: vaddpd %xmm2, %xmm1, %xmm1
967 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
968 ; AVX2-NEXT: vaddsd %xmm2, %xmm1, %xmm1
969 ; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
979 ; AVX512-NEXT: vaddpd %xmm2, %xmm1, %xmm1
980 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
981 ; AVX512-NEXT: vaddsd %xmm2, %xmm1, %xmm1
982 ; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
996 ; SSE-NEXT: movapd %xmm0, %xmm1
997 ; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
998 ; SSE-NEXT: addsd %xmm0, %xmm1
999 ; SSE-NEXT: movapd %xmm1, %xmm0
1004 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1005 ; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1015 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1016 ; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1021 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1022 ; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1031 ; SSE-NEXT: addpd %xmm1, %xmm0
1032 ; SSE-NEXT: movapd %xmm0, %xmm1
1033 ; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
1034 ; SSE-NEXT: addsd %xmm0, %xmm1
1035 ; SSE-NEXT: movapd %xmm1, %xmm0
1040 ; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
1041 ; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1042 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1043 ; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1049 ; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
1050 ; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm1, %xmm0
1057 ; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
1058 ; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1059 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1060 ; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1066 ; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
1067 ; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1068 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1069 ; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1079 ; SSE-NEXT: addpd %xmm3, %xmm1
1081 ; SSE-NEXT: addpd %xmm1, %xmm0
1082 ; SSE-NEXT: movapd %xmm0, %xmm1
1083 ; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
1084 ; SSE-NEXT: addsd %xmm0, %xmm1
1085 ; SSE-NEXT: movapd %xmm1, %xmm0
1091 ; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
1092 ; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1093 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1094 ; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1101 ; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
1102 ; AVX1-FAST-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1110 ; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
1111 ; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1112 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1113 ; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1121 ; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
1122 ; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1123 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1124 ; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1138 ; SSE-NEXT: addpd %xmm5, %xmm1
1139 ; SSE-NEXT: addpd %xmm3, %xmm1
1140 ; SSE-NEXT: addpd %xmm0, %xmm1
1141 ; SSE-NEXT: movapd %xmm1, %xmm0
1142 ; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
1143 ; SSE-NEXT: addsd %xmm1, %xmm0
1151 ; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
1152 ; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1153 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1154 ; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1163 ; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
1164 ; AVX1-FAST-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1174 ; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
1175 ; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1176 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1177 ; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1186 ; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
1187 ; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1188 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1189 ; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1203 ; SSE-NEXT: movapd %xmm0, %xmm1
1204 ; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
1205 ; SSE-NEXT: addsd %xmm0, %xmm1
1206 ; SSE-NEXT: movapd %xmm1, %xmm0
1211 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1212 ; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1222 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1223 ; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1228 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1229 ; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1238 ; SSE-NEXT: addpd %xmm1, %xmm0
1239 ; SSE-NEXT: movapd %xmm0, %xmm1
1240 ; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
1241 ; SSE-NEXT: addsd %xmm0, %xmm1
1242 ; SSE-NEXT: movapd %xmm1, %xmm0
1247 ; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
1248 ; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1249 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1250 ; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1256 ; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
1257 ; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm1, %xmm0
1264 ; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
1265 ; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1266 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1267 ; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1273 ; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
1274 ; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1275 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1276 ; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1286 ; SSE-NEXT: addpd %xmm3, %xmm1
1288 ; SSE-NEXT: addpd %xmm1, %xmm0
1289 ; SSE-NEXT: movapd %xmm0, %xmm1
1290 ; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
1291 ; SSE-NEXT: addsd %xmm0, %xmm1
1292 ; SSE-NEXT: movapd %xmm1, %xmm0
1298 ; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
1299 ; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1300 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1301 ; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1308 ; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
1309 ; AVX1-FAST-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1317 ; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
1318 ; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1319 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1320 ; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1328 ; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
1329 ; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1330 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1331 ; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1345 ; SSE-NEXT: addpd %xmm5, %xmm1
1346 ; SSE-NEXT: addpd %xmm3, %xmm1
1347 ; SSE-NEXT: addpd %xmm0, %xmm1
1348 ; SSE-NEXT: movapd %xmm1, %xmm0
1349 ; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
1350 ; SSE-NEXT: addsd %xmm1, %xmm0
1358 ; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
1359 ; AVX1-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1360 ; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1361 ; AVX1-SLOW-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1370 ; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
1371 ; AVX1-FAST-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1381 ; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
1382 ; AVX2-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1383 ; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1384 ; AVX2-NEXT: vaddsd %xmm1, %xmm0, %xmm0
1393 ; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
1394 ; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
1395 ; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
1396 ; AVX512-NEXT: vaddsd %xmm1, %xmm0, %xmm0