• Home
  • Raw
  • Download

Lines Matching refs:SSE2

2 ; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+sse2 | FileCheck %s --check-prefix=SSE2
8 ; SSE2-LABEL: round_f32:
9 ; SSE2: ## %bb.0:
10 ; SSE2-NEXT: jmp _roundf ## TAILCALL
45 ; SSE2-LABEL: round_f64:
46 ; SSE2: ## %bb.0:
47 ; SSE2-NEXT: jmp _round ## TAILCALL
73 ; SSE2-LABEL: round_v4f32:
74 ; SSE2: ## %bb.0:
75 ; SSE2-NEXT: subq $56, %rsp
76 ; SSE2-NEXT: .cfi_def_cfa_offset 64
77 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
78 ; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
79 ; SSE2-NEXT: callq _roundf
80 ; SSE2-NEXT: movaps %xmm0, (%rsp) ## 16-byte Spill
81 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
82 ; SSE2-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
83 ; SSE2-NEXT: callq _roundf
84 ; SSE2-NEXT: unpcklps (%rsp), %xmm0 ## 16-byte Folded Reload
85 ; SSE2-NEXT: ## xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
86 ; SSE2-NEXT: movaps %xmm0, (%rsp) ## 16-byte Spill
87 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
88 ; SSE2-NEXT: callq _roundf
89 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
90 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
91 ; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
92 ; SSE2-NEXT: callq _roundf
93 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 ## 16-byte Reload
94 ; SSE2-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
95 ; SSE2-NEXT: unpcklpd (%rsp), %xmm1 ## 16-byte Folded Reload
96 ; SSE2-NEXT: ## xmm1 = xmm1[0],mem[0]
97 ; SSE2-NEXT: movaps %xmm1, %xmm0
98 ; SSE2-NEXT: addq $56, %rsp
99 ; SSE2-NEXT: retq
132 ; SSE2-LABEL: round_v2f64:
133 ; SSE2: ## %bb.0:
134 ; SSE2-NEXT: subq $40, %rsp
135 ; SSE2-NEXT: .cfi_def_cfa_offset 48
136 ; SSE2-NEXT: movaps %xmm0, (%rsp) ## 16-byte Spill
137 ; SSE2-NEXT: callq _round
138 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
139 ; SSE2-NEXT: movaps (%rsp), %xmm0 ## 16-byte Reload
140 ; SSE2-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
141 ; SSE2-NEXT: callq _round
142 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 ## 16-byte Reload
143 ; SSE2-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
144 ; SSE2-NEXT: movaps %xmm1, %xmm0
145 ; SSE2-NEXT: addq $40, %rsp
146 ; SSE2-NEXT: retq
169 ; SSE2-LABEL: round_v8f32:
170 ; SSE2: ## %bb.0:
171 ; SSE2-NEXT: subq $72, %rsp
172 ; SSE2-NEXT: .cfi_def_cfa_offset 80
173 ; SSE2-NEXT: movaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
174 ; SSE2-NEXT: movaps %xmm0, (%rsp) ## 16-byte Spill
175 ; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
176 ; SSE2-NEXT: callq _roundf
177 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
178 ; SSE2-NEXT: movaps (%rsp), %xmm0 ## 16-byte Reload
179 ; SSE2-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
180 ; SSE2-NEXT: callq _roundf
181 ; SSE2-NEXT: unpcklps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Folded Reload
182 ; SSE2-NEXT: ## xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
183 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
184 ; SSE2-NEXT: movaps (%rsp), %xmm0 ## 16-byte Reload
185 ; SSE2-NEXT: callq _roundf
186 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
187 ; SSE2-NEXT: movaps (%rsp), %xmm0 ## 16-byte Reload
188 ; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
189 ; SSE2-NEXT: callq _roundf
190 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 ## 16-byte Reload
191 ; SSE2-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
192 ; SSE2-NEXT: unpcklpd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 ## 16-byte Folded Reload
193 ; SSE2-NEXT: ## xmm1 = xmm1[0],mem[0]
194 ; SSE2-NEXT: movaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
195 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
196 ; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
197 ; SSE2-NEXT: callq _roundf
198 ; SSE2-NEXT: movaps %xmm0, (%rsp) ## 16-byte Spill
199 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
200 ; SSE2-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
201 ; SSE2-NEXT: callq _roundf
202 ; SSE2-NEXT: unpcklps (%rsp), %xmm0 ## 16-byte Folded Reload
203 ; SSE2-NEXT: ## xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
204 ; SSE2-NEXT: movaps %xmm0, (%rsp) ## 16-byte Spill
205 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
206 ; SSE2-NEXT: callq _roundf
207 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
208 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
209 ; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
210 ; SSE2-NEXT: callq _roundf
211 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 ## 16-byte Reload
212 ; SSE2-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
213 ; SSE2-NEXT: unpcklpd (%rsp), %xmm1 ## 16-byte Folded Reload
214 ; SSE2-NEXT: ## xmm1 = xmm1[0],mem[0]
215 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
216 ; SSE2-NEXT: addq $72, %rsp
217 ; SSE2-NEXT: retq
256 ; SSE2-LABEL: round_v4f64:
257 ; SSE2: ## %bb.0:
258 ; SSE2-NEXT: subq $56, %rsp
259 ; SSE2-NEXT: .cfi_def_cfa_offset 64
260 ; SSE2-NEXT: movaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
261 ; SSE2-NEXT: movaps %xmm0, (%rsp) ## 16-byte Spill
262 ; SSE2-NEXT: callq _round
263 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
264 ; SSE2-NEXT: movaps (%rsp), %xmm0 ## 16-byte Reload
265 ; SSE2-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
266 ; SSE2-NEXT: callq _round
267 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 ## 16-byte Reload
268 ; SSE2-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
269 ; SSE2-NEXT: movaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
270 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
271 ; SSE2-NEXT: callq _round
272 ; SSE2-NEXT: movaps %xmm0, (%rsp) ## 16-byte Spill
273 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
274 ; SSE2-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
275 ; SSE2-NEXT: callq _round
276 ; SSE2-NEXT: movaps (%rsp), %xmm1 ## 16-byte Reload
277 ; SSE2-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
278 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
279 ; SSE2-NEXT: addq $56, %rsp
280 ; SSE2-NEXT: retq
319 ; SSE2-LABEL: round_v16f32:
320 ; SSE2: ## %bb.0:
321 ; SSE2-NEXT: subq $104, %rsp
322 ; SSE2-NEXT: .cfi_def_cfa_offset 112
323 ; SSE2-NEXT: movaps %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
324 ; SSE2-NEXT: movaps %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
325 ; SSE2-NEXT: movaps %xmm1, (%rsp) ## 16-byte Spill
326 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
327 ; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
328 ; SSE2-NEXT: callq _roundf
329 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
330 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
331 ; SSE2-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
332 ; SSE2-NEXT: callq _roundf
333 ; SSE2-NEXT: unpcklps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Folded Reload
334 ; SSE2-NEXT: ## xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
335 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
336 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
337 ; SSE2-NEXT: callq _roundf
338 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
339 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
340 ; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
341 ; SSE2-NEXT: callq _roundf
342 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 ## 16-byte Reload
343 ; SSE2-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
344 ; SSE2-NEXT: unpcklpd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 ## 16-byte Folded Reload
345 ; SSE2-NEXT: ## xmm1 = xmm1[0],mem[0]
346 ; SSE2-NEXT: movaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
347 ; SSE2-NEXT: movaps (%rsp), %xmm0 ## 16-byte Reload
348 ; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
349 ; SSE2-NEXT: callq _roundf
350 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
351 ; SSE2-NEXT: movaps (%rsp), %xmm0 ## 16-byte Reload
352 ; SSE2-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
353 ; SSE2-NEXT: callq _roundf
354 ; SSE2-NEXT: unpcklps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Folded Reload
355 ; SSE2-NEXT: ## xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
356 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
357 ; SSE2-NEXT: movaps (%rsp), %xmm0 ## 16-byte Reload
358 ; SSE2-NEXT: callq _roundf
359 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
360 ; SSE2-NEXT: movaps (%rsp), %xmm0 ## 16-byte Reload
361 ; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
362 ; SSE2-NEXT: callq _roundf
363 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 ## 16-byte Reload
364 ; SSE2-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
365 ; SSE2-NEXT: unpcklpd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 ## 16-byte Folded Reload
366 ; SSE2-NEXT: ## xmm1 = xmm1[0],mem[0]
367 ; SSE2-NEXT: movaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
368 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
369 ; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
370 ; SSE2-NEXT: callq _roundf
371 ; SSE2-NEXT: movaps %xmm0, (%rsp) ## 16-byte Spill
372 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
373 ; SSE2-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
374 ; SSE2-NEXT: callq _roundf
375 ; SSE2-NEXT: unpcklps (%rsp), %xmm0 ## 16-byte Folded Reload
376 ; SSE2-NEXT: ## xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
377 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
378 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
379 ; SSE2-NEXT: callq _roundf
380 ; SSE2-NEXT: movaps %xmm0, (%rsp) ## 16-byte Spill
381 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
382 ; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
383 ; SSE2-NEXT: callq _roundf
384 ; SSE2-NEXT: movaps (%rsp), %xmm1 ## 16-byte Reload
385 ; SSE2-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
386 ; SSE2-NEXT: unpcklpd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 ## 16-byte Folded Reload
387 ; SSE2-NEXT: ## xmm1 = xmm1[0],mem[0]
388 ; SSE2-NEXT: movaps %xmm1, (%rsp) ## 16-byte Spill
389 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
390 ; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
391 ; SSE2-NEXT: callq _roundf
392 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
393 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
394 ; SSE2-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
395 ; SSE2-NEXT: callq _roundf
396 ; SSE2-NEXT: unpcklps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Folded Reload
397 ; SSE2-NEXT: ## xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
398 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
399 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
400 ; SSE2-NEXT: callq _roundf
401 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
402 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
403 ; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
404 ; SSE2-NEXT: callq _roundf
405 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 ## 16-byte Reload
406 ; SSE2-NEXT: unpcklps {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1]
407 ; SSE2-NEXT: unpcklpd {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 ## 16-byte Folded Reload
408 ; SSE2-NEXT: ## xmm3 = xmm3[0],mem[0]
409 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
410 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 ## 16-byte Reload
411 ; SSE2-NEXT: movaps (%rsp), %xmm2 ## 16-byte Reload
412 ; SSE2-NEXT: addq $104, %rsp
413 ; SSE2-NEXT: retq
466 ; SSE2-LABEL: round_v8f64:
467 ; SSE2: ## %bb.0:
468 ; SSE2-NEXT: subq $88, %rsp
469 ; SSE2-NEXT: .cfi_def_cfa_offset 96
470 ; SSE2-NEXT: movaps %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
471 ; SSE2-NEXT: movaps %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
472 ; SSE2-NEXT: movaps %xmm1, (%rsp) ## 16-byte Spill
473 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
474 ; SSE2-NEXT: callq _round
475 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
476 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
477 ; SSE2-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
478 ; SSE2-NEXT: callq _round
479 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 ## 16-byte Reload
480 ; SSE2-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
481 ; SSE2-NEXT: movaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
482 ; SSE2-NEXT: movaps (%rsp), %xmm0 ## 16-byte Reload
483 ; SSE2-NEXT: callq _round
484 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
485 ; SSE2-NEXT: movaps (%rsp), %xmm0 ## 16-byte Reload
486 ; SSE2-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
487 ; SSE2-NEXT: callq _round
488 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 ## 16-byte Reload
489 ; SSE2-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
490 ; SSE2-NEXT: movaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
491 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
492 ; SSE2-NEXT: callq _round
493 ; SSE2-NEXT: movaps %xmm0, (%rsp) ## 16-byte Spill
494 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
495 ; SSE2-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
496 ; SSE2-NEXT: callq _round
497 ; SSE2-NEXT: movaps (%rsp), %xmm1 ## 16-byte Reload
498 ; SSE2-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]
499 ; SSE2-NEXT: movaps %xmm1, (%rsp) ## 16-byte Spill
500 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
501 ; SSE2-NEXT: callq _round
502 ; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 16-byte Spill
503 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
504 ; SSE2-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
505 ; SSE2-NEXT: callq _round
506 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 ## 16-byte Reload
507 ; SSE2-NEXT: movlhps {{.*#+}} xmm3 = xmm3[0],xmm0[0]
508 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 16-byte Reload
509 ; SSE2-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 ## 16-byte Reload
510 ; SSE2-NEXT: movaps (%rsp), %xmm2 ## 16-byte Reload
511 ; SSE2-NEXT: addq $88, %rsp
512 ; SSE2-NEXT: retq