• Home
  • Line#
  • Scopes#
  • Navigate#
  • Raw
  • Download
1// This file is generated from a similarly-named Perl script in the BoringSSL
2// source tree. Do not edit by hand.
3
4#if !defined(__has_feature)
5#define __has_feature(x) 0
6#endif
7#if __has_feature(memory_sanitizer) && !defined(OPENSSL_NO_ASM)
8#define OPENSSL_NO_ASM
9#endif
10
11#if !defined(OPENSSL_NO_ASM)
12#if defined(BORINGSSL_PREFIX)
13#include <boringssl_prefix_symbols_asm.h>
14#endif
15#include <openssl/arm_arch.h>
16
17@ Silence ARMv8 deprecated IT instruction warnings. This file is used by both
18@ ARMv7 and ARMv8 processors and does not use ARMv8 instructions.
19
20
21.text
22#if defined(__thumb2__)
23.syntax	unified
24.thumb
25#else
26.code	32
27#endif
28
29#if __ARM_MAX_ARCH__>=7
30.align	5
31LOPENSSL_armcap:
32.word	OPENSSL_armcap_P-Lbn_mul_mont
33#endif
34
35.globl	_bn_mul_mont
36.private_extern	_bn_mul_mont
37#ifdef __thumb2__
38.thumb_func	_bn_mul_mont
39#endif
40
41.align	5
42_bn_mul_mont:
43Lbn_mul_mont:
44	ldr	ip,[sp,#4]		@ load num
45	stmdb	sp!,{r0,r2}		@ sp points at argument block
46#if __ARM_MAX_ARCH__>=7
47	tst	ip,#7
48	bne	Lialu
49	adr	r0,Lbn_mul_mont
50	ldr	r2,LOPENSSL_armcap
51	ldr	r0,[r0,r2]
52#ifdef	__APPLE__
53	ldr	r0,[r0]
54#endif
55	tst	r0,#ARMV7_NEON		@ NEON available?
56	ldmia	sp, {r0,r2}
57	beq	Lialu
58	add	sp,sp,#8
59	b	bn_mul8x_mont_neon
60.align	4
61Lialu:
62#endif
63	cmp	ip,#2
64	mov	r0,ip			@ load num
65#ifdef	__thumb2__
66	ittt	lt
67#endif
68	movlt	r0,#0
69	addlt	sp,sp,#2*4
70	blt	Labrt
71
72	stmdb	sp!,{r4,r5,r6,r7,r8,r9,r10,r11,r12,lr}		@ save 10 registers
73
74	mov	r0,r0,lsl#2		@ rescale r0 for byte count
75	sub	sp,sp,r0		@ alloca(4*num)
76	sub	sp,sp,#4		@ +extra dword
77	sub	r0,r0,#4		@ "num=num-1"
78	add	r4,r2,r0		@ &bp[num-1]
79
80	add	r0,sp,r0		@ r0 to point at &tp[num-1]
81	ldr	r8,[r0,#14*4]		@ &n0
82	ldr	r2,[r2]		@ bp[0]
83	ldr	r5,[r1],#4		@ ap[0],ap++
84	ldr	r6,[r3],#4		@ np[0],np++
85	ldr	r8,[r8]		@ *n0
86	str	r4,[r0,#15*4]		@ save &bp[num]
87
88	umull	r10,r11,r5,r2	@ ap[0]*bp[0]
89	str	r8,[r0,#14*4]		@ save n0 value
90	mul	r8,r10,r8		@ "tp[0]"*n0
91	mov	r12,#0
92	umlal	r10,r12,r6,r8	@ np[0]*n0+"t[0]"
93	mov	r4,sp
94
95L1st:
96	ldr	r5,[r1],#4		@ ap[j],ap++
97	mov	r10,r11
98	ldr	r6,[r3],#4		@ np[j],np++
99	mov	r11,#0
100	umlal	r10,r11,r5,r2	@ ap[j]*bp[0]
101	mov	r14,#0
102	umlal	r12,r14,r6,r8	@ np[j]*n0
103	adds	r12,r12,r10
104	str	r12,[r4],#4		@ tp[j-1]=,tp++
105	adc	r12,r14,#0
106	cmp	r4,r0
107	bne	L1st
108
109	adds	r12,r12,r11
110	ldr	r4,[r0,#13*4]		@ restore bp
111	mov	r14,#0
112	ldr	r8,[r0,#14*4]		@ restore n0
113	adc	r14,r14,#0
114	str	r12,[r0]		@ tp[num-1]=
115	mov	r7,sp
116	str	r14,[r0,#4]		@ tp[num]=
117
118Louter:
119	sub	r7,r0,r7		@ "original" r0-1 value
120	sub	r1,r1,r7		@ "rewind" ap to &ap[1]
121	ldr	r2,[r4,#4]!		@ *(++bp)
122	sub	r3,r3,r7		@ "rewind" np to &np[1]
123	ldr	r5,[r1,#-4]		@ ap[0]
124	ldr	r10,[sp]		@ tp[0]
125	ldr	r6,[r3,#-4]		@ np[0]
126	ldr	r7,[sp,#4]		@ tp[1]
127
128	mov	r11,#0
129	umlal	r10,r11,r5,r2	@ ap[0]*bp[i]+tp[0]
130	str	r4,[r0,#13*4]		@ save bp
131	mul	r8,r10,r8
132	mov	r12,#0
133	umlal	r10,r12,r6,r8	@ np[0]*n0+"tp[0]"
134	mov	r4,sp
135
136Linner:
137	ldr	r5,[r1],#4		@ ap[j],ap++
138	adds	r10,r11,r7		@ +=tp[j]
139	ldr	r6,[r3],#4		@ np[j],np++
140	mov	r11,#0
141	umlal	r10,r11,r5,r2	@ ap[j]*bp[i]
142	mov	r14,#0
143	umlal	r12,r14,r6,r8	@ np[j]*n0
144	adc	r11,r11,#0
145	ldr	r7,[r4,#8]		@ tp[j+1]
146	adds	r12,r12,r10
147	str	r12,[r4],#4		@ tp[j-1]=,tp++
148	adc	r12,r14,#0
149	cmp	r4,r0
150	bne	Linner
151
152	adds	r12,r12,r11
153	mov	r14,#0
154	ldr	r4,[r0,#13*4]		@ restore bp
155	adc	r14,r14,#0
156	ldr	r8,[r0,#14*4]		@ restore n0
157	adds	r12,r12,r7
158	ldr	r7,[r0,#15*4]		@ restore &bp[num]
159	adc	r14,r14,#0
160	str	r12,[r0]		@ tp[num-1]=
161	str	r14,[r0,#4]		@ tp[num]=
162
163	cmp	r4,r7
164#ifdef	__thumb2__
165	itt	ne
166#endif
167	movne	r7,sp
168	bne	Louter
169
170	ldr	r2,[r0,#12*4]		@ pull rp
171	mov	r5,sp
172	add	r0,r0,#4		@ r0 to point at &tp[num]
173	sub	r5,r0,r5		@ "original" num value
174	mov	r4,sp			@ "rewind" r4
175	mov	r1,r4			@ "borrow" r1
176	sub	r3,r3,r5		@ "rewind" r3 to &np[0]
177
178	subs	r7,r7,r7		@ "clear" carry flag
179Lsub:	ldr	r7,[r4],#4
180	ldr	r6,[r3],#4
181	sbcs	r7,r7,r6		@ tp[j]-np[j]
182	str	r7,[r2],#4		@ rp[j]=
183	teq	r4,r0		@ preserve carry
184	bne	Lsub
185	sbcs	r14,r14,#0		@ upmost carry
186	mov	r4,sp			@ "rewind" r4
187	sub	r2,r2,r5		@ "rewind" r2
188
189Lcopy:	ldr	r7,[r4]		@ conditional copy
190	ldr	r5,[r2]
191	str	sp,[r4],#4		@ zap tp
192#ifdef	__thumb2__
193	it	cc
194#endif
195	movcc	r5,r7
196	str	r5,[r2],#4
197	teq	r4,r0		@ preserve carry
198	bne	Lcopy
199
200	mov	sp,r0
201	add	sp,sp,#4		@ skip over tp[num+1]
202	ldmia	sp!,{r4,r5,r6,r7,r8,r9,r10,r11,r12,lr}		@ restore registers
203	add	sp,sp,#2*4		@ skip over {r0,r2}
204	mov	r0,#1
205Labrt:
206#if __ARM_ARCH__>=5
207	bx	lr				@ bx lr
208#else
209	tst	lr,#1
210	moveq	pc,lr			@ be binary compatible with V4, yet
211.word	0xe12fff1e			@ interoperable with Thumb ISA:-)
212#endif
213
214#if __ARM_MAX_ARCH__>=7
215
216
217
218#ifdef __thumb2__
219.thumb_func	bn_mul8x_mont_neon
220#endif
221.align	5
222bn_mul8x_mont_neon:
223	mov	ip,sp
224	stmdb	sp!,{r4,r5,r6,r7,r8,r9,r10,r11}
225	vstmdb	sp!,{d8,d9,d10,d11,d12,d13,d14,d15}		@ ABI specification says so
226	ldmia	ip,{r4,r5}		@ load rest of parameter block
227	mov	ip,sp
228
229	cmp	r5,#8
230	bhi	LNEON_8n
231
232	@ special case for r5==8, everything is in register bank...
233
234	vld1.32	{d28[0]}, [r2,:32]!
235	veor	d8,d8,d8
236	sub	r7,sp,r5,lsl#4
237	vld1.32	{d0,d1,d2,d3},  [r1]!		@ can't specify :32 :-(
238	and	r7,r7,#-64
239	vld1.32	{d30[0]}, [r4,:32]
240	mov	sp,r7			@ alloca
241	vzip.16	d28,d8
242
243	vmull.u32	q6,d28,d0[0]
244	vmull.u32	q7,d28,d0[1]
245	vmull.u32	q8,d28,d1[0]
246	vshl.i64	d29,d13,#16
247	vmull.u32	q9,d28,d1[1]
248
249	vadd.u64	d29,d29,d12
250	veor	d8,d8,d8
251	vmul.u32	d29,d29,d30
252
253	vmull.u32	q10,d28,d2[0]
254	vld1.32	{d4,d5,d6,d7}, [r3]!
255	vmull.u32	q11,d28,d2[1]
256	vmull.u32	q12,d28,d3[0]
257	vzip.16	d29,d8
258	vmull.u32	q13,d28,d3[1]
259
260	vmlal.u32	q6,d29,d4[0]
261	sub	r9,r5,#1
262	vmlal.u32	q7,d29,d4[1]
263	vmlal.u32	q8,d29,d5[0]
264	vmlal.u32	q9,d29,d5[1]
265
266	vmlal.u32	q10,d29,d6[0]
267	vmov	q5,q6
268	vmlal.u32	q11,d29,d6[1]
269	vmov	q6,q7
270	vmlal.u32	q12,d29,d7[0]
271	vmov	q7,q8
272	vmlal.u32	q13,d29,d7[1]
273	vmov	q8,q9
274	vmov	q9,q10
275	vshr.u64	d10,d10,#16
276	vmov	q10,q11
277	vmov	q11,q12
278	vadd.u64	d10,d10,d11
279	vmov	q12,q13
280	veor	q13,q13
281	vshr.u64	d10,d10,#16
282
283	b	LNEON_outer8
284
285.align	4
286LNEON_outer8:
287	vld1.32	{d28[0]}, [r2,:32]!
288	veor	d8,d8,d8
289	vzip.16	d28,d8
290	vadd.u64	d12,d12,d10
291
292	vmlal.u32	q6,d28,d0[0]
293	vmlal.u32	q7,d28,d0[1]
294	vmlal.u32	q8,d28,d1[0]
295	vshl.i64	d29,d13,#16
296	vmlal.u32	q9,d28,d1[1]
297
298	vadd.u64	d29,d29,d12
299	veor	d8,d8,d8
300	subs	r9,r9,#1
301	vmul.u32	d29,d29,d30
302
303	vmlal.u32	q10,d28,d2[0]
304	vmlal.u32	q11,d28,d2[1]
305	vmlal.u32	q12,d28,d3[0]
306	vzip.16	d29,d8
307	vmlal.u32	q13,d28,d3[1]
308
309	vmlal.u32	q6,d29,d4[0]
310	vmlal.u32	q7,d29,d4[1]
311	vmlal.u32	q8,d29,d5[0]
312	vmlal.u32	q9,d29,d5[1]
313
314	vmlal.u32	q10,d29,d6[0]
315	vmov	q5,q6
316	vmlal.u32	q11,d29,d6[1]
317	vmov	q6,q7
318	vmlal.u32	q12,d29,d7[0]
319	vmov	q7,q8
320	vmlal.u32	q13,d29,d7[1]
321	vmov	q8,q9
322	vmov	q9,q10
323	vshr.u64	d10,d10,#16
324	vmov	q10,q11
325	vmov	q11,q12
326	vadd.u64	d10,d10,d11
327	vmov	q12,q13
328	veor	q13,q13
329	vshr.u64	d10,d10,#16
330
331	bne	LNEON_outer8
332
333	vadd.u64	d12,d12,d10
334	mov	r7,sp
335	vshr.u64	d10,d12,#16
336	mov	r8,r5
337	vadd.u64	d13,d13,d10
338	add	r6,sp,#96
339	vshr.u64	d10,d13,#16
340	vzip.16	d12,d13
341
342	b	LNEON_tail_entry
343
344.align	4
345LNEON_8n:
346	veor	q6,q6,q6
347	sub	r7,sp,#128
348	veor	q7,q7,q7
349	sub	r7,r7,r5,lsl#4
350	veor	q8,q8,q8
351	and	r7,r7,#-64
352	veor	q9,q9,q9
353	mov	sp,r7			@ alloca
354	veor	q10,q10,q10
355	add	r7,r7,#256
356	veor	q11,q11,q11
357	sub	r8,r5,#8
358	veor	q12,q12,q12
359	veor	q13,q13,q13
360
361LNEON_8n_init:
362	vst1.64	{q6,q7},[r7,:256]!
363	subs	r8,r8,#8
364	vst1.64	{q8,q9},[r7,:256]!
365	vst1.64	{q10,q11},[r7,:256]!
366	vst1.64	{q12,q13},[r7,:256]!
367	bne	LNEON_8n_init
368
369	add	r6,sp,#256
370	vld1.32	{d0,d1,d2,d3},[r1]!
371	add	r10,sp,#8
372	vld1.32	{d30[0]},[r4,:32]
373	mov	r9,r5
374	b	LNEON_8n_outer
375
376.align	4
377LNEON_8n_outer:
378	vld1.32	{d28[0]},[r2,:32]!	@ *b++
379	veor	d8,d8,d8
380	vzip.16	d28,d8
381	add	r7,sp,#128
382	vld1.32	{d4,d5,d6,d7},[r3]!
383
384	vmlal.u32	q6,d28,d0[0]
385	vmlal.u32	q7,d28,d0[1]
386	veor	d8,d8,d8
387	vmlal.u32	q8,d28,d1[0]
388	vshl.i64	d29,d13,#16
389	vmlal.u32	q9,d28,d1[1]
390	vadd.u64	d29,d29,d12
391	vmlal.u32	q10,d28,d2[0]
392	vmul.u32	d29,d29,d30
393	vmlal.u32	q11,d28,d2[1]
394	vst1.32	{d28},[sp,:64]		@ put aside smashed b[8*i+0]
395	vmlal.u32	q12,d28,d3[0]
396	vzip.16	d29,d8
397	vmlal.u32	q13,d28,d3[1]
398	vld1.32	{d28[0]},[r2,:32]!	@ *b++
399	vmlal.u32	q6,d29,d4[0]
400	veor	d10,d10,d10
401	vmlal.u32	q7,d29,d4[1]
402	vzip.16	d28,d10
403	vmlal.u32	q8,d29,d5[0]
404	vshr.u64	d12,d12,#16
405	vmlal.u32	q9,d29,d5[1]
406	vmlal.u32	q10,d29,d6[0]
407	vadd.u64	d12,d12,d13
408	vmlal.u32	q11,d29,d6[1]
409	vshr.u64	d12,d12,#16
410	vmlal.u32	q12,d29,d7[0]
411	vmlal.u32	q13,d29,d7[1]
412	vadd.u64	d14,d14,d12
413	vst1.32	{d29},[r10,:64]!	@ put aside smashed m[8*i+0]
414	vmlal.u32	q7,d28,d0[0]
415	vld1.64	{q6},[r6,:128]!
416	vmlal.u32	q8,d28,d0[1]
417	veor	d8,d8,d8
418	vmlal.u32	q9,d28,d1[0]
419	vshl.i64	d29,d15,#16
420	vmlal.u32	q10,d28,d1[1]
421	vadd.u64	d29,d29,d14
422	vmlal.u32	q11,d28,d2[0]
423	vmul.u32	d29,d29,d30
424	vmlal.u32	q12,d28,d2[1]
425	vst1.32	{d28},[r10,:64]!	@ put aside smashed b[8*i+1]
426	vmlal.u32	q13,d28,d3[0]
427	vzip.16	d29,d8
428	vmlal.u32	q6,d28,d3[1]
429	vld1.32	{d28[0]},[r2,:32]!	@ *b++
430	vmlal.u32	q7,d29,d4[0]
431	veor	d10,d10,d10
432	vmlal.u32	q8,d29,d4[1]
433	vzip.16	d28,d10
434	vmlal.u32	q9,d29,d5[0]
435	vshr.u64	d14,d14,#16
436	vmlal.u32	q10,d29,d5[1]
437	vmlal.u32	q11,d29,d6[0]
438	vadd.u64	d14,d14,d15
439	vmlal.u32	q12,d29,d6[1]
440	vshr.u64	d14,d14,#16
441	vmlal.u32	q13,d29,d7[0]
442	vmlal.u32	q6,d29,d7[1]
443	vadd.u64	d16,d16,d14
444	vst1.32	{d29},[r10,:64]!	@ put aside smashed m[8*i+1]
445	vmlal.u32	q8,d28,d0[0]
446	vld1.64	{q7},[r6,:128]!
447	vmlal.u32	q9,d28,d0[1]
448	veor	d8,d8,d8
449	vmlal.u32	q10,d28,d1[0]
450	vshl.i64	d29,d17,#16
451	vmlal.u32	q11,d28,d1[1]
452	vadd.u64	d29,d29,d16
453	vmlal.u32	q12,d28,d2[0]
454	vmul.u32	d29,d29,d30
455	vmlal.u32	q13,d28,d2[1]
456	vst1.32	{d28},[r10,:64]!	@ put aside smashed b[8*i+2]
457	vmlal.u32	q6,d28,d3[0]
458	vzip.16	d29,d8
459	vmlal.u32	q7,d28,d3[1]
460	vld1.32	{d28[0]},[r2,:32]!	@ *b++
461	vmlal.u32	q8,d29,d4[0]
462	veor	d10,d10,d10
463	vmlal.u32	q9,d29,d4[1]
464	vzip.16	d28,d10
465	vmlal.u32	q10,d29,d5[0]
466	vshr.u64	d16,d16,#16
467	vmlal.u32	q11,d29,d5[1]
468	vmlal.u32	q12,d29,d6[0]
469	vadd.u64	d16,d16,d17
470	vmlal.u32	q13,d29,d6[1]
471	vshr.u64	d16,d16,#16
472	vmlal.u32	q6,d29,d7[0]
473	vmlal.u32	q7,d29,d7[1]
474	vadd.u64	d18,d18,d16
475	vst1.32	{d29},[r10,:64]!	@ put aside smashed m[8*i+2]
476	vmlal.u32	q9,d28,d0[0]
477	vld1.64	{q8},[r6,:128]!
478	vmlal.u32	q10,d28,d0[1]
479	veor	d8,d8,d8
480	vmlal.u32	q11,d28,d1[0]
481	vshl.i64	d29,d19,#16
482	vmlal.u32	q12,d28,d1[1]
483	vadd.u64	d29,d29,d18
484	vmlal.u32	q13,d28,d2[0]
485	vmul.u32	d29,d29,d30
486	vmlal.u32	q6,d28,d2[1]
487	vst1.32	{d28},[r10,:64]!	@ put aside smashed b[8*i+3]
488	vmlal.u32	q7,d28,d3[0]
489	vzip.16	d29,d8
490	vmlal.u32	q8,d28,d3[1]
491	vld1.32	{d28[0]},[r2,:32]!	@ *b++
492	vmlal.u32	q9,d29,d4[0]
493	veor	d10,d10,d10
494	vmlal.u32	q10,d29,d4[1]
495	vzip.16	d28,d10
496	vmlal.u32	q11,d29,d5[0]
497	vshr.u64	d18,d18,#16
498	vmlal.u32	q12,d29,d5[1]
499	vmlal.u32	q13,d29,d6[0]
500	vadd.u64	d18,d18,d19
501	vmlal.u32	q6,d29,d6[1]
502	vshr.u64	d18,d18,#16
503	vmlal.u32	q7,d29,d7[0]
504	vmlal.u32	q8,d29,d7[1]
505	vadd.u64	d20,d20,d18
506	vst1.32	{d29},[r10,:64]!	@ put aside smashed m[8*i+3]
507	vmlal.u32	q10,d28,d0[0]
508	vld1.64	{q9},[r6,:128]!
509	vmlal.u32	q11,d28,d0[1]
510	veor	d8,d8,d8
511	vmlal.u32	q12,d28,d1[0]
512	vshl.i64	d29,d21,#16
513	vmlal.u32	q13,d28,d1[1]
514	vadd.u64	d29,d29,d20
515	vmlal.u32	q6,d28,d2[0]
516	vmul.u32	d29,d29,d30
517	vmlal.u32	q7,d28,d2[1]
518	vst1.32	{d28},[r10,:64]!	@ put aside smashed b[8*i+4]
519	vmlal.u32	q8,d28,d3[0]
520	vzip.16	d29,d8
521	vmlal.u32	q9,d28,d3[1]
522	vld1.32	{d28[0]},[r2,:32]!	@ *b++
523	vmlal.u32	q10,d29,d4[0]
524	veor	d10,d10,d10
525	vmlal.u32	q11,d29,d4[1]
526	vzip.16	d28,d10
527	vmlal.u32	q12,d29,d5[0]
528	vshr.u64	d20,d20,#16
529	vmlal.u32	q13,d29,d5[1]
530	vmlal.u32	q6,d29,d6[0]
531	vadd.u64	d20,d20,d21
532	vmlal.u32	q7,d29,d6[1]
533	vshr.u64	d20,d20,#16
534	vmlal.u32	q8,d29,d7[0]
535	vmlal.u32	q9,d29,d7[1]
536	vadd.u64	d22,d22,d20
537	vst1.32	{d29},[r10,:64]!	@ put aside smashed m[8*i+4]
538	vmlal.u32	q11,d28,d0[0]
539	vld1.64	{q10},[r6,:128]!
540	vmlal.u32	q12,d28,d0[1]
541	veor	d8,d8,d8
542	vmlal.u32	q13,d28,d1[0]
543	vshl.i64	d29,d23,#16
544	vmlal.u32	q6,d28,d1[1]
545	vadd.u64	d29,d29,d22
546	vmlal.u32	q7,d28,d2[0]
547	vmul.u32	d29,d29,d30
548	vmlal.u32	q8,d28,d2[1]
549	vst1.32	{d28},[r10,:64]!	@ put aside smashed b[8*i+5]
550	vmlal.u32	q9,d28,d3[0]
551	vzip.16	d29,d8
552	vmlal.u32	q10,d28,d3[1]
553	vld1.32	{d28[0]},[r2,:32]!	@ *b++
554	vmlal.u32	q11,d29,d4[0]
555	veor	d10,d10,d10
556	vmlal.u32	q12,d29,d4[1]
557	vzip.16	d28,d10
558	vmlal.u32	q13,d29,d5[0]
559	vshr.u64	d22,d22,#16
560	vmlal.u32	q6,d29,d5[1]
561	vmlal.u32	q7,d29,d6[0]
562	vadd.u64	d22,d22,d23
563	vmlal.u32	q8,d29,d6[1]
564	vshr.u64	d22,d22,#16
565	vmlal.u32	q9,d29,d7[0]
566	vmlal.u32	q10,d29,d7[1]
567	vadd.u64	d24,d24,d22
568	vst1.32	{d29},[r10,:64]!	@ put aside smashed m[8*i+5]
569	vmlal.u32	q12,d28,d0[0]
570	vld1.64	{q11},[r6,:128]!
571	vmlal.u32	q13,d28,d0[1]
572	veor	d8,d8,d8
573	vmlal.u32	q6,d28,d1[0]
574	vshl.i64	d29,d25,#16
575	vmlal.u32	q7,d28,d1[1]
576	vadd.u64	d29,d29,d24
577	vmlal.u32	q8,d28,d2[0]
578	vmul.u32	d29,d29,d30
579	vmlal.u32	q9,d28,d2[1]
580	vst1.32	{d28},[r10,:64]!	@ put aside smashed b[8*i+6]
581	vmlal.u32	q10,d28,d3[0]
582	vzip.16	d29,d8
583	vmlal.u32	q11,d28,d3[1]
584	vld1.32	{d28[0]},[r2,:32]!	@ *b++
585	vmlal.u32	q12,d29,d4[0]
586	veor	d10,d10,d10
587	vmlal.u32	q13,d29,d4[1]
588	vzip.16	d28,d10
589	vmlal.u32	q6,d29,d5[0]
590	vshr.u64	d24,d24,#16
591	vmlal.u32	q7,d29,d5[1]
592	vmlal.u32	q8,d29,d6[0]
593	vadd.u64	d24,d24,d25
594	vmlal.u32	q9,d29,d6[1]
595	vshr.u64	d24,d24,#16
596	vmlal.u32	q10,d29,d7[0]
597	vmlal.u32	q11,d29,d7[1]
598	vadd.u64	d26,d26,d24
599	vst1.32	{d29},[r10,:64]!	@ put aside smashed m[8*i+6]
600	vmlal.u32	q13,d28,d0[0]
601	vld1.64	{q12},[r6,:128]!
602	vmlal.u32	q6,d28,d0[1]
603	veor	d8,d8,d8
604	vmlal.u32	q7,d28,d1[0]
605	vshl.i64	d29,d27,#16
606	vmlal.u32	q8,d28,d1[1]
607	vadd.u64	d29,d29,d26
608	vmlal.u32	q9,d28,d2[0]
609	vmul.u32	d29,d29,d30
610	vmlal.u32	q10,d28,d2[1]
611	vst1.32	{d28},[r10,:64]!	@ put aside smashed b[8*i+7]
612	vmlal.u32	q11,d28,d3[0]
613	vzip.16	d29,d8
614	vmlal.u32	q12,d28,d3[1]
615	vld1.32	{d28},[sp,:64]		@ pull smashed b[8*i+0]
616	vmlal.u32	q13,d29,d4[0]
617	vld1.32	{d0,d1,d2,d3},[r1]!
618	vmlal.u32	q6,d29,d4[1]
619	vmlal.u32	q7,d29,d5[0]
620	vshr.u64	d26,d26,#16
621	vmlal.u32	q8,d29,d5[1]
622	vmlal.u32	q9,d29,d6[0]
623	vadd.u64	d26,d26,d27
624	vmlal.u32	q10,d29,d6[1]
625	vshr.u64	d26,d26,#16
626	vmlal.u32	q11,d29,d7[0]
627	vmlal.u32	q12,d29,d7[1]
628	vadd.u64	d12,d12,d26
629	vst1.32	{d29},[r10,:64]	@ put aside smashed m[8*i+7]
630	add	r10,sp,#8		@ rewind
631	sub	r8,r5,#8
632	b	LNEON_8n_inner
633
634.align	4
635LNEON_8n_inner:
636	subs	r8,r8,#8
637	vmlal.u32	q6,d28,d0[0]
638	vld1.64	{q13},[r6,:128]
639	vmlal.u32	q7,d28,d0[1]
640	vld1.32	{d29},[r10,:64]!	@ pull smashed m[8*i+0]
641	vmlal.u32	q8,d28,d1[0]
642	vld1.32	{d4,d5,d6,d7},[r3]!
643	vmlal.u32	q9,d28,d1[1]
644	it	ne
645	addne	r6,r6,#16	@ don't advance in last iteration
646	vmlal.u32	q10,d28,d2[0]
647	vmlal.u32	q11,d28,d2[1]
648	vmlal.u32	q12,d28,d3[0]
649	vmlal.u32	q13,d28,d3[1]
650	vld1.32	{d28},[r10,:64]!	@ pull smashed b[8*i+1]
651	vmlal.u32	q6,d29,d4[0]
652	vmlal.u32	q7,d29,d4[1]
653	vmlal.u32	q8,d29,d5[0]
654	vmlal.u32	q9,d29,d5[1]
655	vmlal.u32	q10,d29,d6[0]
656	vmlal.u32	q11,d29,d6[1]
657	vmlal.u32	q12,d29,d7[0]
658	vmlal.u32	q13,d29,d7[1]
659	vst1.64	{q6},[r7,:128]!
660	vmlal.u32	q7,d28,d0[0]
661	vld1.64	{q6},[r6,:128]
662	vmlal.u32	q8,d28,d0[1]
663	vld1.32	{d29},[r10,:64]!	@ pull smashed m[8*i+1]
664	vmlal.u32	q9,d28,d1[0]
665	it	ne
666	addne	r6,r6,#16	@ don't advance in last iteration
667	vmlal.u32	q10,d28,d1[1]
668	vmlal.u32	q11,d28,d2[0]
669	vmlal.u32	q12,d28,d2[1]
670	vmlal.u32	q13,d28,d3[0]
671	vmlal.u32	q6,d28,d3[1]
672	vld1.32	{d28},[r10,:64]!	@ pull smashed b[8*i+2]
673	vmlal.u32	q7,d29,d4[0]
674	vmlal.u32	q8,d29,d4[1]
675	vmlal.u32	q9,d29,d5[0]
676	vmlal.u32	q10,d29,d5[1]
677	vmlal.u32	q11,d29,d6[0]
678	vmlal.u32	q12,d29,d6[1]
679	vmlal.u32	q13,d29,d7[0]
680	vmlal.u32	q6,d29,d7[1]
681	vst1.64	{q7},[r7,:128]!
682	vmlal.u32	q8,d28,d0[0]
683	vld1.64	{q7},[r6,:128]
684	vmlal.u32	q9,d28,d0[1]
685	vld1.32	{d29},[r10,:64]!	@ pull smashed m[8*i+2]
686	vmlal.u32	q10,d28,d1[0]
687	it	ne
688	addne	r6,r6,#16	@ don't advance in last iteration
689	vmlal.u32	q11,d28,d1[1]
690	vmlal.u32	q12,d28,d2[0]
691	vmlal.u32	q13,d28,d2[1]
692	vmlal.u32	q6,d28,d3[0]
693	vmlal.u32	q7,d28,d3[1]
694	vld1.32	{d28},[r10,:64]!	@ pull smashed b[8*i+3]
695	vmlal.u32	q8,d29,d4[0]
696	vmlal.u32	q9,d29,d4[1]
697	vmlal.u32	q10,d29,d5[0]
698	vmlal.u32	q11,d29,d5[1]
699	vmlal.u32	q12,d29,d6[0]
700	vmlal.u32	q13,d29,d6[1]
701	vmlal.u32	q6,d29,d7[0]
702	vmlal.u32	q7,d29,d7[1]
703	vst1.64	{q8},[r7,:128]!
704	vmlal.u32	q9,d28,d0[0]
705	vld1.64	{q8},[r6,:128]
706	vmlal.u32	q10,d28,d0[1]
707	vld1.32	{d29},[r10,:64]!	@ pull smashed m[8*i+3]
708	vmlal.u32	q11,d28,d1[0]
709	it	ne
710	addne	r6,r6,#16	@ don't advance in last iteration
711	vmlal.u32	q12,d28,d1[1]
712	vmlal.u32	q13,d28,d2[0]
713	vmlal.u32	q6,d28,d2[1]
714	vmlal.u32	q7,d28,d3[0]
715	vmlal.u32	q8,d28,d3[1]
716	vld1.32	{d28},[r10,:64]!	@ pull smashed b[8*i+4]
717	vmlal.u32	q9,d29,d4[0]
718	vmlal.u32	q10,d29,d4[1]
719	vmlal.u32	q11,d29,d5[0]
720	vmlal.u32	q12,d29,d5[1]
721	vmlal.u32	q13,d29,d6[0]
722	vmlal.u32	q6,d29,d6[1]
723	vmlal.u32	q7,d29,d7[0]
724	vmlal.u32	q8,d29,d7[1]
725	vst1.64	{q9},[r7,:128]!
726	vmlal.u32	q10,d28,d0[0]
727	vld1.64	{q9},[r6,:128]
728	vmlal.u32	q11,d28,d0[1]
729	vld1.32	{d29},[r10,:64]!	@ pull smashed m[8*i+4]
730	vmlal.u32	q12,d28,d1[0]
731	it	ne
732	addne	r6,r6,#16	@ don't advance in last iteration
733	vmlal.u32	q13,d28,d1[1]
734	vmlal.u32	q6,d28,d2[0]
735	vmlal.u32	q7,d28,d2[1]
736	vmlal.u32	q8,d28,d3[0]
737	vmlal.u32	q9,d28,d3[1]
738	vld1.32	{d28},[r10,:64]!	@ pull smashed b[8*i+5]
739	vmlal.u32	q10,d29,d4[0]
740	vmlal.u32	q11,d29,d4[1]
741	vmlal.u32	q12,d29,d5[0]
742	vmlal.u32	q13,d29,d5[1]
743	vmlal.u32	q6,d29,d6[0]
744	vmlal.u32	q7,d29,d6[1]
745	vmlal.u32	q8,d29,d7[0]
746	vmlal.u32	q9,d29,d7[1]
747	vst1.64	{q10},[r7,:128]!
748	vmlal.u32	q11,d28,d0[0]
749	vld1.64	{q10},[r6,:128]
750	vmlal.u32	q12,d28,d0[1]
751	vld1.32	{d29},[r10,:64]!	@ pull smashed m[8*i+5]
752	vmlal.u32	q13,d28,d1[0]
753	it	ne
754	addne	r6,r6,#16	@ don't advance in last iteration
755	vmlal.u32	q6,d28,d1[1]
756	vmlal.u32	q7,d28,d2[0]
757	vmlal.u32	q8,d28,d2[1]
758	vmlal.u32	q9,d28,d3[0]
759	vmlal.u32	q10,d28,d3[1]
760	vld1.32	{d28},[r10,:64]!	@ pull smashed b[8*i+6]
761	vmlal.u32	q11,d29,d4[0]
762	vmlal.u32	q12,d29,d4[1]
763	vmlal.u32	q13,d29,d5[0]
764	vmlal.u32	q6,d29,d5[1]
765	vmlal.u32	q7,d29,d6[0]
766	vmlal.u32	q8,d29,d6[1]
767	vmlal.u32	q9,d29,d7[0]
768	vmlal.u32	q10,d29,d7[1]
769	vst1.64	{q11},[r7,:128]!
770	vmlal.u32	q12,d28,d0[0]
771	vld1.64	{q11},[r6,:128]
772	vmlal.u32	q13,d28,d0[1]
773	vld1.32	{d29},[r10,:64]!	@ pull smashed m[8*i+6]
774	vmlal.u32	q6,d28,d1[0]
775	it	ne
776	addne	r6,r6,#16	@ don't advance in last iteration
777	vmlal.u32	q7,d28,d1[1]
778	vmlal.u32	q8,d28,d2[0]
779	vmlal.u32	q9,d28,d2[1]
780	vmlal.u32	q10,d28,d3[0]
781	vmlal.u32	q11,d28,d3[1]
782	vld1.32	{d28},[r10,:64]!	@ pull smashed b[8*i+7]
783	vmlal.u32	q12,d29,d4[0]
784	vmlal.u32	q13,d29,d4[1]
785	vmlal.u32	q6,d29,d5[0]
786	vmlal.u32	q7,d29,d5[1]
787	vmlal.u32	q8,d29,d6[0]
788	vmlal.u32	q9,d29,d6[1]
789	vmlal.u32	q10,d29,d7[0]
790	vmlal.u32	q11,d29,d7[1]
791	vst1.64	{q12},[r7,:128]!
792	vmlal.u32	q13,d28,d0[0]
793	vld1.64	{q12},[r6,:128]
794	vmlal.u32	q6,d28,d0[1]
795	vld1.32	{d29},[r10,:64]!	@ pull smashed m[8*i+7]
796	vmlal.u32	q7,d28,d1[0]
797	it	ne
798	addne	r6,r6,#16	@ don't advance in last iteration
799	vmlal.u32	q8,d28,d1[1]
800	vmlal.u32	q9,d28,d2[0]
801	vmlal.u32	q10,d28,d2[1]
802	vmlal.u32	q11,d28,d3[0]
803	vmlal.u32	q12,d28,d3[1]
804	it	eq
805	subeq	r1,r1,r5,lsl#2	@ rewind
806	vmlal.u32	q13,d29,d4[0]
807	vld1.32	{d28},[sp,:64]		@ pull smashed b[8*i+0]
808	vmlal.u32	q6,d29,d4[1]
809	vld1.32	{d0,d1,d2,d3},[r1]!
810	vmlal.u32	q7,d29,d5[0]
811	add	r10,sp,#8		@ rewind
812	vmlal.u32	q8,d29,d5[1]
813	vmlal.u32	q9,d29,d6[0]
814	vmlal.u32	q10,d29,d6[1]
815	vmlal.u32	q11,d29,d7[0]
816	vst1.64	{q13},[r7,:128]!
817	vmlal.u32	q12,d29,d7[1]
818
819	bne	LNEON_8n_inner
820	add	r6,sp,#128
821	vst1.64	{q6,q7},[r7,:256]!
822	veor	q2,q2,q2		@ d4-d5
823	vst1.64	{q8,q9},[r7,:256]!
824	veor	q3,q3,q3		@ d6-d7
825	vst1.64	{q10,q11},[r7,:256]!
826	vst1.64	{q12},[r7,:128]
827
828	subs	r9,r9,#8
829	vld1.64	{q6,q7},[r6,:256]!
830	vld1.64	{q8,q9},[r6,:256]!
831	vld1.64	{q10,q11},[r6,:256]!
832	vld1.64	{q12,q13},[r6,:256]!
833
834	itt	ne
835	subne	r3,r3,r5,lsl#2	@ rewind
836	bne	LNEON_8n_outer
837
838	add	r7,sp,#128
839	vst1.64	{q2,q3}, [sp,:256]!	@ start wiping stack frame
840	vshr.u64	d10,d12,#16
841	vst1.64	{q2,q3},[sp,:256]!
842	vadd.u64	d13,d13,d10
843	vst1.64	{q2,q3}, [sp,:256]!
844	vshr.u64	d10,d13,#16
845	vst1.64	{q2,q3}, [sp,:256]!
846	vzip.16	d12,d13
847
848	mov	r8,r5
849	b	LNEON_tail_entry
850
851.align	4
852LNEON_tail:
853	vadd.u64	d12,d12,d10
854	vshr.u64	d10,d12,#16
855	vld1.64	{q8,q9}, [r6, :256]!
856	vadd.u64	d13,d13,d10
857	vld1.64	{q10,q11}, [r6, :256]!
858	vshr.u64	d10,d13,#16
859	vld1.64	{q12,q13}, [r6, :256]!
860	vzip.16	d12,d13
861
862LNEON_tail_entry:
863	vadd.u64	d14,d14,d10
864	vst1.32	{d12[0]}, [r7, :32]!
865	vshr.u64	d10,d14,#16
866	vadd.u64	d15,d15,d10
867	vshr.u64	d10,d15,#16
868	vzip.16	d14,d15
869	vadd.u64	d16,d16,d10
870	vst1.32	{d14[0]}, [r7, :32]!
871	vshr.u64	d10,d16,#16
872	vadd.u64	d17,d17,d10
873	vshr.u64	d10,d17,#16
874	vzip.16	d16,d17
875	vadd.u64	d18,d18,d10
876	vst1.32	{d16[0]}, [r7, :32]!
877	vshr.u64	d10,d18,#16
878	vadd.u64	d19,d19,d10
879	vshr.u64	d10,d19,#16
880	vzip.16	d18,d19
881	vadd.u64	d20,d20,d10
882	vst1.32	{d18[0]}, [r7, :32]!
883	vshr.u64	d10,d20,#16
884	vadd.u64	d21,d21,d10
885	vshr.u64	d10,d21,#16
886	vzip.16	d20,d21
887	vadd.u64	d22,d22,d10
888	vst1.32	{d20[0]}, [r7, :32]!
889	vshr.u64	d10,d22,#16
890	vadd.u64	d23,d23,d10
891	vshr.u64	d10,d23,#16
892	vzip.16	d22,d23
893	vadd.u64	d24,d24,d10
894	vst1.32	{d22[0]}, [r7, :32]!
895	vshr.u64	d10,d24,#16
896	vadd.u64	d25,d25,d10
897	vshr.u64	d10,d25,#16
898	vzip.16	d24,d25
899	vadd.u64	d26,d26,d10
900	vst1.32	{d24[0]}, [r7, :32]!
901	vshr.u64	d10,d26,#16
902	vadd.u64	d27,d27,d10
903	vshr.u64	d10,d27,#16
904	vzip.16	d26,d27
905	vld1.64	{q6,q7}, [r6, :256]!
906	subs	r8,r8,#8
907	vst1.32	{d26[0]},   [r7, :32]!
908	bne	LNEON_tail
909
910	vst1.32	{d10[0]}, [r7, :32]		@ top-most bit
911	sub	r3,r3,r5,lsl#2			@ rewind r3
912	subs	r1,sp,#0				@ clear carry flag
913	add	r2,sp,r5,lsl#2
914
915LNEON_sub:
916	ldmia	r1!, {r4,r5,r6,r7}
917	ldmia	r3!, {r8,r9,r10,r11}
918	sbcs	r8, r4,r8
919	sbcs	r9, r5,r9
920	sbcs	r10,r6,r10
921	sbcs	r11,r7,r11
922	teq	r1,r2				@ preserves carry
923	stmia	r0!, {r8,r9,r10,r11}
924	bne	LNEON_sub
925
926	ldr	r10, [r1]				@ load top-most bit
927	mov	r11,sp
928	veor	q0,q0,q0
929	sub	r11,r2,r11				@ this is num*4
930	veor	q1,q1,q1
931	mov	r1,sp
932	sub	r0,r0,r11				@ rewind r0
933	mov	r3,r2				@ second 3/4th of frame
934	sbcs	r10,r10,#0				@ result is carry flag
935
936LNEON_copy_n_zap:
937	ldmia	r1!, {r4,r5,r6,r7}
938	ldmia	r0,  {r8,r9,r10,r11}
939	it	cc
940	movcc	r8, r4
941	vst1.64	{q0,q1}, [r3,:256]!			@ wipe
942	itt	cc
943	movcc	r9, r5
944	movcc	r10,r6
945	vst1.64	{q0,q1}, [r3,:256]!			@ wipe
946	it	cc
947	movcc	r11,r7
948	ldmia	r1, {r4,r5,r6,r7}
949	stmia	r0!, {r8,r9,r10,r11}
950	sub	r1,r1,#16
951	ldmia	r0, {r8,r9,r10,r11}
952	it	cc
953	movcc	r8, r4
954	vst1.64	{q0,q1}, [r1,:256]!			@ wipe
955	itt	cc
956	movcc	r9, r5
957	movcc	r10,r6
958	vst1.64	{q0,q1}, [r3,:256]!			@ wipe
959	it	cc
960	movcc	r11,r7
961	teq	r1,r2				@ preserves carry
962	stmia	r0!, {r8,r9,r10,r11}
963	bne	LNEON_copy_n_zap
964
965	mov	sp,ip
966	vldmia	sp!,{d8,d9,d10,d11,d12,d13,d14,d15}
967	ldmia	sp!,{r4,r5,r6,r7,r8,r9,r10,r11}
968	bx	lr						@ bx lr
969
970#endif
971.byte	77,111,110,116,103,111,109,101,114,121,32,109,117,108,116,105,112,108,105,99,97,116,105,111,110,32,102,111,114,32,65,82,77,118,52,47,78,69,79,78,44,32,67,82,89,80,84,79,71,65,77,83,32,98,121,32,60,97,112,112,114,111,64,111,112,101,110,115,115,108,46,111,114,103,62,0
972.align	2
973.align	2
974#if __ARM_MAX_ARCH__>=7
975.comm	_OPENSSL_armcap_P,4
976.non_lazy_symbol_pointer
977OPENSSL_armcap_P:
978.indirect_symbol	_OPENSSL_armcap_P
979.long	0
980.private_extern	_OPENSSL_armcap_P
981#endif
982#endif  // !OPENSSL_NO_ASM
983