@ -530,7 +530,7 @@ function idct16x16_dc_add_neon
movrel r12 , i d c t _ c o e f f s
vld1 . 1 6 { d0 } , [ r12 ,: 6 4 ]
vmov. i 1 6 q2 , #0
vmov. i 1 6 q2 , #0
vld1 . 1 6 { d16 [ ] } , [ r2 ,: 1 6 ]
vmull. s16 q8 , d16 , d0 [ 0 ]
@ -793,7 +793,7 @@ function \txfm\()16_1d_4x16_pass1_neon
push { l r }
mov r12 , #32
vmov. s16 q2 , #0
vmov. s16 q2 , #0
.irp i, 1 6 , 1 7 , 1 8 , 1 9 , 2 0 , 2 1 , 2 2 , 2 3 , 2 4 , 2 5 , 2 6 , 2 7 , 2 8 , 2 9 , 3 0 , 3 1
vld1 . 1 6 { d \ i } , [ r2 ,: 6 4 ]
vst1 . 1 6 { d4 } , [ r2 ,: 6 4 ] , r12
@ -1142,7 +1142,7 @@ function idct32x32_dc_add_neon
movrel r12 , i d c t _ c o e f f s
vld1 . 1 6 { d0 } , [ r12 ,: 6 4 ]
vmov. i 1 6 q2 , #0
vmov. i 1 6 q2 , #0
vld1 . 1 6 { d16 [ ] } , [ r2 ,: 1 6 ]
vmull. s16 q8 , d16 , d0 [ 0 ]
@ -1330,7 +1330,7 @@ function idct32_1d_4x32_pass1\suffix\()_neon
@ Double stride of the input, since we only read every other line
mov r12 , #128
vmov. s16 d4 , #0
vmov. s16 d4 , #0
@ d16 = IN(0), d17 = IN(2) ... d31 = IN(30)
.ifb \ suffix
@ -1394,7 +1394,7 @@ function idct32_1d_4x32_pass1\suffix\()_neon
.endif
add r2 , r2 , #64
vmov. s16 d8 , #0
vmov. s16 d8 , #0
@ d16 = IN(1), d17 = IN(3) ... d31 = IN(31)
.ifb \ suffix
.irp i, 1 6 , 1 7 , 1 8 , 1 9 , 2 0 , 2 1 , 2 2 , 2 3 , 2 4 , 2 5 , 2 6 , 2 7 , 2 8 , 2 9 , 3 0 , 3 1
@ -1533,9 +1533,9 @@ function idct32_1d_4x32_pass2\suffix\()_neon
.endif
vld1 . 3 2 { d12 [ ] } , [ r0 ,: 3 2 ] , r1
vld1 . 3 2 { d12 [ 1 ] } , [ r0 ,: 3 2 ] , r1
vrshr. s16 q4 , q4 , #6
vrshr. s16 q4 , q4 , #6
vld1 . 3 2 { d13 [ ] } , [ r0 ,: 3 2 ] , r1
vrshr. s16 q5 , q5 , #6
vrshr. s16 q5 , q5 , #6
vld1 . 3 2 { d13 [ 1 ] } , [ r0 ,: 3 2 ] , r1
sub r0 , r0 , r1 , l s l #2
vaddw. u 8 q4 , q4 , d12