From 97873cd1a59b97ced00907e274afaff75edf4a57 Mon Sep 17 00:00:00 2001 From: Adam Langley Date: Thu, 29 Dec 2022 12:56:20 -0800 Subject: [PATCH] Drop HRSS assembly. While this assembly implementation is faster in microbenchmarks, the cache pressure makes it slightly worse than the C code in larger benchmarks. Before: Did 7686 HRSS generate operations in 1056025us (7278.2 ops/sec) Did 90000 HRSS encap operations in 1010095us (89100.5 ops/sec) Did 28000 HRSS decap operations in 1031008us (27157.9 ops/sec) After: Did 3523 HRSS generate operations in 1045508us (3369.7 ops/sec) Did 43000 HRSS encap operations in 1017077us (42278.0 ops/sec) Did 17000 HRSS decap operations in 1011170us (16812.2 ops/sec) Change-Id: Ia7745b50393f2d2849867e7c5c0af59d651f243d Reviewed-on: https://boringssl-review.googlesource.com/c/boringssl/+/55885 Reviewed-by: David Benjamin Commit-Queue: Adam Langley --- crypto/CMakeLists.txt | 1 - crypto/hrss/asm/poly_rq_mul.S | 8493 --------------------------------- crypto/hrss/hrss.c | 12 - crypto/hrss/internal.h | 20 - 4 files changed, 8526 deletions(-) delete mode 100644 crypto/hrss/asm/poly_rq_mul.S diff --git a/crypto/CMakeLists.txt b/crypto/CMakeLists.txt index c83d1e3ab..17174431b 100644 --- a/crypto/CMakeLists.txt +++ b/crypto/CMakeLists.txt @@ -149,7 +149,6 @@ if(ARCH STREQUAL "x86_64") chacha/chacha-x86_64.${ASM_EXT} cipher_extra/aes128gcmsiv-x86_64.${ASM_EXT} cipher_extra/chacha20_poly1305_x86_64.${ASM_EXT} - hrss/asm/poly_rq_mul.S test/trampoline-x86_64.${ASM_EXT} ) endif() diff --git a/crypto/hrss/asm/poly_rq_mul.S b/crypto/hrss/asm/poly_rq_mul.S deleted file mode 100644 index 2b410fe5f..000000000 --- a/crypto/hrss/asm/poly_rq_mul.S +++ /dev/null @@ -1,8493 +0,0 @@ -// Copyright (c) 2017, the HRSS authors. -// -// Permission to use, copy, modify, and/or distribute this software for any -// purpose with or without fee is hereby granted, provided that the above -// copyright notice and this permission notice appear in all copies. -// -// THE SOFTWARE IS PROVIDED "AS IS" AND THE AUTHOR DISCLAIMS ALL WARRANTIES -// WITH REGARD TO THIS SOFTWARE INCLUDING ALL IMPLIED WARRANTIES OF -// MERCHANTABILITY AND FITNESS. IN NO EVENT SHALL THE AUTHOR BE LIABLE FOR ANY -// SPECIAL, DIRECT, INDIRECT, OR CONSEQUENTIAL DAMAGES OR ANY DAMAGES -// WHATSOEVER RESULTING FROM LOSS OF USE, DATA OR PROFITS, WHETHER IN AN ACTION -// OF CONTRACT, NEGLIGENCE OR OTHER TORTIOUS ACTION, ARISING OUT OF OR IN -// CONNECTION WITH THE USE OR PERFORMANCE OF THIS SOFTWARE. - -#if !defined(OPENSSL_NO_ASM) && !defined(OPENSSL_SMALL) && defined(__linux__) - -#if defined(BORINGSSL_PREFIX) -#include -#endif - -// This is the polynomial multiplication function from [HRSS], provided by kind -// permission of the authors. -// -// HRSS: https://eprint.iacr.org/2017/1005 - -# This file was generated by poly_rq_mul.py -.text -.align 32 -const3: -.word 3 -.word 3 -.word 3 -.word 3 -.word 3 -.word 3 -.word 3 -.word 3 -.word 3 -.word 3 -.word 3 -.word 3 -.word 3 -.word 3 -.word 3 -.word 3 -const9: -.word 9 -.word 9 -.word 9 -.word 9 -.word 9 -.word 9 -.word 9 -.word 9 -.word 9 -.word 9 -.word 9 -.word 9 -.word 9 -.word 9 -.word 9 -.word 9 -const0: -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -const729: -.word 729 -.word 729 -.word 729 -.word 729 -.word 729 -.word 729 -.word 729 -.word 729 -.word 729 -.word 729 -.word 729 -.word 729 -.word 729 -.word 729 -.word 729 -.word 729 -const3_inv: -.word 43691 -.word 43691 -.word 43691 -.word 43691 -.word 43691 -.word 43691 -.word 43691 -.word 43691 -.word 43691 -.word 43691 -.word 43691 -.word 43691 -.word 43691 -.word 43691 -.word 43691 -.word 43691 -const5_inv: -.word 52429 -.word 52429 -.word 52429 -.word 52429 -.word 52429 -.word 52429 -.word 52429 -.word 52429 -.word 52429 -.word 52429 -.word 52429 -.word 52429 -.word 52429 -.word 52429 -.word 52429 -.word 52429 -shuf48_16: -.byte 10 -.byte 11 -.byte 12 -.byte 13 -.byte 14 -.byte 15 -.byte 0 -.byte 1 -.byte 2 -.byte 3 -.byte 4 -.byte 5 -.byte 6 -.byte 7 -.byte 8 -.byte 9 -.byte 10 -.byte 11 -.byte 12 -.byte 13 -.byte 14 -.byte 15 -.byte 0 -.byte 1 -.byte 2 -.byte 3 -.byte 4 -.byte 5 -.byte 6 -.byte 7 -.byte 8 -.byte 9 -shufmin1_mask3: -.byte 2 -.byte 3 -.byte 4 -.byte 5 -.byte 6 -.byte 7 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -.byte 255 -mask32_to_16: -.word 0xffff -.word 0x0 -.word 0xffff -.word 0x0 -.word 0xffff -.word 0x0 -.word 0xffff -.word 0x0 -.word 0xffff -.word 0x0 -.word 0xffff -.word 0x0 -.word 0xffff -.word 0x0 -.word 0xffff -.word 0x0 -mask5_3_5_3: -.word 0 -.word 0 -.word 0 -.word 65535 -.word 65535 -.word 65535 -.word 65535 -.word 65535 -.word 0 -.word 0 -.word 0 -.word 65535 -.word 65535 -.word 65535 -.word 65535 -.word 65535 -mask3_5_3_5: -.word 65535 -.word 65535 -.word 65535 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 65535 -.word 65535 -.word 65535 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -mask3_5_4_3_1: -.word 65535 -.word 65535 -.word 65535 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 65535 -.word 65535 -.word 65535 -.word 0 -mask_keephigh: -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 0 -.word 65535 -.word 65535 -.word 65535 -.word 65535 -.word 65535 -.word 65535 -.word 65535 -.word 65535 -mask_mod8192: -.word 8191 -.word 8191 -.word 8191 -.word 8191 -.word 8191 -.word 8191 -.word 8191 -.word 8191 -.word 8191 -.word 8191 -.word 8191 -.word 8191 -.word 8191 -.word 8191 -.word 8191 -.word 8191 -.text -.global poly_Rq_mul -.hidden poly_Rq_mul -.type poly_Rq_mul, @function -.att_syntax prefix -poly_Rq_mul: -.cfi_startproc -push %rbp -.cfi_adjust_cfa_offset 8 -.cfi_offset rbp, -16 -movq %rsp, %rbp -.cfi_def_cfa_register rbp -push %r12 -.cfi_offset r12, -24 -# This function originally used a significant amount of stack space. As an -# alternative, the needed scratch space is now passed in as the 4th argument. -# The amount of scratch space used must thus be kept in sync with -# POLY_MUL_RQ_SCRATCH_SPACE in internal.h. -# -# Setting RSP to point into the given scratch space upsets the ABI tests -# therefore all references to RSP are switched to R8. -mov %rcx, %r8 -addq $6144+12288+512+9408+32, %r8 -mov %r8, %rax -subq $6144, %r8 -mov %r8, %r11 -subq $12288, %r8 -mov %r8, %r12 -subq $512, %r8 -vmovdqa const3(%rip), %ymm3 -vmovdqu 0(%rsi), %ymm0 -vmovdqu 88(%rsi), %ymm1 -vmovdqu 176(%rsi), %ymm2 -vmovdqu 264(%rsi), %ymm12 -vmovdqu 1056(%rsi), %ymm4 -vmovdqu 1144(%rsi), %ymm5 -vmovdqu 1232(%rsi), %ymm6 -vmovdqu 1320(%rsi), %ymm7 -vmovdqu 352(%rsi), %ymm8 -vmovdqu 440(%rsi), %ymm9 -vmovdqu 528(%rsi), %ymm10 -vmovdqu 616(%rsi), %ymm11 -vmovdqa %ymm0, 0(%rax) -vmovdqa %ymm1, 96(%rax) -vpaddw %ymm0, %ymm1, %ymm14 -vmovdqa %ymm14, 192(%rax) -vmovdqa %ymm2, 288(%rax) -vmovdqa %ymm12, 384(%rax) -vpaddw %ymm2, %ymm12, %ymm14 -vmovdqa %ymm14, 480(%rax) -vpaddw %ymm0, %ymm2, %ymm14 -vmovdqa %ymm14, 576(%rax) -vpaddw %ymm1, %ymm12, %ymm15 -vmovdqa %ymm15, 672(%rax) -vpaddw %ymm14, %ymm15, %ymm14 -vmovdqa %ymm14, 768(%rax) -vmovdqa %ymm4, 5184(%rax) -vmovdqa %ymm5, 5280(%rax) -vpaddw %ymm4, %ymm5, %ymm14 -vmovdqa %ymm14, 5376(%rax) -vmovdqa %ymm6, 5472(%rax) -vmovdqa %ymm7, 5568(%rax) -vpaddw %ymm6, %ymm7, %ymm14 -vmovdqa %ymm14, 5664(%rax) -vpaddw %ymm4, %ymm6, %ymm14 -vmovdqa %ymm14, 5760(%rax) -vpaddw %ymm5, %ymm7, %ymm15 -vmovdqa %ymm15, 5856(%rax) -vpaddw %ymm14, %ymm15, %ymm14 -vmovdqa %ymm14, 5952(%rax) -vmovdqa %ymm0, 0(%r8) -vmovdqa %ymm1, 32(%r8) -vmovdqa %ymm2, 64(%r8) -vmovdqa %ymm12, 96(%r8) -vmovdqa %ymm8, 128(%r8) -vmovdqa %ymm9, 160(%r8) -vmovdqa %ymm10, 192(%r8) -vmovdqa %ymm11, 224(%r8) -vmovdqu 704(%rsi), %ymm0 -vpaddw 0(%r8), %ymm0, %ymm1 -vpaddw 128(%r8), %ymm4, %ymm2 -vpaddw %ymm2, %ymm1, %ymm8 -vpsubw %ymm2, %ymm1, %ymm12 -vmovdqa %ymm0, 256(%r8) -vmovdqu 792(%rsi), %ymm0 -vpaddw 32(%r8), %ymm0, %ymm1 -vpaddw 160(%r8), %ymm5, %ymm2 -vpaddw %ymm2, %ymm1, %ymm9 -vpsubw %ymm2, %ymm1, %ymm13 -vmovdqa %ymm0, 288(%r8) -vmovdqu 880(%rsi), %ymm0 -vpaddw 64(%r8), %ymm0, %ymm1 -vpaddw 192(%r8), %ymm6, %ymm2 -vpaddw %ymm2, %ymm1, %ymm10 -vpsubw %ymm2, %ymm1, %ymm14 -vmovdqa %ymm0, 320(%r8) -vmovdqu 968(%rsi), %ymm0 -vpaddw 96(%r8), %ymm0, %ymm1 -vpaddw 224(%r8), %ymm7, %ymm2 -vpaddw %ymm2, %ymm1, %ymm11 -vpsubw %ymm2, %ymm1, %ymm15 -vmovdqa %ymm0, 352(%r8) -vmovdqa %ymm8, 864(%rax) -vmovdqa %ymm9, 960(%rax) -vpaddw %ymm8, %ymm9, %ymm0 -vmovdqa %ymm0, 1056(%rax) -vmovdqa %ymm10, 1152(%rax) -vmovdqa %ymm11, 1248(%rax) -vpaddw %ymm10, %ymm11, %ymm0 -vmovdqa %ymm0, 1344(%rax) -vpaddw %ymm8, %ymm10, %ymm0 -vmovdqa %ymm0, 1440(%rax) -vpaddw %ymm9, %ymm11, %ymm1 -vmovdqa %ymm1, 1536(%rax) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 1632(%rax) -vmovdqa %ymm12, 1728(%rax) -vmovdqa %ymm13, 1824(%rax) -vpaddw %ymm12, %ymm13, %ymm0 -vmovdqa %ymm0, 1920(%rax) -vmovdqa %ymm14, 2016(%rax) -vmovdqa %ymm15, 2112(%rax) -vpaddw %ymm14, %ymm15, %ymm0 -vmovdqa %ymm0, 2208(%rax) -vpaddw %ymm12, %ymm14, %ymm0 -vmovdqa %ymm0, 2304(%rax) -vpaddw %ymm13, %ymm15, %ymm1 -vmovdqa %ymm1, 2400(%rax) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 2496(%rax) -vmovdqa 256(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 0(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm4, %ymm1 -vpaddw 128(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm8 -vpsubw %ymm1, %ymm0, %ymm12 -vmovdqa 288(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 32(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm5, %ymm1 -vpaddw 160(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm9 -vpsubw %ymm1, %ymm0, %ymm13 -vmovdqa 320(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 64(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm6, %ymm1 -vpaddw 192(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm10 -vpsubw %ymm1, %ymm0, %ymm14 -vmovdqa 352(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 96(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm7, %ymm1 -vpaddw 224(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm11 -vpsubw %ymm1, %ymm0, %ymm15 -vmovdqa %ymm8, 2592(%rax) -vmovdqa %ymm9, 2688(%rax) -vpaddw %ymm8, %ymm9, %ymm0 -vmovdqa %ymm0, 2784(%rax) -vmovdqa %ymm10, 2880(%rax) -vmovdqa %ymm11, 2976(%rax) -vpaddw %ymm10, %ymm11, %ymm0 -vmovdqa %ymm0, 3072(%rax) -vpaddw %ymm8, %ymm10, %ymm0 -vmovdqa %ymm0, 3168(%rax) -vpaddw %ymm9, %ymm11, %ymm1 -vmovdqa %ymm1, 3264(%rax) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 3360(%rax) -vmovdqa %ymm12, 3456(%rax) -vmovdqa %ymm13, 3552(%rax) -vpaddw %ymm12, %ymm13, %ymm0 -vmovdqa %ymm0, 3648(%rax) -vmovdqa %ymm14, 3744(%rax) -vmovdqa %ymm15, 3840(%rax) -vpaddw %ymm14, %ymm15, %ymm0 -vmovdqa %ymm0, 3936(%rax) -vpaddw %ymm12, %ymm14, %ymm0 -vmovdqa %ymm0, 4032(%rax) -vpaddw %ymm13, %ymm15, %ymm1 -vmovdqa %ymm1, 4128(%rax) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 4224(%rax) -vpmullw %ymm3, %ymm4, %ymm0 -vpaddw 256(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 128(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 0(%r8), %ymm0, %ymm12 -vpmullw %ymm3, %ymm5, %ymm0 -vpaddw 288(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 160(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 32(%r8), %ymm0, %ymm13 -vpmullw %ymm3, %ymm6, %ymm0 -vpaddw 320(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 192(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 64(%r8), %ymm0, %ymm14 -vpmullw %ymm3, %ymm7, %ymm0 -vpaddw 352(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 224(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 96(%r8), %ymm0, %ymm15 -vmovdqa %ymm12, 4320(%rax) -vmovdqa %ymm13, 4416(%rax) -vpaddw %ymm12, %ymm13, %ymm0 -vmovdqa %ymm0, 4512(%rax) -vmovdqa %ymm14, 4608(%rax) -vmovdqa %ymm15, 4704(%rax) -vpaddw %ymm14, %ymm15, %ymm0 -vmovdqa %ymm0, 4800(%rax) -vpaddw %ymm12, %ymm14, %ymm0 -vmovdqa %ymm0, 4896(%rax) -vpaddw %ymm13, %ymm15, %ymm1 -vmovdqa %ymm1, 4992(%rax) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 5088(%rax) -vmovdqu 32(%rsi), %ymm0 -vmovdqu 120(%rsi), %ymm1 -vmovdqu 208(%rsi), %ymm2 -vmovdqu 296(%rsi), %ymm12 -vmovdqu 1088(%rsi), %ymm4 -vmovdqu 1176(%rsi), %ymm5 -vmovdqu 1264(%rsi), %ymm6 -vmovdqu 1352(%rsi), %ymm7 -vmovdqu 384(%rsi), %ymm8 -vmovdqu 472(%rsi), %ymm9 -vmovdqu 560(%rsi), %ymm10 -vmovdqu 648(%rsi), %ymm11 -vmovdqa %ymm0, 32(%rax) -vmovdqa %ymm1, 128(%rax) -vpaddw %ymm0, %ymm1, %ymm14 -vmovdqa %ymm14, 224(%rax) -vmovdqa %ymm2, 320(%rax) -vmovdqa %ymm12, 416(%rax) -vpaddw %ymm2, %ymm12, %ymm14 -vmovdqa %ymm14, 512(%rax) -vpaddw %ymm0, %ymm2, %ymm14 -vmovdqa %ymm14, 608(%rax) -vpaddw %ymm1, %ymm12, %ymm15 -vmovdqa %ymm15, 704(%rax) -vpaddw %ymm14, %ymm15, %ymm14 -vmovdqa %ymm14, 800(%rax) -vmovdqa %ymm4, 5216(%rax) -vmovdqa %ymm5, 5312(%rax) -vpaddw %ymm4, %ymm5, %ymm14 -vmovdqa %ymm14, 5408(%rax) -vmovdqa %ymm6, 5504(%rax) -vmovdqa %ymm7, 5600(%rax) -vpaddw %ymm6, %ymm7, %ymm14 -vmovdqa %ymm14, 5696(%rax) -vpaddw %ymm4, %ymm6, %ymm14 -vmovdqa %ymm14, 5792(%rax) -vpaddw %ymm5, %ymm7, %ymm15 -vmovdqa %ymm15, 5888(%rax) -vpaddw %ymm14, %ymm15, %ymm14 -vmovdqa %ymm14, 5984(%rax) -vmovdqa %ymm0, 0(%r8) -vmovdqa %ymm1, 32(%r8) -vmovdqa %ymm2, 64(%r8) -vmovdqa %ymm12, 96(%r8) -vmovdqa %ymm8, 128(%r8) -vmovdqa %ymm9, 160(%r8) -vmovdqa %ymm10, 192(%r8) -vmovdqa %ymm11, 224(%r8) -vmovdqu 736(%rsi), %ymm0 -vpaddw 0(%r8), %ymm0, %ymm1 -vpaddw 128(%r8), %ymm4, %ymm2 -vpaddw %ymm2, %ymm1, %ymm8 -vpsubw %ymm2, %ymm1, %ymm12 -vmovdqa %ymm0, 256(%r8) -vmovdqu 824(%rsi), %ymm0 -vpaddw 32(%r8), %ymm0, %ymm1 -vpaddw 160(%r8), %ymm5, %ymm2 -vpaddw %ymm2, %ymm1, %ymm9 -vpsubw %ymm2, %ymm1, %ymm13 -vmovdqa %ymm0, 288(%r8) -vmovdqu 912(%rsi), %ymm0 -vpaddw 64(%r8), %ymm0, %ymm1 -vpaddw 192(%r8), %ymm6, %ymm2 -vpaddw %ymm2, %ymm1, %ymm10 -vpsubw %ymm2, %ymm1, %ymm14 -vmovdqa %ymm0, 320(%r8) -vmovdqu 1000(%rsi), %ymm0 -vpaddw 96(%r8), %ymm0, %ymm1 -vpaddw 224(%r8), %ymm7, %ymm2 -vpaddw %ymm2, %ymm1, %ymm11 -vpsubw %ymm2, %ymm1, %ymm15 -vmovdqa %ymm0, 352(%r8) -vmovdqa %ymm8, 896(%rax) -vmovdqa %ymm9, 992(%rax) -vpaddw %ymm8, %ymm9, %ymm0 -vmovdqa %ymm0, 1088(%rax) -vmovdqa %ymm10, 1184(%rax) -vmovdqa %ymm11, 1280(%rax) -vpaddw %ymm10, %ymm11, %ymm0 -vmovdqa %ymm0, 1376(%rax) -vpaddw %ymm8, %ymm10, %ymm0 -vmovdqa %ymm0, 1472(%rax) -vpaddw %ymm9, %ymm11, %ymm1 -vmovdqa %ymm1, 1568(%rax) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 1664(%rax) -vmovdqa %ymm12, 1760(%rax) -vmovdqa %ymm13, 1856(%rax) -vpaddw %ymm12, %ymm13, %ymm0 -vmovdqa %ymm0, 1952(%rax) -vmovdqa %ymm14, 2048(%rax) -vmovdqa %ymm15, 2144(%rax) -vpaddw %ymm14, %ymm15, %ymm0 -vmovdqa %ymm0, 2240(%rax) -vpaddw %ymm12, %ymm14, %ymm0 -vmovdqa %ymm0, 2336(%rax) -vpaddw %ymm13, %ymm15, %ymm1 -vmovdqa %ymm1, 2432(%rax) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 2528(%rax) -vmovdqa 256(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 0(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm4, %ymm1 -vpaddw 128(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm8 -vpsubw %ymm1, %ymm0, %ymm12 -vmovdqa 288(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 32(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm5, %ymm1 -vpaddw 160(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm9 -vpsubw %ymm1, %ymm0, %ymm13 -vmovdqa 320(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 64(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm6, %ymm1 -vpaddw 192(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm10 -vpsubw %ymm1, %ymm0, %ymm14 -vmovdqa 352(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 96(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm7, %ymm1 -vpaddw 224(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm11 -vpsubw %ymm1, %ymm0, %ymm15 -vmovdqa %ymm8, 2624(%rax) -vmovdqa %ymm9, 2720(%rax) -vpaddw %ymm8, %ymm9, %ymm0 -vmovdqa %ymm0, 2816(%rax) -vmovdqa %ymm10, 2912(%rax) -vmovdqa %ymm11, 3008(%rax) -vpaddw %ymm10, %ymm11, %ymm0 -vmovdqa %ymm0, 3104(%rax) -vpaddw %ymm8, %ymm10, %ymm0 -vmovdqa %ymm0, 3200(%rax) -vpaddw %ymm9, %ymm11, %ymm1 -vmovdqa %ymm1, 3296(%rax) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 3392(%rax) -vmovdqa %ymm12, 3488(%rax) -vmovdqa %ymm13, 3584(%rax) -vpaddw %ymm12, %ymm13, %ymm0 -vmovdqa %ymm0, 3680(%rax) -vmovdqa %ymm14, 3776(%rax) -vmovdqa %ymm15, 3872(%rax) -vpaddw %ymm14, %ymm15, %ymm0 -vmovdqa %ymm0, 3968(%rax) -vpaddw %ymm12, %ymm14, %ymm0 -vmovdqa %ymm0, 4064(%rax) -vpaddw %ymm13, %ymm15, %ymm1 -vmovdqa %ymm1, 4160(%rax) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 4256(%rax) -vpmullw %ymm3, %ymm4, %ymm0 -vpaddw 256(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 128(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 0(%r8), %ymm0, %ymm12 -vpmullw %ymm3, %ymm5, %ymm0 -vpaddw 288(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 160(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 32(%r8), %ymm0, %ymm13 -vpmullw %ymm3, %ymm6, %ymm0 -vpaddw 320(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 192(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 64(%r8), %ymm0, %ymm14 -vpmullw %ymm3, %ymm7, %ymm0 -vpaddw 352(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 224(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 96(%r8), %ymm0, %ymm15 -vmovdqa %ymm12, 4352(%rax) -vmovdqa %ymm13, 4448(%rax) -vpaddw %ymm12, %ymm13, %ymm0 -vmovdqa %ymm0, 4544(%rax) -vmovdqa %ymm14, 4640(%rax) -vmovdqa %ymm15, 4736(%rax) -vpaddw %ymm14, %ymm15, %ymm0 -vmovdqa %ymm0, 4832(%rax) -vpaddw %ymm12, %ymm14, %ymm0 -vmovdqa %ymm0, 4928(%rax) -vpaddw %ymm13, %ymm15, %ymm1 -vmovdqa %ymm1, 5024(%rax) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 5120(%rax) -vmovdqu 64(%rsi), %ymm0 -vmovdqu 152(%rsi), %ymm1 -vmovdqu 240(%rsi), %ymm2 -vmovdqu 328(%rsi), %ymm12 -vmovdqu 1120(%rsi), %ymm4 -vmovdqu 1208(%rsi), %ymm5 -vmovdqu 1296(%rsi), %ymm6 - -# Only 18 bytes more can be read, but vmovdqu reads 32. -# Copy 18 bytes to the red zone and zero pad to 32 bytes. -xor %r9, %r9 -movq %r9, -16(%rsp) -movq %r9, -8(%rsp) -movq 1384(%rsi), %r9 -movq %r9, -32(%rsp) -movq 1384+8(%rsi), %r9 -movq %r9, -24(%rsp) -movw 1384+16(%rsi), %r9w -movw %r9w, -16(%rsp) -vmovdqu -32(%rsp), %ymm7 - -vmovdqu 416(%rsi), %ymm8 -vmovdqu 504(%rsi), %ymm9 -vmovdqu 592(%rsi), %ymm10 -vmovdqu 680(%rsi), %ymm11 -vmovdqa %ymm0, 64(%rax) -vmovdqa %ymm1, 160(%rax) -vpaddw %ymm0, %ymm1, %ymm14 -vmovdqa %ymm14, 256(%rax) -vmovdqa %ymm2, 352(%rax) -vmovdqa %ymm12, 448(%rax) -vpaddw %ymm2, %ymm12, %ymm14 -vmovdqa %ymm14, 544(%rax) -vpaddw %ymm0, %ymm2, %ymm14 -vmovdqa %ymm14, 640(%rax) -vpaddw %ymm1, %ymm12, %ymm15 -vmovdqa %ymm15, 736(%rax) -vpaddw %ymm14, %ymm15, %ymm14 -vmovdqa %ymm14, 832(%rax) -vmovdqa %ymm4, 5248(%rax) -vmovdqa %ymm5, 5344(%rax) -vpaddw %ymm4, %ymm5, %ymm14 -vmovdqa %ymm14, 5440(%rax) -vmovdqa %ymm6, 5536(%rax) -vmovdqa %ymm7, 5632(%rax) -vpaddw %ymm6, %ymm7, %ymm14 -vmovdqa %ymm14, 5728(%rax) -vpaddw %ymm4, %ymm6, %ymm14 -vmovdqa %ymm14, 5824(%rax) -vpaddw %ymm5, %ymm7, %ymm15 -vmovdqa %ymm15, 5920(%rax) -vpaddw %ymm14, %ymm15, %ymm14 -vmovdqa %ymm14, 6016(%rax) -vmovdqa %ymm0, 0(%r8) -vmovdqa %ymm1, 32(%r8) -vmovdqa %ymm2, 64(%r8) -vmovdqa %ymm12, 96(%r8) -vmovdqa %ymm8, 128(%r8) -vmovdqa %ymm9, 160(%r8) -vmovdqa %ymm10, 192(%r8) -vmovdqa %ymm11, 224(%r8) -vmovdqu 768(%rsi), %ymm0 -vpaddw 0(%r8), %ymm0, %ymm1 -vpaddw 128(%r8), %ymm4, %ymm2 -vpaddw %ymm2, %ymm1, %ymm8 -vpsubw %ymm2, %ymm1, %ymm12 -vmovdqa %ymm0, 256(%r8) -vmovdqu 856(%rsi), %ymm0 -vpaddw 32(%r8), %ymm0, %ymm1 -vpaddw 160(%r8), %ymm5, %ymm2 -vpaddw %ymm2, %ymm1, %ymm9 -vpsubw %ymm2, %ymm1, %ymm13 -vmovdqa %ymm0, 288(%r8) -vmovdqu 944(%rsi), %ymm0 -vpaddw 64(%r8), %ymm0, %ymm1 -vpaddw 192(%r8), %ymm6, %ymm2 -vpaddw %ymm2, %ymm1, %ymm10 -vpsubw %ymm2, %ymm1, %ymm14 -vmovdqa %ymm0, 320(%r8) -vmovdqu 1032(%rsi), %ymm0 -vpaddw 96(%r8), %ymm0, %ymm1 -vpaddw 224(%r8), %ymm7, %ymm2 -vpaddw %ymm2, %ymm1, %ymm11 -vpsubw %ymm2, %ymm1, %ymm15 -vmovdqa %ymm0, 352(%r8) -vmovdqa %ymm8, 928(%rax) -vmovdqa %ymm9, 1024(%rax) -vpaddw %ymm8, %ymm9, %ymm0 -vmovdqa %ymm0, 1120(%rax) -vmovdqa %ymm10, 1216(%rax) -vmovdqa %ymm11, 1312(%rax) -vpaddw %ymm10, %ymm11, %ymm0 -vmovdqa %ymm0, 1408(%rax) -vpaddw %ymm8, %ymm10, %ymm0 -vmovdqa %ymm0, 1504(%rax) -vpaddw %ymm9, %ymm11, %ymm1 -vmovdqa %ymm1, 1600(%rax) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 1696(%rax) -vmovdqa %ymm12, 1792(%rax) -vmovdqa %ymm13, 1888(%rax) -vpaddw %ymm12, %ymm13, %ymm0 -vmovdqa %ymm0, 1984(%rax) -vmovdqa %ymm14, 2080(%rax) -vmovdqa %ymm15, 2176(%rax) -vpaddw %ymm14, %ymm15, %ymm0 -vmovdqa %ymm0, 2272(%rax) -vpaddw %ymm12, %ymm14, %ymm0 -vmovdqa %ymm0, 2368(%rax) -vpaddw %ymm13, %ymm15, %ymm1 -vmovdqa %ymm1, 2464(%rax) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 2560(%rax) -vmovdqa 256(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 0(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm4, %ymm1 -vpaddw 128(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm8 -vpsubw %ymm1, %ymm0, %ymm12 -vmovdqa 288(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 32(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm5, %ymm1 -vpaddw 160(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm9 -vpsubw %ymm1, %ymm0, %ymm13 -vmovdqa 320(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 64(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm6, %ymm1 -vpaddw 192(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm10 -vpsubw %ymm1, %ymm0, %ymm14 -vmovdqa 352(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 96(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm7, %ymm1 -vpaddw 224(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm11 -vpsubw %ymm1, %ymm0, %ymm15 -vmovdqa %ymm8, 2656(%rax) -vmovdqa %ymm9, 2752(%rax) -vpaddw %ymm8, %ymm9, %ymm0 -vmovdqa %ymm0, 2848(%rax) -vmovdqa %ymm10, 2944(%rax) -vmovdqa %ymm11, 3040(%rax) -vpaddw %ymm10, %ymm11, %ymm0 -vmovdqa %ymm0, 3136(%rax) -vpaddw %ymm8, %ymm10, %ymm0 -vmovdqa %ymm0, 3232(%rax) -vpaddw %ymm9, %ymm11, %ymm1 -vmovdqa %ymm1, 3328(%rax) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 3424(%rax) -vmovdqa %ymm12, 3520(%rax) -vmovdqa %ymm13, 3616(%rax) -vpaddw %ymm12, %ymm13, %ymm0 -vmovdqa %ymm0, 3712(%rax) -vmovdqa %ymm14, 3808(%rax) -vmovdqa %ymm15, 3904(%rax) -vpaddw %ymm14, %ymm15, %ymm0 -vmovdqa %ymm0, 4000(%rax) -vpaddw %ymm12, %ymm14, %ymm0 -vmovdqa %ymm0, 4096(%rax) -vpaddw %ymm13, %ymm15, %ymm1 -vmovdqa %ymm1, 4192(%rax) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 4288(%rax) -vpmullw %ymm3, %ymm4, %ymm0 -vpaddw 256(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 128(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 0(%r8), %ymm0, %ymm12 -vpmullw %ymm3, %ymm5, %ymm0 -vpaddw 288(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 160(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 32(%r8), %ymm0, %ymm13 -vpmullw %ymm3, %ymm6, %ymm0 -vpaddw 320(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 192(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 64(%r8), %ymm0, %ymm14 -vpmullw %ymm3, %ymm7, %ymm0 -vpaddw 352(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 224(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 96(%r8), %ymm0, %ymm15 -vmovdqa %ymm12, 4384(%rax) -vmovdqa %ymm13, 4480(%rax) -vpaddw %ymm12, %ymm13, %ymm0 -vmovdqa %ymm0, 4576(%rax) -vmovdqa %ymm14, 4672(%rax) -vmovdqa %ymm15, 4768(%rax) -vpaddw %ymm14, %ymm15, %ymm0 -vmovdqa %ymm0, 4864(%rax) -vpaddw %ymm12, %ymm14, %ymm0 -vmovdqa %ymm0, 4960(%rax) -vpaddw %ymm13, %ymm15, %ymm1 -vmovdqa %ymm1, 5056(%rax) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 5152(%rax) -vmovdqu 0(%rdx), %ymm0 -vmovdqu 88(%rdx), %ymm1 -vmovdqu 176(%rdx), %ymm2 -vmovdqu 264(%rdx), %ymm12 -vmovdqu 1056(%rdx), %ymm4 -vmovdqu 1144(%rdx), %ymm5 -vmovdqu 1232(%rdx), %ymm6 -vmovdqu 1320(%rdx), %ymm7 -vmovdqu 352(%rdx), %ymm8 -vmovdqu 440(%rdx), %ymm9 -vmovdqu 528(%rdx), %ymm10 -vmovdqu 616(%rdx), %ymm11 -vmovdqa %ymm0, 0(%r11) -vmovdqa %ymm1, 96(%r11) -vpaddw %ymm0, %ymm1, %ymm14 -vmovdqa %ymm14, 192(%r11) -vmovdqa %ymm2, 288(%r11) -vmovdqa %ymm12, 384(%r11) -vpaddw %ymm2, %ymm12, %ymm14 -vmovdqa %ymm14, 480(%r11) -vpaddw %ymm0, %ymm2, %ymm14 -vmovdqa %ymm14, 576(%r11) -vpaddw %ymm1, %ymm12, %ymm15 -vmovdqa %ymm15, 672(%r11) -vpaddw %ymm14, %ymm15, %ymm14 -vmovdqa %ymm14, 768(%r11) -vmovdqa %ymm4, 5184(%r11) -vmovdqa %ymm5, 5280(%r11) -vpaddw %ymm4, %ymm5, %ymm14 -vmovdqa %ymm14, 5376(%r11) -vmovdqa %ymm6, 5472(%r11) -vmovdqa %ymm7, 5568(%r11) -vpaddw %ymm6, %ymm7, %ymm14 -vmovdqa %ymm14, 5664(%r11) -vpaddw %ymm4, %ymm6, %ymm14 -vmovdqa %ymm14, 5760(%r11) -vpaddw %ymm5, %ymm7, %ymm15 -vmovdqa %ymm15, 5856(%r11) -vpaddw %ymm14, %ymm15, %ymm14 -vmovdqa %ymm14, 5952(%r11) -vmovdqa %ymm0, 0(%r8) -vmovdqa %ymm1, 32(%r8) -vmovdqa %ymm2, 64(%r8) -vmovdqa %ymm12, 96(%r8) -vmovdqa %ymm8, 128(%r8) -vmovdqa %ymm9, 160(%r8) -vmovdqa %ymm10, 192(%r8) -vmovdqa %ymm11, 224(%r8) -vmovdqu 704(%rdx), %ymm0 -vpaddw 0(%r8), %ymm0, %ymm1 -vpaddw 128(%r8), %ymm4, %ymm2 -vpaddw %ymm2, %ymm1, %ymm8 -vpsubw %ymm2, %ymm1, %ymm12 -vmovdqa %ymm0, 256(%r8) -vmovdqu 792(%rdx), %ymm0 -vpaddw 32(%r8), %ymm0, %ymm1 -vpaddw 160(%r8), %ymm5, %ymm2 -vpaddw %ymm2, %ymm1, %ymm9 -vpsubw %ymm2, %ymm1, %ymm13 -vmovdqa %ymm0, 288(%r8) -vmovdqu 880(%rdx), %ymm0 -vpaddw 64(%r8), %ymm0, %ymm1 -vpaddw 192(%r8), %ymm6, %ymm2 -vpaddw %ymm2, %ymm1, %ymm10 -vpsubw %ymm2, %ymm1, %ymm14 -vmovdqa %ymm0, 320(%r8) -vmovdqu 968(%rdx), %ymm0 -vpaddw 96(%r8), %ymm0, %ymm1 -vpaddw 224(%r8), %ymm7, %ymm2 -vpaddw %ymm2, %ymm1, %ymm11 -vpsubw %ymm2, %ymm1, %ymm15 -vmovdqa %ymm0, 352(%r8) -vmovdqa %ymm8, 864(%r11) -vmovdqa %ymm9, 960(%r11) -vpaddw %ymm8, %ymm9, %ymm0 -vmovdqa %ymm0, 1056(%r11) -vmovdqa %ymm10, 1152(%r11) -vmovdqa %ymm11, 1248(%r11) -vpaddw %ymm10, %ymm11, %ymm0 -vmovdqa %ymm0, 1344(%r11) -vpaddw %ymm8, %ymm10, %ymm0 -vmovdqa %ymm0, 1440(%r11) -vpaddw %ymm9, %ymm11, %ymm1 -vmovdqa %ymm1, 1536(%r11) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 1632(%r11) -vmovdqa %ymm12, 1728(%r11) -vmovdqa %ymm13, 1824(%r11) -vpaddw %ymm12, %ymm13, %ymm0 -vmovdqa %ymm0, 1920(%r11) -vmovdqa %ymm14, 2016(%r11) -vmovdqa %ymm15, 2112(%r11) -vpaddw %ymm14, %ymm15, %ymm0 -vmovdqa %ymm0, 2208(%r11) -vpaddw %ymm12, %ymm14, %ymm0 -vmovdqa %ymm0, 2304(%r11) -vpaddw %ymm13, %ymm15, %ymm1 -vmovdqa %ymm1, 2400(%r11) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 2496(%r11) -vmovdqa 256(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 0(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm4, %ymm1 -vpaddw 128(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm8 -vpsubw %ymm1, %ymm0, %ymm12 -vmovdqa 288(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 32(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm5, %ymm1 -vpaddw 160(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm9 -vpsubw %ymm1, %ymm0, %ymm13 -vmovdqa 320(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 64(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm6, %ymm1 -vpaddw 192(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm10 -vpsubw %ymm1, %ymm0, %ymm14 -vmovdqa 352(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 96(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm7, %ymm1 -vpaddw 224(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm11 -vpsubw %ymm1, %ymm0, %ymm15 -vmovdqa %ymm8, 2592(%r11) -vmovdqa %ymm9, 2688(%r11) -vpaddw %ymm8, %ymm9, %ymm0 -vmovdqa %ymm0, 2784(%r11) -vmovdqa %ymm10, 2880(%r11) -vmovdqa %ymm11, 2976(%r11) -vpaddw %ymm10, %ymm11, %ymm0 -vmovdqa %ymm0, 3072(%r11) -vpaddw %ymm8, %ymm10, %ymm0 -vmovdqa %ymm0, 3168(%r11) -vpaddw %ymm9, %ymm11, %ymm1 -vmovdqa %ymm1, 3264(%r11) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 3360(%r11) -vmovdqa %ymm12, 3456(%r11) -vmovdqa %ymm13, 3552(%r11) -vpaddw %ymm12, %ymm13, %ymm0 -vmovdqa %ymm0, 3648(%r11) -vmovdqa %ymm14, 3744(%r11) -vmovdqa %ymm15, 3840(%r11) -vpaddw %ymm14, %ymm15, %ymm0 -vmovdqa %ymm0, 3936(%r11) -vpaddw %ymm12, %ymm14, %ymm0 -vmovdqa %ymm0, 4032(%r11) -vpaddw %ymm13, %ymm15, %ymm1 -vmovdqa %ymm1, 4128(%r11) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 4224(%r11) -vpmullw %ymm3, %ymm4, %ymm0 -vpaddw 256(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 128(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 0(%r8), %ymm0, %ymm12 -vpmullw %ymm3, %ymm5, %ymm0 -vpaddw 288(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 160(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 32(%r8), %ymm0, %ymm13 -vpmullw %ymm3, %ymm6, %ymm0 -vpaddw 320(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 192(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 64(%r8), %ymm0, %ymm14 -vpmullw %ymm3, %ymm7, %ymm0 -vpaddw 352(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 224(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 96(%r8), %ymm0, %ymm15 -vmovdqa %ymm12, 4320(%r11) -vmovdqa %ymm13, 4416(%r11) -vpaddw %ymm12, %ymm13, %ymm0 -vmovdqa %ymm0, 4512(%r11) -vmovdqa %ymm14, 4608(%r11) -vmovdqa %ymm15, 4704(%r11) -vpaddw %ymm14, %ymm15, %ymm0 -vmovdqa %ymm0, 4800(%r11) -vpaddw %ymm12, %ymm14, %ymm0 -vmovdqa %ymm0, 4896(%r11) -vpaddw %ymm13, %ymm15, %ymm1 -vmovdqa %ymm1, 4992(%r11) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 5088(%r11) -vmovdqu 32(%rdx), %ymm0 -vmovdqu 120(%rdx), %ymm1 -vmovdqu 208(%rdx), %ymm2 -vmovdqu 296(%rdx), %ymm12 -vmovdqu 1088(%rdx), %ymm4 -vmovdqu 1176(%rdx), %ymm5 -vmovdqu 1264(%rdx), %ymm6 -vmovdqu 1352(%rdx), %ymm7 -vmovdqu 384(%rdx), %ymm8 -vmovdqu 472(%rdx), %ymm9 -vmovdqu 560(%rdx), %ymm10 -vmovdqu 648(%rdx), %ymm11 -vmovdqa %ymm0, 32(%r11) -vmovdqa %ymm1, 128(%r11) -vpaddw %ymm0, %ymm1, %ymm14 -vmovdqa %ymm14, 224(%r11) -vmovdqa %ymm2, 320(%r11) -vmovdqa %ymm12, 416(%r11) -vpaddw %ymm2, %ymm12, %ymm14 -vmovdqa %ymm14, 512(%r11) -vpaddw %ymm0, %ymm2, %ymm14 -vmovdqa %ymm14, 608(%r11) -vpaddw %ymm1, %ymm12, %ymm15 -vmovdqa %ymm15, 704(%r11) -vpaddw %ymm14, %ymm15, %ymm14 -vmovdqa %ymm14, 800(%r11) -vmovdqa %ymm4, 5216(%r11) -vmovdqa %ymm5, 5312(%r11) -vpaddw %ymm4, %ymm5, %ymm14 -vmovdqa %ymm14, 5408(%r11) -vmovdqa %ymm6, 5504(%r11) -vmovdqa %ymm7, 5600(%r11) -vpaddw %ymm6, %ymm7, %ymm14 -vmovdqa %ymm14, 5696(%r11) -vpaddw %ymm4, %ymm6, %ymm14 -vmovdqa %ymm14, 5792(%r11) -vpaddw %ymm5, %ymm7, %ymm15 -vmovdqa %ymm15, 5888(%r11) -vpaddw %ymm14, %ymm15, %ymm14 -vmovdqa %ymm14, 5984(%r11) -vmovdqa %ymm0, 0(%r8) -vmovdqa %ymm1, 32(%r8) -vmovdqa %ymm2, 64(%r8) -vmovdqa %ymm12, 96(%r8) -vmovdqa %ymm8, 128(%r8) -vmovdqa %ymm9, 160(%r8) -vmovdqa %ymm10, 192(%r8) -vmovdqa %ymm11, 224(%r8) -vmovdqu 736(%rdx), %ymm0 -vpaddw 0(%r8), %ymm0, %ymm1 -vpaddw 128(%r8), %ymm4, %ymm2 -vpaddw %ymm2, %ymm1, %ymm8 -vpsubw %ymm2, %ymm1, %ymm12 -vmovdqa %ymm0, 256(%r8) -vmovdqu 824(%rdx), %ymm0 -vpaddw 32(%r8), %ymm0, %ymm1 -vpaddw 160(%r8), %ymm5, %ymm2 -vpaddw %ymm2, %ymm1, %ymm9 -vpsubw %ymm2, %ymm1, %ymm13 -vmovdqa %ymm0, 288(%r8) -vmovdqu 912(%rdx), %ymm0 -vpaddw 64(%r8), %ymm0, %ymm1 -vpaddw 192(%r8), %ymm6, %ymm2 -vpaddw %ymm2, %ymm1, %ymm10 -vpsubw %ymm2, %ymm1, %ymm14 -vmovdqa %ymm0, 320(%r8) -vmovdqu 1000(%rdx), %ymm0 -vpaddw 96(%r8), %ymm0, %ymm1 -vpaddw 224(%r8), %ymm7, %ymm2 -vpaddw %ymm2, %ymm1, %ymm11 -vpsubw %ymm2, %ymm1, %ymm15 -vmovdqa %ymm0, 352(%r8) -vmovdqa %ymm8, 896(%r11) -vmovdqa %ymm9, 992(%r11) -vpaddw %ymm8, %ymm9, %ymm0 -vmovdqa %ymm0, 1088(%r11) -vmovdqa %ymm10, 1184(%r11) -vmovdqa %ymm11, 1280(%r11) -vpaddw %ymm10, %ymm11, %ymm0 -vmovdqa %ymm0, 1376(%r11) -vpaddw %ymm8, %ymm10, %ymm0 -vmovdqa %ymm0, 1472(%r11) -vpaddw %ymm9, %ymm11, %ymm1 -vmovdqa %ymm1, 1568(%r11) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 1664(%r11) -vmovdqa %ymm12, 1760(%r11) -vmovdqa %ymm13, 1856(%r11) -vpaddw %ymm12, %ymm13, %ymm0 -vmovdqa %ymm0, 1952(%r11) -vmovdqa %ymm14, 2048(%r11) -vmovdqa %ymm15, 2144(%r11) -vpaddw %ymm14, %ymm15, %ymm0 -vmovdqa %ymm0, 2240(%r11) -vpaddw %ymm12, %ymm14, %ymm0 -vmovdqa %ymm0, 2336(%r11) -vpaddw %ymm13, %ymm15, %ymm1 -vmovdqa %ymm1, 2432(%r11) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 2528(%r11) -vmovdqa 256(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 0(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm4, %ymm1 -vpaddw 128(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm8 -vpsubw %ymm1, %ymm0, %ymm12 -vmovdqa 288(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 32(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm5, %ymm1 -vpaddw 160(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm9 -vpsubw %ymm1, %ymm0, %ymm13 -vmovdqa 320(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 64(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm6, %ymm1 -vpaddw 192(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm10 -vpsubw %ymm1, %ymm0, %ymm14 -vmovdqa 352(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 96(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm7, %ymm1 -vpaddw 224(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm11 -vpsubw %ymm1, %ymm0, %ymm15 -vmovdqa %ymm8, 2624(%r11) -vmovdqa %ymm9, 2720(%r11) -vpaddw %ymm8, %ymm9, %ymm0 -vmovdqa %ymm0, 2816(%r11) -vmovdqa %ymm10, 2912(%r11) -vmovdqa %ymm11, 3008(%r11) -vpaddw %ymm10, %ymm11, %ymm0 -vmovdqa %ymm0, 3104(%r11) -vpaddw %ymm8, %ymm10, %ymm0 -vmovdqa %ymm0, 3200(%r11) -vpaddw %ymm9, %ymm11, %ymm1 -vmovdqa %ymm1, 3296(%r11) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 3392(%r11) -vmovdqa %ymm12, 3488(%r11) -vmovdqa %ymm13, 3584(%r11) -vpaddw %ymm12, %ymm13, %ymm0 -vmovdqa %ymm0, 3680(%r11) -vmovdqa %ymm14, 3776(%r11) -vmovdqa %ymm15, 3872(%r11) -vpaddw %ymm14, %ymm15, %ymm0 -vmovdqa %ymm0, 3968(%r11) -vpaddw %ymm12, %ymm14, %ymm0 -vmovdqa %ymm0, 4064(%r11) -vpaddw %ymm13, %ymm15, %ymm1 -vmovdqa %ymm1, 4160(%r11) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 4256(%r11) -vpmullw %ymm3, %ymm4, %ymm0 -vpaddw 256(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 128(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 0(%r8), %ymm0, %ymm12 -vpmullw %ymm3, %ymm5, %ymm0 -vpaddw 288(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 160(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 32(%r8), %ymm0, %ymm13 -vpmullw %ymm3, %ymm6, %ymm0 -vpaddw 320(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 192(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 64(%r8), %ymm0, %ymm14 -vpmullw %ymm3, %ymm7, %ymm0 -vpaddw 352(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 224(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 96(%r8), %ymm0, %ymm15 -vmovdqa %ymm12, 4352(%r11) -vmovdqa %ymm13, 4448(%r11) -vpaddw %ymm12, %ymm13, %ymm0 -vmovdqa %ymm0, 4544(%r11) -vmovdqa %ymm14, 4640(%r11) -vmovdqa %ymm15, 4736(%r11) -vpaddw %ymm14, %ymm15, %ymm0 -vmovdqa %ymm0, 4832(%r11) -vpaddw %ymm12, %ymm14, %ymm0 -vmovdqa %ymm0, 4928(%r11) -vpaddw %ymm13, %ymm15, %ymm1 -vmovdqa %ymm1, 5024(%r11) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 5120(%r11) -vmovdqu 64(%rdx), %ymm0 -vmovdqu 152(%rdx), %ymm1 -vmovdqu 240(%rdx), %ymm2 -vmovdqu 328(%rdx), %ymm12 -vmovdqu 1120(%rdx), %ymm4 -vmovdqu 1208(%rdx), %ymm5 -vmovdqu 1296(%rdx), %ymm6 - -# Only 18 bytes more can be read, but vmovdqu reads 32. -# Copy 18 bytes to the red zone and zero pad to 32 bytes. -xor %r9, %r9 -movq %r9, -16(%rsp) -movq %r9, -8(%rsp) -movq 1384(%rdx), %r9 -movq %r9, -32(%rsp) -movq 1384+8(%rdx), %r9 -movq %r9, -24(%rsp) -movw 1384+16(%rdx), %r9w -movw %r9w, -16(%rsp) -vmovdqu -32(%rsp), %ymm7 - -vmovdqu 416(%rdx), %ymm8 -vmovdqu 504(%rdx), %ymm9 -vmovdqu 592(%rdx), %ymm10 -vmovdqu 680(%rdx), %ymm11 -vmovdqa %ymm0, 64(%r11) -vmovdqa %ymm1, 160(%r11) -vpaddw %ymm0, %ymm1, %ymm14 -vmovdqa %ymm14, 256(%r11) -vmovdqa %ymm2, 352(%r11) -vmovdqa %ymm12, 448(%r11) -vpaddw %ymm2, %ymm12, %ymm14 -vmovdqa %ymm14, 544(%r11) -vpaddw %ymm0, %ymm2, %ymm14 -vmovdqa %ymm14, 640(%r11) -vpaddw %ymm1, %ymm12, %ymm15 -vmovdqa %ymm15, 736(%r11) -vpaddw %ymm14, %ymm15, %ymm14 -vmovdqa %ymm14, 832(%r11) -vmovdqa %ymm4, 5248(%r11) -vmovdqa %ymm5, 5344(%r11) -vpaddw %ymm4, %ymm5, %ymm14 -vmovdqa %ymm14, 5440(%r11) -vmovdqa %ymm6, 5536(%r11) -vmovdqa %ymm7, 5632(%r11) -vpaddw %ymm6, %ymm7, %ymm14 -vmovdqa %ymm14, 5728(%r11) -vpaddw %ymm4, %ymm6, %ymm14 -vmovdqa %ymm14, 5824(%r11) -vpaddw %ymm5, %ymm7, %ymm15 -vmovdqa %ymm15, 5920(%r11) -vpaddw %ymm14, %ymm15, %ymm14 -vmovdqa %ymm14, 6016(%r11) -vmovdqa %ymm0, 0(%r8) -vmovdqa %ymm1, 32(%r8) -vmovdqa %ymm2, 64(%r8) -vmovdqa %ymm12, 96(%r8) -vmovdqa %ymm8, 128(%r8) -vmovdqa %ymm9, 160(%r8) -vmovdqa %ymm10, 192(%r8) -vmovdqa %ymm11, 224(%r8) -vmovdqu 768(%rdx), %ymm0 -vpaddw 0(%r8), %ymm0, %ymm1 -vpaddw 128(%r8), %ymm4, %ymm2 -vpaddw %ymm2, %ymm1, %ymm8 -vpsubw %ymm2, %ymm1, %ymm12 -vmovdqa %ymm0, 256(%r8) -vmovdqu 856(%rdx), %ymm0 -vpaddw 32(%r8), %ymm0, %ymm1 -vpaddw 160(%r8), %ymm5, %ymm2 -vpaddw %ymm2, %ymm1, %ymm9 -vpsubw %ymm2, %ymm1, %ymm13 -vmovdqa %ymm0, 288(%r8) -vmovdqu 944(%rdx), %ymm0 -vpaddw 64(%r8), %ymm0, %ymm1 -vpaddw 192(%r8), %ymm6, %ymm2 -vpaddw %ymm2, %ymm1, %ymm10 -vpsubw %ymm2, %ymm1, %ymm14 -vmovdqa %ymm0, 320(%r8) -vmovdqu 1032(%rdx), %ymm0 -vpaddw 96(%r8), %ymm0, %ymm1 -vpaddw 224(%r8), %ymm7, %ymm2 -vpaddw %ymm2, %ymm1, %ymm11 -vpsubw %ymm2, %ymm1, %ymm15 -vmovdqa %ymm0, 352(%r8) -vmovdqa %ymm8, 928(%r11) -vmovdqa %ymm9, 1024(%r11) -vpaddw %ymm8, %ymm9, %ymm0 -vmovdqa %ymm0, 1120(%r11) -vmovdqa %ymm10, 1216(%r11) -vmovdqa %ymm11, 1312(%r11) -vpaddw %ymm10, %ymm11, %ymm0 -vmovdqa %ymm0, 1408(%r11) -vpaddw %ymm8, %ymm10, %ymm0 -vmovdqa %ymm0, 1504(%r11) -vpaddw %ymm9, %ymm11, %ymm1 -vmovdqa %ymm1, 1600(%r11) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 1696(%r11) -vmovdqa %ymm12, 1792(%r11) -vmovdqa %ymm13, 1888(%r11) -vpaddw %ymm12, %ymm13, %ymm0 -vmovdqa %ymm0, 1984(%r11) -vmovdqa %ymm14, 2080(%r11) -vmovdqa %ymm15, 2176(%r11) -vpaddw %ymm14, %ymm15, %ymm0 -vmovdqa %ymm0, 2272(%r11) -vpaddw %ymm12, %ymm14, %ymm0 -vmovdqa %ymm0, 2368(%r11) -vpaddw %ymm13, %ymm15, %ymm1 -vmovdqa %ymm1, 2464(%r11) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 2560(%r11) -vmovdqa 256(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 0(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm4, %ymm1 -vpaddw 128(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm8 -vpsubw %ymm1, %ymm0, %ymm12 -vmovdqa 288(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 32(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm5, %ymm1 -vpaddw 160(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm9 -vpsubw %ymm1, %ymm0, %ymm13 -vmovdqa 320(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 64(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm6, %ymm1 -vpaddw 192(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm10 -vpsubw %ymm1, %ymm0, %ymm14 -vmovdqa 352(%r8), %ymm0 -vpsllw $2, %ymm0, %ymm0 -vpaddw 96(%r8), %ymm0, %ymm0 -vpsllw $2, %ymm7, %ymm1 -vpaddw 224(%r8), %ymm1, %ymm1 -vpsllw $1, %ymm1, %ymm1 -vpaddw %ymm1, %ymm0, %ymm11 -vpsubw %ymm1, %ymm0, %ymm15 -vmovdqa %ymm8, 2656(%r11) -vmovdqa %ymm9, 2752(%r11) -vpaddw %ymm8, %ymm9, %ymm0 -vmovdqa %ymm0, 2848(%r11) -vmovdqa %ymm10, 2944(%r11) -vmovdqa %ymm11, 3040(%r11) -vpaddw %ymm10, %ymm11, %ymm0 -vmovdqa %ymm0, 3136(%r11) -vpaddw %ymm8, %ymm10, %ymm0 -vmovdqa %ymm0, 3232(%r11) -vpaddw %ymm9, %ymm11, %ymm1 -vmovdqa %ymm1, 3328(%r11) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 3424(%r11) -vmovdqa %ymm12, 3520(%r11) -vmovdqa %ymm13, 3616(%r11) -vpaddw %ymm12, %ymm13, %ymm0 -vmovdqa %ymm0, 3712(%r11) -vmovdqa %ymm14, 3808(%r11) -vmovdqa %ymm15, 3904(%r11) -vpaddw %ymm14, %ymm15, %ymm0 -vmovdqa %ymm0, 4000(%r11) -vpaddw %ymm12, %ymm14, %ymm0 -vmovdqa %ymm0, 4096(%r11) -vpaddw %ymm13, %ymm15, %ymm1 -vmovdqa %ymm1, 4192(%r11) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 4288(%r11) -vpmullw %ymm3, %ymm4, %ymm0 -vpaddw 256(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 128(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 0(%r8), %ymm0, %ymm12 -vpmullw %ymm3, %ymm5, %ymm0 -vpaddw 288(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 160(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 32(%r8), %ymm0, %ymm13 -vpmullw %ymm3, %ymm6, %ymm0 -vpaddw 320(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 192(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 64(%r8), %ymm0, %ymm14 -vpmullw %ymm3, %ymm7, %ymm0 -vpaddw 352(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 224(%r8), %ymm0, %ymm0 -vpmullw %ymm3, %ymm0, %ymm0 -vpaddw 96(%r8), %ymm0, %ymm15 -vmovdqa %ymm12, 4384(%r11) -vmovdqa %ymm13, 4480(%r11) -vpaddw %ymm12, %ymm13, %ymm0 -vmovdqa %ymm0, 4576(%r11) -vmovdqa %ymm14, 4672(%r11) -vmovdqa %ymm15, 4768(%r11) -vpaddw %ymm14, %ymm15, %ymm0 -vmovdqa %ymm0, 4864(%r11) -vpaddw %ymm12, %ymm14, %ymm0 -vmovdqa %ymm0, 4960(%r11) -vpaddw %ymm13, %ymm15, %ymm1 -vmovdqa %ymm1, 5056(%r11) -vpaddw %ymm0, %ymm1, %ymm0 -vmovdqa %ymm0, 5152(%r11) -subq $9408, %r8 -mov $4, %ecx -karatsuba_loop_4eced63f144beffcb0247f9c6f67d165: -mov %r8, %r9 -mov %r8, %r10 -subq $32, %r8 -vmovdqa 0(%rax), %ymm0 -vmovdqa 192(%rax), %ymm1 -vmovdqa 384(%rax), %ymm2 -vmovdqa 576(%rax), %ymm3 -vpunpcklwd 96(%rax), %ymm0, %ymm4 -vpunpckhwd 96(%rax), %ymm0, %ymm5 -vpunpcklwd 288(%rax), %ymm1, %ymm6 -vpunpckhwd 288(%rax), %ymm1, %ymm7 -vpunpcklwd 480(%rax), %ymm2, %ymm8 -vpunpckhwd 480(%rax), %ymm2, %ymm9 -vpunpcklwd 672(%rax), %ymm3, %ymm10 -vpunpckhwd 672(%rax), %ymm3, %ymm11 -vpunpckldq %ymm6, %ymm4, %ymm0 -vpunpckhdq %ymm6, %ymm4, %ymm1 -vpunpckldq %ymm7, %ymm5, %ymm2 -vpunpckhdq %ymm7, %ymm5, %ymm3 -vpunpckldq %ymm10, %ymm8, %ymm12 -vpunpckhdq %ymm10, %ymm8, %ymm13 -vpunpckldq %ymm11, %ymm9, %ymm14 -vpunpckhdq %ymm11, %ymm9, %ymm15 -vpunpcklqdq %ymm12, %ymm0, %ymm4 -vpunpckhqdq %ymm12, %ymm0, %ymm5 -vpunpcklqdq %ymm13, %ymm1, %ymm6 -vpunpckhqdq %ymm13, %ymm1, %ymm7 -vpunpcklqdq %ymm14, %ymm2, %ymm8 -vpunpckhqdq %ymm14, %ymm2, %ymm9 -vpunpcklqdq %ymm15, %ymm3, %ymm10 -vpunpckhqdq %ymm15, %ymm3, %ymm11 -vmovdqa 768(%rax), %ymm0 -vmovdqa 960(%rax), %ymm1 -vmovdqa 1152(%rax), %ymm2 -vmovdqa 1344(%rax), %ymm3 -vpunpcklwd 864(%rax), %ymm0, %ymm12 -vpunpckhwd 864(%rax), %ymm0, %ymm13 -vpunpcklwd 1056(%rax), %ymm1, %ymm14 -vpunpckhwd 1056(%rax), %ymm1, %ymm15 -vpunpcklwd 1248(%rax), %ymm2, %ymm0 -vpunpckhwd 1248(%rax), %ymm2, %ymm1 -vpunpcklwd 1440(%rax), %ymm3, %ymm2 -vpunpckhwd 1440(%rax), %ymm3, %ymm3 -vmovdqa %ymm11, 0(%r8) -vpunpckldq %ymm14, %ymm12, %ymm11 -vpunpckhdq %ymm14, %ymm12, %ymm12 -vpunpckldq %ymm15, %ymm13, %ymm14 -vpunpckhdq %ymm15, %ymm13, %ymm15 -vpunpckldq %ymm2, %ymm0, %ymm13 -vpunpckhdq %ymm2, %ymm0, %ymm0 -vpunpckldq %ymm3, %ymm1, %ymm2 -vpunpckhdq %ymm3, %ymm1, %ymm1 -vpunpcklqdq %ymm13, %ymm11, %ymm3 -vpunpckhqdq %ymm13, %ymm11, %ymm13 -vpunpcklqdq %ymm0, %ymm12, %ymm11 -vpunpckhqdq %ymm0, %ymm12, %ymm0 -vpunpcklqdq %ymm2, %ymm14, %ymm12 -vpunpckhqdq %ymm2, %ymm14, %ymm2 -vpunpcklqdq %ymm1, %ymm15, %ymm14 -vpunpckhqdq %ymm1, %ymm15, %ymm1 -vinserti128 $1, %xmm3, %ymm4, %ymm15 -vmovdqa %ymm15, 0(%r9) -vinserti128 $1, %xmm13, %ymm5, %ymm15 -vmovdqa %ymm15, 32(%r9) -vinserti128 $1, %xmm11, %ymm6, %ymm15 -vmovdqa %ymm15, 64(%r9) -vinserti128 $1, %xmm0, %ymm7, %ymm15 -vmovdqa %ymm15, 96(%r9) -vinserti128 $1, %xmm12, %ymm8, %ymm15 -vmovdqa %ymm15, 128(%r9) -vinserti128 $1, %xmm2, %ymm9, %ymm15 -vmovdqa %ymm15, 160(%r9) -vinserti128 $1, %xmm14, %ymm10, %ymm15 -vmovdqa %ymm15, 192(%r9) -vpermq $78, %ymm4, %ymm4 -vpermq $78, %ymm5, %ymm5 -vpermq $78, %ymm6, %ymm6 -vpermq $78, %ymm7, %ymm7 -vpermq $78, %ymm8, %ymm8 -vpermq $78, %ymm9, %ymm9 -vpermq $78, %ymm10, %ymm10 -vinserti128 $0, %xmm4, %ymm3, %ymm15 -vmovdqa %ymm15, 256(%r9) -vinserti128 $0, %xmm5, %ymm13, %ymm15 -vmovdqa %ymm15, 288(%r9) -vinserti128 $0, %xmm6, %ymm11, %ymm15 -vmovdqa %ymm15, 320(%r9) -vinserti128 $0, %xmm7, %ymm0, %ymm15 -vmovdqa %ymm15, 352(%r9) -vinserti128 $0, %xmm8, %ymm12, %ymm15 -vmovdqa %ymm15, 384(%r9) -vinserti128 $0, %xmm9, %ymm2, %ymm15 -vmovdqa %ymm15, 416(%r9) -vinserti128 $0, %xmm10, %ymm14, %ymm15 -vmovdqa %ymm15, 448(%r9) -vmovdqa 0(%r8), %ymm11 -vinserti128 $1, %xmm1, %ymm11, %ymm14 -vmovdqa %ymm14, 224(%r9) -vpermq $78, %ymm11, %ymm11 -vinserti128 $0, %xmm11, %ymm1, %ymm1 -vmovdqa %ymm1, 480(%r9) -vmovdqa 32(%rax), %ymm0 -vmovdqa 224(%rax), %ymm1 -vmovdqa 416(%rax), %ymm2 -vmovdqa 608(%rax), %ymm3 -vpunpcklwd 128(%rax), %ymm0, %ymm4 -vpunpckhwd 128(%rax), %ymm0, %ymm5 -vpunpcklwd 320(%rax), %ymm1, %ymm6 -vpunpckhwd 320(%rax), %ymm1, %ymm7 -vpunpcklwd 512(%rax), %ymm2, %ymm8 -vpunpckhwd 512(%rax), %ymm2, %ymm9 -vpunpcklwd 704(%rax), %ymm3, %ymm10 -vpunpckhwd 704(%rax), %ymm3, %ymm11 -vpunpckldq %ymm6, %ymm4, %ymm0 -vpunpckhdq %ymm6, %ymm4, %ymm1 -vpunpckldq %ymm7, %ymm5, %ymm2 -vpunpckhdq %ymm7, %ymm5, %ymm3 -vpunpckldq %ymm10, %ymm8, %ymm12 -vpunpckhdq %ymm10, %ymm8, %ymm13 -vpunpckldq %ymm11, %ymm9, %ymm14 -vpunpckhdq %ymm11, %ymm9, %ymm15 -vpunpcklqdq %ymm12, %ymm0, %ymm4 -vpunpckhqdq %ymm12, %ymm0, %ymm5 -vpunpcklqdq %ymm13, %ymm1, %ymm6 -vpunpckhqdq %ymm13, %ymm1, %ymm7 -vpunpcklqdq %ymm14, %ymm2, %ymm8 -vpunpckhqdq %ymm14, %ymm2, %ymm9 -vpunpcklqdq %ymm15, %ymm3, %ymm10 -vpunpckhqdq %ymm15, %ymm3, %ymm11 -vmovdqa 800(%rax), %ymm0 -vmovdqa 992(%rax), %ymm1 -vmovdqa 1184(%rax), %ymm2 -vmovdqa 1376(%rax), %ymm3 -vpunpcklwd 896(%rax), %ymm0, %ymm12 -vpunpckhwd 896(%rax), %ymm0, %ymm13 -vpunpcklwd 1088(%rax), %ymm1, %ymm14 -vpunpckhwd 1088(%rax), %ymm1, %ymm15 -vpunpcklwd 1280(%rax), %ymm2, %ymm0 -vpunpckhwd 1280(%rax), %ymm2, %ymm1 -vpunpcklwd 1472(%rax), %ymm3, %ymm2 -vpunpckhwd 1472(%rax), %ymm3, %ymm3 -vmovdqa %ymm11, 0(%r8) -vpunpckldq %ymm14, %ymm12, %ymm11 -vpunpckhdq %ymm14, %ymm12, %ymm12 -vpunpckldq %ymm15, %ymm13, %ymm14 -vpunpckhdq %ymm15, %ymm13, %ymm15 -vpunpckldq %ymm2, %ymm0, %ymm13 -vpunpckhdq %ymm2, %ymm0, %ymm0 -vpunpckldq %ymm3, %ymm1, %ymm2 -vpunpckhdq %ymm3, %ymm1, %ymm1 -vpunpcklqdq %ymm13, %ymm11, %ymm3 -vpunpckhqdq %ymm13, %ymm11, %ymm13 -vpunpcklqdq %ymm0, %ymm12, %ymm11 -vpunpckhqdq %ymm0, %ymm12, %ymm0 -vpunpcklqdq %ymm2, %ymm14, %ymm12 -vpunpckhqdq %ymm2, %ymm14, %ymm2 -vpunpcklqdq %ymm1, %ymm15, %ymm14 -vpunpckhqdq %ymm1, %ymm15, %ymm1 -vinserti128 $1, %xmm3, %ymm4, %ymm15 -vmovdqa %ymm15, 512(%r9) -vinserti128 $1, %xmm13, %ymm5, %ymm15 -vmovdqa %ymm15, 544(%r9) -vinserti128 $1, %xmm11, %ymm6, %ymm15 -vmovdqa %ymm15, 576(%r9) -vinserti128 $1, %xmm0, %ymm7, %ymm15 -vmovdqa %ymm15, 608(%r9) -vinserti128 $1, %xmm12, %ymm8, %ymm15 -vmovdqa %ymm15, 640(%r9) -vinserti128 $1, %xmm2, %ymm9, %ymm15 -vmovdqa %ymm15, 672(%r9) -vinserti128 $1, %xmm14, %ymm10, %ymm15 -vmovdqa %ymm15, 704(%r9) -vpermq $78, %ymm4, %ymm4 -vpermq $78, %ymm5, %ymm5 -vpermq $78, %ymm6, %ymm6 -vpermq $78, %ymm7, %ymm7 -vpermq $78, %ymm8, %ymm8 -vpermq $78, %ymm9, %ymm9 -vpermq $78, %ymm10, %ymm10 -vinserti128 $0, %xmm4, %ymm3, %ymm15 -vmovdqa %ymm15, 768(%r9) -vinserti128 $0, %xmm5, %ymm13, %ymm15 -vmovdqa %ymm15, 800(%r9) -vinserti128 $0, %xmm6, %ymm11, %ymm15 -vmovdqa %ymm15, 832(%r9) -vinserti128 $0, %xmm7, %ymm0, %ymm15 -vmovdqa %ymm15, 864(%r9) -vinserti128 $0, %xmm8, %ymm12, %ymm15 -vmovdqa %ymm15, 896(%r9) -vinserti128 $0, %xmm9, %ymm2, %ymm15 -vmovdqa %ymm15, 928(%r9) -vinserti128 $0, %xmm10, %ymm14, %ymm15 -vmovdqa %ymm15, 960(%r9) -vmovdqa 0(%r8), %ymm11 -vinserti128 $1, %xmm1, %ymm11, %ymm14 -vmovdqa %ymm14, 736(%r9) -vpermq $78, %ymm11, %ymm11 -vinserti128 $0, %xmm11, %ymm1, %ymm1 -vmovdqa %ymm1, 992(%r9) -vmovdqa 64(%rax), %ymm0 -vmovdqa 256(%rax), %ymm1 -vmovdqa 448(%rax), %ymm2 -vmovdqa 640(%rax), %ymm3 -vpunpcklwd 160(%rax), %ymm0, %ymm4 -vpunpckhwd 160(%rax), %ymm0, %ymm5 -vpunpcklwd 352(%rax), %ymm1, %ymm6 -vpunpckhwd 352(%rax), %ymm1, %ymm7 -vpunpcklwd 544(%rax), %ymm2, %ymm8 -vpunpckhwd 544(%rax), %ymm2, %ymm9 -vpunpcklwd 736(%rax), %ymm3, %ymm10 -vpunpckhwd 736(%rax), %ymm3, %ymm11 -vpunpckldq %ymm6, %ymm4, %ymm0 -vpunpckhdq %ymm6, %ymm4, %ymm1 -vpunpckldq %ymm7, %ymm5, %ymm2 -vpunpckhdq %ymm7, %ymm5, %ymm3 -vpunpckldq %ymm10, %ymm8, %ymm12 -vpunpckhdq %ymm10, %ymm8, %ymm13 -vpunpckldq %ymm11, %ymm9, %ymm14 -vpunpckhdq %ymm11, %ymm9, %ymm15 -vpunpcklqdq %ymm12, %ymm0, %ymm4 -vpunpckhqdq %ymm12, %ymm0, %ymm5 -vpunpcklqdq %ymm13, %ymm1, %ymm6 -vpunpckhqdq %ymm13, %ymm1, %ymm7 -vpunpcklqdq %ymm14, %ymm2, %ymm8 -vpunpckhqdq %ymm14, %ymm2, %ymm9 -vpunpcklqdq %ymm15, %ymm3, %ymm10 -vpunpckhqdq %ymm15, %ymm3, %ymm11 -vmovdqa 832(%rax), %ymm0 -vmovdqa 1024(%rax), %ymm1 -vmovdqa 1216(%rax), %ymm2 -vmovdqa 1408(%rax), %ymm3 -vpunpcklwd 928(%rax), %ymm0, %ymm12 -vpunpckhwd 928(%rax), %ymm0, %ymm13 -vpunpcklwd 1120(%rax), %ymm1, %ymm14 -vpunpckhwd 1120(%rax), %ymm1, %ymm15 -vpunpcklwd 1312(%rax), %ymm2, %ymm0 -vpunpckhwd 1312(%rax), %ymm2, %ymm1 -vpunpcklwd 1504(%rax), %ymm3, %ymm2 -vpunpckhwd 1504(%rax), %ymm3, %ymm3 -vmovdqa %ymm11, 0(%r8) -vpunpckldq %ymm14, %ymm12, %ymm11 -vpunpckhdq %ymm14, %ymm12, %ymm12 -vpunpckldq %ymm15, %ymm13, %ymm14 -vpunpckhdq %ymm15, %ymm13, %ymm15 -vpunpckldq %ymm2, %ymm0, %ymm13 -vpunpckhdq %ymm2, %ymm0, %ymm0 -vpunpckldq %ymm3, %ymm1, %ymm2 -vpunpckhdq %ymm3, %ymm1, %ymm1 -vpunpcklqdq %ymm13, %ymm11, %ymm3 -vpunpckhqdq %ymm13, %ymm11, %ymm13 -vpunpcklqdq %ymm0, %ymm12, %ymm11 -vpunpckhqdq %ymm0, %ymm12, %ymm0 -vpunpcklqdq %ymm2, %ymm14, %ymm12 -vpunpckhqdq %ymm2, %ymm14, %ymm2 -vpunpcklqdq %ymm1, %ymm15, %ymm14 -vpunpckhqdq %ymm1, %ymm15, %ymm1 -vinserti128 $1, %xmm3, %ymm4, %ymm15 -vmovdqa %ymm15, 1024(%r9) -vinserti128 $1, %xmm13, %ymm5, %ymm15 -vmovdqa %ymm15, 1056(%r9) -vinserti128 $1, %xmm11, %ymm6, %ymm15 -vmovdqa %ymm15, 1088(%r9) -vinserti128 $1, %xmm0, %ymm7, %ymm15 -vmovdqa %ymm15, 1120(%r9) -vinserti128 $1, %xmm12, %ymm8, %ymm15 -vmovdqa %ymm15, 1152(%r9) -vinserti128 $1, %xmm2, %ymm9, %ymm15 -vmovdqa %ymm15, 1184(%r9) -vinserti128 $1, %xmm14, %ymm10, %ymm15 -vmovdqa %ymm15, 1216(%r9) -vpermq $78, %ymm4, %ymm4 -vpermq $78, %ymm5, %ymm5 -vpermq $78, %ymm6, %ymm6 -vpermq $78, %ymm7, %ymm7 -vpermq $78, %ymm8, %ymm8 -vpermq $78, %ymm9, %ymm9 -vpermq $78, %ymm10, %ymm10 -vinserti128 $0, %xmm4, %ymm3, %ymm15 -vmovdqa %ymm15, 1280(%r9) -vinserti128 $0, %xmm5, %ymm13, %ymm15 -vmovdqa %ymm15, 1312(%r9) -vinserti128 $0, %xmm6, %ymm11, %ymm15 -vmovdqa %ymm15, 1344(%r9) -vinserti128 $0, %xmm7, %ymm0, %ymm15 -vmovdqa %ymm15, 1376(%r9) -vmovdqa 0(%r8), %ymm11 -vinserti128 $1, %xmm1, %ymm11, %ymm14 -vmovdqa %ymm14, 1248(%r9) -vmovdqa 0(%r11), %ymm0 -vmovdqa 192(%r11), %ymm1 -vmovdqa 384(%r11), %ymm2 -vmovdqa 576(%r11), %ymm3 -vpunpcklwd 96(%r11), %ymm0, %ymm4 -vpunpckhwd 96(%r11), %ymm0, %ymm5 -vpunpcklwd 288(%r11), %ymm1, %ymm6 -vpunpckhwd 288(%r11), %ymm1, %ymm7 -vpunpcklwd 480(%r11), %ymm2, %ymm8 -vpunpckhwd 480(%r11), %ymm2, %ymm9 -vpunpcklwd 672(%r11), %ymm3, %ymm10 -vpunpckhwd 672(%r11), %ymm3, %ymm11 -vpunpckldq %ymm6, %ymm4, %ymm0 -vpunpckhdq %ymm6, %ymm4, %ymm1 -vpunpckldq %ymm7, %ymm5, %ymm2 -vpunpckhdq %ymm7, %ymm5, %ymm3 -vpunpckldq %ymm10, %ymm8, %ymm12 -vpunpckhdq %ymm10, %ymm8, %ymm13 -vpunpckldq %ymm11, %ymm9, %ymm14 -vpunpckhdq %ymm11, %ymm9, %ymm15 -vpunpcklqdq %ymm12, %ymm0, %ymm4 -vpunpckhqdq %ymm12, %ymm0, %ymm5 -vpunpcklqdq %ymm13, %ymm1, %ymm6 -vpunpckhqdq %ymm13, %ymm1, %ymm7 -vpunpcklqdq %ymm14, %ymm2, %ymm8 -vpunpckhqdq %ymm14, %ymm2, %ymm9 -vpunpcklqdq %ymm15, %ymm3, %ymm10 -vpunpckhqdq %ymm15, %ymm3, %ymm11 -vmovdqa 768(%r11), %ymm0 -vmovdqa 960(%r11), %ymm1 -vmovdqa 1152(%r11), %ymm2 -vmovdqa 1344(%r11), %ymm3 -vpunpcklwd 864(%r11), %ymm0, %ymm12 -vpunpckhwd 864(%r11), %ymm0, %ymm13 -vpunpcklwd 1056(%r11), %ymm1, %ymm14 -vpunpckhwd 1056(%r11), %ymm1, %ymm15 -vpunpcklwd 1248(%r11), %ymm2, %ymm0 -vpunpckhwd 1248(%r11), %ymm2, %ymm1 -vpunpcklwd 1440(%r11), %ymm3, %ymm2 -vpunpckhwd 1440(%r11), %ymm3, %ymm3 -vmovdqa %ymm11, 0(%r8) -vpunpckldq %ymm14, %ymm12, %ymm11 -vpunpckhdq %ymm14, %ymm12, %ymm12 -vpunpckldq %ymm15, %ymm13, %ymm14 -vpunpckhdq %ymm15, %ymm13, %ymm15 -vpunpckldq %ymm2, %ymm0, %ymm13 -vpunpckhdq %ymm2, %ymm0, %ymm0 -vpunpckldq %ymm3, %ymm1, %ymm2 -vpunpckhdq %ymm3, %ymm1, %ymm1 -vpunpcklqdq %ymm13, %ymm11, %ymm3 -vpunpckhqdq %ymm13, %ymm11, %ymm13 -vpunpcklqdq %ymm0, %ymm12, %ymm11 -vpunpckhqdq %ymm0, %ymm12, %ymm0 -vpunpcklqdq %ymm2, %ymm14, %ymm12 -vpunpckhqdq %ymm2, %ymm14, %ymm2 -vpunpcklqdq %ymm1, %ymm15, %ymm14 -vpunpckhqdq %ymm1, %ymm15, %ymm1 -vinserti128 $1, %xmm3, %ymm4, %ymm15 -vmovdqa %ymm15, 1408(%r9) -vinserti128 $1, %xmm13, %ymm5, %ymm15 -vmovdqa %ymm15, 1440(%r9) -vinserti128 $1, %xmm11, %ymm6, %ymm15 -vmovdqa %ymm15, 1472(%r9) -vinserti128 $1, %xmm0, %ymm7, %ymm15 -vmovdqa %ymm15, 1504(%r9) -vinserti128 $1, %xmm12, %ymm8, %ymm15 -vmovdqa %ymm15, 1536(%r9) -vinserti128 $1, %xmm2, %ymm9, %ymm15 -vmovdqa %ymm15, 1568(%r9) -vinserti128 $1, %xmm14, %ymm10, %ymm15 -vmovdqa %ymm15, 1600(%r9) -vpermq $78, %ymm4, %ymm4 -vpermq $78, %ymm5, %ymm5 -vpermq $78, %ymm6, %ymm6 -vpermq $78, %ymm7, %ymm7 -vpermq $78, %ymm8, %ymm8 -vpermq $78, %ymm9, %ymm9 -vpermq $78, %ymm10, %ymm10 -vinserti128 $0, %xmm4, %ymm3, %ymm15 -vmovdqa %ymm15, 1664(%r9) -vinserti128 $0, %xmm5, %ymm13, %ymm15 -vmovdqa %ymm15, 1696(%r9) -vinserti128 $0, %xmm6, %ymm11, %ymm15 -vmovdqa %ymm15, 1728(%r9) -vinserti128 $0, %xmm7, %ymm0, %ymm15 -vmovdqa %ymm15, 1760(%r9) -vinserti128 $0, %xmm8, %ymm12, %ymm15 -vmovdqa %ymm15, 1792(%r9) -vinserti128 $0, %xmm9, %ymm2, %ymm15 -vmovdqa %ymm15, 1824(%r9) -vinserti128 $0, %xmm10, %ymm14, %ymm15 -vmovdqa %ymm15, 1856(%r9) -vmovdqa 0(%r8), %ymm11 -vinserti128 $1, %xmm1, %ymm11, %ymm14 -vmovdqa %ymm14, 1632(%r9) -vpermq $78, %ymm11, %ymm11 -vinserti128 $0, %xmm11, %ymm1, %ymm1 -vmovdqa %ymm1, 1888(%r9) -vmovdqa 32(%r11), %ymm0 -vmovdqa 224(%r11), %ymm1 -vmovdqa 416(%r11), %ymm2 -vmovdqa 608(%r11), %ymm3 -vpunpcklwd 128(%r11), %ymm0, %ymm4 -vpunpckhwd 128(%r11), %ymm0, %ymm5 -vpunpcklwd 320(%r11), %ymm1, %ymm6 -vpunpckhwd 320(%r11), %ymm1, %ymm7 -vpunpcklwd 512(%r11), %ymm2, %ymm8 -vpunpckhwd 512(%r11), %ymm2, %ymm9 -vpunpcklwd 704(%r11), %ymm3, %ymm10 -vpunpckhwd 704(%r11), %ymm3, %ymm11 -vpunpckldq %ymm6, %ymm4, %ymm0 -vpunpckhdq %ymm6, %ymm4, %ymm1 -vpunpckldq %ymm7, %ymm5, %ymm2 -vpunpckhdq %ymm7, %ymm5, %ymm3 -vpunpckldq %ymm10, %ymm8, %ymm12 -vpunpckhdq %ymm10, %ymm8, %ymm13 -vpunpckldq %ymm11, %ymm9, %ymm14 -vpunpckhdq %ymm11, %ymm9, %ymm15 -vpunpcklqdq %ymm12, %ymm0, %ymm4 -vpunpckhqdq %ymm12, %ymm0, %ymm5 -vpunpcklqdq %ymm13, %ymm1, %ymm6 -vpunpckhqdq %ymm13, %ymm1, %ymm7 -vpunpcklqdq %ymm14, %ymm2, %ymm8 -vpunpckhqdq %ymm14, %ymm2, %ymm9 -vpunpcklqdq %ymm15, %ymm3, %ymm10 -vpunpckhqdq %ymm15, %ymm3, %ymm11 -vmovdqa 800(%r11), %ymm0 -vmovdqa 992(%r11), %ymm1 -vmovdqa 1184(%r11), %ymm2 -vmovdqa 1376(%r11), %ymm3 -vpunpcklwd 896(%r11), %ymm0, %ymm12 -vpunpckhwd 896(%r11), %ymm0, %ymm13 -vpunpcklwd 1088(%r11), %ymm1, %ymm14 -vpunpckhwd 1088(%r11), %ymm1, %ymm15 -vpunpcklwd 1280(%r11), %ymm2, %ymm0 -vpunpckhwd 1280(%r11), %ymm2, %ymm1 -vpunpcklwd 1472(%r11), %ymm3, %ymm2 -vpunpckhwd 1472(%r11), %ymm3, %ymm3 -vmovdqa %ymm11, 0(%r8) -vpunpckldq %ymm14, %ymm12, %ymm11 -vpunpckhdq %ymm14, %ymm12, %ymm12 -vpunpckldq %ymm15, %ymm13, %ymm14 -vpunpckhdq %ymm15, %ymm13, %ymm15 -vpunpckldq %ymm2, %ymm0, %ymm13 -vpunpckhdq %ymm2, %ymm0, %ymm0 -vpunpckldq %ymm3, %ymm1, %ymm2 -vpunpckhdq %ymm3, %ymm1, %ymm1 -vpunpcklqdq %ymm13, %ymm11, %ymm3 -vpunpckhqdq %ymm13, %ymm11, %ymm13 -vpunpcklqdq %ymm0, %ymm12, %ymm11 -vpunpckhqdq %ymm0, %ymm12, %ymm0 -vpunpcklqdq %ymm2, %ymm14, %ymm12 -vpunpckhqdq %ymm2, %ymm14, %ymm2 -vpunpcklqdq %ymm1, %ymm15, %ymm14 -vpunpckhqdq %ymm1, %ymm15, %ymm1 -vinserti128 $1, %xmm3, %ymm4, %ymm15 -vmovdqa %ymm15, 1920(%r9) -vinserti128 $1, %xmm13, %ymm5, %ymm15 -vmovdqa %ymm15, 1952(%r9) -vinserti128 $1, %xmm11, %ymm6, %ymm15 -vmovdqa %ymm15, 1984(%r9) -vinserti128 $1, %xmm0, %ymm7, %ymm15 -vmovdqa %ymm15, 2016(%r9) -vinserti128 $1, %xmm12, %ymm8, %ymm15 -vmovdqa %ymm15, 2048(%r9) -vinserti128 $1, %xmm2, %ymm9, %ymm15 -vmovdqa %ymm15, 2080(%r9) -vinserti128 $1, %xmm14, %ymm10, %ymm15 -vmovdqa %ymm15, 2112(%r9) -vpermq $78, %ymm4, %ymm4 -vpermq $78, %ymm5, %ymm5 -vpermq $78, %ymm6, %ymm6 -vpermq $78, %ymm7, %ymm7 -vpermq $78, %ymm8, %ymm8 -vpermq $78, %ymm9, %ymm9 -vpermq $78, %ymm10, %ymm10 -vinserti128 $0, %xmm4, %ymm3, %ymm15 -vmovdqa %ymm15, 2176(%r9) -vinserti128 $0, %xmm5, %ymm13, %ymm15 -vmovdqa %ymm15, 2208(%r9) -vinserti128 $0, %xmm6, %ymm11, %ymm15 -vmovdqa %ymm15, 2240(%r9) -vinserti128 $0, %xmm7, %ymm0, %ymm15 -vmovdqa %ymm15, 2272(%r9) -vinserti128 $0, %xmm8, %ymm12, %ymm15 -vmovdqa %ymm15, 2304(%r9) -vinserti128 $0, %xmm9, %ymm2, %ymm15 -vmovdqa %ymm15, 2336(%r9) -vinserti128 $0, %xmm10, %ymm14, %ymm15 -vmovdqa %ymm15, 2368(%r9) -vmovdqa 0(%r8), %ymm11 -vinserti128 $1, %xmm1, %ymm11, %ymm14 -vmovdqa %ymm14, 2144(%r9) -vpermq $78, %ymm11, %ymm11 -vinserti128 $0, %xmm11, %ymm1, %ymm1 -vmovdqa %ymm1, 2400(%r9) -vmovdqa 64(%r11), %ymm0 -vmovdqa 256(%r11), %ymm1 -vmovdqa 448(%r11), %ymm2 -vmovdqa 640(%r11), %ymm3 -vpunpcklwd 160(%r11), %ymm0, %ymm4 -vpunpckhwd 160(%r11), %ymm0, %ymm5 -vpunpcklwd 352(%r11), %ymm1, %ymm6 -vpunpckhwd 352(%r11), %ymm1, %ymm7 -vpunpcklwd 544(%r11), %ymm2, %ymm8 -vpunpckhwd 544(%r11), %ymm2, %ymm9 -vpunpcklwd 736(%r11), %ymm3, %ymm10 -vpunpckhwd 736(%r11), %ymm3, %ymm11 -vpunpckldq %ymm6, %ymm4, %ymm0 -vpunpckhdq %ymm6, %ymm4, %ymm1 -vpunpckldq %ymm7, %ymm5, %ymm2 -vpunpckhdq %ymm7, %ymm5, %ymm3 -vpunpckldq %ymm10, %ymm8, %ymm12 -vpunpckhdq %ymm10, %ymm8, %ymm13 -vpunpckldq %ymm11, %ymm9, %ymm14 -vpunpckhdq %ymm11, %ymm9, %ymm15 -vpunpcklqdq %ymm12, %ymm0, %ymm4 -vpunpckhqdq %ymm12, %ymm0, %ymm5 -vpunpcklqdq %ymm13, %ymm1, %ymm6 -vpunpckhqdq %ymm13, %ymm1, %ymm7 -vpunpcklqdq %ymm14, %ymm2, %ymm8 -vpunpckhqdq %ymm14, %ymm2, %ymm9 -vpunpcklqdq %ymm15, %ymm3, %ymm10 -vpunpckhqdq %ymm15, %ymm3, %ymm11 -vmovdqa 832(%r11), %ymm0 -vmovdqa 1024(%r11), %ymm1 -vmovdqa 1216(%r11), %ymm2 -vmovdqa 1408(%r11), %ymm3 -vpunpcklwd 928(%r11), %ymm0, %ymm12 -vpunpckhwd 928(%r11), %ymm0, %ymm13 -vpunpcklwd 1120(%r11), %ymm1, %ymm14 -vpunpckhwd 1120(%r11), %ymm1, %ymm15 -vpunpcklwd 1312(%r11), %ymm2, %ymm0 -vpunpckhwd 1312(%r11), %ymm2, %ymm1 -vpunpcklwd 1504(%r11), %ymm3, %ymm2 -vpunpckhwd 1504(%r11), %ymm3, %ymm3 -vmovdqa %ymm11, 0(%r8) -vpunpckldq %ymm14, %ymm12, %ymm11 -vpunpckhdq %ymm14, %ymm12, %ymm12 -vpunpckldq %ymm15, %ymm13, %ymm14 -vpunpckhdq %ymm15, %ymm13, %ymm15 -vpunpckldq %ymm2, %ymm0, %ymm13 -vpunpckhdq %ymm2, %ymm0, %ymm0 -vpunpckldq %ymm3, %ymm1, %ymm2 -vpunpckhdq %ymm3, %ymm1, %ymm1 -vpunpcklqdq %ymm13, %ymm11, %ymm3 -vpunpckhqdq %ymm13, %ymm11, %ymm13 -vpunpcklqdq %ymm0, %ymm12, %ymm11 -vpunpckhqdq %ymm0, %ymm12, %ymm0 -vpunpcklqdq %ymm2, %ymm14, %ymm12 -vpunpckhqdq %ymm2, %ymm14, %ymm2 -vpunpcklqdq %ymm1, %ymm15, %ymm14 -vpunpckhqdq %ymm1, %ymm15, %ymm1 -vinserti128 $1, %xmm3, %ymm4, %ymm15 -vmovdqa %ymm15, 2432(%r9) -vinserti128 $1, %xmm13, %ymm5, %ymm15 -vmovdqa %ymm15, 2464(%r9) -vinserti128 $1, %xmm11, %ymm6, %ymm15 -vmovdqa %ymm15, 2496(%r9) -vinserti128 $1, %xmm0, %ymm7, %ymm15 -vmovdqa %ymm15, 2528(%r9) -vinserti128 $1, %xmm12, %ymm8, %ymm15 -vmovdqa %ymm15, 2560(%r9) -vinserti128 $1, %xmm2, %ymm9, %ymm15 -vmovdqa %ymm15, 2592(%r9) -vinserti128 $1, %xmm14, %ymm10, %ymm15 -vmovdqa %ymm15, 2624(%r9) -vpermq $78, %ymm4, %ymm4 -vpermq $78, %ymm5, %ymm5 -vpermq $78, %ymm6, %ymm6 -vpermq $78, %ymm7, %ymm7 -vpermq $78, %ymm8, %ymm8 -vpermq $78, %ymm9, %ymm9 -vpermq $78, %ymm10, %ymm10 -vinserti128 $0, %xmm4, %ymm3, %ymm15 -vmovdqa %ymm15, 2688(%r9) -vinserti128 $0, %xmm5, %ymm13, %ymm15 -vmovdqa %ymm15, 2720(%r9) -vinserti128 $0, %xmm6, %ymm11, %ymm15 -vmovdqa %ymm15, 2752(%r9) -vinserti128 $0, %xmm7, %ymm0, %ymm15 -vmovdqa %ymm15, 2784(%r9) -vmovdqa 0(%r8), %ymm11 -vinserti128 $1, %xmm1, %ymm11, %ymm14 -vmovdqa %ymm14, 2656(%r9) -addq $32, %r8 -innerloop_4eced63f144beffcb0247f9c6f67d165: -vmovdqa 0(%r9), %ymm0 -vmovdqa 1408(%r9), %ymm6 -vmovdqa 32(%r9), %ymm1 -vmovdqa 1440(%r9), %ymm7 -vmovdqa 64(%r9), %ymm2 -vmovdqa 1472(%r9), %ymm8 -vmovdqa 96(%r9), %ymm3 -vmovdqa 1504(%r9), %ymm9 -vmovdqa 128(%r9), %ymm4 -vmovdqa 1536(%r9), %ymm10 -vmovdqa 160(%r9), %ymm5 -vmovdqa 1568(%r9), %ymm11 -vpmullw %ymm0, %ymm6, %ymm12 -vmovdqa %ymm12, 2816(%r10) -vpmullw %ymm0, %ymm7, %ymm13 -vpmullw %ymm1, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 2848(%r10) -vpmullw %ymm0, %ymm8, %ymm12 -vpmullw %ymm1, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 2880(%r10) -vpmullw %ymm0, %ymm9, %ymm13 -vpmullw %ymm1, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm2, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 2912(%r10) -vpmullw %ymm0, %ymm10, %ymm12 -vpmullw %ymm1, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm3, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 2944(%r10) -vpmullw %ymm0, %ymm11, %ymm13 -vpmullw %ymm1, %ymm10, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm2, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm4, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm5, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 2976(%r10) -vpmullw %ymm1, %ymm11, %ymm12 -vpmullw %ymm2, %ymm10, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm3, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm5, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 3008(%r10) -vpmullw %ymm2, %ymm11, %ymm13 -vpmullw %ymm3, %ymm10, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm4, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm5, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 3040(%r10) -vpmullw %ymm3, %ymm11, %ymm12 -vpmullw %ymm4, %ymm10, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm5, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 3072(%r10) -vpmullw %ymm4, %ymm11, %ymm13 -vpmullw %ymm5, %ymm10, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 3104(%r10) -vpmullw %ymm5, %ymm11, %ymm12 -vmovdqa %ymm12, 3136(%r10) -vmovdqa 192(%r9), %ymm0 -vmovdqa 1600(%r9), %ymm6 -vmovdqa 224(%r9), %ymm1 -vmovdqa 1632(%r9), %ymm7 -vmovdqa 256(%r9), %ymm2 -vmovdqa 1664(%r9), %ymm8 -vmovdqa 288(%r9), %ymm3 -vmovdqa 1696(%r9), %ymm9 -vmovdqa 320(%r9), %ymm4 -vmovdqa 1728(%r9), %ymm10 -vpmullw %ymm0, %ymm6, %ymm12 -vmovdqa %ymm12, 3200(%r10) -vpmullw %ymm0, %ymm7, %ymm13 -vpmullw %ymm1, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 3232(%r10) -vpmullw %ymm0, %ymm8, %ymm12 -vpmullw %ymm1, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 3264(%r10) -vpmullw %ymm0, %ymm9, %ymm13 -vpmullw %ymm1, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm2, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 3296(%r10) -vpmullw %ymm0, %ymm10, %ymm12 -vpmullw %ymm1, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm3, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 3328(%r10) -vpmullw %ymm1, %ymm10, %ymm13 -vpmullw %ymm2, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm4, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 3360(%r10) -vpmullw %ymm2, %ymm10, %ymm12 -vpmullw %ymm3, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 3392(%r10) -vpmullw %ymm3, %ymm10, %ymm13 -vpmullw %ymm4, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 3424(%r10) -vpmullw %ymm4, %ymm10, %ymm12 -vmovdqa %ymm12, 3456(%r10) -vpaddw 0(%r9), %ymm0, %ymm0 -vpaddw 1408(%r9), %ymm6, %ymm6 -vpaddw 32(%r9), %ymm1, %ymm1 -vpaddw 1440(%r9), %ymm7, %ymm7 -vpaddw 64(%r9), %ymm2, %ymm2 -vpaddw 1472(%r9), %ymm8, %ymm8 -vpaddw 96(%r9), %ymm3, %ymm3 -vpaddw 1504(%r9), %ymm9, %ymm9 -vpaddw 128(%r9), %ymm4, %ymm4 -vpaddw 1536(%r9), %ymm10, %ymm10 -vpmullw %ymm0, %ymm11, %ymm12 -vpmullw %ymm1, %ymm10, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm2, %ymm9, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm3, %ymm8, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm4, %ymm7, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm5, %ymm6, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpsubw 2976(%r10), %ymm12, %ymm12 -vpsubw 3360(%r10), %ymm12, %ymm12 -vmovdqa %ymm12, 3168(%r10) -vpmullw %ymm5, %ymm7, %ymm12 -vpmullw %ymm5, %ymm8, %ymm13 -vpmullw %ymm5, %ymm9, %ymm14 -vpmullw %ymm5, %ymm10, %ymm15 -vpmullw %ymm1, %ymm11, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm2, %ymm10, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm3, %ymm9, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm4, %ymm8, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm2, %ymm11, %ymm5 -vpaddw %ymm5, %ymm13, %ymm13 -vpmullw %ymm3, %ymm10, %ymm5 -vpaddw %ymm5, %ymm13, %ymm13 -vpmullw %ymm4, %ymm9, %ymm5 -vpaddw %ymm5, %ymm13, %ymm13 -vpmullw %ymm3, %ymm11, %ymm5 -vpaddw %ymm5, %ymm14, %ymm14 -vpmullw %ymm4, %ymm10, %ymm5 -vpaddw %ymm5, %ymm14, %ymm14 -vpmullw %ymm4, %ymm11, %ymm5 -vpaddw %ymm5, %ymm15, %ymm15 -vpmullw %ymm0, %ymm10, %ymm11 -vpmullw %ymm1, %ymm9, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm2, %ymm8, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm3, %ymm7, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm4, %ymm6, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm0, %ymm9, %ymm10 -vpmullw %ymm1, %ymm8, %ymm5 -vpaddw %ymm5, %ymm10, %ymm10 -vpmullw %ymm2, %ymm7, %ymm5 -vpaddw %ymm5, %ymm10, %ymm10 -vpmullw %ymm3, %ymm6, %ymm5 -vpaddw %ymm5, %ymm10, %ymm10 -vpmullw %ymm0, %ymm8, %ymm9 -vpmullw %ymm1, %ymm7, %ymm5 -vpaddw %ymm5, %ymm9, %ymm9 -vpmullw %ymm2, %ymm6, %ymm5 -vpaddw %ymm5, %ymm9, %ymm9 -vpmullw %ymm0, %ymm7, %ymm8 -vpmullw %ymm1, %ymm6, %ymm5 -vpaddw %ymm5, %ymm8, %ymm8 -vpmullw %ymm0, %ymm6, %ymm7 -vmovdqa 3008(%r10), %ymm0 -vpsubw 3200(%r10), %ymm0, %ymm0 -vpsubw %ymm0, %ymm12, %ymm6 -vpsubw 3392(%r10), %ymm6, %ymm6 -vmovdqa %ymm6, 3200(%r10) -vpaddw %ymm7, %ymm0, %ymm0 -vpsubw 2816(%r10), %ymm0, %ymm0 -vmovdqa %ymm0, 3008(%r10) -vmovdqa 3040(%r10), %ymm1 -vpsubw 3232(%r10), %ymm1, %ymm1 -vpsubw %ymm1, %ymm13, %ymm7 -vpsubw 3424(%r10), %ymm7, %ymm7 -vmovdqa %ymm7, 3232(%r10) -vpaddw %ymm8, %ymm1, %ymm1 -vpsubw 2848(%r10), %ymm1, %ymm1 -vmovdqa %ymm1, 3040(%r10) -vmovdqa 3072(%r10), %ymm2 -vpsubw 3264(%r10), %ymm2, %ymm2 -vpsubw %ymm2, %ymm14, %ymm8 -vpsubw 3456(%r10), %ymm8, %ymm8 -vmovdqa %ymm8, 3264(%r10) -vpaddw %ymm9, %ymm2, %ymm2 -vpsubw 2880(%r10), %ymm2, %ymm2 -vmovdqa %ymm2, 3072(%r10) -vmovdqa 3104(%r10), %ymm3 -vpsubw 3296(%r10), %ymm3, %ymm3 -vpsubw %ymm3, %ymm15, %ymm9 -vmovdqa %ymm9, 3296(%r10) -vpaddw %ymm10, %ymm3, %ymm3 -vpsubw 2912(%r10), %ymm3, %ymm3 -vmovdqa %ymm3, 3104(%r10) -vmovdqa 3136(%r10), %ymm4 -vpsubw 3328(%r10), %ymm4, %ymm4 -vpaddw %ymm11, %ymm4, %ymm4 -vpsubw 2944(%r10), %ymm4, %ymm4 -vmovdqa %ymm4, 3136(%r10) -vmovdqa 352(%r9), %ymm0 -vmovdqa 1760(%r9), %ymm6 -vmovdqa 384(%r9), %ymm1 -vmovdqa 1792(%r9), %ymm7 -vmovdqa 416(%r9), %ymm2 -vmovdqa 1824(%r9), %ymm8 -vmovdqa 448(%r9), %ymm3 -vmovdqa 1856(%r9), %ymm9 -vmovdqa 480(%r9), %ymm4 -vmovdqa 1888(%r9), %ymm10 -vmovdqa 512(%r9), %ymm5 -vmovdqa 1920(%r9), %ymm11 -vpmullw %ymm0, %ymm6, %ymm12 -vmovdqa %ymm12, 3520(%r10) -vpmullw %ymm0, %ymm7, %ymm13 -vpmullw %ymm1, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 3552(%r10) -vpmullw %ymm0, %ymm8, %ymm12 -vpmullw %ymm1, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 3584(%r10) -vpmullw %ymm0, %ymm9, %ymm13 -vpmullw %ymm1, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm2, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 3616(%r10) -vpmullw %ymm0, %ymm10, %ymm12 -vpmullw %ymm1, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm3, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 3648(%r10) -vpmullw %ymm0, %ymm11, %ymm13 -vpmullw %ymm1, %ymm10, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm2, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm4, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm5, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 3680(%r10) -vpmullw %ymm1, %ymm11, %ymm12 -vpmullw %ymm2, %ymm10, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm3, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm5, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 3712(%r10) -vpmullw %ymm2, %ymm11, %ymm13 -vpmullw %ymm3, %ymm10, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm4, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm5, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 3744(%r10) -vpmullw %ymm3, %ymm11, %ymm12 -vpmullw %ymm4, %ymm10, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm5, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 3776(%r10) -vpmullw %ymm4, %ymm11, %ymm13 -vpmullw %ymm5, %ymm10, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 3808(%r10) -vpmullw %ymm5, %ymm11, %ymm12 -vmovdqa %ymm12, 3840(%r10) -vmovdqa 544(%r9), %ymm0 -vmovdqa 1952(%r9), %ymm6 -vmovdqa 576(%r9), %ymm1 -vmovdqa 1984(%r9), %ymm7 -vmovdqa 608(%r9), %ymm2 -vmovdqa 2016(%r9), %ymm8 -vmovdqa 640(%r9), %ymm3 -vmovdqa 2048(%r9), %ymm9 -vmovdqa 672(%r9), %ymm4 -vmovdqa 2080(%r9), %ymm10 -vpmullw %ymm0, %ymm6, %ymm12 -vmovdqa %ymm12, 3904(%r10) -vpmullw %ymm0, %ymm7, %ymm13 -vpmullw %ymm1, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 3936(%r10) -vpmullw %ymm0, %ymm8, %ymm12 -vpmullw %ymm1, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 3968(%r10) -vpmullw %ymm0, %ymm9, %ymm13 -vpmullw %ymm1, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm2, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 4000(%r10) -vpmullw %ymm0, %ymm10, %ymm12 -vpmullw %ymm1, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm3, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 4032(%r10) -vpmullw %ymm1, %ymm10, %ymm13 -vpmullw %ymm2, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm4, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 4064(%r10) -vpmullw %ymm2, %ymm10, %ymm12 -vpmullw %ymm3, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 4096(%r10) -vpmullw %ymm3, %ymm10, %ymm13 -vpmullw %ymm4, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 4128(%r10) -vpmullw %ymm4, %ymm10, %ymm12 -vmovdqa %ymm12, 4160(%r10) -vpaddw 352(%r9), %ymm0, %ymm0 -vpaddw 1760(%r9), %ymm6, %ymm6 -vpaddw 384(%r9), %ymm1, %ymm1 -vpaddw 1792(%r9), %ymm7, %ymm7 -vpaddw 416(%r9), %ymm2, %ymm2 -vpaddw 1824(%r9), %ymm8, %ymm8 -vpaddw 448(%r9), %ymm3, %ymm3 -vpaddw 1856(%r9), %ymm9, %ymm9 -vpaddw 480(%r9), %ymm4, %ymm4 -vpaddw 1888(%r9), %ymm10, %ymm10 -vpmullw %ymm0, %ymm11, %ymm12 -vpmullw %ymm1, %ymm10, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm2, %ymm9, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm3, %ymm8, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm4, %ymm7, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm5, %ymm6, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpsubw 3680(%r10), %ymm12, %ymm12 -vpsubw 4064(%r10), %ymm12, %ymm12 -vmovdqa %ymm12, 3872(%r10) -vpmullw %ymm5, %ymm7, %ymm12 -vpmullw %ymm5, %ymm8, %ymm13 -vpmullw %ymm5, %ymm9, %ymm14 -vpmullw %ymm5, %ymm10, %ymm15 -vpmullw %ymm1, %ymm11, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm2, %ymm10, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm3, %ymm9, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm4, %ymm8, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm2, %ymm11, %ymm5 -vpaddw %ymm5, %ymm13, %ymm13 -vpmullw %ymm3, %ymm10, %ymm5 -vpaddw %ymm5, %ymm13, %ymm13 -vpmullw %ymm4, %ymm9, %ymm5 -vpaddw %ymm5, %ymm13, %ymm13 -vpmullw %ymm3, %ymm11, %ymm5 -vpaddw %ymm5, %ymm14, %ymm14 -vpmullw %ymm4, %ymm10, %ymm5 -vpaddw %ymm5, %ymm14, %ymm14 -vpmullw %ymm4, %ymm11, %ymm5 -vpaddw %ymm5, %ymm15, %ymm15 -vpmullw %ymm0, %ymm10, %ymm11 -vpmullw %ymm1, %ymm9, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm2, %ymm8, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm3, %ymm7, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm4, %ymm6, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm0, %ymm9, %ymm10 -vpmullw %ymm1, %ymm8, %ymm5 -vpaddw %ymm5, %ymm10, %ymm10 -vpmullw %ymm2, %ymm7, %ymm5 -vpaddw %ymm5, %ymm10, %ymm10 -vpmullw %ymm3, %ymm6, %ymm5 -vpaddw %ymm5, %ymm10, %ymm10 -vpmullw %ymm0, %ymm8, %ymm9 -vpmullw %ymm1, %ymm7, %ymm5 -vpaddw %ymm5, %ymm9, %ymm9 -vpmullw %ymm2, %ymm6, %ymm5 -vpaddw %ymm5, %ymm9, %ymm9 -vpmullw %ymm0, %ymm7, %ymm8 -vpmullw %ymm1, %ymm6, %ymm5 -vpaddw %ymm5, %ymm8, %ymm8 -vpmullw %ymm0, %ymm6, %ymm7 -vmovdqa 3712(%r10), %ymm0 -vpsubw 3904(%r10), %ymm0, %ymm0 -vpsubw %ymm0, %ymm12, %ymm6 -vpsubw 4096(%r10), %ymm6, %ymm6 -vmovdqa %ymm6, 3904(%r10) -vpaddw %ymm7, %ymm0, %ymm0 -vpsubw 3520(%r10), %ymm0, %ymm0 -vmovdqa %ymm0, 3712(%r10) -vmovdqa 3744(%r10), %ymm1 -vpsubw 3936(%r10), %ymm1, %ymm1 -vpsubw %ymm1, %ymm13, %ymm7 -vpsubw 4128(%r10), %ymm7, %ymm7 -vmovdqa %ymm7, 3936(%r10) -vpaddw %ymm8, %ymm1, %ymm1 -vpsubw 3552(%r10), %ymm1, %ymm1 -vmovdqa %ymm1, 3744(%r10) -vmovdqa 3776(%r10), %ymm2 -vpsubw 3968(%r10), %ymm2, %ymm2 -vpsubw %ymm2, %ymm14, %ymm8 -vpsubw 4160(%r10), %ymm8, %ymm8 -vmovdqa %ymm8, 3968(%r10) -vpaddw %ymm9, %ymm2, %ymm2 -vpsubw 3584(%r10), %ymm2, %ymm2 -vmovdqa %ymm2, 3776(%r10) -vmovdqa 3808(%r10), %ymm3 -vpsubw 4000(%r10), %ymm3, %ymm3 -vpsubw %ymm3, %ymm15, %ymm9 -vmovdqa %ymm9, 4000(%r10) -vpaddw %ymm10, %ymm3, %ymm3 -vpsubw 3616(%r10), %ymm3, %ymm3 -vmovdqa %ymm3, 3808(%r10) -vmovdqa 3840(%r10), %ymm4 -vpsubw 4032(%r10), %ymm4, %ymm4 -vpaddw %ymm11, %ymm4, %ymm4 -vpsubw 3648(%r10), %ymm4, %ymm4 -vmovdqa %ymm4, 3840(%r10) -vmovdqa 0(%r9), %ymm0 -vmovdqa 1408(%r9), %ymm6 -vpaddw 352(%r9), %ymm0, %ymm0 -vpaddw 1760(%r9), %ymm6, %ymm6 -vmovdqa 32(%r9), %ymm1 -vmovdqa 1440(%r9), %ymm7 -vpaddw 384(%r9), %ymm1, %ymm1 -vpaddw 1792(%r9), %ymm7, %ymm7 -vmovdqa 64(%r9), %ymm2 -vmovdqa 1472(%r9), %ymm8 -vpaddw 416(%r9), %ymm2, %ymm2 -vpaddw 1824(%r9), %ymm8, %ymm8 -vmovdqa 96(%r9), %ymm3 -vmovdqa 1504(%r9), %ymm9 -vpaddw 448(%r9), %ymm3, %ymm3 -vpaddw 1856(%r9), %ymm9, %ymm9 -vmovdqa 128(%r9), %ymm4 -vmovdqa 1536(%r9), %ymm10 -vpaddw 480(%r9), %ymm4, %ymm4 -vpaddw 1888(%r9), %ymm10, %ymm10 -vmovdqa 160(%r9), %ymm5 -vmovdqa 1568(%r9), %ymm11 -vpaddw 512(%r9), %ymm5, %ymm5 -vpaddw 1920(%r9), %ymm11, %ymm11 -vpmullw %ymm0, %ymm6, %ymm12 -vmovdqa %ymm12, 5888(%r8) -vpmullw %ymm0, %ymm7, %ymm13 -vpmullw %ymm1, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 5920(%r8) -vpmullw %ymm0, %ymm8, %ymm12 -vpmullw %ymm1, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 5952(%r8) -vpmullw %ymm0, %ymm9, %ymm13 -vpmullw %ymm1, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm2, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 5984(%r8) -vpmullw %ymm0, %ymm10, %ymm12 -vpmullw %ymm1, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm3, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 6016(%r8) -vpmullw %ymm0, %ymm11, %ymm13 -vpmullw %ymm1, %ymm10, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm2, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm4, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm5, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 6048(%r8) -vpmullw %ymm1, %ymm11, %ymm12 -vpmullw %ymm2, %ymm10, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm3, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm5, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 6080(%r8) -vpmullw %ymm2, %ymm11, %ymm13 -vpmullw %ymm3, %ymm10, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm4, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm5, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 6112(%r8) -vpmullw %ymm3, %ymm11, %ymm12 -vpmullw %ymm4, %ymm10, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm5, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 6144(%r8) -vpmullw %ymm4, %ymm11, %ymm13 -vpmullw %ymm5, %ymm10, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 6176(%r8) -vpmullw %ymm5, %ymm11, %ymm12 -vmovdqa %ymm12, 6208(%r8) -vmovdqa 192(%r9), %ymm0 -vmovdqa 1600(%r9), %ymm6 -vpaddw 544(%r9), %ymm0, %ymm0 -vpaddw 1952(%r9), %ymm6, %ymm6 -vmovdqa 224(%r9), %ymm1 -vmovdqa 1632(%r9), %ymm7 -vpaddw 576(%r9), %ymm1, %ymm1 -vpaddw 1984(%r9), %ymm7, %ymm7 -vmovdqa 256(%r9), %ymm2 -vmovdqa 1664(%r9), %ymm8 -vpaddw 608(%r9), %ymm2, %ymm2 -vpaddw 2016(%r9), %ymm8, %ymm8 -vmovdqa 288(%r9), %ymm3 -vmovdqa 1696(%r9), %ymm9 -vpaddw 640(%r9), %ymm3, %ymm3 -vpaddw 2048(%r9), %ymm9, %ymm9 -vmovdqa 320(%r9), %ymm4 -vmovdqa 1728(%r9), %ymm10 -vpaddw 672(%r9), %ymm4, %ymm4 -vpaddw 2080(%r9), %ymm10, %ymm10 -vpmullw %ymm0, %ymm6, %ymm12 -vmovdqa %ymm12, 6272(%r8) -vpmullw %ymm0, %ymm7, %ymm13 -vpmullw %ymm1, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 6304(%r8) -vpmullw %ymm0, %ymm8, %ymm12 -vpmullw %ymm1, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 6336(%r8) -vpmullw %ymm0, %ymm9, %ymm13 -vpmullw %ymm1, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm2, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 6368(%r8) -vpmullw %ymm0, %ymm10, %ymm12 -vpmullw %ymm1, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm3, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 6400(%r8) -vpmullw %ymm1, %ymm10, %ymm13 -vpmullw %ymm2, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm4, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 6432(%r8) -vpmullw %ymm2, %ymm10, %ymm12 -vpmullw %ymm3, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 6464(%r8) -vpmullw %ymm3, %ymm10, %ymm13 -vpmullw %ymm4, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 6496(%r8) -vpmullw %ymm4, %ymm10, %ymm12 -vmovdqa %ymm12, 6528(%r8) -vpaddw 0(%r9), %ymm0, %ymm0 -vpaddw 1408(%r9), %ymm6, %ymm6 -vpaddw 352(%r9), %ymm0, %ymm0 -vpaddw 1760(%r9), %ymm6, %ymm6 -vpaddw 32(%r9), %ymm1, %ymm1 -vpaddw 1440(%r9), %ymm7, %ymm7 -vpaddw 384(%r9), %ymm1, %ymm1 -vpaddw 1792(%r9), %ymm7, %ymm7 -vpaddw 64(%r9), %ymm2, %ymm2 -vpaddw 1472(%r9), %ymm8, %ymm8 -vpaddw 416(%r9), %ymm2, %ymm2 -vpaddw 1824(%r9), %ymm8, %ymm8 -vpaddw 96(%r9), %ymm3, %ymm3 -vpaddw 1504(%r9), %ymm9, %ymm9 -vpaddw 448(%r9), %ymm3, %ymm3 -vpaddw 1856(%r9), %ymm9, %ymm9 -vpaddw 128(%r9), %ymm4, %ymm4 -vpaddw 1536(%r9), %ymm10, %ymm10 -vpaddw 480(%r9), %ymm4, %ymm4 -vpaddw 1888(%r9), %ymm10, %ymm10 -vpmullw %ymm0, %ymm11, %ymm12 -vpmullw %ymm1, %ymm10, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm2, %ymm9, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm3, %ymm8, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm4, %ymm7, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm5, %ymm6, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpsubw 6048(%r8), %ymm12, %ymm12 -vpsubw 6432(%r8), %ymm12, %ymm12 -vmovdqa %ymm12, 6240(%r8) -vpmullw %ymm5, %ymm7, %ymm12 -vpmullw %ymm5, %ymm8, %ymm13 -vpmullw %ymm5, %ymm9, %ymm14 -vpmullw %ymm5, %ymm10, %ymm15 -vpmullw %ymm1, %ymm11, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm2, %ymm10, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm3, %ymm9, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm4, %ymm8, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm2, %ymm11, %ymm5 -vpaddw %ymm5, %ymm13, %ymm13 -vpmullw %ymm3, %ymm10, %ymm5 -vpaddw %ymm5, %ymm13, %ymm13 -vpmullw %ymm4, %ymm9, %ymm5 -vpaddw %ymm5, %ymm13, %ymm13 -vpmullw %ymm3, %ymm11, %ymm5 -vpaddw %ymm5, %ymm14, %ymm14 -vpmullw %ymm4, %ymm10, %ymm5 -vpaddw %ymm5, %ymm14, %ymm14 -vpmullw %ymm4, %ymm11, %ymm5 -vpaddw %ymm5, %ymm15, %ymm15 -vpmullw %ymm0, %ymm10, %ymm11 -vpmullw %ymm1, %ymm9, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm2, %ymm8, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm3, %ymm7, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm4, %ymm6, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm0, %ymm9, %ymm10 -vpmullw %ymm1, %ymm8, %ymm5 -vpaddw %ymm5, %ymm10, %ymm10 -vpmullw %ymm2, %ymm7, %ymm5 -vpaddw %ymm5, %ymm10, %ymm10 -vpmullw %ymm3, %ymm6, %ymm5 -vpaddw %ymm5, %ymm10, %ymm10 -vpmullw %ymm0, %ymm8, %ymm9 -vpmullw %ymm1, %ymm7, %ymm5 -vpaddw %ymm5, %ymm9, %ymm9 -vpmullw %ymm2, %ymm6, %ymm5 -vpaddw %ymm5, %ymm9, %ymm9 -vpmullw %ymm0, %ymm7, %ymm8 -vpmullw %ymm1, %ymm6, %ymm5 -vpaddw %ymm5, %ymm8, %ymm8 -vpmullw %ymm0, %ymm6, %ymm7 -vmovdqa 6080(%r8), %ymm0 -vpsubw 6272(%r8), %ymm0, %ymm0 -vpsubw %ymm0, %ymm12, %ymm6 -vpsubw 6464(%r8), %ymm6, %ymm6 -vmovdqa %ymm6, 6272(%r8) -vpaddw %ymm7, %ymm0, %ymm0 -vpsubw 5888(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 6080(%r8) -vmovdqa 6112(%r8), %ymm1 -vpsubw 6304(%r8), %ymm1, %ymm1 -vpsubw %ymm1, %ymm13, %ymm7 -vpsubw 6496(%r8), %ymm7, %ymm7 -vmovdqa %ymm7, 6304(%r8) -vpaddw %ymm8, %ymm1, %ymm1 -vpsubw 5920(%r8), %ymm1, %ymm1 -vmovdqa %ymm1, 6112(%r8) -vmovdqa 6144(%r8), %ymm2 -vpsubw 6336(%r8), %ymm2, %ymm2 -vpsubw %ymm2, %ymm14, %ymm8 -vpsubw 6528(%r8), %ymm8, %ymm8 -vmovdqa %ymm8, 6336(%r8) -vpaddw %ymm9, %ymm2, %ymm2 -vpsubw 5952(%r8), %ymm2, %ymm2 -vmovdqa %ymm2, 6144(%r8) -vmovdqa 6176(%r8), %ymm3 -vpsubw 6368(%r8), %ymm3, %ymm3 -vpsubw %ymm3, %ymm15, %ymm9 -vmovdqa %ymm9, 6368(%r8) -vpaddw %ymm10, %ymm3, %ymm3 -vpsubw 5984(%r8), %ymm3, %ymm3 -vmovdqa %ymm3, 6176(%r8) -vmovdqa 6208(%r8), %ymm4 -vpsubw 6400(%r8), %ymm4, %ymm4 -vpaddw %ymm11, %ymm4, %ymm4 -vpsubw 6016(%r8), %ymm4, %ymm4 -vmovdqa %ymm4, 6208(%r8) -vmovdqa 6208(%r8), %ymm0 -vpsubw 3136(%r10), %ymm0, %ymm0 -vpsubw 3840(%r10), %ymm0, %ymm0 -vmovdqa %ymm0, 3488(%r10) -vmovdqa 3168(%r10), %ymm0 -vpsubw 3520(%r10), %ymm0, %ymm0 -vmovdqa 6240(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 3872(%r10), %ymm1, %ymm1 -vpsubw 2816(%r10), %ymm0, %ymm0 -vpaddw 5888(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3168(%r10) -vmovdqa %ymm1, 3520(%r10) -vmovdqa 3200(%r10), %ymm0 -vpsubw 3552(%r10), %ymm0, %ymm0 -vmovdqa 6272(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 3904(%r10), %ymm1, %ymm1 -vpsubw 2848(%r10), %ymm0, %ymm0 -vpaddw 5920(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3200(%r10) -vmovdqa %ymm1, 3552(%r10) -vmovdqa 3232(%r10), %ymm0 -vpsubw 3584(%r10), %ymm0, %ymm0 -vmovdqa 6304(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 3936(%r10), %ymm1, %ymm1 -vpsubw 2880(%r10), %ymm0, %ymm0 -vpaddw 5952(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3232(%r10) -vmovdqa %ymm1, 3584(%r10) -vmovdqa 3264(%r10), %ymm0 -vpsubw 3616(%r10), %ymm0, %ymm0 -vmovdqa 6336(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 3968(%r10), %ymm1, %ymm1 -vpsubw 2912(%r10), %ymm0, %ymm0 -vpaddw 5984(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3264(%r10) -vmovdqa %ymm1, 3616(%r10) -vmovdqa 3296(%r10), %ymm0 -vpsubw 3648(%r10), %ymm0, %ymm0 -vmovdqa 6368(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 4000(%r10), %ymm1, %ymm1 -vpsubw 2944(%r10), %ymm0, %ymm0 -vpaddw 6016(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3296(%r10) -vmovdqa %ymm1, 3648(%r10) -vmovdqa 3328(%r10), %ymm0 -vpsubw 3680(%r10), %ymm0, %ymm0 -vmovdqa 6400(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 4032(%r10), %ymm1, %ymm1 -vpsubw 2976(%r10), %ymm0, %ymm0 -vpaddw 6048(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3328(%r10) -vmovdqa %ymm1, 3680(%r10) -vmovdqa 3360(%r10), %ymm0 -vpsubw 3712(%r10), %ymm0, %ymm0 -vmovdqa 6432(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 4064(%r10), %ymm1, %ymm1 -vpsubw 3008(%r10), %ymm0, %ymm0 -vpaddw 6080(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3360(%r10) -vmovdqa %ymm1, 3712(%r10) -vmovdqa 3392(%r10), %ymm0 -vpsubw 3744(%r10), %ymm0, %ymm0 -vmovdqa 6464(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 4096(%r10), %ymm1, %ymm1 -vpsubw 3040(%r10), %ymm0, %ymm0 -vpaddw 6112(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3392(%r10) -vmovdqa %ymm1, 3744(%r10) -vmovdqa 3424(%r10), %ymm0 -vpsubw 3776(%r10), %ymm0, %ymm0 -vmovdqa 6496(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 4128(%r10), %ymm1, %ymm1 -vpsubw 3072(%r10), %ymm0, %ymm0 -vpaddw 6144(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3424(%r10) -vmovdqa %ymm1, 3776(%r10) -vmovdqa 3456(%r10), %ymm0 -vpsubw 3808(%r10), %ymm0, %ymm0 -vmovdqa 6528(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 4160(%r10), %ymm1, %ymm1 -vpsubw 3104(%r10), %ymm0, %ymm0 -vpaddw 6176(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3456(%r10) -vmovdqa %ymm1, 3808(%r10) -neg %ecx -jns done_4eced63f144beffcb0247f9c6f67d165 -add $704, %r9 -add $1408, %r10 -jmp innerloop_4eced63f144beffcb0247f9c6f67d165 -done_4eced63f144beffcb0247f9c6f67d165: -sub $704, %r9 -sub $1408, %r10 -vmovdqa 0(%r9), %ymm0 -vpaddw 704(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 6592(%r8) -vmovdqa 1408(%r9), %ymm0 -vpaddw 2112(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7296(%r8) -vmovdqa 32(%r9), %ymm0 -vpaddw 736(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 6624(%r8) -vmovdqa 1440(%r9), %ymm0 -vpaddw 2144(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7328(%r8) -vmovdqa 64(%r9), %ymm0 -vpaddw 768(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 6656(%r8) -vmovdqa 1472(%r9), %ymm0 -vpaddw 2176(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7360(%r8) -vmovdqa 96(%r9), %ymm0 -vpaddw 800(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 6688(%r8) -vmovdqa 1504(%r9), %ymm0 -vpaddw 2208(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7392(%r8) -vmovdqa 128(%r9), %ymm0 -vpaddw 832(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 6720(%r8) -vmovdqa 1536(%r9), %ymm0 -vpaddw 2240(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7424(%r8) -vmovdqa 160(%r9), %ymm0 -vpaddw 864(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 6752(%r8) -vmovdqa 1568(%r9), %ymm0 -vpaddw 2272(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7456(%r8) -vmovdqa 192(%r9), %ymm0 -vpaddw 896(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 6784(%r8) -vmovdqa 1600(%r9), %ymm0 -vpaddw 2304(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7488(%r8) -vmovdqa 224(%r9), %ymm0 -vpaddw 928(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 6816(%r8) -vmovdqa 1632(%r9), %ymm0 -vpaddw 2336(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7520(%r8) -vmovdqa 256(%r9), %ymm0 -vpaddw 960(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 6848(%r8) -vmovdqa 1664(%r9), %ymm0 -vpaddw 2368(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7552(%r8) -vmovdqa 288(%r9), %ymm0 -vpaddw 992(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 6880(%r8) -vmovdqa 1696(%r9), %ymm0 -vpaddw 2400(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7584(%r8) -vmovdqa 320(%r9), %ymm0 -vpaddw 1024(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 6912(%r8) -vmovdqa 1728(%r9), %ymm0 -vpaddw 2432(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7616(%r8) -vmovdqa 352(%r9), %ymm0 -vpaddw 1056(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 6944(%r8) -vmovdqa 1760(%r9), %ymm0 -vpaddw 2464(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7648(%r8) -vmovdqa 384(%r9), %ymm0 -vpaddw 1088(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 6976(%r8) -vmovdqa 1792(%r9), %ymm0 -vpaddw 2496(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7680(%r8) -vmovdqa 416(%r9), %ymm0 -vpaddw 1120(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7008(%r8) -vmovdqa 1824(%r9), %ymm0 -vpaddw 2528(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7712(%r8) -vmovdqa 448(%r9), %ymm0 -vpaddw 1152(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7040(%r8) -vmovdqa 1856(%r9), %ymm0 -vpaddw 2560(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7744(%r8) -vmovdqa 480(%r9), %ymm0 -vpaddw 1184(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7072(%r8) -vmovdqa 1888(%r9), %ymm0 -vpaddw 2592(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7776(%r8) -vmovdqa 512(%r9), %ymm0 -vpaddw 1216(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7104(%r8) -vmovdqa 1920(%r9), %ymm0 -vpaddw 2624(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7808(%r8) -vmovdqa 544(%r9), %ymm0 -vpaddw 1248(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7136(%r8) -vmovdqa 1952(%r9), %ymm0 -vpaddw 2656(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7840(%r8) -vmovdqa 576(%r9), %ymm0 -vpaddw 1280(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7168(%r8) -vmovdqa 1984(%r9), %ymm0 -vpaddw 2688(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7872(%r8) -vmovdqa 608(%r9), %ymm0 -vpaddw 1312(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7200(%r8) -vmovdqa 2016(%r9), %ymm0 -vpaddw 2720(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7904(%r8) -vmovdqa 640(%r9), %ymm0 -vpaddw 1344(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7232(%r8) -vmovdqa 2048(%r9), %ymm0 -vpaddw 2752(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7936(%r8) -vmovdqa 672(%r9), %ymm0 -vpaddw 1376(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7264(%r8) -vmovdqa 2080(%r9), %ymm0 -vpaddw 2784(%r9), %ymm0, %ymm0 -vmovdqa %ymm0, 7968(%r8) -vmovdqa 6592(%r8), %ymm0 -vmovdqa 7296(%r8), %ymm6 -vmovdqa 6624(%r8), %ymm1 -vmovdqa 7328(%r8), %ymm7 -vmovdqa 6656(%r8), %ymm2 -vmovdqa 7360(%r8), %ymm8 -vmovdqa 6688(%r8), %ymm3 -vmovdqa 7392(%r8), %ymm9 -vmovdqa 6720(%r8), %ymm4 -vmovdqa 7424(%r8), %ymm10 -vmovdqa 6752(%r8), %ymm5 -vmovdqa 7456(%r8), %ymm11 -vpmullw %ymm0, %ymm6, %ymm12 -vmovdqa %ymm12, 8000(%r8) -vpmullw %ymm0, %ymm7, %ymm13 -vpmullw %ymm1, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 8032(%r8) -vpmullw %ymm0, %ymm8, %ymm12 -vpmullw %ymm1, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 8064(%r8) -vpmullw %ymm0, %ymm9, %ymm13 -vpmullw %ymm1, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm2, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 8096(%r8) -vpmullw %ymm0, %ymm10, %ymm12 -vpmullw %ymm1, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm3, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 8128(%r8) -vpmullw %ymm0, %ymm11, %ymm13 -vpmullw %ymm1, %ymm10, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm2, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm4, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm5, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 8160(%r8) -vpmullw %ymm1, %ymm11, %ymm12 -vpmullw %ymm2, %ymm10, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm3, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm5, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 8192(%r8) -vpmullw %ymm2, %ymm11, %ymm13 -vpmullw %ymm3, %ymm10, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm4, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm5, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 8224(%r8) -vpmullw %ymm3, %ymm11, %ymm12 -vpmullw %ymm4, %ymm10, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm5, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 8256(%r8) -vpmullw %ymm4, %ymm11, %ymm13 -vpmullw %ymm5, %ymm10, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 8288(%r8) -vpmullw %ymm5, %ymm11, %ymm12 -vmovdqa %ymm12, 8320(%r8) -vmovdqa 6784(%r8), %ymm0 -vmovdqa 7488(%r8), %ymm6 -vmovdqa 6816(%r8), %ymm1 -vmovdqa 7520(%r8), %ymm7 -vmovdqa 6848(%r8), %ymm2 -vmovdqa 7552(%r8), %ymm8 -vmovdqa 6880(%r8), %ymm3 -vmovdqa 7584(%r8), %ymm9 -vmovdqa 6912(%r8), %ymm4 -vmovdqa 7616(%r8), %ymm10 -vpmullw %ymm0, %ymm6, %ymm12 -vmovdqa %ymm12, 8384(%r8) -vpmullw %ymm0, %ymm7, %ymm13 -vpmullw %ymm1, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 8416(%r8) -vpmullw %ymm0, %ymm8, %ymm12 -vpmullw %ymm1, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 8448(%r8) -vpmullw %ymm0, %ymm9, %ymm13 -vpmullw %ymm1, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm2, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 8480(%r8) -vpmullw %ymm0, %ymm10, %ymm12 -vpmullw %ymm1, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm3, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 8512(%r8) -vpmullw %ymm1, %ymm10, %ymm13 -vpmullw %ymm2, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm4, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 8544(%r8) -vpmullw %ymm2, %ymm10, %ymm12 -vpmullw %ymm3, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 8576(%r8) -vpmullw %ymm3, %ymm10, %ymm13 -vpmullw %ymm4, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 8608(%r8) -vpmullw %ymm4, %ymm10, %ymm12 -vmovdqa %ymm12, 8640(%r8) -vpaddw 6592(%r8), %ymm0, %ymm0 -vpaddw 7296(%r8), %ymm6, %ymm6 -vpaddw 6624(%r8), %ymm1, %ymm1 -vpaddw 7328(%r8), %ymm7, %ymm7 -vpaddw 6656(%r8), %ymm2, %ymm2 -vpaddw 7360(%r8), %ymm8, %ymm8 -vpaddw 6688(%r8), %ymm3, %ymm3 -vpaddw 7392(%r8), %ymm9, %ymm9 -vpaddw 6720(%r8), %ymm4, %ymm4 -vpaddw 7424(%r8), %ymm10, %ymm10 -vpmullw %ymm0, %ymm11, %ymm12 -vpmullw %ymm1, %ymm10, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm2, %ymm9, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm3, %ymm8, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm4, %ymm7, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm5, %ymm6, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpsubw 8160(%r8), %ymm12, %ymm12 -vpsubw 8544(%r8), %ymm12, %ymm12 -vmovdqa %ymm12, 8352(%r8) -vpmullw %ymm5, %ymm7, %ymm12 -vpmullw %ymm5, %ymm8, %ymm13 -vpmullw %ymm5, %ymm9, %ymm14 -vpmullw %ymm5, %ymm10, %ymm15 -vpmullw %ymm1, %ymm11, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm2, %ymm10, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm3, %ymm9, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm4, %ymm8, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm2, %ymm11, %ymm5 -vpaddw %ymm5, %ymm13, %ymm13 -vpmullw %ymm3, %ymm10, %ymm5 -vpaddw %ymm5, %ymm13, %ymm13 -vpmullw %ymm4, %ymm9, %ymm5 -vpaddw %ymm5, %ymm13, %ymm13 -vpmullw %ymm3, %ymm11, %ymm5 -vpaddw %ymm5, %ymm14, %ymm14 -vpmullw %ymm4, %ymm10, %ymm5 -vpaddw %ymm5, %ymm14, %ymm14 -vpmullw %ymm4, %ymm11, %ymm5 -vpaddw %ymm5, %ymm15, %ymm15 -vpmullw %ymm0, %ymm10, %ymm11 -vpmullw %ymm1, %ymm9, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm2, %ymm8, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm3, %ymm7, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm4, %ymm6, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm0, %ymm9, %ymm10 -vpmullw %ymm1, %ymm8, %ymm5 -vpaddw %ymm5, %ymm10, %ymm10 -vpmullw %ymm2, %ymm7, %ymm5 -vpaddw %ymm5, %ymm10, %ymm10 -vpmullw %ymm3, %ymm6, %ymm5 -vpaddw %ymm5, %ymm10, %ymm10 -vpmullw %ymm0, %ymm8, %ymm9 -vpmullw %ymm1, %ymm7, %ymm5 -vpaddw %ymm5, %ymm9, %ymm9 -vpmullw %ymm2, %ymm6, %ymm5 -vpaddw %ymm5, %ymm9, %ymm9 -vpmullw %ymm0, %ymm7, %ymm8 -vpmullw %ymm1, %ymm6, %ymm5 -vpaddw %ymm5, %ymm8, %ymm8 -vpmullw %ymm0, %ymm6, %ymm7 -vmovdqa 8192(%r8), %ymm0 -vpsubw 8384(%r8), %ymm0, %ymm0 -vpsubw %ymm0, %ymm12, %ymm6 -vpsubw 8576(%r8), %ymm6, %ymm6 -vmovdqa %ymm6, 8384(%r8) -vpaddw %ymm7, %ymm0, %ymm0 -vpsubw 8000(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 8192(%r8) -vmovdqa 8224(%r8), %ymm1 -vpsubw 8416(%r8), %ymm1, %ymm1 -vpsubw %ymm1, %ymm13, %ymm7 -vpsubw 8608(%r8), %ymm7, %ymm7 -vmovdqa %ymm7, 8416(%r8) -vpaddw %ymm8, %ymm1, %ymm1 -vpsubw 8032(%r8), %ymm1, %ymm1 -vmovdqa %ymm1, 8224(%r8) -vmovdqa 8256(%r8), %ymm2 -vpsubw 8448(%r8), %ymm2, %ymm2 -vpsubw %ymm2, %ymm14, %ymm8 -vpsubw 8640(%r8), %ymm8, %ymm8 -vmovdqa %ymm8, 8448(%r8) -vpaddw %ymm9, %ymm2, %ymm2 -vpsubw 8064(%r8), %ymm2, %ymm2 -vmovdqa %ymm2, 8256(%r8) -vmovdqa 8288(%r8), %ymm3 -vpsubw 8480(%r8), %ymm3, %ymm3 -vpsubw %ymm3, %ymm15, %ymm9 -vmovdqa %ymm9, 8480(%r8) -vpaddw %ymm10, %ymm3, %ymm3 -vpsubw 8096(%r8), %ymm3, %ymm3 -vmovdqa %ymm3, 8288(%r8) -vmovdqa 8320(%r8), %ymm4 -vpsubw 8512(%r8), %ymm4, %ymm4 -vpaddw %ymm11, %ymm4, %ymm4 -vpsubw 8128(%r8), %ymm4, %ymm4 -vmovdqa %ymm4, 8320(%r8) -vmovdqa 6944(%r8), %ymm0 -vmovdqa 7648(%r8), %ymm6 -vmovdqa 6976(%r8), %ymm1 -vmovdqa 7680(%r8), %ymm7 -vmovdqa 7008(%r8), %ymm2 -vmovdqa 7712(%r8), %ymm8 -vmovdqa 7040(%r8), %ymm3 -vmovdqa 7744(%r8), %ymm9 -vmovdqa 7072(%r8), %ymm4 -vmovdqa 7776(%r8), %ymm10 -vmovdqa 7104(%r8), %ymm5 -vmovdqa 7808(%r8), %ymm11 -vpmullw %ymm0, %ymm6, %ymm12 -vmovdqa %ymm12, 8704(%r8) -vpmullw %ymm0, %ymm7, %ymm13 -vpmullw %ymm1, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 8736(%r8) -vpmullw %ymm0, %ymm8, %ymm12 -vpmullw %ymm1, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 8768(%r8) -vpmullw %ymm0, %ymm9, %ymm13 -vpmullw %ymm1, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm2, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 8800(%r8) -vpmullw %ymm0, %ymm10, %ymm12 -vpmullw %ymm1, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm3, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 8832(%r8) -vpmullw %ymm0, %ymm11, %ymm13 -vpmullw %ymm1, %ymm10, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm2, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm4, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm5, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 8864(%r8) -vpmullw %ymm1, %ymm11, %ymm12 -vpmullw %ymm2, %ymm10, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm3, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm5, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 8896(%r8) -vpmullw %ymm2, %ymm11, %ymm13 -vpmullw %ymm3, %ymm10, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm4, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm5, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 8928(%r8) -vpmullw %ymm3, %ymm11, %ymm12 -vpmullw %ymm4, %ymm10, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm5, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 8960(%r8) -vpmullw %ymm4, %ymm11, %ymm13 -vpmullw %ymm5, %ymm10, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 8992(%r8) -vpmullw %ymm5, %ymm11, %ymm12 -vmovdqa %ymm12, 9024(%r8) -vmovdqa 7136(%r8), %ymm0 -vmovdqa 7840(%r8), %ymm6 -vmovdqa 7168(%r8), %ymm1 -vmovdqa 7872(%r8), %ymm7 -vmovdqa 7200(%r8), %ymm2 -vmovdqa 7904(%r8), %ymm8 -vmovdqa 7232(%r8), %ymm3 -vmovdqa 7936(%r8), %ymm9 -vmovdqa 7264(%r8), %ymm4 -vmovdqa 7968(%r8), %ymm10 -vpmullw %ymm0, %ymm6, %ymm12 -vmovdqa %ymm12, 9088(%r8) -vpmullw %ymm0, %ymm7, %ymm13 -vpmullw %ymm1, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 9120(%r8) -vpmullw %ymm0, %ymm8, %ymm12 -vpmullw %ymm1, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 9152(%r8) -vpmullw %ymm0, %ymm9, %ymm13 -vpmullw %ymm1, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm2, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 9184(%r8) -vpmullw %ymm0, %ymm10, %ymm12 -vpmullw %ymm1, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm3, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 9216(%r8) -vpmullw %ymm1, %ymm10, %ymm13 -vpmullw %ymm2, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm4, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 9248(%r8) -vpmullw %ymm2, %ymm10, %ymm12 -vpmullw %ymm3, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 9280(%r8) -vpmullw %ymm3, %ymm10, %ymm13 -vpmullw %ymm4, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 9312(%r8) -vpmullw %ymm4, %ymm10, %ymm12 -vmovdqa %ymm12, 9344(%r8) -vpaddw 6944(%r8), %ymm0, %ymm0 -vpaddw 7648(%r8), %ymm6, %ymm6 -vpaddw 6976(%r8), %ymm1, %ymm1 -vpaddw 7680(%r8), %ymm7, %ymm7 -vpaddw 7008(%r8), %ymm2, %ymm2 -vpaddw 7712(%r8), %ymm8, %ymm8 -vpaddw 7040(%r8), %ymm3, %ymm3 -vpaddw 7744(%r8), %ymm9, %ymm9 -vpaddw 7072(%r8), %ymm4, %ymm4 -vpaddw 7776(%r8), %ymm10, %ymm10 -vpmullw %ymm0, %ymm11, %ymm12 -vpmullw %ymm1, %ymm10, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm2, %ymm9, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm3, %ymm8, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm4, %ymm7, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm5, %ymm6, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpsubw 8864(%r8), %ymm12, %ymm12 -vpsubw 9248(%r8), %ymm12, %ymm12 -vmovdqa %ymm12, 9056(%r8) -vpmullw %ymm5, %ymm7, %ymm12 -vpmullw %ymm5, %ymm8, %ymm13 -vpmullw %ymm5, %ymm9, %ymm14 -vpmullw %ymm5, %ymm10, %ymm15 -vpmullw %ymm1, %ymm11, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm2, %ymm10, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm3, %ymm9, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm4, %ymm8, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm2, %ymm11, %ymm5 -vpaddw %ymm5, %ymm13, %ymm13 -vpmullw %ymm3, %ymm10, %ymm5 -vpaddw %ymm5, %ymm13, %ymm13 -vpmullw %ymm4, %ymm9, %ymm5 -vpaddw %ymm5, %ymm13, %ymm13 -vpmullw %ymm3, %ymm11, %ymm5 -vpaddw %ymm5, %ymm14, %ymm14 -vpmullw %ymm4, %ymm10, %ymm5 -vpaddw %ymm5, %ymm14, %ymm14 -vpmullw %ymm4, %ymm11, %ymm5 -vpaddw %ymm5, %ymm15, %ymm15 -vpmullw %ymm0, %ymm10, %ymm11 -vpmullw %ymm1, %ymm9, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm2, %ymm8, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm3, %ymm7, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm4, %ymm6, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm0, %ymm9, %ymm10 -vpmullw %ymm1, %ymm8, %ymm5 -vpaddw %ymm5, %ymm10, %ymm10 -vpmullw %ymm2, %ymm7, %ymm5 -vpaddw %ymm5, %ymm10, %ymm10 -vpmullw %ymm3, %ymm6, %ymm5 -vpaddw %ymm5, %ymm10, %ymm10 -vpmullw %ymm0, %ymm8, %ymm9 -vpmullw %ymm1, %ymm7, %ymm5 -vpaddw %ymm5, %ymm9, %ymm9 -vpmullw %ymm2, %ymm6, %ymm5 -vpaddw %ymm5, %ymm9, %ymm9 -vpmullw %ymm0, %ymm7, %ymm8 -vpmullw %ymm1, %ymm6, %ymm5 -vpaddw %ymm5, %ymm8, %ymm8 -vpmullw %ymm0, %ymm6, %ymm7 -vmovdqa 8896(%r8), %ymm0 -vpsubw 9088(%r8), %ymm0, %ymm0 -vpsubw %ymm0, %ymm12, %ymm6 -vpsubw 9280(%r8), %ymm6, %ymm6 -vmovdqa %ymm6, 9088(%r8) -vpaddw %ymm7, %ymm0, %ymm0 -vpsubw 8704(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 8896(%r8) -vmovdqa 8928(%r8), %ymm1 -vpsubw 9120(%r8), %ymm1, %ymm1 -vpsubw %ymm1, %ymm13, %ymm7 -vpsubw 9312(%r8), %ymm7, %ymm7 -vmovdqa %ymm7, 9120(%r8) -vpaddw %ymm8, %ymm1, %ymm1 -vpsubw 8736(%r8), %ymm1, %ymm1 -vmovdqa %ymm1, 8928(%r8) -vmovdqa 8960(%r8), %ymm2 -vpsubw 9152(%r8), %ymm2, %ymm2 -vpsubw %ymm2, %ymm14, %ymm8 -vpsubw 9344(%r8), %ymm8, %ymm8 -vmovdqa %ymm8, 9152(%r8) -vpaddw %ymm9, %ymm2, %ymm2 -vpsubw 8768(%r8), %ymm2, %ymm2 -vmovdqa %ymm2, 8960(%r8) -vmovdqa 8992(%r8), %ymm3 -vpsubw 9184(%r8), %ymm3, %ymm3 -vpsubw %ymm3, %ymm15, %ymm9 -vmovdqa %ymm9, 9184(%r8) -vpaddw %ymm10, %ymm3, %ymm3 -vpsubw 8800(%r8), %ymm3, %ymm3 -vmovdqa %ymm3, 8992(%r8) -vmovdqa 9024(%r8), %ymm4 -vpsubw 9216(%r8), %ymm4, %ymm4 -vpaddw %ymm11, %ymm4, %ymm4 -vpsubw 8832(%r8), %ymm4, %ymm4 -vmovdqa %ymm4, 9024(%r8) -vmovdqa 6592(%r8), %ymm0 -vmovdqa 7296(%r8), %ymm6 -vpaddw 6944(%r8), %ymm0, %ymm0 -vpaddw 7648(%r8), %ymm6, %ymm6 -vmovdqa 6624(%r8), %ymm1 -vmovdqa 7328(%r8), %ymm7 -vpaddw 6976(%r8), %ymm1, %ymm1 -vpaddw 7680(%r8), %ymm7, %ymm7 -vmovdqa 6656(%r8), %ymm2 -vmovdqa 7360(%r8), %ymm8 -vpaddw 7008(%r8), %ymm2, %ymm2 -vpaddw 7712(%r8), %ymm8, %ymm8 -vmovdqa 6688(%r8), %ymm3 -vmovdqa 7392(%r8), %ymm9 -vpaddw 7040(%r8), %ymm3, %ymm3 -vpaddw 7744(%r8), %ymm9, %ymm9 -vmovdqa 6720(%r8), %ymm4 -vmovdqa 7424(%r8), %ymm10 -vpaddw 7072(%r8), %ymm4, %ymm4 -vpaddw 7776(%r8), %ymm10, %ymm10 -vmovdqa 6752(%r8), %ymm5 -vmovdqa 7456(%r8), %ymm11 -vpaddw 7104(%r8), %ymm5, %ymm5 -vpaddw 7808(%r8), %ymm11, %ymm11 -vpmullw %ymm0, %ymm6, %ymm12 -vmovdqa %ymm12, 5888(%r8) -vpmullw %ymm0, %ymm7, %ymm13 -vpmullw %ymm1, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 5920(%r8) -vpmullw %ymm0, %ymm8, %ymm12 -vpmullw %ymm1, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 5952(%r8) -vpmullw %ymm0, %ymm9, %ymm13 -vpmullw %ymm1, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm2, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 5984(%r8) -vpmullw %ymm0, %ymm10, %ymm12 -vpmullw %ymm1, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm3, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 6016(%r8) -vpmullw %ymm0, %ymm11, %ymm13 -vpmullw %ymm1, %ymm10, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm2, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm4, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm5, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 6048(%r8) -vpmullw %ymm1, %ymm11, %ymm12 -vpmullw %ymm2, %ymm10, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm3, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm5, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 6080(%r8) -vpmullw %ymm2, %ymm11, %ymm13 -vpmullw %ymm3, %ymm10, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm4, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm5, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 6112(%r8) -vpmullw %ymm3, %ymm11, %ymm12 -vpmullw %ymm4, %ymm10, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm5, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 6144(%r8) -vpmullw %ymm4, %ymm11, %ymm13 -vpmullw %ymm5, %ymm10, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 6176(%r8) -vpmullw %ymm5, %ymm11, %ymm12 -vmovdqa %ymm12, 6208(%r8) -vmovdqa 6784(%r8), %ymm0 -vmovdqa 7488(%r8), %ymm6 -vpaddw 7136(%r8), %ymm0, %ymm0 -vpaddw 7840(%r8), %ymm6, %ymm6 -vmovdqa 6816(%r8), %ymm1 -vmovdqa 7520(%r8), %ymm7 -vpaddw 7168(%r8), %ymm1, %ymm1 -vpaddw 7872(%r8), %ymm7, %ymm7 -vmovdqa 6848(%r8), %ymm2 -vmovdqa 7552(%r8), %ymm8 -vpaddw 7200(%r8), %ymm2, %ymm2 -vpaddw 7904(%r8), %ymm8, %ymm8 -vmovdqa 6880(%r8), %ymm3 -vmovdqa 7584(%r8), %ymm9 -vpaddw 7232(%r8), %ymm3, %ymm3 -vpaddw 7936(%r8), %ymm9, %ymm9 -vmovdqa 6912(%r8), %ymm4 -vmovdqa 7616(%r8), %ymm10 -vpaddw 7264(%r8), %ymm4, %ymm4 -vpaddw 7968(%r8), %ymm10, %ymm10 -vpmullw %ymm0, %ymm6, %ymm12 -vmovdqa %ymm12, 6272(%r8) -vpmullw %ymm0, %ymm7, %ymm13 -vpmullw %ymm1, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 6304(%r8) -vpmullw %ymm0, %ymm8, %ymm12 -vpmullw %ymm1, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 6336(%r8) -vpmullw %ymm0, %ymm9, %ymm13 -vpmullw %ymm1, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm2, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm6, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 6368(%r8) -vpmullw %ymm0, %ymm10, %ymm12 -vpmullw %ymm1, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm2, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm3, %ymm7, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm6, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 6400(%r8) -vpmullw %ymm1, %ymm10, %ymm13 -vpmullw %ymm2, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm3, %ymm8, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vpmullw %ymm4, %ymm7, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 6432(%r8) -vpmullw %ymm2, %ymm10, %ymm12 -vpmullw %ymm3, %ymm9, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vpmullw %ymm4, %ymm8, %ymm15 -vpaddw %ymm12, %ymm15, %ymm12 -vmovdqa %ymm12, 6464(%r8) -vpmullw %ymm3, %ymm10, %ymm13 -vpmullw %ymm4, %ymm9, %ymm15 -vpaddw %ymm13, %ymm15, %ymm13 -vmovdqa %ymm13, 6496(%r8) -vpmullw %ymm4, %ymm10, %ymm12 -vmovdqa %ymm12, 6528(%r8) -vpaddw 6592(%r8), %ymm0, %ymm0 -vpaddw 7296(%r8), %ymm6, %ymm6 -vpaddw 6944(%r8), %ymm0, %ymm0 -vpaddw 7648(%r8), %ymm6, %ymm6 -vpaddw 6624(%r8), %ymm1, %ymm1 -vpaddw 7328(%r8), %ymm7, %ymm7 -vpaddw 6976(%r8), %ymm1, %ymm1 -vpaddw 7680(%r8), %ymm7, %ymm7 -vpaddw 6656(%r8), %ymm2, %ymm2 -vpaddw 7360(%r8), %ymm8, %ymm8 -vpaddw 7008(%r8), %ymm2, %ymm2 -vpaddw 7712(%r8), %ymm8, %ymm8 -vpaddw 6688(%r8), %ymm3, %ymm3 -vpaddw 7392(%r8), %ymm9, %ymm9 -vpaddw 7040(%r8), %ymm3, %ymm3 -vpaddw 7744(%r8), %ymm9, %ymm9 -vpaddw 6720(%r8), %ymm4, %ymm4 -vpaddw 7424(%r8), %ymm10, %ymm10 -vpaddw 7072(%r8), %ymm4, %ymm4 -vpaddw 7776(%r8), %ymm10, %ymm10 -vpmullw %ymm0, %ymm11, %ymm12 -vpmullw %ymm1, %ymm10, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm2, %ymm9, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm3, %ymm8, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm4, %ymm7, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpmullw %ymm5, %ymm6, %ymm15 -vpaddw %ymm15, %ymm12, %ymm12 -vpsubw 6048(%r8), %ymm12, %ymm12 -vpsubw 6432(%r8), %ymm12, %ymm12 -vmovdqa %ymm12, 6240(%r8) -vpmullw %ymm5, %ymm7, %ymm12 -vpmullw %ymm5, %ymm8, %ymm13 -vpmullw %ymm5, %ymm9, %ymm14 -vpmullw %ymm5, %ymm10, %ymm15 -vpmullw %ymm1, %ymm11, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm2, %ymm10, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm3, %ymm9, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm4, %ymm8, %ymm5 -vpaddw %ymm5, %ymm12, %ymm12 -vpmullw %ymm2, %ymm11, %ymm5 -vpaddw %ymm5, %ymm13, %ymm13 -vpmullw %ymm3, %ymm10, %ymm5 -vpaddw %ymm5, %ymm13, %ymm13 -vpmullw %ymm4, %ymm9, %ymm5 -vpaddw %ymm5, %ymm13, %ymm13 -vpmullw %ymm3, %ymm11, %ymm5 -vpaddw %ymm5, %ymm14, %ymm14 -vpmullw %ymm4, %ymm10, %ymm5 -vpaddw %ymm5, %ymm14, %ymm14 -vpmullw %ymm4, %ymm11, %ymm5 -vpaddw %ymm5, %ymm15, %ymm15 -vpmullw %ymm0, %ymm10, %ymm11 -vpmullw %ymm1, %ymm9, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm2, %ymm8, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm3, %ymm7, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm4, %ymm6, %ymm5 -vpaddw %ymm5, %ymm11, %ymm11 -vpmullw %ymm0, %ymm9, %ymm10 -vpmullw %ymm1, %ymm8, %ymm5 -vpaddw %ymm5, %ymm10, %ymm10 -vpmullw %ymm2, %ymm7, %ymm5 -vpaddw %ymm5, %ymm10, %ymm10 -vpmullw %ymm3, %ymm6, %ymm5 -vpaddw %ymm5, %ymm10, %ymm10 -vpmullw %ymm0, %ymm8, %ymm9 -vpmullw %ymm1, %ymm7, %ymm5 -vpaddw %ymm5, %ymm9, %ymm9 -vpmullw %ymm2, %ymm6, %ymm5 -vpaddw %ymm5, %ymm9, %ymm9 -vpmullw %ymm0, %ymm7, %ymm8 -vpmullw %ymm1, %ymm6, %ymm5 -vpaddw %ymm5, %ymm8, %ymm8 -vpmullw %ymm0, %ymm6, %ymm7 -vmovdqa 6080(%r8), %ymm0 -vpsubw 6272(%r8), %ymm0, %ymm0 -vpsubw %ymm0, %ymm12, %ymm6 -vpsubw 6464(%r8), %ymm6, %ymm6 -vmovdqa %ymm6, 6272(%r8) -vpaddw %ymm7, %ymm0, %ymm0 -vpsubw 5888(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 6080(%r8) -vmovdqa 6112(%r8), %ymm1 -vpsubw 6304(%r8), %ymm1, %ymm1 -vpsubw %ymm1, %ymm13, %ymm7 -vpsubw 6496(%r8), %ymm7, %ymm7 -vmovdqa %ymm7, 6304(%r8) -vpaddw %ymm8, %ymm1, %ymm1 -vpsubw 5920(%r8), %ymm1, %ymm1 -vmovdqa %ymm1, 6112(%r8) -vmovdqa 6144(%r8), %ymm2 -vpsubw 6336(%r8), %ymm2, %ymm2 -vpsubw %ymm2, %ymm14, %ymm8 -vpsubw 6528(%r8), %ymm8, %ymm8 -vmovdqa %ymm8, 6336(%r8) -vpaddw %ymm9, %ymm2, %ymm2 -vpsubw 5952(%r8), %ymm2, %ymm2 -vmovdqa %ymm2, 6144(%r8) -vmovdqa 6176(%r8), %ymm3 -vpsubw 6368(%r8), %ymm3, %ymm3 -vpsubw %ymm3, %ymm15, %ymm9 -vmovdqa %ymm9, 6368(%r8) -vpaddw %ymm10, %ymm3, %ymm3 -vpsubw 5984(%r8), %ymm3, %ymm3 -vmovdqa %ymm3, 6176(%r8) -vmovdqa 6208(%r8), %ymm4 -vpsubw 6400(%r8), %ymm4, %ymm4 -vpaddw %ymm11, %ymm4, %ymm4 -vpsubw 6016(%r8), %ymm4, %ymm4 -vmovdqa %ymm4, 6208(%r8) -vmovdqa 8352(%r8), %ymm0 -vpsubw 8704(%r8), %ymm0, %ymm0 -vmovdqa 6240(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 9056(%r8), %ymm1, %ymm6 -vpsubw 8000(%r8), %ymm0, %ymm0 -vpaddw 5888(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 8352(%r8) -vmovdqa 8384(%r8), %ymm0 -vpsubw 8736(%r8), %ymm0, %ymm0 -vmovdqa 6272(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 9088(%r8), %ymm1, %ymm7 -vpsubw 8032(%r8), %ymm0, %ymm0 -vpaddw 5920(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 8384(%r8) -vmovdqa 8416(%r8), %ymm0 -vpsubw 8768(%r8), %ymm0, %ymm0 -vmovdqa 6304(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 9120(%r8), %ymm1, %ymm8 -vpsubw 8064(%r8), %ymm0, %ymm0 -vpaddw 5952(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 8416(%r8) -vmovdqa 8448(%r8), %ymm0 -vpsubw 8800(%r8), %ymm0, %ymm0 -vmovdqa 6336(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 9152(%r8), %ymm1, %ymm9 -vpsubw 8096(%r8), %ymm0, %ymm0 -vpaddw 5984(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 8448(%r8) -vmovdqa 8480(%r8), %ymm0 -vpsubw 8832(%r8), %ymm0, %ymm0 -vmovdqa 6368(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 9184(%r8), %ymm1, %ymm10 -vpsubw 8128(%r8), %ymm0, %ymm0 -vpaddw 6016(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 8480(%r8) -vmovdqa 8512(%r8), %ymm0 -vpsubw 8864(%r8), %ymm0, %ymm0 -vmovdqa 6400(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 9216(%r8), %ymm1, %ymm11 -vpsubw 8160(%r8), %ymm0, %ymm0 -vpaddw 6048(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 8512(%r8) -vmovdqa 8544(%r8), %ymm0 -vpsubw 8896(%r8), %ymm0, %ymm0 -vmovdqa 6432(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 9248(%r8), %ymm1, %ymm12 -vpsubw 8192(%r8), %ymm0, %ymm0 -vpaddw 6080(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 8544(%r8) -vmovdqa 8576(%r8), %ymm0 -vpsubw 8928(%r8), %ymm0, %ymm0 -vmovdqa 6464(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 9280(%r8), %ymm1, %ymm13 -vpsubw 8224(%r8), %ymm0, %ymm0 -vpaddw 6112(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 8576(%r8) -vmovdqa 8608(%r8), %ymm0 -vpsubw 8960(%r8), %ymm0, %ymm0 -vmovdqa 6496(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 9312(%r8), %ymm1, %ymm14 -vpsubw 8256(%r8), %ymm0, %ymm0 -vpaddw 6144(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 8608(%r8) -vmovdqa 8640(%r8), %ymm0 -vpsubw 8992(%r8), %ymm0, %ymm0 -vmovdqa 6528(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 9344(%r8), %ymm1, %ymm15 -vpsubw 8288(%r8), %ymm0, %ymm0 -vpaddw 6176(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 8640(%r8) -vmovdqa 6208(%r8), %ymm0 -vpsubw 8320(%r8), %ymm0, %ymm0 -vpsubw 9024(%r8), %ymm0, %ymm0 -vpsubw 3488(%r10), %ymm0, %ymm0 -vpsubw 4896(%r10), %ymm0, %ymm0 -vmovdqa %ymm0, 4192(%r10) -vmovdqa 3520(%r10), %ymm0 -vpsubw 4224(%r10), %ymm0, %ymm0 -vpsubw %ymm0, %ymm6, %ymm6 -vpsubw 4928(%r10), %ymm6, %ymm6 -vpsubw 2816(%r10), %ymm0, %ymm0 -vpaddw 8000(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3520(%r10) -vmovdqa %ymm6, 4224(%r10) -vmovdqa 3552(%r10), %ymm0 -vpsubw 4256(%r10), %ymm0, %ymm0 -vpsubw %ymm0, %ymm7, %ymm7 -vpsubw 4960(%r10), %ymm7, %ymm7 -vpsubw 2848(%r10), %ymm0, %ymm0 -vpaddw 8032(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3552(%r10) -vmovdqa %ymm7, 4256(%r10) -vmovdqa 3584(%r10), %ymm0 -vpsubw 4288(%r10), %ymm0, %ymm0 -vpsubw %ymm0, %ymm8, %ymm8 -vpsubw 4992(%r10), %ymm8, %ymm8 -vpsubw 2880(%r10), %ymm0, %ymm0 -vpaddw 8064(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3584(%r10) -vmovdqa %ymm8, 4288(%r10) -vmovdqa 3616(%r10), %ymm0 -vpsubw 4320(%r10), %ymm0, %ymm0 -vpsubw %ymm0, %ymm9, %ymm9 -vpsubw 5024(%r10), %ymm9, %ymm9 -vpsubw 2912(%r10), %ymm0, %ymm0 -vpaddw 8096(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3616(%r10) -vmovdqa %ymm9, 4320(%r10) -vmovdqa 3648(%r10), %ymm0 -vpsubw 4352(%r10), %ymm0, %ymm0 -vpsubw %ymm0, %ymm10, %ymm10 -vpsubw 5056(%r10), %ymm10, %ymm10 -vpsubw 2944(%r10), %ymm0, %ymm0 -vpaddw 8128(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3648(%r10) -vmovdqa %ymm10, 4352(%r10) -vmovdqa 3680(%r10), %ymm0 -vpsubw 4384(%r10), %ymm0, %ymm0 -vpsubw %ymm0, %ymm11, %ymm11 -vpsubw 5088(%r10), %ymm11, %ymm11 -vpsubw 2976(%r10), %ymm0, %ymm0 -vpaddw 8160(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3680(%r10) -vmovdqa %ymm11, 4384(%r10) -vmovdqa 3712(%r10), %ymm0 -vpsubw 4416(%r10), %ymm0, %ymm0 -vpsubw %ymm0, %ymm12, %ymm12 -vpsubw 5120(%r10), %ymm12, %ymm12 -vpsubw 3008(%r10), %ymm0, %ymm0 -vpaddw 8192(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3712(%r10) -vmovdqa %ymm12, 4416(%r10) -vmovdqa 3744(%r10), %ymm0 -vpsubw 4448(%r10), %ymm0, %ymm0 -vpsubw %ymm0, %ymm13, %ymm13 -vpsubw 5152(%r10), %ymm13, %ymm13 -vpsubw 3040(%r10), %ymm0, %ymm0 -vpaddw 8224(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3744(%r10) -vmovdqa %ymm13, 4448(%r10) -vmovdqa 3776(%r10), %ymm0 -vpsubw 4480(%r10), %ymm0, %ymm0 -vpsubw %ymm0, %ymm14, %ymm14 -vpsubw 5184(%r10), %ymm14, %ymm14 -vpsubw 3072(%r10), %ymm0, %ymm0 -vpaddw 8256(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3776(%r10) -vmovdqa %ymm14, 4480(%r10) -vmovdqa 3808(%r10), %ymm0 -vpsubw 4512(%r10), %ymm0, %ymm0 -vpsubw %ymm0, %ymm15, %ymm15 -vpsubw 5216(%r10), %ymm15, %ymm15 -vpsubw 3104(%r10), %ymm0, %ymm0 -vpaddw 8288(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3808(%r10) -vmovdqa %ymm15, 4512(%r10) -vmovdqa 3840(%r10), %ymm0 -vpsubw 4544(%r10), %ymm0, %ymm0 -vmovdqa 9024(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 5248(%r10), %ymm1, %ymm1 -vpsubw 3136(%r10), %ymm0, %ymm0 -vpaddw 8320(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3840(%r10) -vmovdqa %ymm1, 4544(%r10) -vmovdqa 3872(%r10), %ymm0 -vpsubw 4576(%r10), %ymm0, %ymm0 -vmovdqa 9056(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 5280(%r10), %ymm1, %ymm1 -vpsubw 3168(%r10), %ymm0, %ymm0 -vpaddw 8352(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3872(%r10) -vmovdqa %ymm1, 4576(%r10) -vmovdqa 3904(%r10), %ymm0 -vpsubw 4608(%r10), %ymm0, %ymm0 -vmovdqa 9088(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 5312(%r10), %ymm1, %ymm1 -vpsubw 3200(%r10), %ymm0, %ymm0 -vpaddw 8384(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3904(%r10) -vmovdqa %ymm1, 4608(%r10) -vmovdqa 3936(%r10), %ymm0 -vpsubw 4640(%r10), %ymm0, %ymm0 -vmovdqa 9120(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 5344(%r10), %ymm1, %ymm1 -vpsubw 3232(%r10), %ymm0, %ymm0 -vpaddw 8416(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3936(%r10) -vmovdqa %ymm1, 4640(%r10) -vmovdqa 3968(%r10), %ymm0 -vpsubw 4672(%r10), %ymm0, %ymm0 -vmovdqa 9152(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 5376(%r10), %ymm1, %ymm1 -vpsubw 3264(%r10), %ymm0, %ymm0 -vpaddw 8448(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 3968(%r10) -vmovdqa %ymm1, 4672(%r10) -vmovdqa 4000(%r10), %ymm0 -vpsubw 4704(%r10), %ymm0, %ymm0 -vmovdqa 9184(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 5408(%r10), %ymm1, %ymm1 -vpsubw 3296(%r10), %ymm0, %ymm0 -vpaddw 8480(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 4000(%r10) -vmovdqa %ymm1, 4704(%r10) -vmovdqa 4032(%r10), %ymm0 -vpsubw 4736(%r10), %ymm0, %ymm0 -vmovdqa 9216(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 5440(%r10), %ymm1, %ymm1 -vpsubw 3328(%r10), %ymm0, %ymm0 -vpaddw 8512(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 4032(%r10) -vmovdqa %ymm1, 4736(%r10) -vmovdqa 4064(%r10), %ymm0 -vpsubw 4768(%r10), %ymm0, %ymm0 -vmovdqa 9248(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 5472(%r10), %ymm1, %ymm1 -vpsubw 3360(%r10), %ymm0, %ymm0 -vpaddw 8544(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 4064(%r10) -vmovdqa %ymm1, 4768(%r10) -vmovdqa 4096(%r10), %ymm0 -vpsubw 4800(%r10), %ymm0, %ymm0 -vmovdqa 9280(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 5504(%r10), %ymm1, %ymm1 -vpsubw 3392(%r10), %ymm0, %ymm0 -vpaddw 8576(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 4096(%r10) -vmovdqa %ymm1, 4800(%r10) -vmovdqa 4128(%r10), %ymm0 -vpsubw 4832(%r10), %ymm0, %ymm0 -vmovdqa 9312(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 5536(%r10), %ymm1, %ymm1 -vpsubw 3424(%r10), %ymm0, %ymm0 -vpaddw 8608(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 4128(%r10) -vmovdqa %ymm1, 4832(%r10) -vmovdqa 4160(%r10), %ymm0 -vpsubw 4864(%r10), %ymm0, %ymm0 -vmovdqa 9344(%r8), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 5568(%r10), %ymm1, %ymm1 -vpsubw 3456(%r10), %ymm0, %ymm0 -vpaddw 8640(%r8), %ymm0, %ymm0 -vmovdqa %ymm0, 4160(%r10) -vmovdqa %ymm1, 4864(%r10) -vpxor %ymm1, %ymm1, %ymm1 -vmovdqa %ymm1, 5600(%r10) -subq $32, %r8 -vmovdqa 2816(%r10), %ymm0 -vmovdqa 2880(%r10), %ymm1 -vmovdqa 2944(%r10), %ymm2 -vmovdqa 3008(%r10), %ymm3 -vpunpcklwd 2848(%r10), %ymm0, %ymm4 -vpunpckhwd 2848(%r10), %ymm0, %ymm5 -vpunpcklwd 2912(%r10), %ymm1, %ymm6 -vpunpckhwd 2912(%r10), %ymm1, %ymm7 -vpunpcklwd 2976(%r10), %ymm2, %ymm8 -vpunpckhwd 2976(%r10), %ymm2, %ymm9 -vpunpcklwd 3040(%r10), %ymm3, %ymm10 -vpunpckhwd 3040(%r10), %ymm3, %ymm11 -vpunpckldq %ymm6, %ymm4, %ymm0 -vpunpckhdq %ymm6, %ymm4, %ymm1 -vpunpckldq %ymm7, %ymm5, %ymm2 -vpunpckhdq %ymm7, %ymm5, %ymm3 -vpunpckldq %ymm10, %ymm8, %ymm12 -vpunpckhdq %ymm10, %ymm8, %ymm13 -vpunpckldq %ymm11, %ymm9, %ymm14 -vpunpckhdq %ymm11, %ymm9, %ymm15 -vpunpcklqdq %ymm12, %ymm0, %ymm4 -vpunpckhqdq %ymm12, %ymm0, %ymm5 -vpunpcklqdq %ymm13, %ymm1, %ymm6 -vpunpckhqdq %ymm13, %ymm1, %ymm7 -vpunpcklqdq %ymm14, %ymm2, %ymm8 -vpunpckhqdq %ymm14, %ymm2, %ymm9 -vpunpcklqdq %ymm15, %ymm3, %ymm10 -vpunpckhqdq %ymm15, %ymm3, %ymm11 -vmovdqa 3072(%r10), %ymm0 -vmovdqa 3136(%r10), %ymm1 -vmovdqa 3200(%r10), %ymm2 -vmovdqa 3264(%r10), %ymm3 -vpunpcklwd 3104(%r10), %ymm0, %ymm12 -vpunpckhwd 3104(%r10), %ymm0, %ymm13 -vpunpcklwd 3168(%r10), %ymm1, %ymm14 -vpunpckhwd 3168(%r10), %ymm1, %ymm15 -vpunpcklwd 3232(%r10), %ymm2, %ymm0 -vpunpckhwd 3232(%r10), %ymm2, %ymm1 -vpunpcklwd 3296(%r10), %ymm3, %ymm2 -vpunpckhwd 3296(%r10), %ymm3, %ymm3 -vmovdqa %ymm11, 0(%r8) -vpunpckldq %ymm14, %ymm12, %ymm11 -vpunpckhdq %ymm14, %ymm12, %ymm12 -vpunpckldq %ymm15, %ymm13, %ymm14 -vpunpckhdq %ymm15, %ymm13, %ymm15 -vpunpckldq %ymm2, %ymm0, %ymm13 -vpunpckhdq %ymm2, %ymm0, %ymm0 -vpunpckldq %ymm3, %ymm1, %ymm2 -vpunpckhdq %ymm3, %ymm1, %ymm1 -vpunpcklqdq %ymm13, %ymm11, %ymm3 -vpunpckhqdq %ymm13, %ymm11, %ymm13 -vpunpcklqdq %ymm0, %ymm12, %ymm11 -vpunpckhqdq %ymm0, %ymm12, %ymm0 -vpunpcklqdq %ymm2, %ymm14, %ymm12 -vpunpckhqdq %ymm2, %ymm14, %ymm2 -vpunpcklqdq %ymm1, %ymm15, %ymm14 -vpunpckhqdq %ymm1, %ymm15, %ymm1 -vinserti128 $1, %xmm3, %ymm4, %ymm15 -vmovdqa %ymm15, 0(%r12) -vinserti128 $1, %xmm13, %ymm5, %ymm15 -vmovdqa %ymm15, 192(%r12) -vinserti128 $1, %xmm11, %ymm6, %ymm15 -vmovdqa %ymm15, 384(%r12) -vinserti128 $1, %xmm0, %ymm7, %ymm15 -vmovdqa %ymm15, 576(%r12) -vinserti128 $1, %xmm12, %ymm8, %ymm15 -vmovdqa %ymm15, 768(%r12) -vinserti128 $1, %xmm2, %ymm9, %ymm15 -vmovdqa %ymm15, 960(%r12) -vinserti128 $1, %xmm14, %ymm10, %ymm15 -vmovdqa %ymm15, 1152(%r12) -vpermq $78, %ymm4, %ymm4 -vpermq $78, %ymm5, %ymm5 -vpermq $78, %ymm6, %ymm6 -vpermq $78, %ymm7, %ymm7 -vpermq $78, %ymm8, %ymm8 -vpermq $78, %ymm9, %ymm9 -vpermq $78, %ymm10, %ymm10 -vinserti128 $0, %xmm4, %ymm3, %ymm15 -vmovdqa %ymm15, 1536(%r12) -vinserti128 $0, %xmm5, %ymm13, %ymm15 -vmovdqa %ymm15, 1728(%r12) -vinserti128 $0, %xmm6, %ymm11, %ymm15 -vmovdqa %ymm15, 1920(%r12) -vinserti128 $0, %xmm7, %ymm0, %ymm15 -vmovdqa %ymm15, 2112(%r12) -vinserti128 $0, %xmm8, %ymm12, %ymm15 -vmovdqa %ymm15, 2304(%r12) -vinserti128 $0, %xmm9, %ymm2, %ymm15 -vmovdqa %ymm15, 2496(%r12) -vinserti128 $0, %xmm10, %ymm14, %ymm15 -vmovdqa %ymm15, 2688(%r12) -vmovdqa 0(%r8), %ymm11 -vinserti128 $1, %xmm1, %ymm11, %ymm14 -vmovdqa %ymm14, 1344(%r12) -vpermq $78, %ymm11, %ymm11 -vinserti128 $0, %xmm11, %ymm1, %ymm1 -vmovdqa %ymm1, 2880(%r12) -vmovdqa 3328(%r10), %ymm0 -vmovdqa 3392(%r10), %ymm1 -vmovdqa 3456(%r10), %ymm2 -vmovdqa 3520(%r10), %ymm3 -vpunpcklwd 3360(%r10), %ymm0, %ymm4 -vpunpckhwd 3360(%r10), %ymm0, %ymm5 -vpunpcklwd 3424(%r10), %ymm1, %ymm6 -vpunpckhwd 3424(%r10), %ymm1, %ymm7 -vpunpcklwd 3488(%r10), %ymm2, %ymm8 -vpunpckhwd 3488(%r10), %ymm2, %ymm9 -vpunpcklwd 3552(%r10), %ymm3, %ymm10 -vpunpckhwd 3552(%r10), %ymm3, %ymm11 -vpunpckldq %ymm6, %ymm4, %ymm0 -vpunpckhdq %ymm6, %ymm4, %ymm1 -vpunpckldq %ymm7, %ymm5, %ymm2 -vpunpckhdq %ymm7, %ymm5, %ymm3 -vpunpckldq %ymm10, %ymm8, %ymm12 -vpunpckhdq %ymm10, %ymm8, %ymm13 -vpunpckldq %ymm11, %ymm9, %ymm14 -vpunpckhdq %ymm11, %ymm9, %ymm15 -vpunpcklqdq %ymm12, %ymm0, %ymm4 -vpunpckhqdq %ymm12, %ymm0, %ymm5 -vpunpcklqdq %ymm13, %ymm1, %ymm6 -vpunpckhqdq %ymm13, %ymm1, %ymm7 -vpunpcklqdq %ymm14, %ymm2, %ymm8 -vpunpckhqdq %ymm14, %ymm2, %ymm9 -vpunpcklqdq %ymm15, %ymm3, %ymm10 -vpunpckhqdq %ymm15, %ymm3, %ymm11 -vmovdqa 3584(%r10), %ymm0 -vmovdqa 3648(%r10), %ymm1 -vmovdqa 3712(%r10), %ymm2 -vmovdqa 3776(%r10), %ymm3 -vpunpcklwd 3616(%r10), %ymm0, %ymm12 -vpunpckhwd 3616(%r10), %ymm0, %ymm13 -vpunpcklwd 3680(%r10), %ymm1, %ymm14 -vpunpckhwd 3680(%r10), %ymm1, %ymm15 -vpunpcklwd 3744(%r10), %ymm2, %ymm0 -vpunpckhwd 3744(%r10), %ymm2, %ymm1 -vpunpcklwd 3808(%r10), %ymm3, %ymm2 -vpunpckhwd 3808(%r10), %ymm3, %ymm3 -vmovdqa %ymm11, 0(%r8) -vpunpckldq %ymm14, %ymm12, %ymm11 -vpunpckhdq %ymm14, %ymm12, %ymm12 -vpunpckldq %ymm15, %ymm13, %ymm14 -vpunpckhdq %ymm15, %ymm13, %ymm15 -vpunpckldq %ymm2, %ymm0, %ymm13 -vpunpckhdq %ymm2, %ymm0, %ymm0 -vpunpckldq %ymm3, %ymm1, %ymm2 -vpunpckhdq %ymm3, %ymm1, %ymm1 -vpunpcklqdq %ymm13, %ymm11, %ymm3 -vpunpckhqdq %ymm13, %ymm11, %ymm13 -vpunpcklqdq %ymm0, %ymm12, %ymm11 -vpunpckhqdq %ymm0, %ymm12, %ymm0 -vpunpcklqdq %ymm2, %ymm14, %ymm12 -vpunpckhqdq %ymm2, %ymm14, %ymm2 -vpunpcklqdq %ymm1, %ymm15, %ymm14 -vpunpckhqdq %ymm1, %ymm15, %ymm1 -vinserti128 $1, %xmm3, %ymm4, %ymm15 -vmovdqa %ymm15, 32(%r12) -vinserti128 $1, %xmm13, %ymm5, %ymm15 -vmovdqa %ymm15, 224(%r12) -vinserti128 $1, %xmm11, %ymm6, %ymm15 -vmovdqa %ymm15, 416(%r12) -vinserti128 $1, %xmm0, %ymm7, %ymm15 -vmovdqa %ymm15, 608(%r12) -vinserti128 $1, %xmm12, %ymm8, %ymm15 -vmovdqa %ymm15, 800(%r12) -vinserti128 $1, %xmm2, %ymm9, %ymm15 -vmovdqa %ymm15, 992(%r12) -vinserti128 $1, %xmm14, %ymm10, %ymm15 -vmovdqa %ymm15, 1184(%r12) -vpermq $78, %ymm4, %ymm4 -vpermq $78, %ymm5, %ymm5 -vpermq $78, %ymm6, %ymm6 -vpermq $78, %ymm7, %ymm7 -vpermq $78, %ymm8, %ymm8 -vpermq $78, %ymm9, %ymm9 -vpermq $78, %ymm10, %ymm10 -vinserti128 $0, %xmm4, %ymm3, %ymm15 -vmovdqa %ymm15, 1568(%r12) -vinserti128 $0, %xmm5, %ymm13, %ymm15 -vmovdqa %ymm15, 1760(%r12) -vinserti128 $0, %xmm6, %ymm11, %ymm15 -vmovdqa %ymm15, 1952(%r12) -vinserti128 $0, %xmm7, %ymm0, %ymm15 -vmovdqa %ymm15, 2144(%r12) -vinserti128 $0, %xmm8, %ymm12, %ymm15 -vmovdqa %ymm15, 2336(%r12) -vinserti128 $0, %xmm9, %ymm2, %ymm15 -vmovdqa %ymm15, 2528(%r12) -vinserti128 $0, %xmm10, %ymm14, %ymm15 -vmovdqa %ymm15, 2720(%r12) -vmovdqa 0(%r8), %ymm11 -vinserti128 $1, %xmm1, %ymm11, %ymm14 -vmovdqa %ymm14, 1376(%r12) -vpermq $78, %ymm11, %ymm11 -vinserti128 $0, %xmm11, %ymm1, %ymm1 -vmovdqa %ymm1, 2912(%r12) -vmovdqa 3840(%r10), %ymm0 -vmovdqa 3904(%r10), %ymm1 -vmovdqa 3968(%r10), %ymm2 -vmovdqa 4032(%r10), %ymm3 -vpunpcklwd 3872(%r10), %ymm0, %ymm4 -vpunpckhwd 3872(%r10), %ymm0, %ymm5 -vpunpcklwd 3936(%r10), %ymm1, %ymm6 -vpunpckhwd 3936(%r10), %ymm1, %ymm7 -vpunpcklwd 4000(%r10), %ymm2, %ymm8 -vpunpckhwd 4000(%r10), %ymm2, %ymm9 -vpunpcklwd 4064(%r10), %ymm3, %ymm10 -vpunpckhwd 4064(%r10), %ymm3, %ymm11 -vpunpckldq %ymm6, %ymm4, %ymm0 -vpunpckhdq %ymm6, %ymm4, %ymm1 -vpunpckldq %ymm7, %ymm5, %ymm2 -vpunpckhdq %ymm7, %ymm5, %ymm3 -vpunpckldq %ymm10, %ymm8, %ymm12 -vpunpckhdq %ymm10, %ymm8, %ymm13 -vpunpckldq %ymm11, %ymm9, %ymm14 -vpunpckhdq %ymm11, %ymm9, %ymm15 -vpunpcklqdq %ymm12, %ymm0, %ymm4 -vpunpckhqdq %ymm12, %ymm0, %ymm5 -vpunpcklqdq %ymm13, %ymm1, %ymm6 -vpunpckhqdq %ymm13, %ymm1, %ymm7 -vpunpcklqdq %ymm14, %ymm2, %ymm8 -vpunpckhqdq %ymm14, %ymm2, %ymm9 -vpunpcklqdq %ymm15, %ymm3, %ymm10 -vpunpckhqdq %ymm15, %ymm3, %ymm11 -vmovdqa 4096(%r10), %ymm0 -vmovdqa 4160(%r10), %ymm1 -vmovdqa 4224(%r10), %ymm2 -vmovdqa 4288(%r10), %ymm3 -vpunpcklwd 4128(%r10), %ymm0, %ymm12 -vpunpckhwd 4128(%r10), %ymm0, %ymm13 -vpunpcklwd 4192(%r10), %ymm1, %ymm14 -vpunpckhwd 4192(%r10), %ymm1, %ymm15 -vpunpcklwd 4256(%r10), %ymm2, %ymm0 -vpunpckhwd 4256(%r10), %ymm2, %ymm1 -vpunpcklwd 4320(%r10), %ymm3, %ymm2 -vpunpckhwd 4320(%r10), %ymm3, %ymm3 -vmovdqa %ymm11, 0(%r8) -vpunpckldq %ymm14, %ymm12, %ymm11 -vpunpckhdq %ymm14, %ymm12, %ymm12 -vpunpckldq %ymm15, %ymm13, %ymm14 -vpunpckhdq %ymm15, %ymm13, %ymm15 -vpunpckldq %ymm2, %ymm0, %ymm13 -vpunpckhdq %ymm2, %ymm0, %ymm0 -vpunpckldq %ymm3, %ymm1, %ymm2 -vpunpckhdq %ymm3, %ymm1, %ymm1 -vpunpcklqdq %ymm13, %ymm11, %ymm3 -vpunpckhqdq %ymm13, %ymm11, %ymm13 -vpunpcklqdq %ymm0, %ymm12, %ymm11 -vpunpckhqdq %ymm0, %ymm12, %ymm0 -vpunpcklqdq %ymm2, %ymm14, %ymm12 -vpunpckhqdq %ymm2, %ymm14, %ymm2 -vpunpcklqdq %ymm1, %ymm15, %ymm14 -vpunpckhqdq %ymm1, %ymm15, %ymm1 -vinserti128 $1, %xmm3, %ymm4, %ymm15 -vmovdqa %ymm15, 64(%r12) -vinserti128 $1, %xmm13, %ymm5, %ymm15 -vmovdqa %ymm15, 256(%r12) -vinserti128 $1, %xmm11, %ymm6, %ymm15 -vmovdqa %ymm15, 448(%r12) -vinserti128 $1, %xmm0, %ymm7, %ymm15 -vmovdqa %ymm15, 640(%r12) -vinserti128 $1, %xmm12, %ymm8, %ymm15 -vmovdqa %ymm15, 832(%r12) -vinserti128 $1, %xmm2, %ymm9, %ymm15 -vmovdqa %ymm15, 1024(%r12) -vinserti128 $1, %xmm14, %ymm10, %ymm15 -vmovdqa %ymm15, 1216(%r12) -vpermq $78, %ymm4, %ymm4 -vpermq $78, %ymm5, %ymm5 -vpermq $78, %ymm6, %ymm6 -vpermq $78, %ymm7, %ymm7 -vpermq $78, %ymm8, %ymm8 -vpermq $78, %ymm9, %ymm9 -vpermq $78, %ymm10, %ymm10 -vinserti128 $0, %xmm4, %ymm3, %ymm15 -vmovdqa %ymm15, 1600(%r12) -vinserti128 $0, %xmm5, %ymm13, %ymm15 -vmovdqa %ymm15, 1792(%r12) -vinserti128 $0, %xmm6, %ymm11, %ymm15 -vmovdqa %ymm15, 1984(%r12) -vinserti128 $0, %xmm7, %ymm0, %ymm15 -vmovdqa %ymm15, 2176(%r12) -vinserti128 $0, %xmm8, %ymm12, %ymm15 -vmovdqa %ymm15, 2368(%r12) -vinserti128 $0, %xmm9, %ymm2, %ymm15 -vmovdqa %ymm15, 2560(%r12) -vinserti128 $0, %xmm10, %ymm14, %ymm15 -vmovdqa %ymm15, 2752(%r12) -vmovdqa 0(%r8), %ymm11 -vinserti128 $1, %xmm1, %ymm11, %ymm14 -vmovdqa %ymm14, 1408(%r12) -vpermq $78, %ymm11, %ymm11 -vinserti128 $0, %xmm11, %ymm1, %ymm1 -vmovdqa %ymm1, 2944(%r12) -vmovdqa 4224(%r10), %ymm0 -vmovdqa 4288(%r10), %ymm1 -vmovdqa 4352(%r10), %ymm2 -vmovdqa 4416(%r10), %ymm3 -vpunpcklwd 4256(%r10), %ymm0, %ymm4 -vpunpckhwd 4256(%r10), %ymm0, %ymm5 -vpunpcklwd 4320(%r10), %ymm1, %ymm6 -vpunpckhwd 4320(%r10), %ymm1, %ymm7 -vpunpcklwd 4384(%r10), %ymm2, %ymm8 -vpunpckhwd 4384(%r10), %ymm2, %ymm9 -vpunpcklwd 4448(%r10), %ymm3, %ymm10 -vpunpckhwd 4448(%r10), %ymm3, %ymm11 -vpunpckldq %ymm6, %ymm4, %ymm0 -vpunpckhdq %ymm6, %ymm4, %ymm1 -vpunpckldq %ymm7, %ymm5, %ymm2 -vpunpckhdq %ymm7, %ymm5, %ymm3 -vpunpckldq %ymm10, %ymm8, %ymm12 -vpunpckhdq %ymm10, %ymm8, %ymm13 -vpunpckldq %ymm11, %ymm9, %ymm14 -vpunpckhdq %ymm11, %ymm9, %ymm15 -vpunpcklqdq %ymm12, %ymm0, %ymm4 -vpunpckhqdq %ymm12, %ymm0, %ymm5 -vpunpcklqdq %ymm13, %ymm1, %ymm6 -vpunpckhqdq %ymm13, %ymm1, %ymm7 -vpunpcklqdq %ymm14, %ymm2, %ymm8 -vpunpckhqdq %ymm14, %ymm2, %ymm9 -vpunpcklqdq %ymm15, %ymm3, %ymm10 -vpunpckhqdq %ymm15, %ymm3, %ymm11 -vmovdqa 4480(%r10), %ymm0 -vmovdqa 4544(%r10), %ymm1 -vmovdqa 4608(%r10), %ymm2 -vmovdqa 4672(%r10), %ymm3 -vpunpcklwd 4512(%r10), %ymm0, %ymm12 -vpunpckhwd 4512(%r10), %ymm0, %ymm13 -vpunpcklwd 4576(%r10), %ymm1, %ymm14 -vpunpckhwd 4576(%r10), %ymm1, %ymm15 -vpunpcklwd 4640(%r10), %ymm2, %ymm0 -vpunpckhwd 4640(%r10), %ymm2, %ymm1 -vpunpcklwd 4704(%r10), %ymm3, %ymm2 -vpunpckhwd 4704(%r10), %ymm3, %ymm3 -vmovdqa %ymm11, 0(%r8) -vpunpckldq %ymm14, %ymm12, %ymm11 -vpunpckhdq %ymm14, %ymm12, %ymm12 -vpunpckldq %ymm15, %ymm13, %ymm14 -vpunpckhdq %ymm15, %ymm13, %ymm15 -vpunpckldq %ymm2, %ymm0, %ymm13 -vpunpckhdq %ymm2, %ymm0, %ymm0 -vpunpckldq %ymm3, %ymm1, %ymm2 -vpunpckhdq %ymm3, %ymm1, %ymm1 -vpunpcklqdq %ymm13, %ymm11, %ymm3 -vpunpckhqdq %ymm13, %ymm11, %ymm13 -vpunpcklqdq %ymm0, %ymm12, %ymm11 -vpunpckhqdq %ymm0, %ymm12, %ymm0 -vpunpcklqdq %ymm2, %ymm14, %ymm12 -vpunpckhqdq %ymm2, %ymm14, %ymm2 -vpunpcklqdq %ymm1, %ymm15, %ymm14 -vpunpckhqdq %ymm1, %ymm15, %ymm1 -vinserti128 $1, %xmm3, %ymm4, %ymm15 -vmovdqa %ymm15, 96(%r12) -vinserti128 $1, %xmm13, %ymm5, %ymm15 -vmovdqa %ymm15, 288(%r12) -vinserti128 $1, %xmm11, %ymm6, %ymm15 -vmovdqa %ymm15, 480(%r12) -vinserti128 $1, %xmm0, %ymm7, %ymm15 -vmovdqa %ymm15, 672(%r12) -vinserti128 $1, %xmm12, %ymm8, %ymm15 -vmovdqa %ymm15, 864(%r12) -vinserti128 $1, %xmm2, %ymm9, %ymm15 -vmovdqa %ymm15, 1056(%r12) -vinserti128 $1, %xmm14, %ymm10, %ymm15 -vmovdqa %ymm15, 1248(%r12) -vpermq $78, %ymm4, %ymm4 -vpermq $78, %ymm5, %ymm5 -vpermq $78, %ymm6, %ymm6 -vpermq $78, %ymm7, %ymm7 -vpermq $78, %ymm8, %ymm8 -vpermq $78, %ymm9, %ymm9 -vpermq $78, %ymm10, %ymm10 -vinserti128 $0, %xmm4, %ymm3, %ymm15 -vmovdqa %ymm15, 1632(%r12) -vinserti128 $0, %xmm5, %ymm13, %ymm15 -vmovdqa %ymm15, 1824(%r12) -vinserti128 $0, %xmm6, %ymm11, %ymm15 -vmovdqa %ymm15, 2016(%r12) -vinserti128 $0, %xmm7, %ymm0, %ymm15 -vmovdqa %ymm15, 2208(%r12) -vinserti128 $0, %xmm8, %ymm12, %ymm15 -vmovdqa %ymm15, 2400(%r12) -vinserti128 $0, %xmm9, %ymm2, %ymm15 -vmovdqa %ymm15, 2592(%r12) -vinserti128 $0, %xmm10, %ymm14, %ymm15 -vmovdqa %ymm15, 2784(%r12) -vmovdqa 0(%r8), %ymm11 -vinserti128 $1, %xmm1, %ymm11, %ymm14 -vmovdqa %ymm14, 1440(%r12) -vpermq $78, %ymm11, %ymm11 -vinserti128 $0, %xmm11, %ymm1, %ymm1 -vmovdqa %ymm1, 2976(%r12) -vmovdqa 4736(%r10), %ymm0 -vmovdqa 4800(%r10), %ymm1 -vmovdqa 4864(%r10), %ymm2 -vmovdqa 4928(%r10), %ymm3 -vpunpcklwd 4768(%r10), %ymm0, %ymm4 -vpunpckhwd 4768(%r10), %ymm0, %ymm5 -vpunpcklwd 4832(%r10), %ymm1, %ymm6 -vpunpckhwd 4832(%r10), %ymm1, %ymm7 -vpunpcklwd 4896(%r10), %ymm2, %ymm8 -vpunpckhwd 4896(%r10), %ymm2, %ymm9 -vpunpcklwd 4960(%r10), %ymm3, %ymm10 -vpunpckhwd 4960(%r10), %ymm3, %ymm11 -vpunpckldq %ymm6, %ymm4, %ymm0 -vpunpckhdq %ymm6, %ymm4, %ymm1 -vpunpckldq %ymm7, %ymm5, %ymm2 -vpunpckhdq %ymm7, %ymm5, %ymm3 -vpunpckldq %ymm10, %ymm8, %ymm12 -vpunpckhdq %ymm10, %ymm8, %ymm13 -vpunpckldq %ymm11, %ymm9, %ymm14 -vpunpckhdq %ymm11, %ymm9, %ymm15 -vpunpcklqdq %ymm12, %ymm0, %ymm4 -vpunpckhqdq %ymm12, %ymm0, %ymm5 -vpunpcklqdq %ymm13, %ymm1, %ymm6 -vpunpckhqdq %ymm13, %ymm1, %ymm7 -vpunpcklqdq %ymm14, %ymm2, %ymm8 -vpunpckhqdq %ymm14, %ymm2, %ymm9 -vpunpcklqdq %ymm15, %ymm3, %ymm10 -vpunpckhqdq %ymm15, %ymm3, %ymm11 -vmovdqa 4992(%r10), %ymm0 -vmovdqa 5056(%r10), %ymm1 -vmovdqa 5120(%r10), %ymm2 -vmovdqa 5184(%r10), %ymm3 -vpunpcklwd 5024(%r10), %ymm0, %ymm12 -vpunpckhwd 5024(%r10), %ymm0, %ymm13 -vpunpcklwd 5088(%r10), %ymm1, %ymm14 -vpunpckhwd 5088(%r10), %ymm1, %ymm15 -vpunpcklwd 5152(%r10), %ymm2, %ymm0 -vpunpckhwd 5152(%r10), %ymm2, %ymm1 -vpunpcklwd 5216(%r10), %ymm3, %ymm2 -vpunpckhwd 5216(%r10), %ymm3, %ymm3 -vmovdqa %ymm11, 0(%r8) -vpunpckldq %ymm14, %ymm12, %ymm11 -vpunpckhdq %ymm14, %ymm12, %ymm12 -vpunpckldq %ymm15, %ymm13, %ymm14 -vpunpckhdq %ymm15, %ymm13, %ymm15 -vpunpckldq %ymm2, %ymm0, %ymm13 -vpunpckhdq %ymm2, %ymm0, %ymm0 -vpunpckldq %ymm3, %ymm1, %ymm2 -vpunpckhdq %ymm3, %ymm1, %ymm1 -vpunpcklqdq %ymm13, %ymm11, %ymm3 -vpunpckhqdq %ymm13, %ymm11, %ymm13 -vpunpcklqdq %ymm0, %ymm12, %ymm11 -vpunpckhqdq %ymm0, %ymm12, %ymm0 -vpunpcklqdq %ymm2, %ymm14, %ymm12 -vpunpckhqdq %ymm2, %ymm14, %ymm2 -vpunpcklqdq %ymm1, %ymm15, %ymm14 -vpunpckhqdq %ymm1, %ymm15, %ymm1 -vinserti128 $1, %xmm3, %ymm4, %ymm15 -vmovdqa %ymm15, 128(%r12) -vinserti128 $1, %xmm13, %ymm5, %ymm15 -vmovdqa %ymm15, 320(%r12) -vinserti128 $1, %xmm11, %ymm6, %ymm15 -vmovdqa %ymm15, 512(%r12) -vinserti128 $1, %xmm0, %ymm7, %ymm15 -vmovdqa %ymm15, 704(%r12) -vinserti128 $1, %xmm12, %ymm8, %ymm15 -vmovdqa %ymm15, 896(%r12) -vinserti128 $1, %xmm2, %ymm9, %ymm15 -vmovdqa %ymm15, 1088(%r12) -vinserti128 $1, %xmm14, %ymm10, %ymm15 -vmovdqa %ymm15, 1280(%r12) -vpermq $78, %ymm4, %ymm4 -vpermq $78, %ymm5, %ymm5 -vpermq $78, %ymm6, %ymm6 -vpermq $78, %ymm7, %ymm7 -vpermq $78, %ymm8, %ymm8 -vpermq $78, %ymm9, %ymm9 -vpermq $78, %ymm10, %ymm10 -vinserti128 $0, %xmm4, %ymm3, %ymm15 -vmovdqa %ymm15, 1664(%r12) -vinserti128 $0, %xmm5, %ymm13, %ymm15 -vmovdqa %ymm15, 1856(%r12) -vinserti128 $0, %xmm6, %ymm11, %ymm15 -vmovdqa %ymm15, 2048(%r12) -vinserti128 $0, %xmm7, %ymm0, %ymm15 -vmovdqa %ymm15, 2240(%r12) -vinserti128 $0, %xmm8, %ymm12, %ymm15 -vmovdqa %ymm15, 2432(%r12) -vinserti128 $0, %xmm9, %ymm2, %ymm15 -vmovdqa %ymm15, 2624(%r12) -vinserti128 $0, %xmm10, %ymm14, %ymm15 -vmovdqa %ymm15, 2816(%r12) -vmovdqa 0(%r8), %ymm11 -vinserti128 $1, %xmm1, %ymm11, %ymm14 -vmovdqa %ymm14, 1472(%r12) -vpermq $78, %ymm11, %ymm11 -vinserti128 $0, %xmm11, %ymm1, %ymm1 -vmovdqa %ymm1, 3008(%r12) -vmovdqa 5248(%r10), %ymm0 -vmovdqa 5312(%r10), %ymm1 -vmovdqa 5376(%r10), %ymm2 -vmovdqa 5440(%r10), %ymm3 -vpunpcklwd 5280(%r10), %ymm0, %ymm4 -vpunpckhwd 5280(%r10), %ymm0, %ymm5 -vpunpcklwd 5344(%r10), %ymm1, %ymm6 -vpunpckhwd 5344(%r10), %ymm1, %ymm7 -vpunpcklwd 5408(%r10), %ymm2, %ymm8 -vpunpckhwd 5408(%r10), %ymm2, %ymm9 -vpunpcklwd 5472(%r10), %ymm3, %ymm10 -vpunpckhwd 5472(%r10), %ymm3, %ymm11 -vpunpckldq %ymm6, %ymm4, %ymm0 -vpunpckhdq %ymm6, %ymm4, %ymm1 -vpunpckldq %ymm7, %ymm5, %ymm2 -vpunpckhdq %ymm7, %ymm5, %ymm3 -vpunpckldq %ymm10, %ymm8, %ymm12 -vpunpckhdq %ymm10, %ymm8, %ymm13 -vpunpckldq %ymm11, %ymm9, %ymm14 -vpunpckhdq %ymm11, %ymm9, %ymm15 -vpunpcklqdq %ymm12, %ymm0, %ymm4 -vpunpckhqdq %ymm12, %ymm0, %ymm5 -vpunpcklqdq %ymm13, %ymm1, %ymm6 -vpunpckhqdq %ymm13, %ymm1, %ymm7 -vpunpcklqdq %ymm14, %ymm2, %ymm8 -vpunpckhqdq %ymm14, %ymm2, %ymm9 -vpunpcklqdq %ymm15, %ymm3, %ymm10 -vpunpckhqdq %ymm15, %ymm3, %ymm11 -vmovdqa 5504(%r10), %ymm0 -vmovdqa 5568(%r10), %ymm1 -vmovdqa 5632(%r10), %ymm2 -vmovdqa 5696(%r10), %ymm3 -vpunpcklwd 5536(%r10), %ymm0, %ymm12 -vpunpckhwd 5536(%r10), %ymm0, %ymm13 -vpunpcklwd 5600(%r10), %ymm1, %ymm14 -vpunpckhwd 5600(%r10), %ymm1, %ymm15 -vpunpcklwd 5664(%r10), %ymm2, %ymm0 -vpunpckhwd 5664(%r10), %ymm2, %ymm1 -vpunpcklwd 5728(%r10), %ymm3, %ymm2 -vpunpckhwd 5728(%r10), %ymm3, %ymm3 -vmovdqa %ymm11, 0(%r8) -vpunpckldq %ymm14, %ymm12, %ymm11 -vpunpckhdq %ymm14, %ymm12, %ymm12 -vpunpckldq %ymm15, %ymm13, %ymm14 -vpunpckhdq %ymm15, %ymm13, %ymm15 -vpunpckldq %ymm2, %ymm0, %ymm13 -vpunpckhdq %ymm2, %ymm0, %ymm0 -vpunpckldq %ymm3, %ymm1, %ymm2 -vpunpckhdq %ymm3, %ymm1, %ymm1 -vpunpcklqdq %ymm13, %ymm11, %ymm3 -vpunpckhqdq %ymm13, %ymm11, %ymm13 -vpunpcklqdq %ymm0, %ymm12, %ymm11 -vpunpckhqdq %ymm0, %ymm12, %ymm0 -vpunpcklqdq %ymm2, %ymm14, %ymm12 -vpunpckhqdq %ymm2, %ymm14, %ymm2 -vpunpcklqdq %ymm1, %ymm15, %ymm14 -vpunpckhqdq %ymm1, %ymm15, %ymm1 -vinserti128 $1, %xmm3, %ymm4, %ymm15 -vmovdqa %ymm15, 160(%r12) -vinserti128 $1, %xmm13, %ymm5, %ymm15 -vmovdqa %ymm15, 352(%r12) -vinserti128 $1, %xmm11, %ymm6, %ymm15 -vmovdqa %ymm15, 544(%r12) -vinserti128 $1, %xmm0, %ymm7, %ymm15 -vmovdqa %ymm15, 736(%r12) -vinserti128 $1, %xmm12, %ymm8, %ymm15 -vmovdqa %ymm15, 928(%r12) -vinserti128 $1, %xmm2, %ymm9, %ymm15 -vmovdqa %ymm15, 1120(%r12) -vinserti128 $1, %xmm14, %ymm10, %ymm15 -vmovdqa %ymm15, 1312(%r12) -vpermq $78, %ymm4, %ymm4 -vpermq $78, %ymm5, %ymm5 -vpermq $78, %ymm6, %ymm6 -vpermq $78, %ymm7, %ymm7 -vpermq $78, %ymm8, %ymm8 -vpermq $78, %ymm9, %ymm9 -vpermq $78, %ymm10, %ymm10 -vinserti128 $0, %xmm4, %ymm3, %ymm15 -vmovdqa %ymm15, 1696(%r12) -vinserti128 $0, %xmm5, %ymm13, %ymm15 -vmovdqa %ymm15, 1888(%r12) -vinserti128 $0, %xmm6, %ymm11, %ymm15 -vmovdqa %ymm15, 2080(%r12) -vinserti128 $0, %xmm7, %ymm0, %ymm15 -vmovdqa %ymm15, 2272(%r12) -vinserti128 $0, %xmm8, %ymm12, %ymm15 -vmovdqa %ymm15, 2464(%r12) -vinserti128 $0, %xmm9, %ymm2, %ymm15 -vmovdqa %ymm15, 2656(%r12) -vinserti128 $0, %xmm10, %ymm14, %ymm15 -vmovdqa %ymm15, 2848(%r12) -vmovdqa 0(%r8), %ymm11 -vinserti128 $1, %xmm1, %ymm11, %ymm14 -vmovdqa %ymm14, 1504(%r12) -vpermq $78, %ymm11, %ymm11 -vinserti128 $0, %xmm11, %ymm1, %ymm1 -vmovdqa %ymm1, 3040(%r12) -addq $32, %r8 -add $1536, %rax -add $1536, %r11 -add $3072, %r12 -dec %ecx -jnz karatsuba_loop_4eced63f144beffcb0247f9c6f67d165 -sub $12288, %r12 -add $9408-2400, %r8 -vpxor %ymm0, %ymm0, %ymm0 -vmovdqa %ymm0, 1792(%r8) -vmovdqa %ymm0, 1824(%r8) -vmovdqa %ymm0, 1856(%r8) -vmovdqa %ymm0, 1888(%r8) -vmovdqa %ymm0, 1920(%r8) -vmovdqa %ymm0, 1952(%r8) -vmovdqa %ymm0, 1984(%r8) -vmovdqa %ymm0, 2016(%r8) -vmovdqa %ymm0, 2048(%r8) -vmovdqa %ymm0, 2080(%r8) -vmovdqa %ymm0, 2112(%r8) -vmovdqa %ymm0, 2144(%r8) -vmovdqa %ymm0, 2176(%r8) -vmovdqa %ymm0, 2208(%r8) -vmovdqa %ymm0, 2240(%r8) -vmovdqa %ymm0, 2272(%r8) -vmovdqa %ymm0, 2304(%r8) -vmovdqa %ymm0, 2336(%r8) -vmovdqa %ymm0, 2368(%r8) -vmovdqa %ymm0, 2400(%r8) -vmovdqa %ymm0, 2432(%r8) -vmovdqa %ymm0, 2464(%r8) -vmovdqa %ymm0, 2496(%r8) -vmovdqa %ymm0, 2528(%r8) -vmovdqa %ymm0, 2560(%r8) -vmovdqa %ymm0, 2592(%r8) -vmovdqa %ymm0, 2624(%r8) -vmovdqa %ymm0, 2656(%r8) -vmovdqa %ymm0, 2688(%r8) -vmovdqa %ymm0, 2720(%r8) -vmovdqa %ymm0, 2752(%r8) -vmovdqa %ymm0, 2784(%r8) -vmovdqa const729(%rip), %ymm15 -vmovdqa const3_inv(%rip), %ymm14 -vmovdqa const5_inv(%rip), %ymm13 -vmovdqa const9(%rip), %ymm12 -vmovdqa 96(%r12), %ymm0 -vpsubw 192(%r12), %ymm0, %ymm0 -vmovdqa 480(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 288(%r12), %ymm1, %ymm1 -vpsubw 0(%r12), %ymm0, %ymm0 -vpaddw 384(%r12), %ymm0, %ymm0 -vmovdqa 672(%r12), %ymm2 -vpsubw 768(%r12), %ymm2, %ymm2 -vmovdqa 1056(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 864(%r12), %ymm3, %ymm3 -vpsubw 576(%r12), %ymm2, %ymm2 -vpaddw 960(%r12), %ymm2, %ymm2 -vmovdqa 1248(%r12), %ymm4 -vpsubw 1344(%r12), %ymm4, %ymm4 -vmovdqa 1632(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 1440(%r12), %ymm5, %ymm5 -vpsubw 1152(%r12), %ymm4, %ymm4 -vpaddw 1536(%r12), %ymm4, %ymm4 -vpsubw 576(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 0(%r12), %ymm1, %ymm1 -vpaddw 1152(%r12), %ymm1, %ymm1 -vmovdqa 288(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 1440(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 864(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 0(%r12), %ymm8 -vmovdqa 864(%r12), %ymm9 -vmovdqa %ymm8, 0(%r8) -vmovdqa %ymm0, 32(%r8) -vmovdqa %ymm1, 64(%r8) -vmovdqa %ymm7, 96(%r8) -vmovdqa %ymm5, 128(%r8) -vmovdqa %ymm2, 160(%r8) -vmovdqa %ymm3, 192(%r8) -vmovdqa %ymm9, 224(%r8) -vmovdqa 1824(%r12), %ymm0 -vpsubw 1920(%r12), %ymm0, %ymm0 -vmovdqa 2208(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 2016(%r12), %ymm1, %ymm1 -vpsubw 1728(%r12), %ymm0, %ymm0 -vpaddw 2112(%r12), %ymm0, %ymm0 -vmovdqa 2400(%r12), %ymm2 -vpsubw 2496(%r12), %ymm2, %ymm2 -vmovdqa 2784(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 2592(%r12), %ymm3, %ymm3 -vpsubw 2304(%r12), %ymm2, %ymm2 -vpaddw 2688(%r12), %ymm2, %ymm2 -vmovdqa 2976(%r12), %ymm4 -vpsubw 3072(%r12), %ymm4, %ymm4 -vmovdqa 3360(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 3168(%r12), %ymm5, %ymm5 -vpsubw 2880(%r12), %ymm4, %ymm4 -vpaddw 3264(%r12), %ymm4, %ymm4 -vpsubw 2304(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 1728(%r12), %ymm1, %ymm1 -vpaddw 2880(%r12), %ymm1, %ymm1 -vmovdqa 2016(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 3168(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 2592(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 1728(%r12), %ymm8 -vmovdqa 2592(%r12), %ymm9 -vmovdqa %ymm8, 256(%r8) -vmovdqa %ymm0, 288(%r8) -vmovdqa %ymm1, 320(%r8) -vmovdqa %ymm7, 352(%r8) -vmovdqa %ymm5, 384(%r8) -vmovdqa %ymm2, 416(%r8) -vmovdqa %ymm3, 448(%r8) -vmovdqa %ymm9, 480(%r8) -vmovdqa 3552(%r12), %ymm0 -vpsubw 3648(%r12), %ymm0, %ymm0 -vmovdqa 3936(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 3744(%r12), %ymm1, %ymm1 -vpsubw 3456(%r12), %ymm0, %ymm0 -vpaddw 3840(%r12), %ymm0, %ymm0 -vmovdqa 4128(%r12), %ymm2 -vpsubw 4224(%r12), %ymm2, %ymm2 -vmovdqa 4512(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 4320(%r12), %ymm3, %ymm3 -vpsubw 4032(%r12), %ymm2, %ymm2 -vpaddw 4416(%r12), %ymm2, %ymm2 -vmovdqa 4704(%r12), %ymm4 -vpsubw 4800(%r12), %ymm4, %ymm4 -vmovdqa 5088(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 4896(%r12), %ymm5, %ymm5 -vpsubw 4608(%r12), %ymm4, %ymm4 -vpaddw 4992(%r12), %ymm4, %ymm4 -vpsubw 4032(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 3456(%r12), %ymm1, %ymm1 -vpaddw 4608(%r12), %ymm1, %ymm1 -vmovdqa 3744(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 4896(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 4320(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 3456(%r12), %ymm8 -vmovdqa 4320(%r12), %ymm9 -vmovdqa %ymm8, 512(%r8) -vmovdqa %ymm0, 544(%r8) -vmovdqa %ymm1, 576(%r8) -vmovdqa %ymm7, 608(%r8) -vmovdqa %ymm5, 640(%r8) -vmovdqa %ymm2, 672(%r8) -vmovdqa %ymm3, 704(%r8) -vmovdqa %ymm9, 736(%r8) -vmovdqa 5280(%r12), %ymm0 -vpsubw 5376(%r12), %ymm0, %ymm0 -vmovdqa 5664(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 5472(%r12), %ymm1, %ymm1 -vpsubw 5184(%r12), %ymm0, %ymm0 -vpaddw 5568(%r12), %ymm0, %ymm0 -vmovdqa 5856(%r12), %ymm2 -vpsubw 5952(%r12), %ymm2, %ymm2 -vmovdqa 6240(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 6048(%r12), %ymm3, %ymm3 -vpsubw 5760(%r12), %ymm2, %ymm2 -vpaddw 6144(%r12), %ymm2, %ymm2 -vmovdqa 6432(%r12), %ymm4 -vpsubw 6528(%r12), %ymm4, %ymm4 -vmovdqa 6816(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 6624(%r12), %ymm5, %ymm5 -vpsubw 6336(%r12), %ymm4, %ymm4 -vpaddw 6720(%r12), %ymm4, %ymm4 -vpsubw 5760(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 5184(%r12), %ymm1, %ymm1 -vpaddw 6336(%r12), %ymm1, %ymm1 -vmovdqa 5472(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 6624(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 6048(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 5184(%r12), %ymm8 -vmovdqa 6048(%r12), %ymm9 -vmovdqa %ymm8, 768(%r8) -vmovdqa %ymm0, 800(%r8) -vmovdqa %ymm1, 832(%r8) -vmovdqa %ymm7, 864(%r8) -vmovdqa %ymm5, 896(%r8) -vmovdqa %ymm2, 928(%r8) -vmovdqa %ymm3, 960(%r8) -vmovdqa %ymm9, 992(%r8) -vmovdqa 7008(%r12), %ymm0 -vpsubw 7104(%r12), %ymm0, %ymm0 -vmovdqa 7392(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 7200(%r12), %ymm1, %ymm1 -vpsubw 6912(%r12), %ymm0, %ymm0 -vpaddw 7296(%r12), %ymm0, %ymm0 -vmovdqa 7584(%r12), %ymm2 -vpsubw 7680(%r12), %ymm2, %ymm2 -vmovdqa 7968(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 7776(%r12), %ymm3, %ymm3 -vpsubw 7488(%r12), %ymm2, %ymm2 -vpaddw 7872(%r12), %ymm2, %ymm2 -vmovdqa 8160(%r12), %ymm4 -vpsubw 8256(%r12), %ymm4, %ymm4 -vmovdqa 8544(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 8352(%r12), %ymm5, %ymm5 -vpsubw 8064(%r12), %ymm4, %ymm4 -vpaddw 8448(%r12), %ymm4, %ymm4 -vpsubw 7488(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 6912(%r12), %ymm1, %ymm1 -vpaddw 8064(%r12), %ymm1, %ymm1 -vmovdqa 7200(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 8352(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 7776(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 6912(%r12), %ymm8 -vmovdqa 7776(%r12), %ymm9 -vmovdqa %ymm8, 1024(%r8) -vmovdqa %ymm0, 1056(%r8) -vmovdqa %ymm1, 1088(%r8) -vmovdqa %ymm7, 1120(%r8) -vmovdqa %ymm5, 1152(%r8) -vmovdqa %ymm2, 1184(%r8) -vmovdqa %ymm3, 1216(%r8) -vmovdqa %ymm9, 1248(%r8) -vmovdqa 8736(%r12), %ymm0 -vpsubw 8832(%r12), %ymm0, %ymm0 -vmovdqa 9120(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 8928(%r12), %ymm1, %ymm1 -vpsubw 8640(%r12), %ymm0, %ymm0 -vpaddw 9024(%r12), %ymm0, %ymm0 -vmovdqa 9312(%r12), %ymm2 -vpsubw 9408(%r12), %ymm2, %ymm2 -vmovdqa 9696(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 9504(%r12), %ymm3, %ymm3 -vpsubw 9216(%r12), %ymm2, %ymm2 -vpaddw 9600(%r12), %ymm2, %ymm2 -vmovdqa 9888(%r12), %ymm4 -vpsubw 9984(%r12), %ymm4, %ymm4 -vmovdqa 10272(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 10080(%r12), %ymm5, %ymm5 -vpsubw 9792(%r12), %ymm4, %ymm4 -vpaddw 10176(%r12), %ymm4, %ymm4 -vpsubw 9216(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 8640(%r12), %ymm1, %ymm1 -vpaddw 9792(%r12), %ymm1, %ymm1 -vmovdqa 8928(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 10080(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 9504(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 8640(%r12), %ymm8 -vmovdqa 9504(%r12), %ymm9 -vmovdqa %ymm8, 1280(%r8) -vmovdqa %ymm0, 1312(%r8) -vmovdqa %ymm1, 1344(%r8) -vmovdqa %ymm7, 1376(%r8) -vmovdqa %ymm5, 1408(%r8) -vmovdqa %ymm2, 1440(%r8) -vmovdqa %ymm3, 1472(%r8) -vmovdqa %ymm9, 1504(%r8) -vmovdqa 10464(%r12), %ymm0 -vpsubw 10560(%r12), %ymm0, %ymm0 -vmovdqa 10848(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 10656(%r12), %ymm1, %ymm1 -vpsubw 10368(%r12), %ymm0, %ymm0 -vpaddw 10752(%r12), %ymm0, %ymm0 -vmovdqa 11040(%r12), %ymm2 -vpsubw 11136(%r12), %ymm2, %ymm2 -vmovdqa 11424(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 11232(%r12), %ymm3, %ymm3 -vpsubw 10944(%r12), %ymm2, %ymm2 -vpaddw 11328(%r12), %ymm2, %ymm2 -vmovdqa 11616(%r12), %ymm4 -vpsubw 11712(%r12), %ymm4, %ymm4 -vmovdqa 12000(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 11808(%r12), %ymm5, %ymm5 -vpsubw 11520(%r12), %ymm4, %ymm4 -vpaddw 11904(%r12), %ymm4, %ymm4 -vpsubw 10944(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 10368(%r12), %ymm1, %ymm1 -vpaddw 11520(%r12), %ymm1, %ymm1 -vmovdqa 10656(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 11808(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 11232(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 10368(%r12), %ymm8 -vmovdqa 11232(%r12), %ymm9 -vmovdqa %ymm8, 1536(%r8) -vmovdqa %ymm0, 1568(%r8) -vmovdqa %ymm1, 1600(%r8) -vmovdqa %ymm7, 1632(%r8) -vmovdqa %ymm5, 1664(%r8) -vmovdqa %ymm2, 1696(%r8) -vmovdqa %ymm3, 1728(%r8) -vmovdqa %ymm9, 1760(%r8) -vmovdqa 0(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm10 -vpunpckhwd const0(%rip), %ymm11, %ymm9 -vpslld $1, %ymm10, %ymm10 -vpslld $1, %ymm9, %ymm9 -vmovdqa 256(%r8), %ymm8 -vpunpcklwd const0(%rip), %ymm8, %ymm7 -vpunpckhwd const0(%rip), %ymm8, %ymm8 -vmovdqa 512(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm5 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm5, %ymm7, %ymm4 -vpaddd %ymm6, %ymm8, %ymm3 -vpsubd %ymm10, %ymm4, %ymm4 -vpsubd %ymm9, %ymm3, %ymm3 -vpsubd %ymm5, %ymm7, %ymm5 -vpsubd %ymm6, %ymm8, %ymm6 -vpsrld $1, %ymm5, %ymm5 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm5, %ymm5 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm5, %ymm6 -vmovdqa 1536(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm8 -vpunpckhwd const0(%rip), %ymm5, %ymm7 -vpslld $1, %ymm8, %ymm8 -vpslld $1, %ymm7, %ymm7 -vpsubd %ymm8, %ymm4, %ymm4 -vpsubd %ymm7, %ymm3, %ymm3 -vpsrld $1, %ymm4, %ymm4 -vpsrld $1, %ymm3, %ymm3 -vpand mask32_to_16(%rip), %ymm4, %ymm4 -vpand mask32_to_16(%rip), %ymm3, %ymm3 -vpackusdw %ymm3, %ymm4, %ymm3 -vmovdqa 768(%r8), %ymm4 -vpaddw 1024(%r8), %ymm4, %ymm7 -vpsubw 1024(%r8), %ymm4, %ymm4 -vpsrlw $2, %ymm4, %ymm4 -vpsubw %ymm6, %ymm4, %ymm4 -vpmullw %ymm14, %ymm4, %ymm4 -vpsllw $1, %ymm11, %ymm8 -vpsubw %ymm8, %ymm7, %ymm8 -vpsllw $7, %ymm5, %ymm7 -vpsubw %ymm7, %ymm8, %ymm7 -vpsrlw $3, %ymm7, %ymm7 -vpsubw %ymm3, %ymm7, %ymm7 -vmovdqa 1280(%r8), %ymm8 -vpsubw %ymm11, %ymm8, %ymm8 -vpmullw %ymm15, %ymm5, %ymm9 -vpsubw %ymm9, %ymm8, %ymm9 -vpmullw %ymm14, %ymm7, %ymm7 -vpsubw %ymm7, %ymm3, %ymm3 -vpmullw %ymm12, %ymm7, %ymm8 -vpaddw %ymm8, %ymm3, %ymm8 -vpmullw %ymm12, %ymm8, %ymm8 -vpsubw %ymm8, %ymm9, %ymm8 -vpmullw %ymm14, %ymm8, %ymm8 -vpsubw %ymm6, %ymm8, %ymm8 -vpsrlw $3, %ymm8, %ymm8 -vpsubw %ymm4, %ymm8, %ymm8 -vpsubw %ymm8, %ymm4, %ymm4 -vpsubw %ymm4, %ymm6, %ymm6 -vpmullw %ymm13, %ymm8, %ymm8 -vpsubw %ymm8, %ymm6, %ymm6 -vpshufb shuf48_16(%rip), %ymm7, %ymm7 -vpand mask3_5_3_5(%rip), %ymm7, %ymm9 -vpand mask5_3_5_3(%rip), %ymm7, %ymm7 -vpermq $206, %ymm9, %ymm9 -vpand mask_keephigh(%rip), %ymm9, %ymm10 -vpor %ymm10, %ymm7, %ymm7 -vpaddw %ymm7, %ymm11, %ymm11 -vmovdqa %xmm9, 2048(%r8) -vpshufb shuf48_16(%rip), %ymm8, %ymm8 -vpand mask3_5_3_5(%rip), %ymm8, %ymm9 -vpand mask5_3_5_3(%rip), %ymm8, %ymm8 -vpermq $206, %ymm9, %ymm9 -vpand mask_keephigh(%rip), %ymm9, %ymm10 -vpor %ymm10, %ymm8, %ymm8 -vpaddw %ymm8, %ymm6, %ymm6 -vmovdqa %xmm9, 2304(%r8) -vpshufb shuf48_16(%rip), %ymm5, %ymm5 -vpand mask3_5_3_5(%rip), %ymm5, %ymm9 -vpand mask5_3_5_3(%rip), %ymm5, %ymm5 -vpermq $206, %ymm9, %ymm9 -vpand mask_keephigh(%rip), %ymm9, %ymm10 -vpor %ymm10, %ymm5, %ymm5 -vpaddw %ymm5, %ymm3, %ymm3 -vmovdqa %xmm9, 2560(%r8) -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 0(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %ymm6, 352(%rdi) -vpand mask_mod8192(%rip), %ymm3, %ymm3 -vmovdqu %ymm3, 704(%rdi) -vpand mask_mod8192(%rip), %ymm4, %ymm4 -vmovdqu %ymm4, 1056(%rdi) -vmovdqa 32(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm8 -vpunpckhwd const0(%rip), %ymm5, %ymm7 -vpslld $1, %ymm8, %ymm8 -vpslld $1, %ymm7, %ymm7 -vmovdqa 288(%r8), %ymm4 -vpunpcklwd const0(%rip), %ymm4, %ymm3 -vpunpckhwd const0(%rip), %ymm4, %ymm4 -vmovdqa 544(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm11 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm11, %ymm3, %ymm9 -vpaddd %ymm6, %ymm4, %ymm10 -vpsubd %ymm8, %ymm9, %ymm9 -vpsubd %ymm7, %ymm10, %ymm10 -vpsubd %ymm11, %ymm3, %ymm11 -vpsubd %ymm6, %ymm4, %ymm6 -vpsrld $1, %ymm11, %ymm11 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm11, %ymm11 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm11, %ymm6 -vmovdqa 1568(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm4 -vpunpckhwd const0(%rip), %ymm11, %ymm3 -vpslld $1, %ymm4, %ymm4 -vpslld $1, %ymm3, %ymm3 -vpsubd %ymm4, %ymm9, %ymm9 -vpsubd %ymm3, %ymm10, %ymm10 -vpsrld $1, %ymm9, %ymm9 -vpsrld $1, %ymm10, %ymm10 -vpand mask32_to_16(%rip), %ymm9, %ymm9 -vpand mask32_to_16(%rip), %ymm10, %ymm10 -vpackusdw %ymm10, %ymm9, %ymm10 -vmovdqa 800(%r8), %ymm9 -vpaddw 1056(%r8), %ymm9, %ymm3 -vpsubw 1056(%r8), %ymm9, %ymm9 -vpsrlw $2, %ymm9, %ymm9 -vpsubw %ymm6, %ymm9, %ymm9 -vpmullw %ymm14, %ymm9, %ymm9 -vpsllw $1, %ymm5, %ymm4 -vpsubw %ymm4, %ymm3, %ymm4 -vpsllw $7, %ymm11, %ymm3 -vpsubw %ymm3, %ymm4, %ymm3 -vpsrlw $3, %ymm3, %ymm3 -vpsubw %ymm10, %ymm3, %ymm3 -vmovdqa 1312(%r8), %ymm4 -vpsubw %ymm5, %ymm4, %ymm4 -vpmullw %ymm15, %ymm11, %ymm7 -vpsubw %ymm7, %ymm4, %ymm7 -vpmullw %ymm14, %ymm3, %ymm3 -vpsubw %ymm3, %ymm10, %ymm10 -vpmullw %ymm12, %ymm3, %ymm4 -vpaddw %ymm4, %ymm10, %ymm4 -vpmullw %ymm12, %ymm4, %ymm4 -vpsubw %ymm4, %ymm7, %ymm4 -vpmullw %ymm14, %ymm4, %ymm4 -vpsubw %ymm6, %ymm4, %ymm4 -vpsrlw $3, %ymm4, %ymm4 -vpsubw %ymm9, %ymm4, %ymm4 -vpsubw %ymm4, %ymm9, %ymm9 -vpsubw %ymm9, %ymm6, %ymm6 -vpmullw %ymm13, %ymm4, %ymm4 -vpsubw %ymm4, %ymm6, %ymm6 -vpshufb shuf48_16(%rip), %ymm3, %ymm3 -vpand mask3_5_3_5(%rip), %ymm3, %ymm7 -vpand mask5_3_5_3(%rip), %ymm3, %ymm3 -vpermq $206, %ymm7, %ymm7 -vpand mask_keephigh(%rip), %ymm7, %ymm8 -vpor %ymm8, %ymm3, %ymm3 -vpaddw %ymm3, %ymm5, %ymm5 -vmovdqa %xmm7, 2080(%r8) -vpshufb shuf48_16(%rip), %ymm4, %ymm4 -vpand mask3_5_3_5(%rip), %ymm4, %ymm7 -vpand mask5_3_5_3(%rip), %ymm4, %ymm4 -vpermq $206, %ymm7, %ymm7 -vpand mask_keephigh(%rip), %ymm7, %ymm8 -vpor %ymm8, %ymm4, %ymm4 -vpaddw %ymm4, %ymm6, %ymm6 -vmovdqa %xmm7, 2336(%r8) -vpshufb shuf48_16(%rip), %ymm11, %ymm11 -vpand mask3_5_3_5(%rip), %ymm11, %ymm7 -vpand mask5_3_5_3(%rip), %ymm11, %ymm11 -vpermq $206, %ymm7, %ymm7 -vpand mask_keephigh(%rip), %ymm7, %ymm8 -vpor %ymm8, %ymm11, %ymm11 -vpaddw %ymm11, %ymm10, %ymm10 -vmovdqa %xmm7, 2592(%r8) -vpand mask_mod8192(%rip), %ymm5, %ymm5 -vmovdqu %ymm5, 88(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %ymm6, 440(%rdi) -vpand mask_mod8192(%rip), %ymm10, %ymm10 -vmovdqu %ymm10, 792(%rdi) -vpand mask_mod8192(%rip), %ymm9, %ymm9 -vmovdqu %ymm9, 1144(%rdi) -vmovdqa 64(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm4 -vpunpckhwd const0(%rip), %ymm11, %ymm3 -vpslld $1, %ymm4, %ymm4 -vpslld $1, %ymm3, %ymm3 -vmovdqa 320(%r8), %ymm9 -vpunpcklwd const0(%rip), %ymm9, %ymm10 -vpunpckhwd const0(%rip), %ymm9, %ymm9 -vmovdqa 576(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm5 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm5, %ymm10, %ymm7 -vpaddd %ymm6, %ymm9, %ymm8 -vpsubd %ymm4, %ymm7, %ymm7 -vpsubd %ymm3, %ymm8, %ymm8 -vpsubd %ymm5, %ymm10, %ymm5 -vpsubd %ymm6, %ymm9, %ymm6 -vpsrld $1, %ymm5, %ymm5 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm5, %ymm5 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm5, %ymm6 -vmovdqa 1600(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm9 -vpunpckhwd const0(%rip), %ymm5, %ymm10 -vpslld $1, %ymm9, %ymm9 -vpslld $1, %ymm10, %ymm10 -vpsubd %ymm9, %ymm7, %ymm7 -vpsubd %ymm10, %ymm8, %ymm8 -vpsrld $1, %ymm7, %ymm7 -vpsrld $1, %ymm8, %ymm8 -vpand mask32_to_16(%rip), %ymm7, %ymm7 -vpand mask32_to_16(%rip), %ymm8, %ymm8 -vpackusdw %ymm8, %ymm7, %ymm8 -vmovdqa 832(%r8), %ymm7 -vpaddw 1088(%r8), %ymm7, %ymm10 -vpsubw 1088(%r8), %ymm7, %ymm7 -vpsrlw $2, %ymm7, %ymm7 -vpsubw %ymm6, %ymm7, %ymm7 -vpmullw %ymm14, %ymm7, %ymm7 -vpsllw $1, %ymm11, %ymm9 -vpsubw %ymm9, %ymm10, %ymm9 -vpsllw $7, %ymm5, %ymm10 -vpsubw %ymm10, %ymm9, %ymm10 -vpsrlw $3, %ymm10, %ymm10 -vpsubw %ymm8, %ymm10, %ymm10 -vmovdqa 1344(%r8), %ymm9 -vpsubw %ymm11, %ymm9, %ymm9 -vpmullw %ymm15, %ymm5, %ymm3 -vpsubw %ymm3, %ymm9, %ymm3 -vpmullw %ymm14, %ymm10, %ymm10 -vpsubw %ymm10, %ymm8, %ymm8 -vpmullw %ymm12, %ymm10, %ymm9 -vpaddw %ymm9, %ymm8, %ymm9 -vpmullw %ymm12, %ymm9, %ymm9 -vpsubw %ymm9, %ymm3, %ymm9 -vpmullw %ymm14, %ymm9, %ymm9 -vpsubw %ymm6, %ymm9, %ymm9 -vpsrlw $3, %ymm9, %ymm9 -vpsubw %ymm7, %ymm9, %ymm9 -vpsubw %ymm9, %ymm7, %ymm7 -vpsubw %ymm7, %ymm6, %ymm6 -vpmullw %ymm13, %ymm9, %ymm9 -vpsubw %ymm9, %ymm6, %ymm6 -vpshufb shuf48_16(%rip), %ymm10, %ymm10 -vpand mask3_5_3_5(%rip), %ymm10, %ymm3 -vpand mask5_3_5_3(%rip), %ymm10, %ymm10 -vpermq $206, %ymm3, %ymm3 -vpand mask_keephigh(%rip), %ymm3, %ymm4 -vpor %ymm4, %ymm10, %ymm10 -vpaddw %ymm10, %ymm11, %ymm11 -vmovdqa %xmm3, 2112(%r8) -vpshufb shuf48_16(%rip), %ymm9, %ymm9 -vpand mask3_5_3_5(%rip), %ymm9, %ymm3 -vpand mask5_3_5_3(%rip), %ymm9, %ymm9 -vpermq $206, %ymm3, %ymm3 -vpand mask_keephigh(%rip), %ymm3, %ymm4 -vpor %ymm4, %ymm9, %ymm9 -vpaddw %ymm9, %ymm6, %ymm6 -vmovdqa %xmm3, 2368(%r8) -vpshufb shuf48_16(%rip), %ymm5, %ymm5 -vpand mask3_5_3_5(%rip), %ymm5, %ymm3 -vpand mask5_3_5_3(%rip), %ymm5, %ymm5 -vpermq $206, %ymm3, %ymm3 -vpand mask_keephigh(%rip), %ymm3, %ymm4 -vpor %ymm4, %ymm5, %ymm5 -vpaddw %ymm5, %ymm8, %ymm8 -vmovdqa %xmm3, 2624(%r8) -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 176(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %ymm6, 528(%rdi) -vpand mask_mod8192(%rip), %ymm8, %ymm8 -vmovdqu %ymm8, 880(%rdi) -vpand mask_mod8192(%rip), %ymm7, %ymm7 -vmovdqu %ymm7, 1232(%rdi) -vmovdqa 96(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm9 -vpunpckhwd const0(%rip), %ymm5, %ymm10 -vpslld $1, %ymm9, %ymm9 -vpslld $1, %ymm10, %ymm10 -vmovdqa 352(%r8), %ymm7 -vpunpcklwd const0(%rip), %ymm7, %ymm8 -vpunpckhwd const0(%rip), %ymm7, %ymm7 -vmovdqa 608(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm11 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm11, %ymm8, %ymm3 -vpaddd %ymm6, %ymm7, %ymm4 -vpsubd %ymm9, %ymm3, %ymm3 -vpsubd %ymm10, %ymm4, %ymm4 -vpsubd %ymm11, %ymm8, %ymm11 -vpsubd %ymm6, %ymm7, %ymm6 -vpsrld $1, %ymm11, %ymm11 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm11, %ymm11 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm11, %ymm6 -vmovdqa 1632(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm7 -vpunpckhwd const0(%rip), %ymm11, %ymm8 -vpslld $1, %ymm7, %ymm7 -vpslld $1, %ymm8, %ymm8 -vpsubd %ymm7, %ymm3, %ymm3 -vpsubd %ymm8, %ymm4, %ymm4 -vpsrld $1, %ymm3, %ymm3 -vpsrld $1, %ymm4, %ymm4 -vpand mask32_to_16(%rip), %ymm3, %ymm3 -vpand mask32_to_16(%rip), %ymm4, %ymm4 -vpackusdw %ymm4, %ymm3, %ymm4 -vmovdqa 864(%r8), %ymm3 -vpaddw 1120(%r8), %ymm3, %ymm8 -vpsubw 1120(%r8), %ymm3, %ymm3 -vpsrlw $2, %ymm3, %ymm3 -vpsubw %ymm6, %ymm3, %ymm3 -vpmullw %ymm14, %ymm3, %ymm3 -vpsllw $1, %ymm5, %ymm7 -vpsubw %ymm7, %ymm8, %ymm7 -vpsllw $7, %ymm11, %ymm8 -vpsubw %ymm8, %ymm7, %ymm8 -vpsrlw $3, %ymm8, %ymm8 -vpsubw %ymm4, %ymm8, %ymm8 -vmovdqa 1376(%r8), %ymm7 -vpsubw %ymm5, %ymm7, %ymm7 -vpmullw %ymm15, %ymm11, %ymm10 -vpsubw %ymm10, %ymm7, %ymm10 -vpmullw %ymm14, %ymm8, %ymm8 -vpsubw %ymm8, %ymm4, %ymm4 -vpmullw %ymm12, %ymm8, %ymm7 -vpaddw %ymm7, %ymm4, %ymm7 -vpmullw %ymm12, %ymm7, %ymm7 -vpsubw %ymm7, %ymm10, %ymm7 -vpmullw %ymm14, %ymm7, %ymm7 -vpsubw %ymm6, %ymm7, %ymm7 -vpsrlw $3, %ymm7, %ymm7 -vpsubw %ymm3, %ymm7, %ymm7 -vpsubw %ymm7, %ymm3, %ymm3 -vpsubw %ymm3, %ymm6, %ymm6 -vpmullw %ymm13, %ymm7, %ymm7 -vpsubw %ymm7, %ymm6, %ymm6 -vpshufb shuf48_16(%rip), %ymm8, %ymm8 -vpand mask3_5_3_5(%rip), %ymm8, %ymm10 -vpand mask5_3_5_3(%rip), %ymm8, %ymm8 -vpermq $206, %ymm10, %ymm10 -vpand mask_keephigh(%rip), %ymm10, %ymm9 -vpor %ymm9, %ymm8, %ymm8 -vpaddw %ymm8, %ymm5, %ymm5 -vmovdqa %xmm10, 2144(%r8) -vpshufb shuf48_16(%rip), %ymm7, %ymm7 -vpand mask3_5_3_5(%rip), %ymm7, %ymm10 -vpand mask5_3_5_3(%rip), %ymm7, %ymm7 -vpermq $206, %ymm10, %ymm10 -vpand mask_keephigh(%rip), %ymm10, %ymm9 -vpor %ymm9, %ymm7, %ymm7 -vpaddw %ymm7, %ymm6, %ymm6 -vmovdqa %xmm10, 2400(%r8) -vpshufb shuf48_16(%rip), %ymm11, %ymm11 -vpand mask3_5_3_5(%rip), %ymm11, %ymm10 -vpand mask5_3_5_3(%rip), %ymm11, %ymm11 -vpermq $206, %ymm10, %ymm10 -vpand mask_keephigh(%rip), %ymm10, %ymm9 -vpor %ymm9, %ymm11, %ymm11 -vpaddw %ymm11, %ymm4, %ymm4 -vmovdqa %xmm10, 2656(%r8) -vpand mask_mod8192(%rip), %ymm5, %ymm5 -vmovdqu %ymm5, 264(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %ymm6, 616(%rdi) -vpand mask_mod8192(%rip), %ymm4, %ymm4 -vmovdqu %ymm4, 968(%rdi) -vpand mask_mod8192(%rip), %ymm3, %ymm3 -vmovdqu %ymm3, 1320(%rdi) -vmovdqa 128(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm7 -vpunpckhwd const0(%rip), %ymm11, %ymm8 -vpslld $1, %ymm7, %ymm7 -vpslld $1, %ymm8, %ymm8 -vmovdqa 384(%r8), %ymm3 -vpunpcklwd const0(%rip), %ymm3, %ymm4 -vpunpckhwd const0(%rip), %ymm3, %ymm3 -vmovdqa 640(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm5 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm5, %ymm4, %ymm10 -vpaddd %ymm6, %ymm3, %ymm9 -vpsubd %ymm7, %ymm10, %ymm10 -vpsubd %ymm8, %ymm9, %ymm9 -vpsubd %ymm5, %ymm4, %ymm5 -vpsubd %ymm6, %ymm3, %ymm6 -vpsrld $1, %ymm5, %ymm5 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm5, %ymm5 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm5, %ymm6 -vmovdqa 1664(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm3 -vpunpckhwd const0(%rip), %ymm5, %ymm4 -vpslld $1, %ymm3, %ymm3 -vpslld $1, %ymm4, %ymm4 -vpsubd %ymm3, %ymm10, %ymm10 -vpsubd %ymm4, %ymm9, %ymm9 -vpsrld $1, %ymm10, %ymm10 -vpsrld $1, %ymm9, %ymm9 -vpand mask32_to_16(%rip), %ymm10, %ymm10 -vpand mask32_to_16(%rip), %ymm9, %ymm9 -vpackusdw %ymm9, %ymm10, %ymm9 -vmovdqa 896(%r8), %ymm10 -vpaddw 1152(%r8), %ymm10, %ymm4 -vpsubw 1152(%r8), %ymm10, %ymm10 -vpsrlw $2, %ymm10, %ymm10 -vpsubw %ymm6, %ymm10, %ymm10 -vpmullw %ymm14, %ymm10, %ymm10 -vpsllw $1, %ymm11, %ymm3 -vpsubw %ymm3, %ymm4, %ymm3 -vpsllw $7, %ymm5, %ymm4 -vpsubw %ymm4, %ymm3, %ymm4 -vpsrlw $3, %ymm4, %ymm4 -vpsubw %ymm9, %ymm4, %ymm4 -vmovdqa 1408(%r8), %ymm3 -vpsubw %ymm11, %ymm3, %ymm3 -vpmullw %ymm15, %ymm5, %ymm8 -vpsubw %ymm8, %ymm3, %ymm8 -vpmullw %ymm14, %ymm4, %ymm4 -vpsubw %ymm4, %ymm9, %ymm9 -vpmullw %ymm12, %ymm4, %ymm3 -vpaddw %ymm3, %ymm9, %ymm3 -vpmullw %ymm12, %ymm3, %ymm3 -vpsubw %ymm3, %ymm8, %ymm3 -vpmullw %ymm14, %ymm3, %ymm3 -vpsubw %ymm6, %ymm3, %ymm3 -vpsrlw $3, %ymm3, %ymm3 -vpsubw %ymm10, %ymm3, %ymm3 -vpsubw %ymm3, %ymm10, %ymm10 -vpsubw %ymm10, %ymm6, %ymm6 -vpmullw %ymm13, %ymm3, %ymm3 -vpsubw %ymm3, %ymm6, %ymm6 -vmovdqu 352(%rdi), %ymm8 -vmovdqu 704(%rdi), %ymm7 -vmovdqu 1056(%rdi), %ymm2 -vpaddw %ymm11, %ymm8, %ymm11 -vpaddw %ymm6, %ymm7, %ymm6 -vpaddw %ymm9, %ymm2, %ymm9 -vpshufb shuf48_16(%rip), %ymm10, %ymm10 -vpand mask3_5_3_5(%rip), %ymm10, %ymm2 -vpand mask5_3_5_3(%rip), %ymm10, %ymm10 -vpermq $206, %ymm2, %ymm2 -vpand mask_keephigh(%rip), %ymm2, %ymm7 -vpor %ymm7, %ymm10, %ymm10 -vmovdqu 0(%rdi), %ymm7 -vpaddw %ymm10, %ymm7, %ymm7 -vpand mask_mod8192(%rip), %ymm7, %ymm7 -vmovdqu %ymm7, 0(%rdi) -vmovdqa %xmm2, 1920(%r8) -vpshufb shuf48_16(%rip), %ymm4, %ymm4 -vpand mask3_5_3_5(%rip), %ymm4, %ymm2 -vpand mask5_3_5_3(%rip), %ymm4, %ymm4 -vpermq $206, %ymm2, %ymm2 -vpand mask_keephigh(%rip), %ymm2, %ymm7 -vpor %ymm7, %ymm4, %ymm4 -vpaddw %ymm4, %ymm11, %ymm11 -vmovdqa %xmm2, 2176(%r8) -vpshufb shuf48_16(%rip), %ymm3, %ymm3 -vpand mask3_5_3_5(%rip), %ymm3, %ymm2 -vpand mask5_3_5_3(%rip), %ymm3, %ymm3 -vpermq $206, %ymm2, %ymm2 -vpand mask_keephigh(%rip), %ymm2, %ymm7 -vpor %ymm7, %ymm3, %ymm3 -vpaddw %ymm3, %ymm6, %ymm6 -vmovdqa %xmm2, 2432(%r8) -vpshufb shuf48_16(%rip), %ymm5, %ymm5 -vpand mask3_5_3_5(%rip), %ymm5, %ymm2 -vpand mask5_3_5_3(%rip), %ymm5, %ymm5 -vpermq $206, %ymm2, %ymm2 -vpand mask_keephigh(%rip), %ymm2, %ymm7 -vpor %ymm7, %ymm5, %ymm5 -vpaddw %ymm5, %ymm9, %ymm9 -vmovdqa %xmm2, 2688(%r8) -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 352(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %ymm6, 704(%rdi) -vpand mask_mod8192(%rip), %ymm9, %ymm9 -vmovdqu %ymm9, 1056(%rdi) -vmovdqa 160(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm3 -vpunpckhwd const0(%rip), %ymm5, %ymm4 -vpslld $1, %ymm3, %ymm3 -vpslld $1, %ymm4, %ymm4 -vmovdqa 416(%r8), %ymm10 -vpunpcklwd const0(%rip), %ymm10, %ymm9 -vpunpckhwd const0(%rip), %ymm10, %ymm10 -vmovdqa 672(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm11 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm11, %ymm9, %ymm2 -vpaddd %ymm6, %ymm10, %ymm7 -vpsubd %ymm3, %ymm2, %ymm2 -vpsubd %ymm4, %ymm7, %ymm7 -vpsubd %ymm11, %ymm9, %ymm11 -vpsubd %ymm6, %ymm10, %ymm6 -vpsrld $1, %ymm11, %ymm11 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm11, %ymm11 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm11, %ymm6 -vmovdqa 1696(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm10 -vpunpckhwd const0(%rip), %ymm11, %ymm9 -vpslld $1, %ymm10, %ymm10 -vpslld $1, %ymm9, %ymm9 -vpsubd %ymm10, %ymm2, %ymm2 -vpsubd %ymm9, %ymm7, %ymm7 -vpsrld $1, %ymm2, %ymm2 -vpsrld $1, %ymm7, %ymm7 -vpand mask32_to_16(%rip), %ymm2, %ymm2 -vpand mask32_to_16(%rip), %ymm7, %ymm7 -vpackusdw %ymm7, %ymm2, %ymm7 -vmovdqa 928(%r8), %ymm2 -vpaddw 1184(%r8), %ymm2, %ymm9 -vpsubw 1184(%r8), %ymm2, %ymm2 -vpsrlw $2, %ymm2, %ymm2 -vpsubw %ymm6, %ymm2, %ymm2 -vpmullw %ymm14, %ymm2, %ymm2 -vpsllw $1, %ymm5, %ymm10 -vpsubw %ymm10, %ymm9, %ymm10 -vpsllw $7, %ymm11, %ymm9 -vpsubw %ymm9, %ymm10, %ymm9 -vpsrlw $3, %ymm9, %ymm9 -vpsubw %ymm7, %ymm9, %ymm9 -vmovdqa 1440(%r8), %ymm10 -vpsubw %ymm5, %ymm10, %ymm10 -vpmullw %ymm15, %ymm11, %ymm4 -vpsubw %ymm4, %ymm10, %ymm4 -vpmullw %ymm14, %ymm9, %ymm9 -vpsubw %ymm9, %ymm7, %ymm7 -vpmullw %ymm12, %ymm9, %ymm10 -vpaddw %ymm10, %ymm7, %ymm10 -vpmullw %ymm12, %ymm10, %ymm10 -vpsubw %ymm10, %ymm4, %ymm10 -vpmullw %ymm14, %ymm10, %ymm10 -vpsubw %ymm6, %ymm10, %ymm10 -vpsrlw $3, %ymm10, %ymm10 -vpsubw %ymm2, %ymm10, %ymm10 -vpsubw %ymm10, %ymm2, %ymm2 -vpsubw %ymm2, %ymm6, %ymm6 -vpmullw %ymm13, %ymm10, %ymm10 -vpsubw %ymm10, %ymm6, %ymm6 -vmovdqu 440(%rdi), %ymm4 -vmovdqu 792(%rdi), %ymm3 -vmovdqu 1144(%rdi), %ymm8 -vpaddw %ymm5, %ymm4, %ymm5 -vpaddw %ymm6, %ymm3, %ymm6 -vpaddw %ymm7, %ymm8, %ymm7 -vpshufb shuf48_16(%rip), %ymm2, %ymm2 -vpand mask3_5_3_5(%rip), %ymm2, %ymm8 -vpand mask5_3_5_3(%rip), %ymm2, %ymm2 -vpermq $206, %ymm8, %ymm8 -vpand mask_keephigh(%rip), %ymm8, %ymm3 -vpor %ymm3, %ymm2, %ymm2 -vmovdqu 88(%rdi), %ymm3 -vpaddw %ymm2, %ymm3, %ymm3 -vpand mask_mod8192(%rip), %ymm3, %ymm3 -vmovdqu %ymm3, 88(%rdi) -vmovdqa %xmm8, 1952(%r8) -vpshufb shuf48_16(%rip), %ymm9, %ymm9 -vpand mask3_5_3_5(%rip), %ymm9, %ymm8 -vpand mask5_3_5_3(%rip), %ymm9, %ymm9 -vpermq $206, %ymm8, %ymm8 -vpand mask_keephigh(%rip), %ymm8, %ymm3 -vpor %ymm3, %ymm9, %ymm9 -vpaddw %ymm9, %ymm5, %ymm5 -vmovdqa %xmm8, 2208(%r8) -vpshufb shuf48_16(%rip), %ymm10, %ymm10 -vpand mask3_5_3_5(%rip), %ymm10, %ymm8 -vpand mask5_3_5_3(%rip), %ymm10, %ymm10 -vpermq $206, %ymm8, %ymm8 -vpand mask_keephigh(%rip), %ymm8, %ymm3 -vpor %ymm3, %ymm10, %ymm10 -vpaddw %ymm10, %ymm6, %ymm6 -vmovdqa %xmm8, 2464(%r8) -vpshufb shuf48_16(%rip), %ymm11, %ymm11 -vpand mask3_5_3_5(%rip), %ymm11, %ymm8 -vpand mask5_3_5_3(%rip), %ymm11, %ymm11 -vpermq $206, %ymm8, %ymm8 -vpand mask_keephigh(%rip), %ymm8, %ymm3 -vpor %ymm3, %ymm11, %ymm11 -vpaddw %ymm11, %ymm7, %ymm7 -vmovdqa %xmm8, 2720(%r8) -vpand mask_mod8192(%rip), %ymm5, %ymm5 -vmovdqu %ymm5, 440(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %ymm6, 792(%rdi) -vpand mask_mod8192(%rip), %ymm7, %ymm7 -vmovdqu %ymm7, 1144(%rdi) -vmovdqa 192(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm10 -vpunpckhwd const0(%rip), %ymm11, %ymm9 -vpslld $1, %ymm10, %ymm10 -vpslld $1, %ymm9, %ymm9 -vmovdqa 448(%r8), %ymm2 -vpunpcklwd const0(%rip), %ymm2, %ymm7 -vpunpckhwd const0(%rip), %ymm2, %ymm2 -vmovdqa 704(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm5 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm5, %ymm7, %ymm8 -vpaddd %ymm6, %ymm2, %ymm3 -vpsubd %ymm10, %ymm8, %ymm8 -vpsubd %ymm9, %ymm3, %ymm3 -vpsubd %ymm5, %ymm7, %ymm5 -vpsubd %ymm6, %ymm2, %ymm6 -vpsrld $1, %ymm5, %ymm5 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm5, %ymm5 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm5, %ymm6 -vmovdqa 1728(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm2 -vpunpckhwd const0(%rip), %ymm5, %ymm7 -vpslld $1, %ymm2, %ymm2 -vpslld $1, %ymm7, %ymm7 -vpsubd %ymm2, %ymm8, %ymm8 -vpsubd %ymm7, %ymm3, %ymm3 -vpsrld $1, %ymm8, %ymm8 -vpsrld $1, %ymm3, %ymm3 -vpand mask32_to_16(%rip), %ymm8, %ymm8 -vpand mask32_to_16(%rip), %ymm3, %ymm3 -vpackusdw %ymm3, %ymm8, %ymm3 -vmovdqa 960(%r8), %ymm8 -vpaddw 1216(%r8), %ymm8, %ymm7 -vpsubw 1216(%r8), %ymm8, %ymm8 -vpsrlw $2, %ymm8, %ymm8 -vpsubw %ymm6, %ymm8, %ymm8 -vpmullw %ymm14, %ymm8, %ymm8 -vpsllw $1, %ymm11, %ymm2 -vpsubw %ymm2, %ymm7, %ymm2 -vpsllw $7, %ymm5, %ymm7 -vpsubw %ymm7, %ymm2, %ymm7 -vpsrlw $3, %ymm7, %ymm7 -vpsubw %ymm3, %ymm7, %ymm7 -vmovdqa 1472(%r8), %ymm2 -vpsubw %ymm11, %ymm2, %ymm2 -vpmullw %ymm15, %ymm5, %ymm9 -vpsubw %ymm9, %ymm2, %ymm9 -vpmullw %ymm14, %ymm7, %ymm7 -vpsubw %ymm7, %ymm3, %ymm3 -vpmullw %ymm12, %ymm7, %ymm2 -vpaddw %ymm2, %ymm3, %ymm2 -vpmullw %ymm12, %ymm2, %ymm2 -vpsubw %ymm2, %ymm9, %ymm2 -vpmullw %ymm14, %ymm2, %ymm2 -vpsubw %ymm6, %ymm2, %ymm2 -vpsrlw $3, %ymm2, %ymm2 -vpsubw %ymm8, %ymm2, %ymm2 -vpsubw %ymm2, %ymm8, %ymm8 -vpsubw %ymm8, %ymm6, %ymm6 -vpmullw %ymm13, %ymm2, %ymm2 -vpsubw %ymm2, %ymm6, %ymm6 -vmovdqu 528(%rdi), %ymm9 -vmovdqu 880(%rdi), %ymm10 -vmovdqu 1232(%rdi), %ymm4 -vpaddw %ymm11, %ymm9, %ymm11 -vpaddw %ymm6, %ymm10, %ymm6 -vpaddw %ymm3, %ymm4, %ymm3 -vpshufb shuf48_16(%rip), %ymm8, %ymm8 -vpand mask3_5_3_5(%rip), %ymm8, %ymm4 -vpand mask5_3_5_3(%rip), %ymm8, %ymm8 -vpermq $206, %ymm4, %ymm4 -vpand mask_keephigh(%rip), %ymm4, %ymm10 -vpor %ymm10, %ymm8, %ymm8 -vmovdqu 176(%rdi), %ymm10 -vpaddw %ymm8, %ymm10, %ymm10 -vpand mask_mod8192(%rip), %ymm10, %ymm10 -vmovdqu %ymm10, 176(%rdi) -vmovdqa %xmm4, 1984(%r8) -vpshufb shuf48_16(%rip), %ymm7, %ymm7 -vpand mask3_5_3_5(%rip), %ymm7, %ymm4 -vpand mask5_3_5_3(%rip), %ymm7, %ymm7 -vpermq $206, %ymm4, %ymm4 -vpand mask_keephigh(%rip), %ymm4, %ymm10 -vpor %ymm10, %ymm7, %ymm7 -vpaddw %ymm7, %ymm11, %ymm11 -vmovdqa %xmm4, 2240(%r8) -vpshufb shuf48_16(%rip), %ymm2, %ymm2 -vpand mask3_5_3_5(%rip), %ymm2, %ymm4 -vpand mask5_3_5_3(%rip), %ymm2, %ymm2 -vpermq $206, %ymm4, %ymm4 -vpand mask_keephigh(%rip), %ymm4, %ymm10 -vpor %ymm10, %ymm2, %ymm2 -vpaddw %ymm2, %ymm6, %ymm6 -vmovdqa %xmm4, 2496(%r8) -vpshufb shuf48_16(%rip), %ymm5, %ymm5 -vpand mask3_5_3_5(%rip), %ymm5, %ymm4 -vpand mask5_3_5_3(%rip), %ymm5, %ymm5 -vpermq $206, %ymm4, %ymm4 -vpand mask_keephigh(%rip), %ymm4, %ymm10 -vpor %ymm10, %ymm5, %ymm5 -vpaddw %ymm5, %ymm3, %ymm3 -vmovdqa %xmm4, 2752(%r8) -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 528(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %ymm6, 880(%rdi) -vpand mask_mod8192(%rip), %ymm3, %ymm3 -vmovdqu %ymm3, 1232(%rdi) -vmovdqa 224(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm2 -vpunpckhwd const0(%rip), %ymm5, %ymm7 -vpslld $1, %ymm2, %ymm2 -vpslld $1, %ymm7, %ymm7 -vmovdqa 480(%r8), %ymm8 -vpunpcklwd const0(%rip), %ymm8, %ymm3 -vpunpckhwd const0(%rip), %ymm8, %ymm8 -vmovdqa 736(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm11 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm11, %ymm3, %ymm4 -vpaddd %ymm6, %ymm8, %ymm10 -vpsubd %ymm2, %ymm4, %ymm4 -vpsubd %ymm7, %ymm10, %ymm10 -vpsubd %ymm11, %ymm3, %ymm11 -vpsubd %ymm6, %ymm8, %ymm6 -vpsrld $1, %ymm11, %ymm11 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm11, %ymm11 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm11, %ymm6 -vmovdqa 1760(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm8 -vpunpckhwd const0(%rip), %ymm11, %ymm3 -vpslld $1, %ymm8, %ymm8 -vpslld $1, %ymm3, %ymm3 -vpsubd %ymm8, %ymm4, %ymm4 -vpsubd %ymm3, %ymm10, %ymm10 -vpsrld $1, %ymm4, %ymm4 -vpsrld $1, %ymm10, %ymm10 -vpand mask32_to_16(%rip), %ymm4, %ymm4 -vpand mask32_to_16(%rip), %ymm10, %ymm10 -vpackusdw %ymm10, %ymm4, %ymm10 -vmovdqa 992(%r8), %ymm4 -vpaddw 1248(%r8), %ymm4, %ymm3 -vpsubw 1248(%r8), %ymm4, %ymm4 -vpsrlw $2, %ymm4, %ymm4 -vpsubw %ymm6, %ymm4, %ymm4 -vpmullw %ymm14, %ymm4, %ymm4 -vpsllw $1, %ymm5, %ymm8 -vpsubw %ymm8, %ymm3, %ymm8 -vpsllw $7, %ymm11, %ymm3 -vpsubw %ymm3, %ymm8, %ymm3 -vpsrlw $3, %ymm3, %ymm3 -vpsubw %ymm10, %ymm3, %ymm3 -vmovdqa 1504(%r8), %ymm8 -vpsubw %ymm5, %ymm8, %ymm8 -vpmullw %ymm15, %ymm11, %ymm7 -vpsubw %ymm7, %ymm8, %ymm7 -vpmullw %ymm14, %ymm3, %ymm3 -vpsubw %ymm3, %ymm10, %ymm10 -vpmullw %ymm12, %ymm3, %ymm8 -vpaddw %ymm8, %ymm10, %ymm8 -vpmullw %ymm12, %ymm8, %ymm8 -vpsubw %ymm8, %ymm7, %ymm8 -vpmullw %ymm14, %ymm8, %ymm8 -vpsubw %ymm6, %ymm8, %ymm8 -vpsrlw $3, %ymm8, %ymm8 -vpsubw %ymm4, %ymm8, %ymm8 -vpsubw %ymm8, %ymm4, %ymm4 -vpsubw %ymm4, %ymm6, %ymm6 -vpmullw %ymm13, %ymm8, %ymm8 -vpsubw %ymm8, %ymm6, %ymm6 -vmovdqu 616(%rdi), %ymm7 -vmovdqu 968(%rdi), %ymm2 -vmovdqu 1320(%rdi), %ymm9 -vpaddw %ymm5, %ymm7, %ymm5 -vpaddw %ymm6, %ymm2, %ymm6 -vpaddw %ymm10, %ymm9, %ymm10 -vpshufb shuf48_16(%rip), %ymm4, %ymm4 -vpand mask3_5_3_5(%rip), %ymm4, %ymm9 -vpand mask5_3_5_3(%rip), %ymm4, %ymm4 -vpermq $206, %ymm9, %ymm9 -vpand mask_keephigh(%rip), %ymm9, %ymm2 -vpor %ymm2, %ymm4, %ymm4 -vmovdqu 264(%rdi), %ymm2 -vpaddw %ymm4, %ymm2, %ymm2 -vpand mask_mod8192(%rip), %ymm2, %ymm2 -vmovdqu %ymm2, 264(%rdi) -vmovdqa %xmm9, 2016(%r8) -vpshufb shuf48_16(%rip), %ymm3, %ymm3 -vpand mask3_5_3_5(%rip), %ymm3, %ymm9 -vpand mask5_3_5_3(%rip), %ymm3, %ymm3 -vpermq $206, %ymm9, %ymm9 -vpand mask_keephigh(%rip), %ymm9, %ymm2 -vpor %ymm2, %ymm3, %ymm3 -vpaddw %ymm3, %ymm5, %ymm5 -vmovdqa %xmm9, 2272(%r8) -vpshufb shuf48_16(%rip), %ymm8, %ymm8 -vpand mask3_5_3_5(%rip), %ymm8, %ymm9 -vpand mask5_3_5_3(%rip), %ymm8, %ymm8 -vpermq $206, %ymm9, %ymm9 -vpand mask_keephigh(%rip), %ymm9, %ymm2 -vpor %ymm2, %ymm8, %ymm8 -vpaddw %ymm8, %ymm6, %ymm6 -vmovdqa %xmm9, 2528(%r8) -vpshufb shuf48_16(%rip), %ymm11, %ymm11 -vpand mask3_5_3_5(%rip), %ymm11, %ymm9 -vpand mask5_3_5_3(%rip), %ymm11, %ymm11 -vpermq $206, %ymm9, %ymm9 -vpand mask_keephigh(%rip), %ymm9, %ymm2 -vpor %ymm2, %ymm11, %ymm11 -vpaddw %ymm11, %ymm10, %ymm10 -vmovdqa %xmm9, 2784(%r8) -vpand mask_mod8192(%rip), %ymm5, %ymm5 -vmovdqu %ymm5, 616(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %ymm6, 968(%rdi) -vpand mask_mod8192(%rip), %ymm10, %ymm10 -vmovdqu %ymm10, 1320(%rdi) -vmovdqa 128(%r12), %ymm0 -vpsubw 224(%r12), %ymm0, %ymm0 -vmovdqa 512(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 320(%r12), %ymm1, %ymm1 -vpsubw 32(%r12), %ymm0, %ymm0 -vpaddw 416(%r12), %ymm0, %ymm0 -vmovdqa 704(%r12), %ymm2 -vpsubw 800(%r12), %ymm2, %ymm2 -vmovdqa 1088(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 896(%r12), %ymm3, %ymm3 -vpsubw 608(%r12), %ymm2, %ymm2 -vpaddw 992(%r12), %ymm2, %ymm2 -vmovdqa 1280(%r12), %ymm4 -vpsubw 1376(%r12), %ymm4, %ymm4 -vmovdqa 1664(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 1472(%r12), %ymm5, %ymm5 -vpsubw 1184(%r12), %ymm4, %ymm4 -vpaddw 1568(%r12), %ymm4, %ymm4 -vpsubw 608(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 32(%r12), %ymm1, %ymm1 -vpaddw 1184(%r12), %ymm1, %ymm1 -vmovdqa 320(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 1472(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 896(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 32(%r12), %ymm8 -vmovdqa 896(%r12), %ymm9 -vmovdqa %ymm8, 0(%r8) -vmovdqa %ymm0, 32(%r8) -vmovdqa %ymm1, 64(%r8) -vmovdqa %ymm7, 96(%r8) -vmovdqa %ymm5, 128(%r8) -vmovdqa %ymm2, 160(%r8) -vmovdqa %ymm3, 192(%r8) -vmovdqa %ymm9, 224(%r8) -vmovdqa 1856(%r12), %ymm0 -vpsubw 1952(%r12), %ymm0, %ymm0 -vmovdqa 2240(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 2048(%r12), %ymm1, %ymm1 -vpsubw 1760(%r12), %ymm0, %ymm0 -vpaddw 2144(%r12), %ymm0, %ymm0 -vmovdqa 2432(%r12), %ymm2 -vpsubw 2528(%r12), %ymm2, %ymm2 -vmovdqa 2816(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 2624(%r12), %ymm3, %ymm3 -vpsubw 2336(%r12), %ymm2, %ymm2 -vpaddw 2720(%r12), %ymm2, %ymm2 -vmovdqa 3008(%r12), %ymm4 -vpsubw 3104(%r12), %ymm4, %ymm4 -vmovdqa 3392(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 3200(%r12), %ymm5, %ymm5 -vpsubw 2912(%r12), %ymm4, %ymm4 -vpaddw 3296(%r12), %ymm4, %ymm4 -vpsubw 2336(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 1760(%r12), %ymm1, %ymm1 -vpaddw 2912(%r12), %ymm1, %ymm1 -vmovdqa 2048(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 3200(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 2624(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 1760(%r12), %ymm8 -vmovdqa 2624(%r12), %ymm9 -vmovdqa %ymm8, 256(%r8) -vmovdqa %ymm0, 288(%r8) -vmovdqa %ymm1, 320(%r8) -vmovdqa %ymm7, 352(%r8) -vmovdqa %ymm5, 384(%r8) -vmovdqa %ymm2, 416(%r8) -vmovdqa %ymm3, 448(%r8) -vmovdqa %ymm9, 480(%r8) -vmovdqa 3584(%r12), %ymm0 -vpsubw 3680(%r12), %ymm0, %ymm0 -vmovdqa 3968(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 3776(%r12), %ymm1, %ymm1 -vpsubw 3488(%r12), %ymm0, %ymm0 -vpaddw 3872(%r12), %ymm0, %ymm0 -vmovdqa 4160(%r12), %ymm2 -vpsubw 4256(%r12), %ymm2, %ymm2 -vmovdqa 4544(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 4352(%r12), %ymm3, %ymm3 -vpsubw 4064(%r12), %ymm2, %ymm2 -vpaddw 4448(%r12), %ymm2, %ymm2 -vmovdqa 4736(%r12), %ymm4 -vpsubw 4832(%r12), %ymm4, %ymm4 -vmovdqa 5120(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 4928(%r12), %ymm5, %ymm5 -vpsubw 4640(%r12), %ymm4, %ymm4 -vpaddw 5024(%r12), %ymm4, %ymm4 -vpsubw 4064(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 3488(%r12), %ymm1, %ymm1 -vpaddw 4640(%r12), %ymm1, %ymm1 -vmovdqa 3776(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 4928(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 4352(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 3488(%r12), %ymm8 -vmovdqa 4352(%r12), %ymm9 -vmovdqa %ymm8, 512(%r8) -vmovdqa %ymm0, 544(%r8) -vmovdqa %ymm1, 576(%r8) -vmovdqa %ymm7, 608(%r8) -vmovdqa %ymm5, 640(%r8) -vmovdqa %ymm2, 672(%r8) -vmovdqa %ymm3, 704(%r8) -vmovdqa %ymm9, 736(%r8) -vmovdqa 5312(%r12), %ymm0 -vpsubw 5408(%r12), %ymm0, %ymm0 -vmovdqa 5696(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 5504(%r12), %ymm1, %ymm1 -vpsubw 5216(%r12), %ymm0, %ymm0 -vpaddw 5600(%r12), %ymm0, %ymm0 -vmovdqa 5888(%r12), %ymm2 -vpsubw 5984(%r12), %ymm2, %ymm2 -vmovdqa 6272(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 6080(%r12), %ymm3, %ymm3 -vpsubw 5792(%r12), %ymm2, %ymm2 -vpaddw 6176(%r12), %ymm2, %ymm2 -vmovdqa 6464(%r12), %ymm4 -vpsubw 6560(%r12), %ymm4, %ymm4 -vmovdqa 6848(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 6656(%r12), %ymm5, %ymm5 -vpsubw 6368(%r12), %ymm4, %ymm4 -vpaddw 6752(%r12), %ymm4, %ymm4 -vpsubw 5792(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 5216(%r12), %ymm1, %ymm1 -vpaddw 6368(%r12), %ymm1, %ymm1 -vmovdqa 5504(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 6656(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 6080(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 5216(%r12), %ymm8 -vmovdqa 6080(%r12), %ymm9 -vmovdqa %ymm8, 768(%r8) -vmovdqa %ymm0, 800(%r8) -vmovdqa %ymm1, 832(%r8) -vmovdqa %ymm7, 864(%r8) -vmovdqa %ymm5, 896(%r8) -vmovdqa %ymm2, 928(%r8) -vmovdqa %ymm3, 960(%r8) -vmovdqa %ymm9, 992(%r8) -vmovdqa 7040(%r12), %ymm0 -vpsubw 7136(%r12), %ymm0, %ymm0 -vmovdqa 7424(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 7232(%r12), %ymm1, %ymm1 -vpsubw 6944(%r12), %ymm0, %ymm0 -vpaddw 7328(%r12), %ymm0, %ymm0 -vmovdqa 7616(%r12), %ymm2 -vpsubw 7712(%r12), %ymm2, %ymm2 -vmovdqa 8000(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 7808(%r12), %ymm3, %ymm3 -vpsubw 7520(%r12), %ymm2, %ymm2 -vpaddw 7904(%r12), %ymm2, %ymm2 -vmovdqa 8192(%r12), %ymm4 -vpsubw 8288(%r12), %ymm4, %ymm4 -vmovdqa 8576(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 8384(%r12), %ymm5, %ymm5 -vpsubw 8096(%r12), %ymm4, %ymm4 -vpaddw 8480(%r12), %ymm4, %ymm4 -vpsubw 7520(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 6944(%r12), %ymm1, %ymm1 -vpaddw 8096(%r12), %ymm1, %ymm1 -vmovdqa 7232(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 8384(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 7808(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 6944(%r12), %ymm8 -vmovdqa 7808(%r12), %ymm9 -vmovdqa %ymm8, 1024(%r8) -vmovdqa %ymm0, 1056(%r8) -vmovdqa %ymm1, 1088(%r8) -vmovdqa %ymm7, 1120(%r8) -vmovdqa %ymm5, 1152(%r8) -vmovdqa %ymm2, 1184(%r8) -vmovdqa %ymm3, 1216(%r8) -vmovdqa %ymm9, 1248(%r8) -vmovdqa 8768(%r12), %ymm0 -vpsubw 8864(%r12), %ymm0, %ymm0 -vmovdqa 9152(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 8960(%r12), %ymm1, %ymm1 -vpsubw 8672(%r12), %ymm0, %ymm0 -vpaddw 9056(%r12), %ymm0, %ymm0 -vmovdqa 9344(%r12), %ymm2 -vpsubw 9440(%r12), %ymm2, %ymm2 -vmovdqa 9728(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 9536(%r12), %ymm3, %ymm3 -vpsubw 9248(%r12), %ymm2, %ymm2 -vpaddw 9632(%r12), %ymm2, %ymm2 -vmovdqa 9920(%r12), %ymm4 -vpsubw 10016(%r12), %ymm4, %ymm4 -vmovdqa 10304(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 10112(%r12), %ymm5, %ymm5 -vpsubw 9824(%r12), %ymm4, %ymm4 -vpaddw 10208(%r12), %ymm4, %ymm4 -vpsubw 9248(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 8672(%r12), %ymm1, %ymm1 -vpaddw 9824(%r12), %ymm1, %ymm1 -vmovdqa 8960(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 10112(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 9536(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 8672(%r12), %ymm8 -vmovdqa 9536(%r12), %ymm9 -vmovdqa %ymm8, 1280(%r8) -vmovdqa %ymm0, 1312(%r8) -vmovdqa %ymm1, 1344(%r8) -vmovdqa %ymm7, 1376(%r8) -vmovdqa %ymm5, 1408(%r8) -vmovdqa %ymm2, 1440(%r8) -vmovdqa %ymm3, 1472(%r8) -vmovdqa %ymm9, 1504(%r8) -vmovdqa 10496(%r12), %ymm0 -vpsubw 10592(%r12), %ymm0, %ymm0 -vmovdqa 10880(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 10688(%r12), %ymm1, %ymm1 -vpsubw 10400(%r12), %ymm0, %ymm0 -vpaddw 10784(%r12), %ymm0, %ymm0 -vmovdqa 11072(%r12), %ymm2 -vpsubw 11168(%r12), %ymm2, %ymm2 -vmovdqa 11456(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 11264(%r12), %ymm3, %ymm3 -vpsubw 10976(%r12), %ymm2, %ymm2 -vpaddw 11360(%r12), %ymm2, %ymm2 -vmovdqa 11648(%r12), %ymm4 -vpsubw 11744(%r12), %ymm4, %ymm4 -vmovdqa 12032(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 11840(%r12), %ymm5, %ymm5 -vpsubw 11552(%r12), %ymm4, %ymm4 -vpaddw 11936(%r12), %ymm4, %ymm4 -vpsubw 10976(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 10400(%r12), %ymm1, %ymm1 -vpaddw 11552(%r12), %ymm1, %ymm1 -vmovdqa 10688(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 11840(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 11264(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 10400(%r12), %ymm8 -vmovdqa 11264(%r12), %ymm9 -vmovdqa %ymm8, 1536(%r8) -vmovdqa %ymm0, 1568(%r8) -vmovdqa %ymm1, 1600(%r8) -vmovdqa %ymm7, 1632(%r8) -vmovdqa %ymm5, 1664(%r8) -vmovdqa %ymm2, 1696(%r8) -vmovdqa %ymm3, 1728(%r8) -vmovdqa %ymm9, 1760(%r8) -vmovdqa 0(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm8 -vpunpckhwd const0(%rip), %ymm11, %ymm3 -vpslld $1, %ymm8, %ymm8 -vpslld $1, %ymm3, %ymm3 -vmovdqa 256(%r8), %ymm4 -vpunpcklwd const0(%rip), %ymm4, %ymm10 -vpunpckhwd const0(%rip), %ymm4, %ymm4 -vmovdqa 512(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm5 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm5, %ymm10, %ymm9 -vpaddd %ymm6, %ymm4, %ymm2 -vpsubd %ymm8, %ymm9, %ymm9 -vpsubd %ymm3, %ymm2, %ymm2 -vpsubd %ymm5, %ymm10, %ymm5 -vpsubd %ymm6, %ymm4, %ymm6 -vpsrld $1, %ymm5, %ymm5 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm5, %ymm5 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm5, %ymm6 -vmovdqa 1536(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm4 -vpunpckhwd const0(%rip), %ymm5, %ymm10 -vpslld $1, %ymm4, %ymm4 -vpslld $1, %ymm10, %ymm10 -vpsubd %ymm4, %ymm9, %ymm9 -vpsubd %ymm10, %ymm2, %ymm2 -vpsrld $1, %ymm9, %ymm9 -vpsrld $1, %ymm2, %ymm2 -vpand mask32_to_16(%rip), %ymm9, %ymm9 -vpand mask32_to_16(%rip), %ymm2, %ymm2 -vpackusdw %ymm2, %ymm9, %ymm2 -vmovdqa 768(%r8), %ymm9 -vpaddw 1024(%r8), %ymm9, %ymm10 -vpsubw 1024(%r8), %ymm9, %ymm9 -vpsrlw $2, %ymm9, %ymm9 -vpsubw %ymm6, %ymm9, %ymm9 -vpmullw %ymm14, %ymm9, %ymm9 -vpsllw $1, %ymm11, %ymm4 -vpsubw %ymm4, %ymm10, %ymm4 -vpsllw $7, %ymm5, %ymm10 -vpsubw %ymm10, %ymm4, %ymm10 -vpsrlw $3, %ymm10, %ymm10 -vpsubw %ymm2, %ymm10, %ymm10 -vmovdqa 1280(%r8), %ymm4 -vpsubw %ymm11, %ymm4, %ymm4 -vpmullw %ymm15, %ymm5, %ymm3 -vpsubw %ymm3, %ymm4, %ymm3 -vpmullw %ymm14, %ymm10, %ymm10 -vpsubw %ymm10, %ymm2, %ymm2 -vpmullw %ymm12, %ymm10, %ymm4 -vpaddw %ymm4, %ymm2, %ymm4 -vpmullw %ymm12, %ymm4, %ymm4 -vpsubw %ymm4, %ymm3, %ymm4 -vpmullw %ymm14, %ymm4, %ymm4 -vpsubw %ymm6, %ymm4, %ymm4 -vpsrlw $3, %ymm4, %ymm4 -vpsubw %ymm9, %ymm4, %ymm4 -vpsubw %ymm4, %ymm9, %ymm9 -vpsubw %ymm9, %ymm6, %ymm6 -vpmullw %ymm13, %ymm4, %ymm4 -vpsubw %ymm4, %ymm6, %ymm6 -vpshufb shuf48_16(%rip), %ymm10, %ymm10 -vpand mask3_5_3_5(%rip), %ymm10, %ymm3 -vpand mask5_3_5_3(%rip), %ymm10, %ymm10 -vpermq $206, %ymm3, %ymm3 -vpand mask_keephigh(%rip), %ymm3, %ymm8 -vpor %ymm8, %ymm10, %ymm10 -vpaddw 2048(%r8), %ymm11, %ymm11 -vpaddw %ymm10, %ymm11, %ymm11 -vmovdqa %xmm3, 2048(%r8) -vpshufb shuf48_16(%rip), %ymm4, %ymm4 -vpand mask3_5_3_5(%rip), %ymm4, %ymm3 -vpand mask5_3_5_3(%rip), %ymm4, %ymm4 -vpermq $206, %ymm3, %ymm3 -vpand mask_keephigh(%rip), %ymm3, %ymm8 -vpor %ymm8, %ymm4, %ymm4 -vpaddw 2304(%r8), %ymm6, %ymm6 -vpaddw %ymm4, %ymm6, %ymm6 -vmovdqa %xmm3, 2304(%r8) -vpshufb shuf48_16(%rip), %ymm5, %ymm5 -vpand mask3_5_3_5(%rip), %ymm5, %ymm3 -vpand mask5_3_5_3(%rip), %ymm5, %ymm5 -vpermq $206, %ymm3, %ymm3 -vpand mask_keephigh(%rip), %ymm3, %ymm8 -vpor %ymm8, %ymm5, %ymm5 -vpaddw 2560(%r8), %ymm2, %ymm2 -vpaddw %ymm5, %ymm2, %ymm2 -vmovdqa %xmm3, 2560(%r8) -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 32(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %ymm6, 384(%rdi) -vpand mask_mod8192(%rip), %ymm2, %ymm2 -vmovdqu %ymm2, 736(%rdi) -vpand mask_mod8192(%rip), %ymm9, %ymm9 -vmovdqu %ymm9, 1088(%rdi) -vmovdqa 32(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm4 -vpunpckhwd const0(%rip), %ymm5, %ymm10 -vpslld $1, %ymm4, %ymm4 -vpslld $1, %ymm10, %ymm10 -vmovdqa 288(%r8), %ymm9 -vpunpcklwd const0(%rip), %ymm9, %ymm2 -vpunpckhwd const0(%rip), %ymm9, %ymm9 -vmovdqa 544(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm11 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm11, %ymm2, %ymm3 -vpaddd %ymm6, %ymm9, %ymm8 -vpsubd %ymm4, %ymm3, %ymm3 -vpsubd %ymm10, %ymm8, %ymm8 -vpsubd %ymm11, %ymm2, %ymm11 -vpsubd %ymm6, %ymm9, %ymm6 -vpsrld $1, %ymm11, %ymm11 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm11, %ymm11 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm11, %ymm6 -vmovdqa 1568(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm9 -vpunpckhwd const0(%rip), %ymm11, %ymm2 -vpslld $1, %ymm9, %ymm9 -vpslld $1, %ymm2, %ymm2 -vpsubd %ymm9, %ymm3, %ymm3 -vpsubd %ymm2, %ymm8, %ymm8 -vpsrld $1, %ymm3, %ymm3 -vpsrld $1, %ymm8, %ymm8 -vpand mask32_to_16(%rip), %ymm3, %ymm3 -vpand mask32_to_16(%rip), %ymm8, %ymm8 -vpackusdw %ymm8, %ymm3, %ymm8 -vmovdqa 800(%r8), %ymm3 -vpaddw 1056(%r8), %ymm3, %ymm2 -vpsubw 1056(%r8), %ymm3, %ymm3 -vpsrlw $2, %ymm3, %ymm3 -vpsubw %ymm6, %ymm3, %ymm3 -vpmullw %ymm14, %ymm3, %ymm3 -vpsllw $1, %ymm5, %ymm9 -vpsubw %ymm9, %ymm2, %ymm9 -vpsllw $7, %ymm11, %ymm2 -vpsubw %ymm2, %ymm9, %ymm2 -vpsrlw $3, %ymm2, %ymm2 -vpsubw %ymm8, %ymm2, %ymm2 -vmovdqa 1312(%r8), %ymm9 -vpsubw %ymm5, %ymm9, %ymm9 -vpmullw %ymm15, %ymm11, %ymm10 -vpsubw %ymm10, %ymm9, %ymm10 -vpmullw %ymm14, %ymm2, %ymm2 -vpsubw %ymm2, %ymm8, %ymm8 -vpmullw %ymm12, %ymm2, %ymm9 -vpaddw %ymm9, %ymm8, %ymm9 -vpmullw %ymm12, %ymm9, %ymm9 -vpsubw %ymm9, %ymm10, %ymm9 -vpmullw %ymm14, %ymm9, %ymm9 -vpsubw %ymm6, %ymm9, %ymm9 -vpsrlw $3, %ymm9, %ymm9 -vpsubw %ymm3, %ymm9, %ymm9 -vpsubw %ymm9, %ymm3, %ymm3 -vpsubw %ymm3, %ymm6, %ymm6 -vpmullw %ymm13, %ymm9, %ymm9 -vpsubw %ymm9, %ymm6, %ymm6 -vpshufb shuf48_16(%rip), %ymm2, %ymm2 -vpand mask3_5_3_5(%rip), %ymm2, %ymm10 -vpand mask5_3_5_3(%rip), %ymm2, %ymm2 -vpermq $206, %ymm10, %ymm10 -vpand mask_keephigh(%rip), %ymm10, %ymm4 -vpor %ymm4, %ymm2, %ymm2 -vpaddw 2080(%r8), %ymm5, %ymm5 -vpaddw %ymm2, %ymm5, %ymm5 -vmovdqa %xmm10, 2080(%r8) -vpshufb shuf48_16(%rip), %ymm9, %ymm9 -vpand mask3_5_3_5(%rip), %ymm9, %ymm10 -vpand mask5_3_5_3(%rip), %ymm9, %ymm9 -vpermq $206, %ymm10, %ymm10 -vpand mask_keephigh(%rip), %ymm10, %ymm4 -vpor %ymm4, %ymm9, %ymm9 -vpaddw 2336(%r8), %ymm6, %ymm6 -vpaddw %ymm9, %ymm6, %ymm6 -vmovdqa %xmm10, 2336(%r8) -vpshufb shuf48_16(%rip), %ymm11, %ymm11 -vpand mask3_5_3_5(%rip), %ymm11, %ymm10 -vpand mask5_3_5_3(%rip), %ymm11, %ymm11 -vpermq $206, %ymm10, %ymm10 -vpand mask_keephigh(%rip), %ymm10, %ymm4 -vpor %ymm4, %ymm11, %ymm11 -vpaddw 2592(%r8), %ymm8, %ymm8 -vpaddw %ymm11, %ymm8, %ymm8 -vmovdqa %xmm10, 2592(%r8) -vpand mask_mod8192(%rip), %ymm5, %ymm5 -vmovdqu %ymm5, 120(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %ymm6, 472(%rdi) -vpand mask_mod8192(%rip), %ymm8, %ymm8 -vmovdqu %ymm8, 824(%rdi) -vpand mask_mod8192(%rip), %ymm3, %ymm3 -vmovdqu %ymm3, 1176(%rdi) -vmovdqa 64(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm9 -vpunpckhwd const0(%rip), %ymm11, %ymm2 -vpslld $1, %ymm9, %ymm9 -vpslld $1, %ymm2, %ymm2 -vmovdqa 320(%r8), %ymm3 -vpunpcklwd const0(%rip), %ymm3, %ymm8 -vpunpckhwd const0(%rip), %ymm3, %ymm3 -vmovdqa 576(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm5 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm5, %ymm8, %ymm10 -vpaddd %ymm6, %ymm3, %ymm4 -vpsubd %ymm9, %ymm10, %ymm10 -vpsubd %ymm2, %ymm4, %ymm4 -vpsubd %ymm5, %ymm8, %ymm5 -vpsubd %ymm6, %ymm3, %ymm6 -vpsrld $1, %ymm5, %ymm5 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm5, %ymm5 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm5, %ymm6 -vmovdqa 1600(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm3 -vpunpckhwd const0(%rip), %ymm5, %ymm8 -vpslld $1, %ymm3, %ymm3 -vpslld $1, %ymm8, %ymm8 -vpsubd %ymm3, %ymm10, %ymm10 -vpsubd %ymm8, %ymm4, %ymm4 -vpsrld $1, %ymm10, %ymm10 -vpsrld $1, %ymm4, %ymm4 -vpand mask32_to_16(%rip), %ymm10, %ymm10 -vpand mask32_to_16(%rip), %ymm4, %ymm4 -vpackusdw %ymm4, %ymm10, %ymm4 -vmovdqa 832(%r8), %ymm10 -vpaddw 1088(%r8), %ymm10, %ymm8 -vpsubw 1088(%r8), %ymm10, %ymm10 -vpsrlw $2, %ymm10, %ymm10 -vpsubw %ymm6, %ymm10, %ymm10 -vpmullw %ymm14, %ymm10, %ymm10 -vpsllw $1, %ymm11, %ymm3 -vpsubw %ymm3, %ymm8, %ymm3 -vpsllw $7, %ymm5, %ymm8 -vpsubw %ymm8, %ymm3, %ymm8 -vpsrlw $3, %ymm8, %ymm8 -vpsubw %ymm4, %ymm8, %ymm8 -vmovdqa 1344(%r8), %ymm3 -vpsubw %ymm11, %ymm3, %ymm3 -vpmullw %ymm15, %ymm5, %ymm2 -vpsubw %ymm2, %ymm3, %ymm2 -vpmullw %ymm14, %ymm8, %ymm8 -vpsubw %ymm8, %ymm4, %ymm4 -vpmullw %ymm12, %ymm8, %ymm3 -vpaddw %ymm3, %ymm4, %ymm3 -vpmullw %ymm12, %ymm3, %ymm3 -vpsubw %ymm3, %ymm2, %ymm3 -vpmullw %ymm14, %ymm3, %ymm3 -vpsubw %ymm6, %ymm3, %ymm3 -vpsrlw $3, %ymm3, %ymm3 -vpsubw %ymm10, %ymm3, %ymm3 -vpsubw %ymm3, %ymm10, %ymm10 -vpsubw %ymm10, %ymm6, %ymm6 -vpmullw %ymm13, %ymm3, %ymm3 -vpsubw %ymm3, %ymm6, %ymm6 -vpshufb shuf48_16(%rip), %ymm8, %ymm8 -vpand mask3_5_3_5(%rip), %ymm8, %ymm2 -vpand mask5_3_5_3(%rip), %ymm8, %ymm8 -vpermq $206, %ymm2, %ymm2 -vpand mask_keephigh(%rip), %ymm2, %ymm9 -vpor %ymm9, %ymm8, %ymm8 -vpaddw 2112(%r8), %ymm11, %ymm11 -vpaddw %ymm8, %ymm11, %ymm11 -vmovdqa %xmm2, 2112(%r8) -vpshufb shuf48_16(%rip), %ymm3, %ymm3 -vpand mask3_5_3_5(%rip), %ymm3, %ymm2 -vpand mask5_3_5_3(%rip), %ymm3, %ymm3 -vpermq $206, %ymm2, %ymm2 -vpand mask_keephigh(%rip), %ymm2, %ymm9 -vpor %ymm9, %ymm3, %ymm3 -vpaddw 2368(%r8), %ymm6, %ymm6 -vpaddw %ymm3, %ymm6, %ymm6 -vmovdqa %xmm2, 2368(%r8) -vpshufb shuf48_16(%rip), %ymm5, %ymm5 -vpand mask3_5_3_5(%rip), %ymm5, %ymm2 -vpand mask5_3_5_3(%rip), %ymm5, %ymm5 -vpermq $206, %ymm2, %ymm2 -vpand mask_keephigh(%rip), %ymm2, %ymm9 -vpor %ymm9, %ymm5, %ymm5 -vpaddw 2624(%r8), %ymm4, %ymm4 -vpaddw %ymm5, %ymm4, %ymm4 -vmovdqa %xmm2, 2624(%r8) -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 208(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %ymm6, 560(%rdi) -vpand mask_mod8192(%rip), %ymm4, %ymm4 -vmovdqu %ymm4, 912(%rdi) -vpand mask_mod8192(%rip), %ymm10, %ymm10 -vmovdqu %ymm10, 1264(%rdi) -vmovdqa 96(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm3 -vpunpckhwd const0(%rip), %ymm5, %ymm8 -vpslld $1, %ymm3, %ymm3 -vpslld $1, %ymm8, %ymm8 -vmovdqa 352(%r8), %ymm10 -vpunpcklwd const0(%rip), %ymm10, %ymm4 -vpunpckhwd const0(%rip), %ymm10, %ymm10 -vmovdqa 608(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm11 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm11, %ymm4, %ymm2 -vpaddd %ymm6, %ymm10, %ymm9 -vpsubd %ymm3, %ymm2, %ymm2 -vpsubd %ymm8, %ymm9, %ymm9 -vpsubd %ymm11, %ymm4, %ymm11 -vpsubd %ymm6, %ymm10, %ymm6 -vpsrld $1, %ymm11, %ymm11 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm11, %ymm11 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm11, %ymm6 -vmovdqa 1632(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm10 -vpunpckhwd const0(%rip), %ymm11, %ymm4 -vpslld $1, %ymm10, %ymm10 -vpslld $1, %ymm4, %ymm4 -vpsubd %ymm10, %ymm2, %ymm2 -vpsubd %ymm4, %ymm9, %ymm9 -vpsrld $1, %ymm2, %ymm2 -vpsrld $1, %ymm9, %ymm9 -vpand mask32_to_16(%rip), %ymm2, %ymm2 -vpand mask32_to_16(%rip), %ymm9, %ymm9 -vpackusdw %ymm9, %ymm2, %ymm9 -vmovdqa 864(%r8), %ymm2 -vpaddw 1120(%r8), %ymm2, %ymm4 -vpsubw 1120(%r8), %ymm2, %ymm2 -vpsrlw $2, %ymm2, %ymm2 -vpsubw %ymm6, %ymm2, %ymm2 -vpmullw %ymm14, %ymm2, %ymm2 -vpsllw $1, %ymm5, %ymm10 -vpsubw %ymm10, %ymm4, %ymm10 -vpsllw $7, %ymm11, %ymm4 -vpsubw %ymm4, %ymm10, %ymm4 -vpsrlw $3, %ymm4, %ymm4 -vpsubw %ymm9, %ymm4, %ymm4 -vmovdqa 1376(%r8), %ymm10 -vpsubw %ymm5, %ymm10, %ymm10 -vpmullw %ymm15, %ymm11, %ymm8 -vpsubw %ymm8, %ymm10, %ymm8 -vpmullw %ymm14, %ymm4, %ymm4 -vpsubw %ymm4, %ymm9, %ymm9 -vpmullw %ymm12, %ymm4, %ymm10 -vpaddw %ymm10, %ymm9, %ymm10 -vpmullw %ymm12, %ymm10, %ymm10 -vpsubw %ymm10, %ymm8, %ymm10 -vpmullw %ymm14, %ymm10, %ymm10 -vpsubw %ymm6, %ymm10, %ymm10 -vpsrlw $3, %ymm10, %ymm10 -vpsubw %ymm2, %ymm10, %ymm10 -vpsubw %ymm10, %ymm2, %ymm2 -vpsubw %ymm2, %ymm6, %ymm6 -vpmullw %ymm13, %ymm10, %ymm10 -vpsubw %ymm10, %ymm6, %ymm6 -vpshufb shuf48_16(%rip), %ymm4, %ymm4 -vpand mask3_5_3_5(%rip), %ymm4, %ymm8 -vpand mask5_3_5_3(%rip), %ymm4, %ymm4 -vpermq $206, %ymm8, %ymm8 -vpand mask_keephigh(%rip), %ymm8, %ymm3 -vpor %ymm3, %ymm4, %ymm4 -vpaddw 2144(%r8), %ymm5, %ymm5 -vpaddw %ymm4, %ymm5, %ymm5 -vmovdqa %xmm8, 2144(%r8) -vpshufb shuf48_16(%rip), %ymm10, %ymm10 -vpand mask3_5_3_5(%rip), %ymm10, %ymm8 -vpand mask5_3_5_3(%rip), %ymm10, %ymm10 -vpermq $206, %ymm8, %ymm8 -vpand mask_keephigh(%rip), %ymm8, %ymm3 -vpor %ymm3, %ymm10, %ymm10 -vpaddw 2400(%r8), %ymm6, %ymm6 -vpaddw %ymm10, %ymm6, %ymm6 -vmovdqa %xmm8, 2400(%r8) -vpshufb shuf48_16(%rip), %ymm11, %ymm11 -vpand mask3_5_3_5(%rip), %ymm11, %ymm8 -vpand mask5_3_5_3(%rip), %ymm11, %ymm11 -vpermq $206, %ymm8, %ymm8 -vpand mask_keephigh(%rip), %ymm8, %ymm3 -vpor %ymm3, %ymm11, %ymm11 -vpaddw 2656(%r8), %ymm9, %ymm9 -vpaddw %ymm11, %ymm9, %ymm9 -vmovdqa %xmm8, 2656(%r8) -vpand mask_mod8192(%rip), %ymm5, %ymm5 -vmovdqu %ymm5, 296(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %ymm6, 648(%rdi) -vpand mask_mod8192(%rip), %ymm9, %ymm9 -vmovdqu %ymm9, 1000(%rdi) -vpand mask_mod8192(%rip), %ymm2, %ymm2 -vmovdqu %ymm2, 1352(%rdi) -vmovdqa 128(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm10 -vpunpckhwd const0(%rip), %ymm11, %ymm4 -vpslld $1, %ymm10, %ymm10 -vpslld $1, %ymm4, %ymm4 -vmovdqa 384(%r8), %ymm2 -vpunpcklwd const0(%rip), %ymm2, %ymm9 -vpunpckhwd const0(%rip), %ymm2, %ymm2 -vmovdqa 640(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm5 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm5, %ymm9, %ymm8 -vpaddd %ymm6, %ymm2, %ymm3 -vpsubd %ymm10, %ymm8, %ymm8 -vpsubd %ymm4, %ymm3, %ymm3 -vpsubd %ymm5, %ymm9, %ymm5 -vpsubd %ymm6, %ymm2, %ymm6 -vpsrld $1, %ymm5, %ymm5 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm5, %ymm5 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm5, %ymm6 -vmovdqa 1664(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm2 -vpunpckhwd const0(%rip), %ymm5, %ymm9 -vpslld $1, %ymm2, %ymm2 -vpslld $1, %ymm9, %ymm9 -vpsubd %ymm2, %ymm8, %ymm8 -vpsubd %ymm9, %ymm3, %ymm3 -vpsrld $1, %ymm8, %ymm8 -vpsrld $1, %ymm3, %ymm3 -vpand mask32_to_16(%rip), %ymm8, %ymm8 -vpand mask32_to_16(%rip), %ymm3, %ymm3 -vpackusdw %ymm3, %ymm8, %ymm3 -vmovdqa 896(%r8), %ymm8 -vpaddw 1152(%r8), %ymm8, %ymm9 -vpsubw 1152(%r8), %ymm8, %ymm8 -vpsrlw $2, %ymm8, %ymm8 -vpsubw %ymm6, %ymm8, %ymm8 -vpmullw %ymm14, %ymm8, %ymm8 -vpsllw $1, %ymm11, %ymm2 -vpsubw %ymm2, %ymm9, %ymm2 -vpsllw $7, %ymm5, %ymm9 -vpsubw %ymm9, %ymm2, %ymm9 -vpsrlw $3, %ymm9, %ymm9 -vpsubw %ymm3, %ymm9, %ymm9 -vmovdqa 1408(%r8), %ymm2 -vpsubw %ymm11, %ymm2, %ymm2 -vpmullw %ymm15, %ymm5, %ymm4 -vpsubw %ymm4, %ymm2, %ymm4 -vpmullw %ymm14, %ymm9, %ymm9 -vpsubw %ymm9, %ymm3, %ymm3 -vpmullw %ymm12, %ymm9, %ymm2 -vpaddw %ymm2, %ymm3, %ymm2 -vpmullw %ymm12, %ymm2, %ymm2 -vpsubw %ymm2, %ymm4, %ymm2 -vpmullw %ymm14, %ymm2, %ymm2 -vpsubw %ymm6, %ymm2, %ymm2 -vpsrlw $3, %ymm2, %ymm2 -vpsubw %ymm8, %ymm2, %ymm2 -vpsubw %ymm2, %ymm8, %ymm8 -vpsubw %ymm8, %ymm6, %ymm6 -vpmullw %ymm13, %ymm2, %ymm2 -vpsubw %ymm2, %ymm6, %ymm6 -vmovdqu 384(%rdi), %ymm4 -vmovdqu 736(%rdi), %ymm10 -vmovdqu 1088(%rdi), %ymm7 -vpaddw %ymm11, %ymm4, %ymm11 -vpaddw %ymm6, %ymm10, %ymm6 -vpaddw %ymm3, %ymm7, %ymm3 -vpshufb shuf48_16(%rip), %ymm8, %ymm8 -vpand mask3_5_3_5(%rip), %ymm8, %ymm7 -vpand mask5_3_5_3(%rip), %ymm8, %ymm8 -vpermq $206, %ymm7, %ymm7 -vpand mask_keephigh(%rip), %ymm7, %ymm10 -vpor %ymm10, %ymm8, %ymm8 -vmovdqu 32(%rdi), %ymm10 -vpaddw 1920(%r8), %ymm10, %ymm10 -vpaddw %ymm8, %ymm10, %ymm10 -vpand mask_mod8192(%rip), %ymm10, %ymm10 -vmovdqu %ymm10, 32(%rdi) -vmovdqa %xmm7, 1920(%r8) -vpshufb shuf48_16(%rip), %ymm9, %ymm9 -vpand mask3_5_3_5(%rip), %ymm9, %ymm7 -vpand mask5_3_5_3(%rip), %ymm9, %ymm9 -vpermq $206, %ymm7, %ymm7 -vpand mask_keephigh(%rip), %ymm7, %ymm10 -vpor %ymm10, %ymm9, %ymm9 -vpaddw 2176(%r8), %ymm11, %ymm11 -vpaddw %ymm9, %ymm11, %ymm11 -vmovdqa %xmm7, 2176(%r8) -vpshufb shuf48_16(%rip), %ymm2, %ymm2 -vpand mask3_5_3_5(%rip), %ymm2, %ymm7 -vpand mask5_3_5_3(%rip), %ymm2, %ymm2 -vpermq $206, %ymm7, %ymm7 -vpand mask_keephigh(%rip), %ymm7, %ymm10 -vpor %ymm10, %ymm2, %ymm2 -vpaddw 2432(%r8), %ymm6, %ymm6 -vpaddw %ymm2, %ymm6, %ymm6 -vmovdqa %xmm7, 2432(%r8) -vpshufb shuf48_16(%rip), %ymm5, %ymm5 -vpand mask3_5_3_5(%rip), %ymm5, %ymm7 -vpand mask5_3_5_3(%rip), %ymm5, %ymm5 -vpermq $206, %ymm7, %ymm7 -vpand mask_keephigh(%rip), %ymm7, %ymm10 -vpor %ymm10, %ymm5, %ymm5 -vpaddw 2688(%r8), %ymm3, %ymm3 -vpaddw %ymm5, %ymm3, %ymm3 -vmovdqa %xmm7, 2688(%r8) -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 384(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %ymm6, 736(%rdi) -vpand mask_mod8192(%rip), %ymm3, %ymm3 -vmovdqu %ymm3, 1088(%rdi) -vmovdqa 160(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm2 -vpunpckhwd const0(%rip), %ymm5, %ymm9 -vpslld $1, %ymm2, %ymm2 -vpslld $1, %ymm9, %ymm9 -vmovdqa 416(%r8), %ymm8 -vpunpcklwd const0(%rip), %ymm8, %ymm3 -vpunpckhwd const0(%rip), %ymm8, %ymm8 -vmovdqa 672(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm11 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm11, %ymm3, %ymm7 -vpaddd %ymm6, %ymm8, %ymm10 -vpsubd %ymm2, %ymm7, %ymm7 -vpsubd %ymm9, %ymm10, %ymm10 -vpsubd %ymm11, %ymm3, %ymm11 -vpsubd %ymm6, %ymm8, %ymm6 -vpsrld $1, %ymm11, %ymm11 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm11, %ymm11 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm11, %ymm6 -vmovdqa 1696(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm8 -vpunpckhwd const0(%rip), %ymm11, %ymm3 -vpslld $1, %ymm8, %ymm8 -vpslld $1, %ymm3, %ymm3 -vpsubd %ymm8, %ymm7, %ymm7 -vpsubd %ymm3, %ymm10, %ymm10 -vpsrld $1, %ymm7, %ymm7 -vpsrld $1, %ymm10, %ymm10 -vpand mask32_to_16(%rip), %ymm7, %ymm7 -vpand mask32_to_16(%rip), %ymm10, %ymm10 -vpackusdw %ymm10, %ymm7, %ymm10 -vmovdqa 928(%r8), %ymm7 -vpaddw 1184(%r8), %ymm7, %ymm3 -vpsubw 1184(%r8), %ymm7, %ymm7 -vpsrlw $2, %ymm7, %ymm7 -vpsubw %ymm6, %ymm7, %ymm7 -vpmullw %ymm14, %ymm7, %ymm7 -vpsllw $1, %ymm5, %ymm8 -vpsubw %ymm8, %ymm3, %ymm8 -vpsllw $7, %ymm11, %ymm3 -vpsubw %ymm3, %ymm8, %ymm3 -vpsrlw $3, %ymm3, %ymm3 -vpsubw %ymm10, %ymm3, %ymm3 -vmovdqa 1440(%r8), %ymm8 -vpsubw %ymm5, %ymm8, %ymm8 -vpmullw %ymm15, %ymm11, %ymm9 -vpsubw %ymm9, %ymm8, %ymm9 -vpmullw %ymm14, %ymm3, %ymm3 -vpsubw %ymm3, %ymm10, %ymm10 -vpmullw %ymm12, %ymm3, %ymm8 -vpaddw %ymm8, %ymm10, %ymm8 -vpmullw %ymm12, %ymm8, %ymm8 -vpsubw %ymm8, %ymm9, %ymm8 -vpmullw %ymm14, %ymm8, %ymm8 -vpsubw %ymm6, %ymm8, %ymm8 -vpsrlw $3, %ymm8, %ymm8 -vpsubw %ymm7, %ymm8, %ymm8 -vpsubw %ymm8, %ymm7, %ymm7 -vpsubw %ymm7, %ymm6, %ymm6 -vpmullw %ymm13, %ymm8, %ymm8 -vpsubw %ymm8, %ymm6, %ymm6 -vmovdqu 472(%rdi), %ymm9 -vmovdqu 824(%rdi), %ymm2 -vmovdqu 1176(%rdi), %ymm4 -vpaddw %ymm5, %ymm9, %ymm5 -vpaddw %ymm6, %ymm2, %ymm6 -vpaddw %ymm10, %ymm4, %ymm10 -vpshufb shuf48_16(%rip), %ymm7, %ymm7 -vpand mask3_5_3_5(%rip), %ymm7, %ymm4 -vpand mask5_3_5_3(%rip), %ymm7, %ymm7 -vpermq $206, %ymm4, %ymm4 -vpand mask_keephigh(%rip), %ymm4, %ymm2 -vpor %ymm2, %ymm7, %ymm7 -vmovdqu 120(%rdi), %ymm2 -vpaddw 1952(%r8), %ymm2, %ymm2 -vpaddw %ymm7, %ymm2, %ymm2 -vpand mask_mod8192(%rip), %ymm2, %ymm2 -vmovdqu %ymm2, 120(%rdi) -vmovdqa %xmm4, 1952(%r8) -vpshufb shuf48_16(%rip), %ymm3, %ymm3 -vpand mask3_5_3_5(%rip), %ymm3, %ymm4 -vpand mask5_3_5_3(%rip), %ymm3, %ymm3 -vpermq $206, %ymm4, %ymm4 -vpand mask_keephigh(%rip), %ymm4, %ymm2 -vpor %ymm2, %ymm3, %ymm3 -vpaddw 2208(%r8), %ymm5, %ymm5 -vpaddw %ymm3, %ymm5, %ymm5 -vmovdqa %xmm4, 2208(%r8) -vpshufb shuf48_16(%rip), %ymm8, %ymm8 -vpand mask3_5_3_5(%rip), %ymm8, %ymm4 -vpand mask5_3_5_3(%rip), %ymm8, %ymm8 -vpermq $206, %ymm4, %ymm4 -vpand mask_keephigh(%rip), %ymm4, %ymm2 -vpor %ymm2, %ymm8, %ymm8 -vpaddw 2464(%r8), %ymm6, %ymm6 -vpaddw %ymm8, %ymm6, %ymm6 -vmovdqa %xmm4, 2464(%r8) -vpshufb shuf48_16(%rip), %ymm11, %ymm11 -vpand mask3_5_3_5(%rip), %ymm11, %ymm4 -vpand mask5_3_5_3(%rip), %ymm11, %ymm11 -vpermq $206, %ymm4, %ymm4 -vpand mask_keephigh(%rip), %ymm4, %ymm2 -vpor %ymm2, %ymm11, %ymm11 -vpaddw 2720(%r8), %ymm10, %ymm10 -vpaddw %ymm11, %ymm10, %ymm10 -vmovdqa %xmm4, 2720(%r8) -vpand mask_mod8192(%rip), %ymm5, %ymm5 -vmovdqu %ymm5, 472(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %ymm6, 824(%rdi) -vpand mask_mod8192(%rip), %ymm10, %ymm10 -vmovdqu %ymm10, 1176(%rdi) -vmovdqa 192(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm8 -vpunpckhwd const0(%rip), %ymm11, %ymm3 -vpslld $1, %ymm8, %ymm8 -vpslld $1, %ymm3, %ymm3 -vmovdqa 448(%r8), %ymm7 -vpunpcklwd const0(%rip), %ymm7, %ymm10 -vpunpckhwd const0(%rip), %ymm7, %ymm7 -vmovdqa 704(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm5 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm5, %ymm10, %ymm4 -vpaddd %ymm6, %ymm7, %ymm2 -vpsubd %ymm8, %ymm4, %ymm4 -vpsubd %ymm3, %ymm2, %ymm2 -vpsubd %ymm5, %ymm10, %ymm5 -vpsubd %ymm6, %ymm7, %ymm6 -vpsrld $1, %ymm5, %ymm5 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm5, %ymm5 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm5, %ymm6 -vmovdqa 1728(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm7 -vpunpckhwd const0(%rip), %ymm5, %ymm10 -vpslld $1, %ymm7, %ymm7 -vpslld $1, %ymm10, %ymm10 -vpsubd %ymm7, %ymm4, %ymm4 -vpsubd %ymm10, %ymm2, %ymm2 -vpsrld $1, %ymm4, %ymm4 -vpsrld $1, %ymm2, %ymm2 -vpand mask32_to_16(%rip), %ymm4, %ymm4 -vpand mask32_to_16(%rip), %ymm2, %ymm2 -vpackusdw %ymm2, %ymm4, %ymm2 -vmovdqa 960(%r8), %ymm4 -vpaddw 1216(%r8), %ymm4, %ymm10 -vpsubw 1216(%r8), %ymm4, %ymm4 -vpsrlw $2, %ymm4, %ymm4 -vpsubw %ymm6, %ymm4, %ymm4 -vpmullw %ymm14, %ymm4, %ymm4 -vpsllw $1, %ymm11, %ymm7 -vpsubw %ymm7, %ymm10, %ymm7 -vpsllw $7, %ymm5, %ymm10 -vpsubw %ymm10, %ymm7, %ymm10 -vpsrlw $3, %ymm10, %ymm10 -vpsubw %ymm2, %ymm10, %ymm10 -vmovdqa 1472(%r8), %ymm7 -vpsubw %ymm11, %ymm7, %ymm7 -vpmullw %ymm15, %ymm5, %ymm3 -vpsubw %ymm3, %ymm7, %ymm3 -vpmullw %ymm14, %ymm10, %ymm10 -vpsubw %ymm10, %ymm2, %ymm2 -vpmullw %ymm12, %ymm10, %ymm7 -vpaddw %ymm7, %ymm2, %ymm7 -vpmullw %ymm12, %ymm7, %ymm7 -vpsubw %ymm7, %ymm3, %ymm7 -vpmullw %ymm14, %ymm7, %ymm7 -vpsubw %ymm6, %ymm7, %ymm7 -vpsrlw $3, %ymm7, %ymm7 -vpsubw %ymm4, %ymm7, %ymm7 -vpsubw %ymm7, %ymm4, %ymm4 -vpsubw %ymm4, %ymm6, %ymm6 -vpmullw %ymm13, %ymm7, %ymm7 -vpsubw %ymm7, %ymm6, %ymm6 -vmovdqu 560(%rdi), %ymm3 -vmovdqu 912(%rdi), %ymm8 -vmovdqu 1264(%rdi), %ymm9 -vpaddw %ymm11, %ymm3, %ymm11 -vpaddw %ymm6, %ymm8, %ymm6 -vpaddw %ymm2, %ymm9, %ymm2 -vpshufb shuf48_16(%rip), %ymm4, %ymm4 -vpand mask3_5_3_5(%rip), %ymm4, %ymm9 -vpand mask5_3_5_3(%rip), %ymm4, %ymm4 -vpermq $206, %ymm9, %ymm9 -vpand mask_keephigh(%rip), %ymm9, %ymm8 -vpor %ymm8, %ymm4, %ymm4 -vmovdqu 208(%rdi), %ymm8 -vpaddw 1984(%r8), %ymm8, %ymm8 -vpaddw %ymm4, %ymm8, %ymm8 -vpand mask_mod8192(%rip), %ymm8, %ymm8 -vmovdqu %ymm8, 208(%rdi) -vmovdqa %xmm9, 1984(%r8) -vpshufb shuf48_16(%rip), %ymm10, %ymm10 -vpand mask3_5_3_5(%rip), %ymm10, %ymm9 -vpand mask5_3_5_3(%rip), %ymm10, %ymm10 -vpermq $206, %ymm9, %ymm9 -vpand mask_keephigh(%rip), %ymm9, %ymm8 -vpor %ymm8, %ymm10, %ymm10 -vpaddw 2240(%r8), %ymm11, %ymm11 -vpaddw %ymm10, %ymm11, %ymm11 -vmovdqa %xmm9, 2240(%r8) -vpshufb shuf48_16(%rip), %ymm7, %ymm7 -vpand mask3_5_3_5(%rip), %ymm7, %ymm9 -vpand mask5_3_5_3(%rip), %ymm7, %ymm7 -vpermq $206, %ymm9, %ymm9 -vpand mask_keephigh(%rip), %ymm9, %ymm8 -vpor %ymm8, %ymm7, %ymm7 -vpaddw 2496(%r8), %ymm6, %ymm6 -vpaddw %ymm7, %ymm6, %ymm6 -vmovdqa %xmm9, 2496(%r8) -vpshufb shuf48_16(%rip), %ymm5, %ymm5 -vpand mask3_5_3_5(%rip), %ymm5, %ymm9 -vpand mask5_3_5_3(%rip), %ymm5, %ymm5 -vpermq $206, %ymm9, %ymm9 -vpand mask_keephigh(%rip), %ymm9, %ymm8 -vpor %ymm8, %ymm5, %ymm5 -vpaddw 2752(%r8), %ymm2, %ymm2 -vpaddw %ymm5, %ymm2, %ymm2 -vmovdqa %xmm9, 2752(%r8) -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 560(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %ymm6, 912(%rdi) -vpand mask_mod8192(%rip), %ymm2, %ymm2 -vmovdqu %ymm2, 1264(%rdi) -vmovdqa 224(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm7 -vpunpckhwd const0(%rip), %ymm5, %ymm10 -vpslld $1, %ymm7, %ymm7 -vpslld $1, %ymm10, %ymm10 -vmovdqa 480(%r8), %ymm4 -vpunpcklwd const0(%rip), %ymm4, %ymm2 -vpunpckhwd const0(%rip), %ymm4, %ymm4 -vmovdqa 736(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm11 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm11, %ymm2, %ymm9 -vpaddd %ymm6, %ymm4, %ymm8 -vpsubd %ymm7, %ymm9, %ymm9 -vpsubd %ymm10, %ymm8, %ymm8 -vpsubd %ymm11, %ymm2, %ymm11 -vpsubd %ymm6, %ymm4, %ymm6 -vpsrld $1, %ymm11, %ymm11 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm11, %ymm11 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm11, %ymm6 -vmovdqa 1760(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm4 -vpunpckhwd const0(%rip), %ymm11, %ymm2 -vpslld $1, %ymm4, %ymm4 -vpslld $1, %ymm2, %ymm2 -vpsubd %ymm4, %ymm9, %ymm9 -vpsubd %ymm2, %ymm8, %ymm8 -vpsrld $1, %ymm9, %ymm9 -vpsrld $1, %ymm8, %ymm8 -vpand mask32_to_16(%rip), %ymm9, %ymm9 -vpand mask32_to_16(%rip), %ymm8, %ymm8 -vpackusdw %ymm8, %ymm9, %ymm8 -vmovdqa 992(%r8), %ymm9 -vpaddw 1248(%r8), %ymm9, %ymm2 -vpsubw 1248(%r8), %ymm9, %ymm9 -vpsrlw $2, %ymm9, %ymm9 -vpsubw %ymm6, %ymm9, %ymm9 -vpmullw %ymm14, %ymm9, %ymm9 -vpsllw $1, %ymm5, %ymm4 -vpsubw %ymm4, %ymm2, %ymm4 -vpsllw $7, %ymm11, %ymm2 -vpsubw %ymm2, %ymm4, %ymm2 -vpsrlw $3, %ymm2, %ymm2 -vpsubw %ymm8, %ymm2, %ymm2 -vmovdqa 1504(%r8), %ymm4 -vpsubw %ymm5, %ymm4, %ymm4 -vpmullw %ymm15, %ymm11, %ymm10 -vpsubw %ymm10, %ymm4, %ymm10 -vpmullw %ymm14, %ymm2, %ymm2 -vpsubw %ymm2, %ymm8, %ymm8 -vpmullw %ymm12, %ymm2, %ymm4 -vpaddw %ymm4, %ymm8, %ymm4 -vpmullw %ymm12, %ymm4, %ymm4 -vpsubw %ymm4, %ymm10, %ymm4 -vpmullw %ymm14, %ymm4, %ymm4 -vpsubw %ymm6, %ymm4, %ymm4 -vpsrlw $3, %ymm4, %ymm4 -vpsubw %ymm9, %ymm4, %ymm4 -vpsubw %ymm4, %ymm9, %ymm9 -vpsubw %ymm9, %ymm6, %ymm6 -vpmullw %ymm13, %ymm4, %ymm4 -vpsubw %ymm4, %ymm6, %ymm6 -vmovdqu 648(%rdi), %ymm10 -vmovdqu 1000(%rdi), %ymm7 -vmovdqu 1352(%rdi), %ymm3 -vpaddw %ymm5, %ymm10, %ymm5 -vpaddw %ymm6, %ymm7, %ymm6 -vpaddw %ymm8, %ymm3, %ymm8 -vpshufb shuf48_16(%rip), %ymm9, %ymm9 -vpand mask3_5_3_5(%rip), %ymm9, %ymm3 -vpand mask5_3_5_3(%rip), %ymm9, %ymm9 -vpermq $206, %ymm3, %ymm3 -vpand mask_keephigh(%rip), %ymm3, %ymm7 -vpor %ymm7, %ymm9, %ymm9 -vmovdqu 296(%rdi), %ymm7 -vpaddw 2016(%r8), %ymm7, %ymm7 -vpaddw %ymm9, %ymm7, %ymm7 -vpand mask_mod8192(%rip), %ymm7, %ymm7 -vmovdqu %ymm7, 296(%rdi) -vmovdqa %xmm3, 2016(%r8) -vpshufb shuf48_16(%rip), %ymm2, %ymm2 -vpand mask3_5_3_5(%rip), %ymm2, %ymm3 -vpand mask5_3_5_3(%rip), %ymm2, %ymm2 -vpermq $206, %ymm3, %ymm3 -vpand mask_keephigh(%rip), %ymm3, %ymm7 -vpor %ymm7, %ymm2, %ymm2 -vpaddw 2272(%r8), %ymm5, %ymm5 -vpaddw %ymm2, %ymm5, %ymm5 -vmovdqa %xmm3, 2272(%r8) -vpshufb shuf48_16(%rip), %ymm4, %ymm4 -vpand mask3_5_3_5(%rip), %ymm4, %ymm3 -vpand mask5_3_5_3(%rip), %ymm4, %ymm4 -vpermq $206, %ymm3, %ymm3 -vpand mask_keephigh(%rip), %ymm3, %ymm7 -vpor %ymm7, %ymm4, %ymm4 -vpaddw 2528(%r8), %ymm6, %ymm6 -vpaddw %ymm4, %ymm6, %ymm6 -vmovdqa %xmm3, 2528(%r8) -vpshufb shuf48_16(%rip), %ymm11, %ymm11 -vpand mask3_5_3_5(%rip), %ymm11, %ymm3 -vpand mask5_3_5_3(%rip), %ymm11, %ymm11 -vpermq $206, %ymm3, %ymm3 -vpand mask_keephigh(%rip), %ymm3, %ymm7 -vpor %ymm7, %ymm11, %ymm11 -vpaddw 2784(%r8), %ymm8, %ymm8 -vpaddw %ymm11, %ymm8, %ymm8 -vmovdqa %xmm3, 2784(%r8) -vpand mask_mod8192(%rip), %ymm5, %ymm5 -vmovdqu %ymm5, 648(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %ymm6, 1000(%rdi) -vpand mask_mod8192(%rip), %ymm8, %ymm8 -vmovdqu %ymm8, 1352(%rdi) -vmovdqa 160(%r12), %ymm0 -vpsubw 256(%r12), %ymm0, %ymm0 -vmovdqa 544(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 352(%r12), %ymm1, %ymm1 -vpsubw 64(%r12), %ymm0, %ymm0 -vpaddw 448(%r12), %ymm0, %ymm0 -vmovdqa 736(%r12), %ymm2 -vpsubw 832(%r12), %ymm2, %ymm2 -vmovdqa 1120(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 928(%r12), %ymm3, %ymm3 -vpsubw 640(%r12), %ymm2, %ymm2 -vpaddw 1024(%r12), %ymm2, %ymm2 -vmovdqa 1312(%r12), %ymm4 -vpsubw 1408(%r12), %ymm4, %ymm4 -vmovdqa 1696(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 1504(%r12), %ymm5, %ymm5 -vpsubw 1216(%r12), %ymm4, %ymm4 -vpaddw 1600(%r12), %ymm4, %ymm4 -vpsubw 640(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 64(%r12), %ymm1, %ymm1 -vpaddw 1216(%r12), %ymm1, %ymm1 -vmovdqa 352(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 1504(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 928(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 64(%r12), %ymm8 -vmovdqa 928(%r12), %ymm9 -vmovdqa %ymm8, 0(%r8) -vmovdqa %ymm0, 32(%r8) -vmovdqa %ymm1, 64(%r8) -vmovdqa %ymm7, 96(%r8) -vmovdqa %ymm5, 128(%r8) -vmovdqa %ymm2, 160(%r8) -vmovdqa %ymm3, 192(%r8) -vmovdqa %ymm9, 224(%r8) -vmovdqa 1888(%r12), %ymm0 -vpsubw 1984(%r12), %ymm0, %ymm0 -vmovdqa 2272(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 2080(%r12), %ymm1, %ymm1 -vpsubw 1792(%r12), %ymm0, %ymm0 -vpaddw 2176(%r12), %ymm0, %ymm0 -vmovdqa 2464(%r12), %ymm2 -vpsubw 2560(%r12), %ymm2, %ymm2 -vmovdqa 2848(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 2656(%r12), %ymm3, %ymm3 -vpsubw 2368(%r12), %ymm2, %ymm2 -vpaddw 2752(%r12), %ymm2, %ymm2 -vmovdqa 3040(%r12), %ymm4 -vpsubw 3136(%r12), %ymm4, %ymm4 -vmovdqa 3424(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 3232(%r12), %ymm5, %ymm5 -vpsubw 2944(%r12), %ymm4, %ymm4 -vpaddw 3328(%r12), %ymm4, %ymm4 -vpsubw 2368(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 1792(%r12), %ymm1, %ymm1 -vpaddw 2944(%r12), %ymm1, %ymm1 -vmovdqa 2080(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 3232(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 2656(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 1792(%r12), %ymm8 -vmovdqa 2656(%r12), %ymm9 -vmovdqa %ymm8, 256(%r8) -vmovdqa %ymm0, 288(%r8) -vmovdqa %ymm1, 320(%r8) -vmovdqa %ymm7, 352(%r8) -vmovdqa %ymm5, 384(%r8) -vmovdqa %ymm2, 416(%r8) -vmovdqa %ymm3, 448(%r8) -vmovdqa %ymm9, 480(%r8) -vmovdqa 3616(%r12), %ymm0 -vpsubw 3712(%r12), %ymm0, %ymm0 -vmovdqa 4000(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 3808(%r12), %ymm1, %ymm1 -vpsubw 3520(%r12), %ymm0, %ymm0 -vpaddw 3904(%r12), %ymm0, %ymm0 -vmovdqa 4192(%r12), %ymm2 -vpsubw 4288(%r12), %ymm2, %ymm2 -vmovdqa 4576(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 4384(%r12), %ymm3, %ymm3 -vpsubw 4096(%r12), %ymm2, %ymm2 -vpaddw 4480(%r12), %ymm2, %ymm2 -vmovdqa 4768(%r12), %ymm4 -vpsubw 4864(%r12), %ymm4, %ymm4 -vmovdqa 5152(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 4960(%r12), %ymm5, %ymm5 -vpsubw 4672(%r12), %ymm4, %ymm4 -vpaddw 5056(%r12), %ymm4, %ymm4 -vpsubw 4096(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 3520(%r12), %ymm1, %ymm1 -vpaddw 4672(%r12), %ymm1, %ymm1 -vmovdqa 3808(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 4960(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 4384(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 3520(%r12), %ymm8 -vmovdqa 4384(%r12), %ymm9 -vmovdqa %ymm8, 512(%r8) -vmovdqa %ymm0, 544(%r8) -vmovdqa %ymm1, 576(%r8) -vmovdqa %ymm7, 608(%r8) -vmovdqa %ymm5, 640(%r8) -vmovdqa %ymm2, 672(%r8) -vmovdqa %ymm3, 704(%r8) -vmovdqa %ymm9, 736(%r8) -vmovdqa 5344(%r12), %ymm0 -vpsubw 5440(%r12), %ymm0, %ymm0 -vmovdqa 5728(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 5536(%r12), %ymm1, %ymm1 -vpsubw 5248(%r12), %ymm0, %ymm0 -vpaddw 5632(%r12), %ymm0, %ymm0 -vmovdqa 5920(%r12), %ymm2 -vpsubw 6016(%r12), %ymm2, %ymm2 -vmovdqa 6304(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 6112(%r12), %ymm3, %ymm3 -vpsubw 5824(%r12), %ymm2, %ymm2 -vpaddw 6208(%r12), %ymm2, %ymm2 -vmovdqa 6496(%r12), %ymm4 -vpsubw 6592(%r12), %ymm4, %ymm4 -vmovdqa 6880(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 6688(%r12), %ymm5, %ymm5 -vpsubw 6400(%r12), %ymm4, %ymm4 -vpaddw 6784(%r12), %ymm4, %ymm4 -vpsubw 5824(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 5248(%r12), %ymm1, %ymm1 -vpaddw 6400(%r12), %ymm1, %ymm1 -vmovdqa 5536(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 6688(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 6112(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 5248(%r12), %ymm8 -vmovdqa 6112(%r12), %ymm9 -vmovdqa %ymm8, 768(%r8) -vmovdqa %ymm0, 800(%r8) -vmovdqa %ymm1, 832(%r8) -vmovdqa %ymm7, 864(%r8) -vmovdqa %ymm5, 896(%r8) -vmovdqa %ymm2, 928(%r8) -vmovdqa %ymm3, 960(%r8) -vmovdqa %ymm9, 992(%r8) -vmovdqa 7072(%r12), %ymm0 -vpsubw 7168(%r12), %ymm0, %ymm0 -vmovdqa 7456(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 7264(%r12), %ymm1, %ymm1 -vpsubw 6976(%r12), %ymm0, %ymm0 -vpaddw 7360(%r12), %ymm0, %ymm0 -vmovdqa 7648(%r12), %ymm2 -vpsubw 7744(%r12), %ymm2, %ymm2 -vmovdqa 8032(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 7840(%r12), %ymm3, %ymm3 -vpsubw 7552(%r12), %ymm2, %ymm2 -vpaddw 7936(%r12), %ymm2, %ymm2 -vmovdqa 8224(%r12), %ymm4 -vpsubw 8320(%r12), %ymm4, %ymm4 -vmovdqa 8608(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 8416(%r12), %ymm5, %ymm5 -vpsubw 8128(%r12), %ymm4, %ymm4 -vpaddw 8512(%r12), %ymm4, %ymm4 -vpsubw 7552(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 6976(%r12), %ymm1, %ymm1 -vpaddw 8128(%r12), %ymm1, %ymm1 -vmovdqa 7264(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 8416(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 7840(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 6976(%r12), %ymm8 -vmovdqa 7840(%r12), %ymm9 -vmovdqa %ymm8, 1024(%r8) -vmovdqa %ymm0, 1056(%r8) -vmovdqa %ymm1, 1088(%r8) -vmovdqa %ymm7, 1120(%r8) -vmovdqa %ymm5, 1152(%r8) -vmovdqa %ymm2, 1184(%r8) -vmovdqa %ymm3, 1216(%r8) -vmovdqa %ymm9, 1248(%r8) -vmovdqa 8800(%r12), %ymm0 -vpsubw 8896(%r12), %ymm0, %ymm0 -vmovdqa 9184(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 8992(%r12), %ymm1, %ymm1 -vpsubw 8704(%r12), %ymm0, %ymm0 -vpaddw 9088(%r12), %ymm0, %ymm0 -vmovdqa 9376(%r12), %ymm2 -vpsubw 9472(%r12), %ymm2, %ymm2 -vmovdqa 9760(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 9568(%r12), %ymm3, %ymm3 -vpsubw 9280(%r12), %ymm2, %ymm2 -vpaddw 9664(%r12), %ymm2, %ymm2 -vmovdqa 9952(%r12), %ymm4 -vpsubw 10048(%r12), %ymm4, %ymm4 -vmovdqa 10336(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 10144(%r12), %ymm5, %ymm5 -vpsubw 9856(%r12), %ymm4, %ymm4 -vpaddw 10240(%r12), %ymm4, %ymm4 -vpsubw 9280(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 8704(%r12), %ymm1, %ymm1 -vpaddw 9856(%r12), %ymm1, %ymm1 -vmovdqa 8992(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 10144(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 9568(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 8704(%r12), %ymm8 -vmovdqa 9568(%r12), %ymm9 -vmovdqa %ymm8, 1280(%r8) -vmovdqa %ymm0, 1312(%r8) -vmovdqa %ymm1, 1344(%r8) -vmovdqa %ymm7, 1376(%r8) -vmovdqa %ymm5, 1408(%r8) -vmovdqa %ymm2, 1440(%r8) -vmovdqa %ymm3, 1472(%r8) -vmovdqa %ymm9, 1504(%r8) -vmovdqa 10528(%r12), %ymm0 -vpsubw 10624(%r12), %ymm0, %ymm0 -vmovdqa 10912(%r12), %ymm1 -vpsubw %ymm0, %ymm1, %ymm1 -vpsubw 10720(%r12), %ymm1, %ymm1 -vpsubw 10432(%r12), %ymm0, %ymm0 -vpaddw 10816(%r12), %ymm0, %ymm0 -vmovdqa 11104(%r12), %ymm2 -vpsubw 11200(%r12), %ymm2, %ymm2 -vmovdqa 11488(%r12), %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw 11296(%r12), %ymm3, %ymm3 -vpsubw 11008(%r12), %ymm2, %ymm2 -vpaddw 11392(%r12), %ymm2, %ymm2 -vmovdqa 11680(%r12), %ymm4 -vpsubw 11776(%r12), %ymm4, %ymm4 -vmovdqa 12064(%r12), %ymm5 -vpsubw %ymm4, %ymm5, %ymm5 -vpsubw 11872(%r12), %ymm5, %ymm5 -vpsubw 11584(%r12), %ymm4, %ymm4 -vpaddw 11968(%r12), %ymm4, %ymm4 -vpsubw 11008(%r12), %ymm1, %ymm1 -vpsubw %ymm1, %ymm5, %ymm5 -vpsubw %ymm3, %ymm5, %ymm5 -vpsubw 10432(%r12), %ymm1, %ymm1 -vpaddw 11584(%r12), %ymm1, %ymm1 -vmovdqa 10720(%r12), %ymm6 -vpsubw %ymm2, %ymm6, %ymm7 -vmovdqa 11872(%r12), %ymm2 -vpsubw %ymm7, %ymm2, %ymm2 -vpsubw 11296(%r12), %ymm2, %ymm2 -vpsubw %ymm0, %ymm7, %ymm7 -vpaddw %ymm4, %ymm7, %ymm7 -vmovdqa 10432(%r12), %ymm8 -vmovdqa 11296(%r12), %ymm9 -vmovdqa %ymm8, 1536(%r8) -vmovdqa %ymm0, 1568(%r8) -vmovdqa %ymm1, 1600(%r8) -vmovdqa %ymm7, 1632(%r8) -vmovdqa %ymm5, 1664(%r8) -vmovdqa %ymm2, 1696(%r8) -vmovdqa %ymm3, 1728(%r8) -vmovdqa %ymm9, 1760(%r8) -vmovdqa 0(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm4 -vpunpckhwd const0(%rip), %ymm11, %ymm2 -vpslld $1, %ymm4, %ymm4 -vpslld $1, %ymm2, %ymm2 -vmovdqa 256(%r8), %ymm9 -vpunpcklwd const0(%rip), %ymm9, %ymm8 -vpunpckhwd const0(%rip), %ymm9, %ymm9 -vmovdqa 512(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm5 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm5, %ymm8, %ymm3 -vpaddd %ymm6, %ymm9, %ymm7 -vpsubd %ymm4, %ymm3, %ymm3 -vpsubd %ymm2, %ymm7, %ymm7 -vpsubd %ymm5, %ymm8, %ymm5 -vpsubd %ymm6, %ymm9, %ymm6 -vpsrld $1, %ymm5, %ymm5 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm5, %ymm5 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm5, %ymm6 -vmovdqa 1536(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm9 -vpunpckhwd const0(%rip), %ymm5, %ymm8 -vpslld $1, %ymm9, %ymm9 -vpslld $1, %ymm8, %ymm8 -vpsubd %ymm9, %ymm3, %ymm3 -vpsubd %ymm8, %ymm7, %ymm7 -vpsrld $1, %ymm3, %ymm3 -vpsrld $1, %ymm7, %ymm7 -vpand mask32_to_16(%rip), %ymm3, %ymm3 -vpand mask32_to_16(%rip), %ymm7, %ymm7 -vpackusdw %ymm7, %ymm3, %ymm7 -vmovdqa 768(%r8), %ymm3 -vpaddw 1024(%r8), %ymm3, %ymm8 -vpsubw 1024(%r8), %ymm3, %ymm3 -vpsrlw $2, %ymm3, %ymm3 -vpsubw %ymm6, %ymm3, %ymm3 -vpmullw %ymm14, %ymm3, %ymm3 -vpsllw $1, %ymm11, %ymm9 -vpsubw %ymm9, %ymm8, %ymm9 -vpsllw $7, %ymm5, %ymm8 -vpsubw %ymm8, %ymm9, %ymm8 -vpsrlw $3, %ymm8, %ymm8 -vpsubw %ymm7, %ymm8, %ymm8 -vmovdqa 1280(%r8), %ymm9 -vpsubw %ymm11, %ymm9, %ymm9 -vpmullw %ymm15, %ymm5, %ymm2 -vpsubw %ymm2, %ymm9, %ymm2 -vpmullw %ymm14, %ymm8, %ymm8 -vpsubw %ymm8, %ymm7, %ymm7 -vpmullw %ymm12, %ymm8, %ymm9 -vpaddw %ymm9, %ymm7, %ymm9 -vpmullw %ymm12, %ymm9, %ymm9 -vpsubw %ymm9, %ymm2, %ymm9 -vpmullw %ymm14, %ymm9, %ymm9 -vpsubw %ymm6, %ymm9, %ymm9 -vpsrlw $3, %ymm9, %ymm9 -vpsubw %ymm3, %ymm9, %ymm9 -vpsubw %ymm9, %ymm3, %ymm3 -vpsubw %ymm3, %ymm6, %ymm6 -vpmullw %ymm13, %ymm9, %ymm9 -vpsubw %ymm9, %ymm6, %ymm6 -vpshufb shuf48_16(%rip), %ymm8, %ymm8 -vpand mask3_5_4_3_1(%rip), %ymm8, %ymm2 -vpand mask5_3_5_3(%rip), %ymm8, %ymm8 -vpermq $139, %ymm2, %ymm2 -vpand mask_keephigh(%rip), %ymm2, %ymm4 -vpor %ymm4, %ymm8, %ymm8 -vpaddw 2048(%r8), %ymm11, %ymm11 -vpaddw %ymm8, %ymm11, %ymm11 -vmovdqa %xmm2, 2048(%r8) -vpshufb shuf48_16(%rip), %ymm9, %ymm9 -vpand mask3_5_4_3_1(%rip), %ymm9, %ymm2 -vpand mask5_3_5_3(%rip), %ymm9, %ymm9 -vpermq $139, %ymm2, %ymm2 -vpand mask_keephigh(%rip), %ymm2, %ymm4 -vpor %ymm4, %ymm9, %ymm9 -vpaddw 2304(%r8), %ymm6, %ymm6 -vpaddw %ymm9, %ymm6, %ymm6 -vmovdqa %xmm2, 2304(%r8) -vpshufb shuf48_16(%rip), %ymm5, %ymm5 -vpand mask3_5_4_3_1(%rip), %ymm5, %ymm2 -vpand mask5_3_5_3(%rip), %ymm5, %ymm5 -vpermq $139, %ymm2, %ymm2 -vpand mask_keephigh(%rip), %ymm2, %ymm4 -vpor %ymm4, %ymm5, %ymm5 -vpaddw 2560(%r8), %ymm7, %ymm7 -vpaddw %ymm5, %ymm7, %ymm7 -vmovdqa %xmm2, 2560(%r8) -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %xmm11, 64(%rdi) -vextracti128 $1, %ymm11, %xmm11 -vmovq %xmm11, 80(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %xmm6, 416(%rdi) -vextracti128 $1, %ymm6, %xmm6 -vmovq %xmm6, 432(%rdi) -vpand mask_mod8192(%rip), %ymm7, %ymm7 -vmovdqu %xmm7, 768(%rdi) -vextracti128 $1, %ymm7, %xmm7 -vmovq %xmm7, 784(%rdi) -vpand mask_mod8192(%rip), %ymm3, %ymm3 -vmovdqu %xmm3, 1120(%rdi) -vextracti128 $1, %ymm3, %xmm3 -vmovq %xmm3, 1136(%rdi) -vmovdqa 32(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm9 -vpunpckhwd const0(%rip), %ymm5, %ymm8 -vpslld $1, %ymm9, %ymm9 -vpslld $1, %ymm8, %ymm8 -vmovdqa 288(%r8), %ymm3 -vpunpcklwd const0(%rip), %ymm3, %ymm7 -vpunpckhwd const0(%rip), %ymm3, %ymm3 -vmovdqa 544(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm11 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm11, %ymm7, %ymm2 -vpaddd %ymm6, %ymm3, %ymm4 -vpsubd %ymm9, %ymm2, %ymm2 -vpsubd %ymm8, %ymm4, %ymm4 -vpsubd %ymm11, %ymm7, %ymm11 -vpsubd %ymm6, %ymm3, %ymm6 -vpsrld $1, %ymm11, %ymm11 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm11, %ymm11 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm11, %ymm6 -vmovdqa 1568(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm3 -vpunpckhwd const0(%rip), %ymm11, %ymm7 -vpslld $1, %ymm3, %ymm3 -vpslld $1, %ymm7, %ymm7 -vpsubd %ymm3, %ymm2, %ymm2 -vpsubd %ymm7, %ymm4, %ymm4 -vpsrld $1, %ymm2, %ymm2 -vpsrld $1, %ymm4, %ymm4 -vpand mask32_to_16(%rip), %ymm2, %ymm2 -vpand mask32_to_16(%rip), %ymm4, %ymm4 -vpackusdw %ymm4, %ymm2, %ymm4 -vmovdqa 800(%r8), %ymm2 -vpaddw 1056(%r8), %ymm2, %ymm7 -vpsubw 1056(%r8), %ymm2, %ymm2 -vpsrlw $2, %ymm2, %ymm2 -vpsubw %ymm6, %ymm2, %ymm2 -vpmullw %ymm14, %ymm2, %ymm2 -vpsllw $1, %ymm5, %ymm3 -vpsubw %ymm3, %ymm7, %ymm3 -vpsllw $7, %ymm11, %ymm7 -vpsubw %ymm7, %ymm3, %ymm7 -vpsrlw $3, %ymm7, %ymm7 -vpsubw %ymm4, %ymm7, %ymm7 -vmovdqa 1312(%r8), %ymm3 -vpsubw %ymm5, %ymm3, %ymm3 -vpmullw %ymm15, %ymm11, %ymm8 -vpsubw %ymm8, %ymm3, %ymm8 -vpmullw %ymm14, %ymm7, %ymm7 -vpsubw %ymm7, %ymm4, %ymm4 -vpmullw %ymm12, %ymm7, %ymm3 -vpaddw %ymm3, %ymm4, %ymm3 -vpmullw %ymm12, %ymm3, %ymm3 -vpsubw %ymm3, %ymm8, %ymm3 -vpmullw %ymm14, %ymm3, %ymm3 -vpsubw %ymm6, %ymm3, %ymm3 -vpsrlw $3, %ymm3, %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vpsubw %ymm3, %ymm2, %ymm2 -vpsubw %ymm2, %ymm6, %ymm6 -vpmullw %ymm13, %ymm3, %ymm3 -vpsubw %ymm3, %ymm6, %ymm6 -vpshufb shuf48_16(%rip), %ymm7, %ymm7 -vpand mask3_5_4_3_1(%rip), %ymm7, %ymm8 -vpand mask5_3_5_3(%rip), %ymm7, %ymm7 -vpermq $139, %ymm8, %ymm8 -vpand mask_keephigh(%rip), %ymm8, %ymm9 -vpor %ymm9, %ymm7, %ymm7 -vpaddw 2080(%r8), %ymm5, %ymm5 -vpaddw %ymm7, %ymm5, %ymm5 -vmovdqa %xmm8, 2080(%r8) -vpshufb shuf48_16(%rip), %ymm3, %ymm3 -vpand mask3_5_4_3_1(%rip), %ymm3, %ymm8 -vpand mask5_3_5_3(%rip), %ymm3, %ymm3 -vpermq $139, %ymm8, %ymm8 -vpand mask_keephigh(%rip), %ymm8, %ymm9 -vpor %ymm9, %ymm3, %ymm3 -vpaddw 2336(%r8), %ymm6, %ymm6 -vpaddw %ymm3, %ymm6, %ymm6 -vmovdqa %xmm8, 2336(%r8) -vpshufb shuf48_16(%rip), %ymm11, %ymm11 -vpand mask3_5_4_3_1(%rip), %ymm11, %ymm8 -vpand mask5_3_5_3(%rip), %ymm11, %ymm11 -vpermq $139, %ymm8, %ymm8 -vpand mask_keephigh(%rip), %ymm8, %ymm9 -vpor %ymm9, %ymm11, %ymm11 -vpaddw 2592(%r8), %ymm4, %ymm4 -vpaddw %ymm11, %ymm4, %ymm4 -vmovdqa %xmm8, 2592(%r8) -vpand mask_mod8192(%rip), %ymm5, %ymm5 -vmovdqu %xmm5, 152(%rdi) -vextracti128 $1, %ymm5, %xmm5 -vmovq %xmm5, 168(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %xmm6, 504(%rdi) -vextracti128 $1, %ymm6, %xmm6 -vmovq %xmm6, 520(%rdi) -vpand mask_mod8192(%rip), %ymm4, %ymm4 -vmovdqu %xmm4, 856(%rdi) -vextracti128 $1, %ymm4, %xmm4 -vmovq %xmm4, 872(%rdi) -vpand mask_mod8192(%rip), %ymm2, %ymm2 -vmovdqu %xmm2, 1208(%rdi) -vextracti128 $1, %ymm2, %xmm2 -vmovq %xmm2, 1224(%rdi) -vmovdqa 64(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm3 -vpunpckhwd const0(%rip), %ymm11, %ymm7 -vpslld $1, %ymm3, %ymm3 -vpslld $1, %ymm7, %ymm7 -vmovdqa 320(%r8), %ymm2 -vpunpcklwd const0(%rip), %ymm2, %ymm4 -vpunpckhwd const0(%rip), %ymm2, %ymm2 -vmovdqa 576(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm5 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm5, %ymm4, %ymm8 -vpaddd %ymm6, %ymm2, %ymm9 -vpsubd %ymm3, %ymm8, %ymm8 -vpsubd %ymm7, %ymm9, %ymm9 -vpsubd %ymm5, %ymm4, %ymm5 -vpsubd %ymm6, %ymm2, %ymm6 -vpsrld $1, %ymm5, %ymm5 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm5, %ymm5 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm5, %ymm6 -vmovdqa 1600(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm2 -vpunpckhwd const0(%rip), %ymm5, %ymm4 -vpslld $1, %ymm2, %ymm2 -vpslld $1, %ymm4, %ymm4 -vpsubd %ymm2, %ymm8, %ymm8 -vpsubd %ymm4, %ymm9, %ymm9 -vpsrld $1, %ymm8, %ymm8 -vpsrld $1, %ymm9, %ymm9 -vpand mask32_to_16(%rip), %ymm8, %ymm8 -vpand mask32_to_16(%rip), %ymm9, %ymm9 -vpackusdw %ymm9, %ymm8, %ymm9 -vmovdqa 832(%r8), %ymm8 -vpaddw 1088(%r8), %ymm8, %ymm4 -vpsubw 1088(%r8), %ymm8, %ymm8 -vpsrlw $2, %ymm8, %ymm8 -vpsubw %ymm6, %ymm8, %ymm8 -vpmullw %ymm14, %ymm8, %ymm8 -vpsllw $1, %ymm11, %ymm2 -vpsubw %ymm2, %ymm4, %ymm2 -vpsllw $7, %ymm5, %ymm4 -vpsubw %ymm4, %ymm2, %ymm4 -vpsrlw $3, %ymm4, %ymm4 -vpsubw %ymm9, %ymm4, %ymm4 -vmovdqa 1344(%r8), %ymm2 -vpsubw %ymm11, %ymm2, %ymm2 -vpmullw %ymm15, %ymm5, %ymm7 -vpsubw %ymm7, %ymm2, %ymm7 -vpmullw %ymm14, %ymm4, %ymm4 -vpsubw %ymm4, %ymm9, %ymm9 -vpmullw %ymm12, %ymm4, %ymm2 -vpaddw %ymm2, %ymm9, %ymm2 -vpmullw %ymm12, %ymm2, %ymm2 -vpsubw %ymm2, %ymm7, %ymm2 -vpmullw %ymm14, %ymm2, %ymm2 -vpsubw %ymm6, %ymm2, %ymm2 -vpsrlw $3, %ymm2, %ymm2 -vpsubw %ymm8, %ymm2, %ymm2 -vpsubw %ymm2, %ymm8, %ymm8 -vpsubw %ymm8, %ymm6, %ymm6 -vpmullw %ymm13, %ymm2, %ymm2 -vpsubw %ymm2, %ymm6, %ymm6 -vpshufb shuf48_16(%rip), %ymm4, %ymm4 -vpand mask3_5_4_3_1(%rip), %ymm4, %ymm7 -vpand mask5_3_5_3(%rip), %ymm4, %ymm4 -vpermq $139, %ymm7, %ymm7 -vpand mask_keephigh(%rip), %ymm7, %ymm3 -vpor %ymm3, %ymm4, %ymm4 -vpaddw 2112(%r8), %ymm11, %ymm11 -vpaddw %ymm4, %ymm11, %ymm11 -vmovdqa %xmm7, 2112(%r8) -vpshufb shuf48_16(%rip), %ymm2, %ymm2 -vpand mask3_5_4_3_1(%rip), %ymm2, %ymm7 -vpand mask5_3_5_3(%rip), %ymm2, %ymm2 -vpermq $139, %ymm7, %ymm7 -vpand mask_keephigh(%rip), %ymm7, %ymm3 -vpor %ymm3, %ymm2, %ymm2 -vpaddw 2368(%r8), %ymm6, %ymm6 -vpaddw %ymm2, %ymm6, %ymm6 -vmovdqa %xmm7, 2368(%r8) -vpshufb shuf48_16(%rip), %ymm5, %ymm5 -vpand mask3_5_4_3_1(%rip), %ymm5, %ymm7 -vpand mask5_3_5_3(%rip), %ymm5, %ymm5 -vpermq $139, %ymm7, %ymm7 -vpand mask_keephigh(%rip), %ymm7, %ymm3 -vpor %ymm3, %ymm5, %ymm5 -vpaddw 2624(%r8), %ymm9, %ymm9 -vpaddw %ymm5, %ymm9, %ymm9 -vmovdqa %xmm7, 2624(%r8) -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %xmm11, 240(%rdi) -vextracti128 $1, %ymm11, %xmm11 -vmovq %xmm11, 256(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %xmm6, 592(%rdi) -vextracti128 $1, %ymm6, %xmm6 -vmovq %xmm6, 608(%rdi) -vpand mask_mod8192(%rip), %ymm9, %ymm9 -vmovdqu %xmm9, 944(%rdi) -vextracti128 $1, %ymm9, %xmm9 -vmovq %xmm9, 960(%rdi) -vpand mask_mod8192(%rip), %ymm8, %ymm8 -vmovdqu %xmm8, 1296(%rdi) -vextracti128 $1, %ymm8, %xmm8 -vmovq %xmm8, 1312(%rdi) -vmovdqa 96(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm2 -vpunpckhwd const0(%rip), %ymm5, %ymm4 -vpslld $1, %ymm2, %ymm2 -vpslld $1, %ymm4, %ymm4 -vmovdqa 352(%r8), %ymm8 -vpunpcklwd const0(%rip), %ymm8, %ymm9 -vpunpckhwd const0(%rip), %ymm8, %ymm8 -vmovdqa 608(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm11 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm11, %ymm9, %ymm7 -vpaddd %ymm6, %ymm8, %ymm3 -vpsubd %ymm2, %ymm7, %ymm7 -vpsubd %ymm4, %ymm3, %ymm3 -vpsubd %ymm11, %ymm9, %ymm11 -vpsubd %ymm6, %ymm8, %ymm6 -vpsrld $1, %ymm11, %ymm11 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm11, %ymm11 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm11, %ymm6 -vmovdqa 1632(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm8 -vpunpckhwd const0(%rip), %ymm11, %ymm9 -vpslld $1, %ymm8, %ymm8 -vpslld $1, %ymm9, %ymm9 -vpsubd %ymm8, %ymm7, %ymm7 -vpsubd %ymm9, %ymm3, %ymm3 -vpsrld $1, %ymm7, %ymm7 -vpsrld $1, %ymm3, %ymm3 -vpand mask32_to_16(%rip), %ymm7, %ymm7 -vpand mask32_to_16(%rip), %ymm3, %ymm3 -vpackusdw %ymm3, %ymm7, %ymm3 -vmovdqa 864(%r8), %ymm7 -vpaddw 1120(%r8), %ymm7, %ymm9 -vpsubw 1120(%r8), %ymm7, %ymm7 -vpsrlw $2, %ymm7, %ymm7 -vpsubw %ymm6, %ymm7, %ymm7 -vpmullw %ymm14, %ymm7, %ymm7 -vpsllw $1, %ymm5, %ymm8 -vpsubw %ymm8, %ymm9, %ymm8 -vpsllw $7, %ymm11, %ymm9 -vpsubw %ymm9, %ymm8, %ymm9 -vpsrlw $3, %ymm9, %ymm9 -vpsubw %ymm3, %ymm9, %ymm9 -vmovdqa 1376(%r8), %ymm8 -vpsubw %ymm5, %ymm8, %ymm8 -vpmullw %ymm15, %ymm11, %ymm4 -vpsubw %ymm4, %ymm8, %ymm4 -vpmullw %ymm14, %ymm9, %ymm9 -vpsubw %ymm9, %ymm3, %ymm3 -vpmullw %ymm12, %ymm9, %ymm8 -vpaddw %ymm8, %ymm3, %ymm8 -vpmullw %ymm12, %ymm8, %ymm8 -vpsubw %ymm8, %ymm4, %ymm8 -vpmullw %ymm14, %ymm8, %ymm8 -vpsubw %ymm6, %ymm8, %ymm8 -vpsrlw $3, %ymm8, %ymm8 -vpsubw %ymm7, %ymm8, %ymm8 -vpsubw %ymm8, %ymm7, %ymm7 -vpsubw %ymm7, %ymm6, %ymm6 -vpmullw %ymm13, %ymm8, %ymm8 -vpsubw %ymm8, %ymm6, %ymm6 -vpshufb shuf48_16(%rip), %ymm9, %ymm9 -vpand mask3_5_4_3_1(%rip), %ymm9, %ymm4 -vpand mask5_3_5_3(%rip), %ymm9, %ymm9 -vpermq $139, %ymm4, %ymm4 -vpand mask_keephigh(%rip), %ymm4, %ymm2 -vpor %ymm2, %ymm9, %ymm9 -vpaddw 2144(%r8), %ymm5, %ymm5 -vpaddw %ymm9, %ymm5, %ymm5 -vmovdqa %xmm4, 2144(%r8) -vpshufb shuf48_16(%rip), %ymm8, %ymm8 -vpand mask3_5_4_3_1(%rip), %ymm8, %ymm4 -vpand mask5_3_5_3(%rip), %ymm8, %ymm8 -vpermq $139, %ymm4, %ymm4 -vpand mask_keephigh(%rip), %ymm4, %ymm2 -vpor %ymm2, %ymm8, %ymm8 -vpaddw 2400(%r8), %ymm6, %ymm6 -vpaddw %ymm8, %ymm6, %ymm6 -vmovdqa %xmm4, 2400(%r8) -vpshufb shuf48_16(%rip), %ymm11, %ymm11 -vpand mask3_5_4_3_1(%rip), %ymm11, %ymm4 -vpand mask5_3_5_3(%rip), %ymm11, %ymm11 -vpermq $139, %ymm4, %ymm4 -vpand mask_keephigh(%rip), %ymm4, %ymm2 -vpor %ymm2, %ymm11, %ymm11 -vpaddw 2656(%r8), %ymm3, %ymm3 -vpaddw %ymm11, %ymm3, %ymm3 -vmovdqa %xmm4, 2656(%r8) -vpand mask_mod8192(%rip), %ymm5, %ymm5 -vmovdqu %xmm5, 328(%rdi) -vextracti128 $1, %ymm5, %xmm5 -vmovq %xmm5, 344(%rdi) -vpshufb shufmin1_mask3(%rip), %ymm5, %ymm5 -vmovdqa %xmm5, 1792(%r8) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %xmm6, 680(%rdi) -vextracti128 $1, %ymm6, %xmm6 -vmovq %xmm6, 696(%rdi) -vpshufb shufmin1_mask3(%rip), %ymm6, %ymm6 -vmovdqa %xmm6, 1824(%r8) -vpand mask_mod8192(%rip), %ymm3, %ymm3 -vmovdqu %xmm3, 1032(%rdi) -vextracti128 $1, %ymm3, %xmm3 -vmovq %xmm3, 1048(%rdi) -vpshufb shufmin1_mask3(%rip), %ymm3, %ymm3 -vmovdqa %xmm3, 1856(%r8) -vpand mask_mod8192(%rip), %ymm7, %ymm7 -vmovdqu %xmm7, 1384(%rdi) -vextracti128 $1, %ymm7, %xmm7 -vpextrw $0, %xmm7, 1400(%rdi) -vpshufb shufmin1_mask3(%rip), %ymm7, %ymm7 -vmovdqa %xmm7, 1888(%r8) -vmovdqa 128(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm8 -vpunpckhwd const0(%rip), %ymm11, %ymm9 -vpslld $1, %ymm8, %ymm8 -vpslld $1, %ymm9, %ymm9 -vmovdqa 384(%r8), %ymm7 -vpunpcklwd const0(%rip), %ymm7, %ymm3 -vpunpckhwd const0(%rip), %ymm7, %ymm7 -vmovdqa 640(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm5 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm5, %ymm3, %ymm4 -vpaddd %ymm6, %ymm7, %ymm2 -vpsubd %ymm8, %ymm4, %ymm4 -vpsubd %ymm9, %ymm2, %ymm2 -vpsubd %ymm5, %ymm3, %ymm5 -vpsubd %ymm6, %ymm7, %ymm6 -vpsrld $1, %ymm5, %ymm5 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm5, %ymm5 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm5, %ymm6 -vmovdqa 1664(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm7 -vpunpckhwd const0(%rip), %ymm5, %ymm3 -vpslld $1, %ymm7, %ymm7 -vpslld $1, %ymm3, %ymm3 -vpsubd %ymm7, %ymm4, %ymm4 -vpsubd %ymm3, %ymm2, %ymm2 -vpsrld $1, %ymm4, %ymm4 -vpsrld $1, %ymm2, %ymm2 -vpand mask32_to_16(%rip), %ymm4, %ymm4 -vpand mask32_to_16(%rip), %ymm2, %ymm2 -vpackusdw %ymm2, %ymm4, %ymm2 -vmovdqa 896(%r8), %ymm4 -vpaddw 1152(%r8), %ymm4, %ymm3 -vpsubw 1152(%r8), %ymm4, %ymm4 -vpsrlw $2, %ymm4, %ymm4 -vpsubw %ymm6, %ymm4, %ymm4 -vpmullw %ymm14, %ymm4, %ymm4 -vpsllw $1, %ymm11, %ymm7 -vpsubw %ymm7, %ymm3, %ymm7 -vpsllw $7, %ymm5, %ymm3 -vpsubw %ymm3, %ymm7, %ymm3 -vpsrlw $3, %ymm3, %ymm3 -vpsubw %ymm2, %ymm3, %ymm3 -vmovdqa 1408(%r8), %ymm7 -vpsubw %ymm11, %ymm7, %ymm7 -vpmullw %ymm15, %ymm5, %ymm9 -vpsubw %ymm9, %ymm7, %ymm9 -vpmullw %ymm14, %ymm3, %ymm3 -vpsubw %ymm3, %ymm2, %ymm2 -vpmullw %ymm12, %ymm3, %ymm7 -vpaddw %ymm7, %ymm2, %ymm7 -vpmullw %ymm12, %ymm7, %ymm7 -vpsubw %ymm7, %ymm9, %ymm7 -vpmullw %ymm14, %ymm7, %ymm7 -vpsubw %ymm6, %ymm7, %ymm7 -vpsrlw $3, %ymm7, %ymm7 -vpsubw %ymm4, %ymm7, %ymm7 -vpsubw %ymm7, %ymm4, %ymm4 -vpsubw %ymm4, %ymm6, %ymm6 -vpmullw %ymm13, %ymm7, %ymm7 -vpsubw %ymm7, %ymm6, %ymm6 -vmovdqu 416(%rdi), %ymm9 -vmovdqu 768(%rdi), %ymm8 -vmovdqu 1120(%rdi), %ymm10 -vpaddw %ymm11, %ymm9, %ymm11 -vpaddw %ymm6, %ymm8, %ymm6 -vpaddw %ymm2, %ymm10, %ymm2 -vpshufb shuf48_16(%rip), %ymm4, %ymm4 -vpand mask3_5_4_3_1(%rip), %ymm4, %ymm10 -vpand mask5_3_5_3(%rip), %ymm4, %ymm4 -vpermq $139, %ymm10, %ymm10 -vpand mask_keephigh(%rip), %ymm10, %ymm8 -vpor %ymm8, %ymm4, %ymm4 -vmovdqu 64(%rdi), %ymm8 -vpaddw 1920(%r8), %ymm8, %ymm8 -vpaddw %ymm4, %ymm8, %ymm8 -vpand mask_mod8192(%rip), %ymm8, %ymm8 -vmovdqu %xmm8, 64(%rdi) -vextracti128 $1, %ymm8, %xmm8 -vmovq %xmm8, 80(%rdi) -vmovdqa %xmm10, 1920(%r8) -vpshufb shuf48_16(%rip), %ymm3, %ymm3 -vpand mask3_5_4_3_1(%rip), %ymm3, %ymm10 -vpand mask5_3_5_3(%rip), %ymm3, %ymm3 -vpermq $139, %ymm10, %ymm10 -vpand mask_keephigh(%rip), %ymm10, %ymm8 -vpor %ymm8, %ymm3, %ymm3 -vpaddw 2176(%r8), %ymm11, %ymm11 -vpaddw %ymm3, %ymm11, %ymm11 -vmovdqa %xmm10, 2176(%r8) -vpshufb shuf48_16(%rip), %ymm7, %ymm7 -vpand mask3_5_4_3_1(%rip), %ymm7, %ymm10 -vpand mask5_3_5_3(%rip), %ymm7, %ymm7 -vpermq $139, %ymm10, %ymm10 -vpand mask_keephigh(%rip), %ymm10, %ymm8 -vpor %ymm8, %ymm7, %ymm7 -vpaddw 2432(%r8), %ymm6, %ymm6 -vpaddw %ymm7, %ymm6, %ymm6 -vmovdqa %xmm10, 2432(%r8) -vpshufb shuf48_16(%rip), %ymm5, %ymm5 -vpand mask3_5_4_3_1(%rip), %ymm5, %ymm10 -vpand mask5_3_5_3(%rip), %ymm5, %ymm5 -vpermq $139, %ymm10, %ymm10 -vpand mask_keephigh(%rip), %ymm10, %ymm8 -vpor %ymm8, %ymm5, %ymm5 -vpaddw 2688(%r8), %ymm2, %ymm2 -vpaddw %ymm5, %ymm2, %ymm2 -vmovdqa %xmm10, 2688(%r8) -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %xmm11, 416(%rdi) -vextracti128 $1, %ymm11, %xmm11 -vmovq %xmm11, 432(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %xmm6, 768(%rdi) -vextracti128 $1, %ymm6, %xmm6 -vmovq %xmm6, 784(%rdi) -vpand mask_mod8192(%rip), %ymm2, %ymm2 -vmovdqu %xmm2, 1120(%rdi) -vextracti128 $1, %ymm2, %xmm2 -vmovq %xmm2, 1136(%rdi) -vmovdqa 160(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm7 -vpunpckhwd const0(%rip), %ymm5, %ymm3 -vpslld $1, %ymm7, %ymm7 -vpslld $1, %ymm3, %ymm3 -vmovdqa 416(%r8), %ymm4 -vpunpcklwd const0(%rip), %ymm4, %ymm2 -vpunpckhwd const0(%rip), %ymm4, %ymm4 -vmovdqa 672(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm11 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm11, %ymm2, %ymm10 -vpaddd %ymm6, %ymm4, %ymm8 -vpsubd %ymm7, %ymm10, %ymm10 -vpsubd %ymm3, %ymm8, %ymm8 -vpsubd %ymm11, %ymm2, %ymm11 -vpsubd %ymm6, %ymm4, %ymm6 -vpsrld $1, %ymm11, %ymm11 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm11, %ymm11 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm11, %ymm6 -vmovdqa 1696(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm4 -vpunpckhwd const0(%rip), %ymm11, %ymm2 -vpslld $1, %ymm4, %ymm4 -vpslld $1, %ymm2, %ymm2 -vpsubd %ymm4, %ymm10, %ymm10 -vpsubd %ymm2, %ymm8, %ymm8 -vpsrld $1, %ymm10, %ymm10 -vpsrld $1, %ymm8, %ymm8 -vpand mask32_to_16(%rip), %ymm10, %ymm10 -vpand mask32_to_16(%rip), %ymm8, %ymm8 -vpackusdw %ymm8, %ymm10, %ymm8 -vmovdqa 928(%r8), %ymm10 -vpaddw 1184(%r8), %ymm10, %ymm2 -vpsubw 1184(%r8), %ymm10, %ymm10 -vpsrlw $2, %ymm10, %ymm10 -vpsubw %ymm6, %ymm10, %ymm10 -vpmullw %ymm14, %ymm10, %ymm10 -vpsllw $1, %ymm5, %ymm4 -vpsubw %ymm4, %ymm2, %ymm4 -vpsllw $7, %ymm11, %ymm2 -vpsubw %ymm2, %ymm4, %ymm2 -vpsrlw $3, %ymm2, %ymm2 -vpsubw %ymm8, %ymm2, %ymm2 -vmovdqa 1440(%r8), %ymm4 -vpsubw %ymm5, %ymm4, %ymm4 -vpmullw %ymm15, %ymm11, %ymm3 -vpsubw %ymm3, %ymm4, %ymm3 -vpmullw %ymm14, %ymm2, %ymm2 -vpsubw %ymm2, %ymm8, %ymm8 -vpmullw %ymm12, %ymm2, %ymm4 -vpaddw %ymm4, %ymm8, %ymm4 -vpmullw %ymm12, %ymm4, %ymm4 -vpsubw %ymm4, %ymm3, %ymm4 -vpmullw %ymm14, %ymm4, %ymm4 -vpsubw %ymm6, %ymm4, %ymm4 -vpsrlw $3, %ymm4, %ymm4 -vpsubw %ymm10, %ymm4, %ymm4 -vpsubw %ymm4, %ymm10, %ymm10 -vpsubw %ymm10, %ymm6, %ymm6 -vpmullw %ymm13, %ymm4, %ymm4 -vpsubw %ymm4, %ymm6, %ymm6 -vmovdqu 504(%rdi), %ymm3 -vmovdqu 856(%rdi), %ymm7 -vmovdqu 1208(%rdi), %ymm9 -vpaddw %ymm5, %ymm3, %ymm5 -vpaddw %ymm6, %ymm7, %ymm6 -vpaddw %ymm8, %ymm9, %ymm8 -vpshufb shuf48_16(%rip), %ymm10, %ymm10 -vpand mask3_5_4_3_1(%rip), %ymm10, %ymm9 -vpand mask5_3_5_3(%rip), %ymm10, %ymm10 -vpermq $139, %ymm9, %ymm9 -vpand mask_keephigh(%rip), %ymm9, %ymm7 -vpor %ymm7, %ymm10, %ymm10 -vmovdqu 152(%rdi), %ymm7 -vpaddw 1952(%r8), %ymm7, %ymm7 -vpaddw %ymm10, %ymm7, %ymm7 -vpand mask_mod8192(%rip), %ymm7, %ymm7 -vmovdqu %xmm7, 152(%rdi) -vextracti128 $1, %ymm7, %xmm7 -vmovq %xmm7, 168(%rdi) -vmovdqa %xmm9, 1952(%r8) -vpshufb shuf48_16(%rip), %ymm2, %ymm2 -vpand mask3_5_4_3_1(%rip), %ymm2, %ymm9 -vpand mask5_3_5_3(%rip), %ymm2, %ymm2 -vpermq $139, %ymm9, %ymm9 -vpand mask_keephigh(%rip), %ymm9, %ymm7 -vpor %ymm7, %ymm2, %ymm2 -vpaddw 2208(%r8), %ymm5, %ymm5 -vpaddw %ymm2, %ymm5, %ymm5 -vmovdqa %xmm9, 2208(%r8) -vpshufb shuf48_16(%rip), %ymm4, %ymm4 -vpand mask3_5_4_3_1(%rip), %ymm4, %ymm9 -vpand mask5_3_5_3(%rip), %ymm4, %ymm4 -vpermq $139, %ymm9, %ymm9 -vpand mask_keephigh(%rip), %ymm9, %ymm7 -vpor %ymm7, %ymm4, %ymm4 -vpaddw 2464(%r8), %ymm6, %ymm6 -vpaddw %ymm4, %ymm6, %ymm6 -vmovdqa %xmm9, 2464(%r8) -vpshufb shuf48_16(%rip), %ymm11, %ymm11 -vpand mask3_5_4_3_1(%rip), %ymm11, %ymm9 -vpand mask5_3_5_3(%rip), %ymm11, %ymm11 -vpermq $139, %ymm9, %ymm9 -vpand mask_keephigh(%rip), %ymm9, %ymm7 -vpor %ymm7, %ymm11, %ymm11 -vpaddw 2720(%r8), %ymm8, %ymm8 -vpaddw %ymm11, %ymm8, %ymm8 -vmovdqa %xmm9, 2720(%r8) -vpand mask_mod8192(%rip), %ymm5, %ymm5 -vmovdqu %xmm5, 504(%rdi) -vextracti128 $1, %ymm5, %xmm5 -vmovq %xmm5, 520(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %xmm6, 856(%rdi) -vextracti128 $1, %ymm6, %xmm6 -vmovq %xmm6, 872(%rdi) -vpand mask_mod8192(%rip), %ymm8, %ymm8 -vmovdqu %xmm8, 1208(%rdi) -vextracti128 $1, %ymm8, %xmm8 -vmovq %xmm8, 1224(%rdi) -vmovdqa 192(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm4 -vpunpckhwd const0(%rip), %ymm11, %ymm2 -vpslld $1, %ymm4, %ymm4 -vpslld $1, %ymm2, %ymm2 -vmovdqa 448(%r8), %ymm10 -vpunpcklwd const0(%rip), %ymm10, %ymm8 -vpunpckhwd const0(%rip), %ymm10, %ymm10 -vmovdqa 704(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm5 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm5, %ymm8, %ymm9 -vpaddd %ymm6, %ymm10, %ymm7 -vpsubd %ymm4, %ymm9, %ymm9 -vpsubd %ymm2, %ymm7, %ymm7 -vpsubd %ymm5, %ymm8, %ymm5 -vpsubd %ymm6, %ymm10, %ymm6 -vpsrld $1, %ymm5, %ymm5 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm5, %ymm5 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm5, %ymm6 -vmovdqa 1728(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm10 -vpunpckhwd const0(%rip), %ymm5, %ymm8 -vpslld $1, %ymm10, %ymm10 -vpslld $1, %ymm8, %ymm8 -vpsubd %ymm10, %ymm9, %ymm9 -vpsubd %ymm8, %ymm7, %ymm7 -vpsrld $1, %ymm9, %ymm9 -vpsrld $1, %ymm7, %ymm7 -vpand mask32_to_16(%rip), %ymm9, %ymm9 -vpand mask32_to_16(%rip), %ymm7, %ymm7 -vpackusdw %ymm7, %ymm9, %ymm7 -vmovdqa 960(%r8), %ymm9 -vpaddw 1216(%r8), %ymm9, %ymm8 -vpsubw 1216(%r8), %ymm9, %ymm9 -vpsrlw $2, %ymm9, %ymm9 -vpsubw %ymm6, %ymm9, %ymm9 -vpmullw %ymm14, %ymm9, %ymm9 -vpsllw $1, %ymm11, %ymm10 -vpsubw %ymm10, %ymm8, %ymm10 -vpsllw $7, %ymm5, %ymm8 -vpsubw %ymm8, %ymm10, %ymm8 -vpsrlw $3, %ymm8, %ymm8 -vpsubw %ymm7, %ymm8, %ymm8 -vmovdqa 1472(%r8), %ymm10 -vpsubw %ymm11, %ymm10, %ymm10 -vpmullw %ymm15, %ymm5, %ymm2 -vpsubw %ymm2, %ymm10, %ymm2 -vpmullw %ymm14, %ymm8, %ymm8 -vpsubw %ymm8, %ymm7, %ymm7 -vpmullw %ymm12, %ymm8, %ymm10 -vpaddw %ymm10, %ymm7, %ymm10 -vpmullw %ymm12, %ymm10, %ymm10 -vpsubw %ymm10, %ymm2, %ymm10 -vpmullw %ymm14, %ymm10, %ymm10 -vpsubw %ymm6, %ymm10, %ymm10 -vpsrlw $3, %ymm10, %ymm10 -vpsubw %ymm9, %ymm10, %ymm10 -vpsubw %ymm10, %ymm9, %ymm9 -vpsubw %ymm9, %ymm6, %ymm6 -vpmullw %ymm13, %ymm10, %ymm10 -vpsubw %ymm10, %ymm6, %ymm6 -vmovdqu 592(%rdi), %ymm2 -vmovdqu 944(%rdi), %ymm4 -vmovdqu 1296(%rdi), %ymm3 -vpaddw %ymm11, %ymm2, %ymm11 -vpaddw %ymm6, %ymm4, %ymm6 -vpaddw %ymm7, %ymm3, %ymm7 -vpshufb shuf48_16(%rip), %ymm9, %ymm9 -vpand mask3_5_4_3_1(%rip), %ymm9, %ymm3 -vpand mask5_3_5_3(%rip), %ymm9, %ymm9 -vpermq $139, %ymm3, %ymm3 -vpand mask_keephigh(%rip), %ymm3, %ymm4 -vpor %ymm4, %ymm9, %ymm9 -vmovdqu 240(%rdi), %ymm4 -vpaddw 1984(%r8), %ymm4, %ymm4 -vpaddw %ymm9, %ymm4, %ymm4 -vpand mask_mod8192(%rip), %ymm4, %ymm4 -vmovdqu %xmm4, 240(%rdi) -vextracti128 $1, %ymm4, %xmm4 -vmovq %xmm4, 256(%rdi) -vmovdqa %xmm3, 1984(%r8) -vpshufb shuf48_16(%rip), %ymm8, %ymm8 -vpand mask3_5_4_3_1(%rip), %ymm8, %ymm3 -vpand mask5_3_5_3(%rip), %ymm8, %ymm8 -vpermq $139, %ymm3, %ymm3 -vpand mask_keephigh(%rip), %ymm3, %ymm4 -vpor %ymm4, %ymm8, %ymm8 -vpaddw 2240(%r8), %ymm11, %ymm11 -vpaddw %ymm8, %ymm11, %ymm11 -vmovdqa %xmm3, 2240(%r8) -vpshufb shuf48_16(%rip), %ymm10, %ymm10 -vpand mask3_5_4_3_1(%rip), %ymm10, %ymm3 -vpand mask5_3_5_3(%rip), %ymm10, %ymm10 -vpermq $139, %ymm3, %ymm3 -vpand mask_keephigh(%rip), %ymm3, %ymm4 -vpor %ymm4, %ymm10, %ymm10 -vpaddw 2496(%r8), %ymm6, %ymm6 -vpaddw %ymm10, %ymm6, %ymm6 -vmovdqa %xmm3, 2496(%r8) -vpshufb shuf48_16(%rip), %ymm5, %ymm5 -vpand mask3_5_4_3_1(%rip), %ymm5, %ymm3 -vpand mask5_3_5_3(%rip), %ymm5, %ymm5 -vpermq $139, %ymm3, %ymm3 -vpand mask_keephigh(%rip), %ymm3, %ymm4 -vpor %ymm4, %ymm5, %ymm5 -vpaddw 2752(%r8), %ymm7, %ymm7 -vpaddw %ymm5, %ymm7, %ymm7 -vmovdqa %xmm3, 2752(%r8) -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %xmm11, 592(%rdi) -vextracti128 $1, %ymm11, %xmm11 -vmovq %xmm11, 608(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %xmm6, 944(%rdi) -vextracti128 $1, %ymm6, %xmm6 -vmovq %xmm6, 960(%rdi) -vpand mask_mod8192(%rip), %ymm7, %ymm7 -vmovdqu %xmm7, 1296(%rdi) -vextracti128 $1, %ymm7, %xmm7 -vmovq %xmm7, 1312(%rdi) -vmovdqa 224(%r8), %ymm5 -vpunpcklwd const0(%rip), %ymm5, %ymm10 -vpunpckhwd const0(%rip), %ymm5, %ymm8 -vpslld $1, %ymm10, %ymm10 -vpslld $1, %ymm8, %ymm8 -vmovdqa 480(%r8), %ymm9 -vpunpcklwd const0(%rip), %ymm9, %ymm7 -vpunpckhwd const0(%rip), %ymm9, %ymm9 -vmovdqa 736(%r8), %ymm6 -vpunpcklwd const0(%rip), %ymm6, %ymm11 -vpunpckhwd const0(%rip), %ymm6, %ymm6 -vpaddd %ymm11, %ymm7, %ymm3 -vpaddd %ymm6, %ymm9, %ymm4 -vpsubd %ymm10, %ymm3, %ymm3 -vpsubd %ymm8, %ymm4, %ymm4 -vpsubd %ymm11, %ymm7, %ymm11 -vpsubd %ymm6, %ymm9, %ymm6 -vpsrld $1, %ymm11, %ymm11 -vpsrld $1, %ymm6, %ymm6 -vpand mask32_to_16(%rip), %ymm11, %ymm11 -vpand mask32_to_16(%rip), %ymm6, %ymm6 -vpackusdw %ymm6, %ymm11, %ymm6 -vmovdqa 1760(%r8), %ymm11 -vpunpcklwd const0(%rip), %ymm11, %ymm9 -vpunpckhwd const0(%rip), %ymm11, %ymm7 -vpslld $1, %ymm9, %ymm9 -vpslld $1, %ymm7, %ymm7 -vpsubd %ymm9, %ymm3, %ymm3 -vpsubd %ymm7, %ymm4, %ymm4 -vpsrld $1, %ymm3, %ymm3 -vpsrld $1, %ymm4, %ymm4 -vpand mask32_to_16(%rip), %ymm3, %ymm3 -vpand mask32_to_16(%rip), %ymm4, %ymm4 -vpackusdw %ymm4, %ymm3, %ymm4 -vmovdqa 992(%r8), %ymm3 -vpaddw 1248(%r8), %ymm3, %ymm7 -vpsubw 1248(%r8), %ymm3, %ymm3 -vpsrlw $2, %ymm3, %ymm3 -vpsubw %ymm6, %ymm3, %ymm3 -vpmullw %ymm14, %ymm3, %ymm3 -vpsllw $1, %ymm5, %ymm9 -vpsubw %ymm9, %ymm7, %ymm9 -vpsllw $7, %ymm11, %ymm7 -vpsubw %ymm7, %ymm9, %ymm7 -vpsrlw $3, %ymm7, %ymm7 -vpsubw %ymm4, %ymm7, %ymm7 -vmovdqa 1504(%r8), %ymm9 -vpsubw %ymm5, %ymm9, %ymm9 -vpmullw %ymm15, %ymm11, %ymm8 -vpsubw %ymm8, %ymm9, %ymm8 -vpmullw %ymm14, %ymm7, %ymm7 -vpsubw %ymm7, %ymm4, %ymm4 -vpmullw %ymm12, %ymm7, %ymm9 -vpaddw %ymm9, %ymm4, %ymm9 -vpmullw %ymm12, %ymm9, %ymm9 -vpsubw %ymm9, %ymm8, %ymm9 -vpmullw %ymm14, %ymm9, %ymm9 -vpsubw %ymm6, %ymm9, %ymm9 -vpsrlw $3, %ymm9, %ymm9 -vpsubw %ymm3, %ymm9, %ymm9 -vpsubw %ymm9, %ymm3, %ymm3 -vpsubw %ymm3, %ymm6, %ymm6 -vpmullw %ymm13, %ymm9, %ymm9 -vpsubw %ymm9, %ymm6, %ymm6 -vextracti128 $1, %ymm4, %xmm8 -vpshufb shufmin1_mask3(%rip), %ymm8, %ymm8 -vmovdqa %ymm8, 2816(%r8) -vextracti128 $1, %ymm3, %xmm8 -vpshufb shufmin1_mask3(%rip), %ymm8, %ymm8 -vmovdqa %ymm8, 2848(%r8) -vextracti128 $1, %ymm7, %xmm8 -vpshufb shufmin1_mask3(%rip), %ymm8, %ymm8 -vmovdqa %ymm8, 2880(%r8) -vmovdqu 680(%rdi), %ymm8 -vmovdqu 1032(%rdi), %ymm10 - -# Only 18 bytes can be read at 1384, but vmovdqu reads 32. -# Copy 18 bytes to the red zone and zero pad to 32 bytes. -xor %r9, %r9 -movq %r9, -16(%rsp) -movq %r9, -8(%rsp) -movq 1384(%rdi), %r9 -movq %r9, -32(%rsp) -movq 1384+8(%rdi), %r9 -movq %r9, -24(%rsp) -movw 1384+16(%rdi), %r9w -movw %r9w, -16(%rsp) -vmovdqu -32(%rsp), %ymm2 - -vpaddw %ymm5, %ymm8, %ymm5 -vpaddw %ymm6, %ymm10, %ymm6 -vpaddw %ymm4, %ymm2, %ymm4 -vpshufb shuf48_16(%rip), %ymm3, %ymm3 -vpand mask3_5_4_3_1(%rip), %ymm3, %ymm2 -vpand mask5_3_5_3(%rip), %ymm3, %ymm3 -vpermq $139, %ymm2, %ymm2 -vpand mask_keephigh(%rip), %ymm2, %ymm10 -vpor %ymm10, %ymm3, %ymm3 -vmovdqu 328(%rdi), %ymm10 -vpaddw 2016(%r8), %ymm10, %ymm10 -vpaddw %ymm3, %ymm10, %ymm10 -vpand mask_mod8192(%rip), %ymm10, %ymm10 -vmovdqu %xmm10, 328(%rdi) -vextracti128 $1, %ymm10, %xmm10 -vmovq %xmm10, 344(%rdi) -vpshufb shufmin1_mask3(%rip), %ymm10, %ymm10 -vmovdqa %xmm10, 1792(%r8) -vmovdqa %xmm2, 2016(%r8) -vpshufb shuf48_16(%rip), %ymm7, %ymm7 -vpand mask3_5_4_3_1(%rip), %ymm7, %ymm2 -vpand mask5_3_5_3(%rip), %ymm7, %ymm7 -vpermq $139, %ymm2, %ymm2 -vpand mask_keephigh(%rip), %ymm2, %ymm10 -vpor %ymm10, %ymm7, %ymm7 -vpaddw 2272(%r8), %ymm5, %ymm5 -vpaddw %ymm7, %ymm5, %ymm5 -vmovdqa %xmm2, 2272(%r8) -vpshufb shuf48_16(%rip), %ymm9, %ymm9 -vpand mask3_5_4_3_1(%rip), %ymm9, %ymm2 -vpand mask5_3_5_3(%rip), %ymm9, %ymm9 -vpermq $139, %ymm2, %ymm2 -vpand mask_keephigh(%rip), %ymm2, %ymm10 -vpor %ymm10, %ymm9, %ymm9 -vpaddw 2528(%r8), %ymm6, %ymm6 -vpaddw %ymm9, %ymm6, %ymm6 -vmovdqa %xmm2, 2528(%r8) -vpshufb shuf48_16(%rip), %ymm11, %ymm11 -vpand mask3_5_4_3_1(%rip), %ymm11, %ymm2 -vpand mask5_3_5_3(%rip), %ymm11, %ymm11 -vpermq $139, %ymm2, %ymm2 -vpand mask_keephigh(%rip), %ymm2, %ymm10 -vpor %ymm10, %ymm11, %ymm11 -vpaddw 2784(%r8), %ymm4, %ymm4 -vpaddw %ymm11, %ymm4, %ymm4 -vmovdqa %xmm2, 2784(%r8) -vpand mask_mod8192(%rip), %ymm5, %ymm5 -vmovdqu %xmm5, 680(%rdi) -vextracti128 $1, %ymm5, %xmm5 -vmovq %xmm5, 696(%rdi) -vpand mask_mod8192(%rip), %ymm6, %ymm6 -vmovdqu %xmm6, 1032(%rdi) -vextracti128 $1, %ymm6, %xmm6 -vmovq %xmm6, 1048(%rdi) -vpand mask_mod8192(%rip), %ymm4, %ymm4 -vmovdqu %xmm4, 1384(%rdi) -vextracti128 $1, %ymm4, %xmm4 -vpextrw $0, %xmm4, 1400(%rdi) -vmovdqu 0(%rdi), %ymm11 -vpaddw 1888(%r8), %ymm11, %ymm11 -vpaddw 2816(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 0(%rdi) -vmovdqu 352(%rdi), %ymm11 -vpaddw 2528(%r8), %ymm11, %ymm11 -vpaddw 2848(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 352(%rdi) -vmovdqu 704(%rdi), %ymm11 -vpaddw 2784(%r8), %ymm11, %ymm11 -vpaddw 2880(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 704(%rdi) -vmovdqu 88(%rdi), %ymm11 -vpaddw 2048(%r8), %ymm11, %ymm11 -vpaddw 1920(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 88(%rdi) -vmovdqu 440(%rdi), %ymm11 -vpaddw 2304(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 440(%rdi) -vmovdqu 792(%rdi), %ymm11 -vpaddw 2560(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 792(%rdi) -vmovdqu 176(%rdi), %ymm11 -vpaddw 2080(%r8), %ymm11, %ymm11 -vpaddw 1952(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 176(%rdi) -vmovdqu 528(%rdi), %ymm11 -vpaddw 2336(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 528(%rdi) -vmovdqu 880(%rdi), %ymm11 -vpaddw 2592(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 880(%rdi) -vmovdqu 264(%rdi), %ymm11 -vpaddw 2112(%r8), %ymm11, %ymm11 -vpaddw 1984(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 264(%rdi) -vmovdqu 616(%rdi), %ymm11 -vpaddw 2368(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 616(%rdi) -vmovdqu 968(%rdi), %ymm11 -vpaddw 2624(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 968(%rdi) -vmovdqu 352(%rdi), %ymm11 -vpaddw 2144(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 352(%rdi) -vmovdqu 704(%rdi), %ymm11 -vpaddw 2400(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 704(%rdi) -vmovdqu 1056(%rdi), %ymm11 -vpaddw 2656(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 1056(%rdi) -vmovdqu 440(%rdi), %ymm11 -vpaddw 2176(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 440(%rdi) -vmovdqu 792(%rdi), %ymm11 -vpaddw 2432(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 792(%rdi) -vmovdqu 1144(%rdi), %ymm11 -vpaddw 2688(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 1144(%rdi) -vmovdqu 528(%rdi), %ymm11 -vpaddw 2208(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 528(%rdi) -vmovdqu 880(%rdi), %ymm11 -vpaddw 2464(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 880(%rdi) -vmovdqu 1232(%rdi), %ymm11 -vpaddw 2720(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 1232(%rdi) -vmovdqu 616(%rdi), %ymm11 -vpaddw 2240(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 616(%rdi) -vmovdqu 968(%rdi), %ymm11 -vpaddw 2496(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 968(%rdi) -vmovdqu 1320(%rdi), %ymm11 -vpaddw 2752(%r8), %ymm11, %ymm11 -vpand mask_mod8192(%rip), %ymm11, %ymm11 -vmovdqu %ymm11, 1320(%rdi) -pop %r12 -.cfi_restore r12 -pop %rbp -.cfi_restore rbp -.cfi_def_cfa_register rsp -.cfi_adjust_cfa_offset -8 -ret -.cfi_endproc -.size poly_Rq_mul,.-poly_Rq_mul - -#endif - -#if defined(__ELF__) -.section .note.GNU-stack,"",%progbits -#endif diff --git a/crypto/hrss/hrss.c b/crypto/hrss/hrss.c index 572e9817c..6feca2c26 100644 --- a/crypto/hrss/hrss.c +++ b/crypto/hrss/hrss.c @@ -971,11 +971,6 @@ struct POLY_MUL_SCRATCH { vec_t scratch[172]; } vec; #endif - -#if defined(POLY_RQ_MUL_ASM) - // This is the space used by |poly_Rq_mul|. - uint8_t rq[POLY_MUL_RQ_SCRATCH_SPACE]; -#endif } u; }; @@ -1326,13 +1321,6 @@ static void poly_mul_novec(struct POLY_MUL_SCRATCH *scratch, struct poly *out, static void poly_mul(struct POLY_MUL_SCRATCH *scratch, struct poly *r, const struct poly *a, const struct poly *b) { -#if defined(POLY_RQ_MUL_ASM) - if (CRYPTO_is_AVX2_capable()) { - poly_Rq_mul(r->v, a->v, b->v, scratch->u.rq); - poly_normalize(r); - } else -#endif - #if defined(HRSS_HAVE_VECTOR_UNIT) if (vec_capable()) { poly_mul_vec(scratch, r, a, b); diff --git a/crypto/hrss/internal.h b/crypto/hrss/internal.h index 340b2e0ef..636fa92ea 100644 --- a/crypto/hrss/internal.h +++ b/crypto/hrss/internal.h @@ -41,26 +41,6 @@ OPENSSL_EXPORT void HRSS_poly3_mul(struct poly3 *out, const struct poly3 *x, OPENSSL_EXPORT void HRSS_poly3_invert(struct poly3 *out, const struct poly3 *in); -// On x86-64, we can use the AVX2 code from [HRSS]. (The authors have given -// explicit permission for this and signed a CLA.) However it's 57KB of object -// code, so it's not used if |OPENSSL_SMALL| is defined. -#if !defined(OPENSSL_NO_ASM) && !defined(OPENSSL_SMALL) && \ - defined(OPENSSL_X86_64) && defined(OPENSSL_LINUX) -#define POLY_RQ_MUL_ASM -// POLY_MUL_RQ_SCRATCH_SPACE is the number of bytes of scratch space needed -// by the assembly function poly_Rq_mul. -#define POLY_MUL_RQ_SCRATCH_SPACE (6144 + 6144 + 12288 + 512 + 9408 + 32) - -// poly_Rq_mul is defined in assembly. Inputs and outputs must be 16-byte- -// aligned. -extern void poly_Rq_mul( - uint16_t r[N + 3], const uint16_t a[N + 3], const uint16_t b[N + 3], - // The following should be `scratch[POLY_MUL_RQ_SCRATCH_SPACE]` but - // GCC 11.1 has a bug with unions that breaks that. - uint8_t scratch[]); -#endif - - #if defined(__cplusplus) } // extern "C" #endif