libavcodec/x86/vp9itxfm_16bpp_avx512.asm - third_party/ffmpeg - Git at Google

 ;******************************************************************************
 ;* VP9 IDCT SIMD optimizations
 ;*
 ;* Copyright (C) 2025 Two Orioles, LLC
 ;*
 ;* This file is part of FFmpeg.
 ;*
 ;* FFmpeg is free software; you can redistribute it and/or
 ;* modify it under the terms of the GNU Lesser General Public
 ;* License as published by the Free Software Foundation; either
 ;* version 2.1 of the License, or (at your option) any later version.
 ;*
 ;* FFmpeg is distributed in the hope that it will be useful,
 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 ;* Lesser General Public License for more details.
 ;*
 ;* You should have received a copy of the GNU Lesser General Public
 ;* License along with FFmpeg; if not, write to the Free Software
 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
 ;******************************************************************************

 %include "libavutil/x86/x86util.asm"

 %if ARCH_X86_64 && HAVE_AVX512ICL_EXTERNAL

 SECTION_RODATA 64

 ; The following set of constants are ordered to form the
 ; qword shuffle mask { 0,  2,  4,  6,  1,  3,  5,  7 }
 %define deintq_perm pd_5520
 pd_5520:     dd 5520
 pd_9760:     dd 9760
 pd_10394:    dd 10394
 pd_15426:    dd 15426
 pd_804:      dd 804
 pd_2404:     dd 2404
 pd_6270:     dd 6270
 pd_9102:     dd 9102
 pd_11585:    dd 11585
 pd_12665:    dd 12665
 pd_7723:     dd 7723
 pd_14811:    dd 14811
 pd_7005:     dd 7005
 pd_14053:    dd 14053
 pd_8423:     dd 8423
 pd_13623:    dd 13623

 pixel_clip:  times 2 dw 0x7c00
 pixel_clip6: dd 2031648 ; 32 + (pixel_clip << 6)
 pd_532480:   dd 532480  ; 8192 + (32 << 14)
 pd_8192:     dd 8192

 pd_1606:     dd 1606
 pd_3196:     dd 3196
 pd_3981:     dd 3981
 pd_4756:     dd 4756
 pd_11003:    dd 11003
 pd_12140:    dd 12140
 pd_13160:    dd 13160
 pd_14449:    dd 14449
 pd_15137:    dd 15137
 pd_15679:    dd 15679
 pd_15893:    dd 15893
 pd_16069:    dd 16069
 pd_16207:    dd 16207
 pd_16305:    dd 16305
 pd_16364:    dd 16364

 SECTION .text

 %define o_base (deintq_perm+128)
 %define o(x) (r5 - o_base + (x))
 %define m(x) mangle(private_prefix %+ _ %+ x %+ SUFFIX)

 ; dst1 = (src1 * coef1 - src2 * coef2 + rnd) >> 12
 ; dst2 = (src1 * coef2 + src2 * coef1 + rnd) >> 12
 ; skip round/shift if rnd is not a number
 %macro ITX_MULSUB_2D 8-9 0 ; dst/src[1-2], tmp[1-3], rnd, coef[1-2], inv_dst2
 %if %8 < 32
     pmulld              m%4, m%1, m%8
     pmulld              m%3, m%2, m%8
 %else
     vpbroadcastd        m%3, [o(pd_%8)]
     pmulld              m%4, m%1, m%3
     pmulld              m%3, m%2
 %endif
 %if %7 < 32
     pmulld              m%1, m%7
     pmulld              m%2, m%7
 %else
     vpbroadcastd        m%5, [o(pd_%7)]
     pmulld              m%1, m%5
     pmulld              m%2, m%5
 %endif
 %if %9
     psubd               m%4, m%6, m%4
     psubd               m%2, m%4, m%2
 %else
 %ifnum %6
     paddd               m%4, m%6
 %endif
     paddd               m%2, m%4
 %endif
 %ifnum %6
     paddd               m%1, m%6
 %endif
     psubd               m%1, m%3
 %ifnum %6
     psrad               m%2, 14
     psrad               m%1, 14
 %endif
 %endmacro

 %macro WRAP_YMM 1+
     INIT_YMM cpuname
     %1
     INIT_ZMM cpuname
 %endmacro

 %macro TRANSPOSE_4D 5 ; in[1-4], tmp
     punpckhdq           m%5, m%3, m%4 ; c2 d2 c3 d3
     punpckldq           m%3, m%4      ; c0 d0 c1 d1
     punpckhdq           m%4, m%1, m%2 ; a2 b2 a3 b3
     punpckldq           m%1, m%2      ; a0 b0 a1 b1
     punpckhqdq          m%2, m%1, m%3 ; a1 b1 c1 d1
     punpcklqdq          m%1, m%3      ; a0 b0 c0 d0
     punpcklqdq          m%3, m%4, m%5 ; a2 b2 c2 d2
     punpckhqdq          m%4, m%5      ; a3 b3 c3 d3
 %endmacro

 %macro TRANSPOSE_4DQ 5 ; in[1-4], tmp
     vshufi32x4          m%5, m%3, m%4, q3232 ; c2 c3 d2 d3
     vinserti32x8        m%3, ym%4, 1         ; c0 c1 d0 d1
     vshufi32x4          m%4, m%1, m%2, q3232 ; a2 a3 b2 b3
     vinserti32x8        m%1, ym%2, 1         ; a0 a1 b0 b1
     vshufi32x4          m%2, m%1, m%3, q3131 ; a1 b1 c1 d1
     vshufi32x4          m%1, m%3, q2020      ; a0 b0 c0 d0
     vshufi32x4          m%3, m%4, m%5, q2020 ; a2 b2 c2 d2
     vshufi32x4          m%4, m%5, q3131      ; a3 b3 c3 d3
 %endmacro

 %macro INV_TXFM_FN 3-4 0 ; type1, type2, size, eob_offset
 cglobal vp9_i%1_i%2_%3_add_10, 4, 5, 0, dst, stride, c, eob, tx2
     %define %%p1 m(vp9_i%1_%3_internal_10)
     lea                  r5, [o_base]
     ; Jump to the 1st txfm function if we're not taking the fast path, which
     ; in turn performs an indirect jump to the 2nd txfm function.
     lea                tx2q, [m(vp9_i%2_%3_internal_10).pass2]
 %ifidn %1_%2, dct_dct
     dec                eobd
     jnz %%p1
 %else
 %if %4
     add                eobd, %4
 %endif
     ; jump to the 1st txfm function unless it's located directly after this
     times ((%%end - %%p1) >> 31) & 1 jmp %%p1
 ALIGN function_align
 %%end:
 %endif
 %endmacro

 %macro INV_TXFM_16X16_FN 2-3 0 ; type1, type2, eob_offset
     INV_TXFM_FN          %1, %2, 16x16, %3
 %ifidn %1_%2, dct_dct
     imul                r6d, [cq], 11585
     vpbroadcastd        ym3, [o(pixel_clip)]
     mov                [cq], r3d
     add                 r6d, 8192
     sar                 r6d, 14
     imul                r6d, 11585
     or                  r3d, 8
     add                 r6d, 532480
     sar                 r6d, 20
     vpbroadcastw        ym2, r6d
     paddsw              ym2, ym3
 .dconly_loop:
     paddsw              ym0, ym2, [dstq+strideq*0]
     paddsw              ym1, ym2, [dstq+strideq*1]
     psubusw             ym0, ym3
     psubusw             ym1, ym3
     mova   [dstq+strideq*0], ym0
     mova   [dstq+strideq*1], ym1
     lea                dstq, [dstq+strideq*2]
     dec                 r3d
     jg .dconly_loop
     RET
 %endif
 %endmacro

 %macro IDCT16_PART1 0
 %if mmsize == 64
 .main_part1_fast:
 %endif
     pmulld              m15, m1, [o(pd_16305)] {bcstd} ; t15a
     pmulld               m1, [o(pd_1606)] {bcstd}      ; t8a
     pmulld               m9, m7, [o(pd_10394)] {bcstd} ; t9a
     pmulld               m7, [o(pd_12665)] {bcstd}     ; t14a
     pmulld              m11, m5, [o(pd_14449)] {bcstd} ; t13a
     pmulld               m5, [o(pd_7723)] {bcstd}      ; t10a
     pmulld              m13, m3, [o(pd_4756)] {bcstd}  ; t11a
     pmulld               m3, [o(pd_15679)] {bcstd}     ; t12a
     pmulld              m10, m6, [o(pd_9102)] {bcstd}  ; t5a
     pmulld               m6, [o(pd_13623)] {bcstd}     ; t6a
     pmulld              m14, m2, [o(pd_16069)] {bcstd} ; t7a
     pmulld               m2, [o(pd_3196)] {bcstd}      ; t4a
     pmulld              m12, m4, [o(pd_15137)] {bcstd} ; t3
     pmulld               m4, [o(pd_6270)] {bcstd}      ; t2
     pmulld               m0, m21
     REPX  {psubd x, m20, x}, m9, m13, m10
     paddd                m0, m20
     mova                m18, m0
 %if mmsize == 64 ; for the ymm variant we only ever use the fast path
     jmp %%main_part1b
 .main_part1:
     ITX_MULSUB_2D         1, 15, 16, 17, 18, _,  1606, 16305 ; t8a,  t15a
     ITX_MULSUB_2D         9,  7, 16, 17, 18, _, 12665, 10394 ; t9a,  t14a
     ITX_MULSUB_2D         5, 11, 16, 17, 18, _,  7723, 14449 ; t10a, t13a
     ITX_MULSUB_2D        13,  3, 16, 17, 18, _, 15679,  4756 ; t11a, t12a
     ITX_MULSUB_2D        10,  6, 16, 17, 18, _, 13623,  9102 ; t5a,  t6a
     ITX_MULSUB_2D         2, 14, 16, 17, 18, _,  3196, 16069 ; t4a,  t7a
     ITX_MULSUB_2D         4, 12, 16, 17, 18, _,  6270, 15137 ; t2,  t3
     pmulld               m0, m21
     pmulld               m8, m21
     REPX     {paddd x, m20}, m0, m9, m13, m10
     psubd               m18, m0, m8   ; t1
     paddd                m0, m8       ; t0
 %%main_part1b:
 %endif
     vpbroadcastd        m19, [o(pd_15137)]
     vpbroadcastd        m16, [o(pd_6270)]
     REPX     {paddd x, m20}, m15, m7, m1, m11, m3, m5
     REPX     {psrad x, 14 }, m15, m7, m1, m9, m11, m3, m5, m13
     paddd               m17, m15, m7  ; t15
     psubd               m15, m7       ; t14
     psubd                m7, m3, m11  ; t13
     paddd                m3, m11      ; t12
     psubd               m11, m13, m5  ; t10
     paddd                m5, m13      ; t11
     psubd               m13, m1, m9   ; t9
     paddd                m1, m9       ; t8
     ITX_MULSUB_2D        15, 13, 8, 9, _, 20, 16, 19         ; t9a,  t14a
     ITX_MULSUB_2D         7, 11, 8, 9, _, 20, 16, 19, 2      ; t13a, t10a
     paddd               m16, m1, m5   ; t8a
     psubd                m1, m5       ; t11a
     paddd                m8, m15, m11 ; t9
     psubd               m15, m11      ; t10
     psubd               m11, m17, m3  ; t12a
     paddd               m17, m3       ; t15a
     psubd                m9, m13, m7  ; t13
     paddd               m13, m7       ; t14
     REPX    {pmulld x, m21}, m11, m9, m1, m15
     REPX     {paddd x, m20}, m2, m6, m14
     REPX     {psrad x, 14 }, m10, m2, m6, m14
     psubd                m3, m2, m10  ; t5a
     paddd               m10, m2       ; t4
     paddd               m11, m20
     psubd                m5, m11, m1  ; t11
     paddd               m11, m1       ; t12
     psubd                m1, m14, m6  ; t6a
     paddd               m14, m6       ; t7
     pmulld               m1, m21
     pmulld               m3, m21
     paddd                m4, m20
     paddd               m12, m20
     REPX     {psrad x, 14 }, m4, m12, m0, m18
     paddd                m9, m20
     paddd                m2, m9, m15  ; t13a
     psubd                m9, m15      ; t10a
     paddd                m1, m20
     psubd                m6, m1, m3   ; t5
     paddd                m1, m3       ; t6
     REPX      {psrad x, 14}, m6, m1, m11, m5, m2, m9
 %endmacro

 %macro IDCT16_PART2 0
     psubd                m3, m0, m12 ; t3
     paddd                m0, m12     ; t0
     psubd               m12, m18, m4 ; t2
     paddd               m18, m4      ; t1
     psubd                m4, m3, m10 ; t4
     paddd                m3, m10     ; t3
     psubd               m10, m12, m6 ; t5
     paddd               m12, m6      ; t2
     psubd                m6, m18, m1 ; t6
     paddd                m1, m18     ; t1
     psubd                m7, m0, m14 ; t7
     paddd                m0, m14     ; t0
     psubd               m15, m0, m17 ; out15
     paddd                m0, m17     ; out0
     psubd               m14, m1, m13 ; out14
     paddd                m1, m13     ; out1
     psubd               m13, m12, m2 ; out13
     paddd                m2, m12     ; out2
     psubd               m12, m3, m11 ; out12
     paddd                m3, m11     ; out3
     psubd               m11, m4, m5  ; out11
     paddd                m4, m5      ; out4
     paddd                m5, m10, m9 ; out5
     psubd               m10, m9      ; out10
     psubd                m9, m6, m8  ; out9
     paddd                m6, m8      ; out6
     psubd                m8, m7, m16 ; out8
     paddd                m7, m16     ; out7
 %endmacro

 INIT_ZMM avx512icl
 INV_TXFM_16X16_FN dct, dct
 INV_TXFM_16X16_FN dct, adst, 39-23-1

 cglobal vp9_idct_16x16_internal_10, 0, 7, 22, dst, stride, c, eob, tx2
     mova                 m0, [cq+64* 0]
     mova                 m1, [cq+64* 1]
     mova                 m2, [cq+64* 2]
     mova                 m3, [cq+64* 3]
     mova                 m4, [cq+64* 4]
     mova                 m5, [cq+64* 5]
     mova                 m6, [cq+64* 6]
     mova                 m7, [cq+64* 7]
     vpbroadcastd        m20, [o(pd_8192)]
     vpbroadcastd        m21, [o(pd_11585)]
     sub                eobd, 38
     jl .pass1_fast
     mova                 m8, [cq+64* 8]
     mova                 m9, [cq+64* 9]
     mova                m10, [cq+64*10]
     mova                m11, [cq+64*11]
     mova                m12, [cq+64*12]
     mova                m13, [cq+64*13]
     mova                m14, [cq+64*14]
     mova                m15, [cq+64*15]
     call .main_part1
     call .main_part2
 .pass1_end:
     TRANSPOSE_4DQ         0,  4,  8, 12, 16
     TRANSPOSE_4DQ         1,  5,  9, 13, 16
     TRANSPOSE_4DQ         2,  6, 10, 14, 16
     TRANSPOSE_4DQ         3,  7, 11, 15, 16
     TRANSPOSE_4D          8,  9, 10, 11, 16
     TRANSPOSE_4D         12, 13, 14, 15, 16
     mov                 r6d, 64*12
     jmp .pass1_transpose_end
 .pass1_fast:
     WRAP_YMM IDCT16_PART1
     WRAP_YMM IDCT16_PART2
 .pass1_fast_end:
     vinserti32x8         m0, ym4, 1
     vinserti32x8         m8, ym12, 1
     vinserti32x8         m1, ym5, 1
     vinserti32x8         m9, ym13, 1
     vinserti32x8         m2, ym6, 1
     vinserti32x8        m10, ym14, 1
     vinserti32x8         m3, ym7, 1
     vinserti32x8        m11, ym15, 1
     vshufi32x4           m4, m0, m8, q3131
     vshufi32x4           m0, m8, q2020
     vshufi32x4           m5, m1, m9, q3131
     vshufi32x4           m1, m9, q2020
     vshufi32x4           m6, m2, m10, q3131
     vshufi32x4           m2, m10, q2020
     vshufi32x4           m7, m3, m11, q3131
     vshufi32x4           m3, m11, q2020
     mov                 r6d, 64*4
 .pass1_transpose_end:
     pxor                m16, m16
 .zero_loop:
     mova       [cq+r6+64*0], m16
     mova       [cq+r6+64*1], m16
     mova       [cq+r6+64*2], m16
     mova       [cq+r6+64*3], m16
     sub                 r6d, 64*4
     jge .zero_loop
     TRANSPOSE_4D          0,  1,  2,  3, 16
     TRANSPOSE_4D          4,  5,  6,  7, 16
     jmp                tx2q
 .pass2:
     test               eobd, eobd
     jl .pass2_fast
     call .main_part1
     jmp .pass2_end
 .pass2_fast:
     call .main_part1_fast
 .pass2_end:
     vpbroadcastd         m3, [o(pixel_clip6)]
     paddd                m0, m3
     paddd               m18, m3
     call .main_part2
     REPX       {psrad x, 6}, m0, m1, m2, m3
     packssdw             m0, m1
     lea                  r6, [strideq*3]
     packssdw             m1, m2, m3
     mova                 m2, [o(deintq_perm)]
     vpbroadcastd         m3, [o(pixel_clip)]
     REPX       {psrad x, 6}, m4, m5, m6, m7
     call .write_16x4
     packssdw             m0, m4, m5
     packssdw             m1, m6, m7
     REPX       {psrad x, 6}, m8, m9, m10, m11
     call .write_16x4
     packssdw             m0, m8, m9
     packssdw             m1, m10, m11
 .pass2_end2:
     REPX       {psrad x, 6}, m12, m13, m14, m15
     call .write_16x4
     packssdw             m0, m12, m13
     packssdw             m1, m14, m15
     call .write_16x4
     RET
 ALIGN function_align
 .write_16x4:
     mova               ym16, [dstq+strideq*0]
     vinserti32x8        m16, [dstq+strideq*1], 1
     mova               ym17, [dstq+strideq*2]
     vinserti32x8        m17, [dstq+r6       ], 1
     vpermq               m0, m2, m0
     vpermq               m1, m2, m1
     paddsw              m16, m0
     paddsw              m17, m1
     psubusw             m16, m3
     psubusw             m17, m3
     mova          [dstq+strideq*0], ym16
     vextracti32x8 [dstq+strideq*1], m16, 1
     mova          [dstq+strideq*2], ym17
     vextracti32x8 [dstq+r6       ], m17, 1
     lea                dstq, [dstq+strideq*4]
     ret
 ALIGN function_align
     IDCT16_PART1
     ret
 ALIGN function_align
 .main_part2:
     IDCT16_PART2
     ret

 %macro IADST16_PART1 0
 %if mmsize == 64
 .main_part1_fast:
 %endif
     pmulld              m15, m0, [o(pd_16364)] {bcstd} ; t1
     pmulld               m0, [o(pd_804)] {bcstd}       ; t0
     pmulld              m13, m2, [o(pd_15893)] {bcstd} ; t3
     pmulld               m2, [o(pd_3981)] {bcstd}      ; t2
     pmulld              m11, m4, [o(pd_14811)] {bcstd} ; t5
     pmulld               m4, [o(pd_7005)] {bcstd}      ; t4
     pmulld               m9, m6, [o(pd_13160)] {bcstd} ; t7
     pmulld               m6, [o(pd_9760)] {bcstd}      ; t6
     pmulld               m8, m7, [o(pd_11003)] {bcstd} ; t8
     pmulld               m7, [o(pd_12140)] {bcstd}     ; t9
     pmulld              m10, m5, [o(pd_8423)] {bcstd}  ; t10
     pmulld               m5, [o(pd_14053)] {bcstd}     ; t11
     pmulld              m12, m3, [o(pd_5520)] {bcstd}  ; t12
     pmulld               m3, [o(pd_15426)] {bcstd}     ; t13
     pmulld              m14, m1, [o(pd_2404)] {bcstd}  ; t14
     pmulld               m1, [o(pd_16207)] {bcstd}     ; t15
     REPX  {psubd x, m20, x}, m15, m13, m11, m9
 %if mmsize == 64 ; for the ymm variant we only ever use the fast path
     jmp %%main_part1b
 ALIGN function_align
 .main_part1:
     ITX_MULSUB_2D        15,  0, 16, 17, 18, _,   804, 16364 ; t1,  t0
     ITX_MULSUB_2D        13,  2, 16, 17, 18, _,  3981, 15893 ; t3,  t2
     ITX_MULSUB_2D        11,  4, 16, 17, 18, _,  7005, 14811 ; t5,  t4
     ITX_MULSUB_2D         9,  6, 16, 17, 18, _,  9760, 13160 ; t7,  t6
     ITX_MULSUB_2D         7,  8, 16, 17, 18, _, 12140, 11003 ; t9,  t8
     ITX_MULSUB_2D         5, 10, 16, 17, 18, _, 14053,  8423 ; t11, t10
     ITX_MULSUB_2D         3, 12, 16, 17, 18, _, 15426,  5520 ; t13, t12
     ITX_MULSUB_2D         1, 14, 16, 17, 18, _, 16207,  2404 ; t15, t14
     REPX     {paddd x, m20}, m15, m13, m11, m9
 %%main_part1b:
 %endif
     REPX     {paddd x, m20}, m0, m2, m4, m6
     psubd               m16, m2, m10  ; t10a
     paddd                m2, m10      ; t2a
     psubd               m10, m9, m1   ; t15a
     paddd                m9, m1       ; t7a
     psubd                m1, m13, m5  ; t11a
     paddd               m13, m5       ; t3a
     psubd                m5, m6, m14  ; t14a
     paddd                m6, m14      ; t6a
     REPX      {psrad x, 14}, m16, m10, m1, m5
     psubd               m14, m0, m8   ; t8a
     paddd                m0, m8       ; t0a
     psubd                m8, m15, m7  ; t9a
     paddd               m15, m7       ; t1a
     psubd                m7, m4, m12  ; t12a
     paddd                m4, m12      ; t4a
     paddd               m12, m11, m3  ; t5a
     psubd               m11, m3       ; t13a
     REPX      {psrad x, 14}, m14, m8, m7, m11
     vpbroadcastd        m19, [o(pd_9102)]
     vpbroadcastd        m18, [o(pd_13623)]
     ITX_MULSUB_2D        16, 1, 3, 17, _, _, 18, 19 ; t11, t10
     ITX_MULSUB_2D        10, 5, 3, 17, _, _, 19, 18 ; t14, t15
     vpbroadcastd        m19, [o(pd_16069)]
     vpbroadcastd        m18, [o(pd_3196)]
     ITX_MULSUB_2D        14, 8, 3, 17, _, _, 18, 19 ; t9,  t8
     ITX_MULSUB_2D        11, 7, 3, 17, _, _, 19, 18 ; t12, t13
     vpbroadcastd        m19, [o(pd_6270)]
     vpbroadcastd        m18, [o(pd_15137)]
     REPX      {psrad x, 14}, m15, m12, m0, m4
     psubd                m3, m15, m12 ; t5
     paddd               m15, m12      ; t1
     psubd               m12, m0, m4   ; t4
     paddd                m0, m4       ; t0
     REPX      {psrad x, 14}, m2, m6, m13, m9
     psubd                m4, m2, m6   ; t6
     paddd                m2, m6       ; t2
     psubd                m6, m13, m9  ; t7
     paddd                m9, m13      ; t3
     REPX     {paddd x, m20}, m8, m14, m1, m16
     psubd               m13, m8, m11  ; t12a
     paddd                m8, m11      ; t8a
     psubd               m11, m14, m7  ; t13a
     paddd               m14, m7       ; t9a
     psubd                m7, m1, m10  ; t14a
     paddd                m1, m10      ; t10a
     psubd               m10, m16, m5  ; t15a
     paddd               m16, m5       ; t11a
     REPX      {psrad x, 14}, m13, m11, m7, m10
     ITX_MULSUB_2D        12,  3, 5, 17, _, _, 19, 18 ; t5a, t4a
     ITX_MULSUB_2D         6,  4, 5, 17, _, _, 18, 19 ; t6a, t7a
     ITX_MULSUB_2D        13, 11, 5, 17, _, _, 19, 18 ; t13, t12
     ITX_MULSUB_2D        10,  7, 5, 17, _, _, 18, 19 ; t14, t15
     REPX      {psrad x, 14}, m8, m1, m14, m16
     psubd                m5, m8, m1   ;  t10
     paddd                m1, m8       ; -out1
     psubd                m8, m15, m9  ;  t3a
     paddd               m15, m9       ; -out15
     psubd                m9, m14, m16 ;  t11
     paddd               m14, m16      ;  out14
     psubd               m16, m0, m2   ;  t2a
     paddd                m0, m2       ;  out0
     REPX     {paddd x, m20}, m11, m13, m12, m3
     paddd                m2, m11, m10 ;  out2
     psubd               m11, m10      ;  t14a
     psubd               m10, m13, m7  ;  t15a
     paddd               m13, m7       ; -out13
     psubd                m7, m12, m4  ;  t7
     paddd               m12, m4       ;  out12
     psubd                m4, m3, m6   ;  t6
     paddd                m3, m6       ; -out3
     REPX      {psrad x, 14}, m10, m7, m11, m4
     REPX    {pmulld x, m21}, m9, m10, m7, m8, m5, m11, m4, m16
     REPX      {psrad x, 14}, m2, m13, m12, m3
 %endmacro

 %macro IADST16_PART2 0
     paddd                m9, m20
     psubd               m10, m20, m10
     paddd                m7, m20
     psubd                m8, m20, m8
     paddd                m6, m9, m5   ; out6
     psubd                m9, m5       ; out9
     psubd                m5, m10, m11 ; out5
     paddd               m10, m11      ; out10
     psubd               m11, m7, m4   ; out11
     paddd                m4, m7       ; out4
     psubd                m7, m8, m16  ; out7
     paddd                m8, m16      ; out8
 %endmacro

 %macro IADST16_PASS1_END 0
     pxor                m16, m16
     psubd                m1, m16, m1
     psubd                m3, m16, m3
     psubd               m13, m16, m13
     psubd               m15, m16, m15
     REPX      {psrad x, 14}, m4, m5, m6, m7, m8, m9, m10, m11
 %endmacro

 INV_TXFM_16X16_FN adst, dct, 39-18
 INV_TXFM_16X16_FN adst, adst

 cglobal vp9_iadst_16x16_internal_10, 0, 7, 22, dst, stride, c, eob, tx2
     mova                 m0, [cq+64* 0]
     mova                 m1, [cq+64* 1]
     mova                 m2, [cq+64* 2]
     mova                 m3, [cq+64* 3]
     mova                 m4, [cq+64* 4]
     mova                 m5, [cq+64* 5]
     mova                 m6, [cq+64* 6]
     mova                 m7, [cq+64* 7]
     vpbroadcastd        m20, [o(pd_8192)]
     vpbroadcastd        m21, [o(pd_11585)]
     sub                eobd, 39
     jl .pass1_fast
     mova                 m8, [cq+64* 8]
     mova                 m9, [cq+64* 9]
     mova                m10, [cq+64*10]
     mova                m11, [cq+64*11]
     mova                m12, [cq+64*12]
     mova                m13, [cq+64*13]
     mova                m14, [cq+64*14]
     mova                m15, [cq+64*15]
     call .main_part1
     call .main_part2
     IADST16_PASS1_END
     jmp m(vp9_idct_16x16_internal_10).pass1_end
 .pass1_fast:
     WRAP_YMM IADST16_PART1
     WRAP_YMM IADST16_PART2
     WRAP_YMM IADST16_PASS1_END
     jmp m(vp9_idct_16x16_internal_10).pass1_fast_end
 .pass2:
     test               eobd, eobd
     jl .pass2_fast
     call .main_part1
     jmp .pass2_end
 .pass2_fast:
     call .main_part1_fast
 .pass2_end:
     vpbroadcastd        m20, [o(pd_532480)]
     call .main_part2
     vpbroadcastd        m16, [o(pixel_clip6)]
     REPX     {paddd x, m16}, m0, m2, m12, m14
     REPX  {psubd x, m16, x}, m1, m3, m13, m15
     REPX       {psrad x, 6}, m0, m1, m2, m3
     packssdw             m0, m1
     lea                  r6, [strideq*3]
     packssdw             m1, m2, m3
     mova                 m2, [o(deintq_perm)]
     vpbroadcastd         m3, [o(pixel_clip)]
     REPX      {psrad x, 20}, m4, m5, m6, m7
     call m(vp9_idct_16x16_internal_10).write_16x4
     packssdw             m0, m4, m5
     packssdw             m1, m6, m7
     paddsw               m0, m3
     paddsw               m1, m3
     REPX      {psrad x, 20}, m8, m9, m10, m11
     call m(vp9_idct_16x16_internal_10).write_16x4
     packssdw             m0, m8, m9
     packssdw             m1, m10, m11
     paddsw               m0, m3
     paddsw               m1, m3
     jmp m(vp9_idct_16x16_internal_10).pass2_end2
 ALIGN function_align
     IADST16_PART1
     ret
 ALIGN function_align
 .main_part2:
     IADST16_PART2
     ret

 cglobal vp9_idct_idct_32x32_add_10, 4, 7, 23, 64*64, dst, stride, c, eob
 %undef cmp
     lea                  r5, [o_base]
     dec                eobd
     jnz .pass1
     imul                r6d, [cq], 11585
     vpbroadcastd         m3, [o(pixel_clip)]
     mov                [cq], r3d
     add                 r6d, 8192
     sar                 r6d, 14
     imul                r6d, 11585
     or                  r3d, 16
     add                 r6d, 532480
     sar                 r6d, 20
     vpbroadcastw         m2, r6d
     paddsw               m2, m3
 .dconly_loop:
     paddsw               m0, m2, [dstq+strideq*0]
     paddsw               m1, m2, [dstq+strideq*1]
     psubusw              m0, m3
     psubusw              m1, m3
     mova   [dstq+strideq*0], m0
     mova   [dstq+strideq*1], m1
     lea                dstq, [dstq+strideq*2]
     dec                 r3d
     jg .dconly_loop
     RET
 .pass1:
     vpbroadcastd        m20, [o(pd_8192)]
     vpbroadcastd        m21, [o(pd_11585)]
     cmp                eobd, 135
     jl .pass1_fast
     add                  cq, 64
     lea                  r4, [rsp+64*8]
     cmp                eobd, 579
     jl .pass1_right_fast
     mov                 r6d, 128*28
     call .pass1_main
     jmp .pass1_right_end
 .pass1_right_fast: ; bottomright quadrant is zero
     mova                 m0, [cq+128* 1]
     mova                 m1, [cq+128* 3]
     mova                 m2, [cq+128* 5]
     mova                 m3, [cq+128* 7]
     mova                 m4, [cq+128* 9]
     mova                 m5, [cq+128*11]
     mova                 m6, [cq+128*13]
     mova                 m7, [cq+128*15]
     call .main_fast
     mova                 m0, [cq+128* 0]
     mova                 m1, [cq+128* 2]
     mova                 m2, [cq+128* 4]
     mova                 m3, [cq+128* 6]
     mova                 m4, [cq+128* 8]
     mova                 m5, [cq+128*10]
     mova                 m6, [cq+128*12]
     mova                 m7, [cq+128*14]
     call m(vp9_idct_16x16_internal_10).main_part1_fast
     mov                 r6d, 128*12
     call .pass1_main_end
 .pass1_right_end:
     mova         [r4+64* 8], m0
     mova         [r4+64* 9], m1
     mova         [r4+64*10], m2
     mova         [r4+64*11], m3
     mova         [r4+64*12], m4
     mova         [r4+64*13], m5
     mova         [r4+64*14], m6
     mova         [r4+64*15], m7
     mova         [r4+64*16], m16
     mova         [r4+64*17], m17
     mova         [r4+64*18], m18
     mova         [r4+64*19], m19
     mova         [r4+64*20], m8
     mova         [r4+64*21], m9
     mova         [r4+64*22], m10
     mova         [r4+64*23], m11
     sub                  cq, 64
     sub                  r4, 64*8
     mov                 r6d, 128*28
     call .pass1_main
     mova                m12, [r4+64*20]
     mova                m13, [r4+64*21]
     mova                m14, [r4+64*22]
     mova                m15, [r4+64*23]
     mova         [r4+64*20], m8
     mova         [r4+64*21], m9
     mova         [r4+64*22], m10
     mova         [r4+64*23], m11
     mova                 m8, [r4+64*16]
     mova                 m9, [r4+64*17]
     mova                m10, [r4+64*18]
     mova                m11, [r4+64*19]
     mova         [r4+64*16], m16
     mova         [r4+64*17], m17
     mova         [r4+64*18], m18
     mova         [r4+64*19], m19
     call .main
     mova                 m0, [r4+64*16]
     mova                 m1, [r4+64*17]
     mova                 m2, [r4+64*18]
     mova                 m3, [r4+64*19]
     mova                 m4, [r4+64*20]
     mova                 m5, [r4+64*21]
     mova                 m6, [r4+64*22]
     mova                 m7, [r4+64*23]
     mova                 m8, [r4+64*24]
     mova                 m9, [r4+64*25]
     mova                m10, [r4+64*26]
     mova                m11, [r4+64*27]
     mova                m12, [r4+64*28]
     mova                m13, [r4+64*29]
     mova                m14, [r4+64*30]
     mova                m15, [r4+64*31]
     call m(vp9_idct_16x16_internal_10).main_part1
     call .pass2_main_left
     mova                 m8, [r4+64* 8]
     mova                 m9, [r4+64* 9]
     mova                m10, [r4+64*10]
     mova                m11, [r4+64*11]
     mova                m12, [r4+64*12]
     mova                m13, [r4+64*13]
     mova                m14, [r4+64*14]
     mova                m15, [r4+64*15]
     TRANSPOSE_4DQ         8, 10, 12, 14, 16
     TRANSPOSE_4DQ         9, 11, 13, 15, 16
     call .main
     call .pass2_main_right
     mova                 m8, [r4+64*24]
     mova                 m9, [r4+64*25]
     mova                m10, [r4+64*26]
     mova                m11, [r4+64*27]
     mova                m12, [r4+64*28]
     mova                m13, [r4+64*29]
     mova                m14, [r4+64*30]
     mova                m15, [r4+64*31]
     TRANSPOSE_4DQ         8, 10, 12, 14, 16
     TRANSPOSE_4DQ         9, 11, 13, 15, 16
     call m(vp9_idct_16x16_internal_10).main_part1
     jmp .pass2_end
 .pass1_fast:
     mova                 m0, [cq+128* 1]
     mova                 m1, [cq+128* 3]
     mova                 m2, [cq+128* 5]
     mova                 m3, [cq+128* 7]
     mova                 m4, [cq+128* 9]
     mova                 m5, [cq+128*11]
     mova                 m6, [cq+128*13]
     mova                 m7, [cq+128*15]
     mov                  r4, rsp
     call .main_fast
     mova                 m0, [cq+128* 0]
     mova                 m1, [cq+128* 2]
     mova                 m2, [cq+128* 4]
     mova                 m3, [cq+128* 6]
     mova                 m4, [cq+128* 8]
     mova                 m5, [cq+128*10]
     mova                 m6, [cq+128*12]
     mova                 m7, [cq+128*14]
     call m(vp9_idct_16x16_internal_10).main_part1_fast
     call m(vp9_idct_16x16_internal_10).main_part2
     mov                 r6d, 128*12
     call .pass1_main_end2
     mova         [r4+64*16], m16
     mova         [r4+64*17], m17
     mova         [r4+64*18], m18
     mova         [r4+64*19], m19
     mova         [r4+64*20], m8
     mova         [r4+64*21], m9
     mova         [r4+64*22], m10
     mova         [r4+64*23], m11
     call .main_fast
     mova                 m0, [r4+64*16]
     mova                 m1, [r4+64*17]
     mova                 m2, [r4+64*18]
     mova                 m3, [r4+64*19]
     mova                 m4, [r4+64*20]
     mova                 m5, [r4+64*21]
     mova                 m6, [r4+64*22]
     mova                 m7, [r4+64*23]
     call m(vp9_idct_16x16_internal_10).main_part1_fast
     call .pass2_main_left
     call .main_fast
     call .pass2_main_right
     call m(vp9_idct_16x16_internal_10).main_part1_fast
 .pass2_end:
     paddd                m0, m22
     paddd               m18, m22
     call m(vp9_idct_16x16_internal_10).main_part2
     mova                m20, [o(deintq_perm)]
     rorx                 r2, strideq, 59 ; strideq*32
     vpbroadcastd        m21, [o(pixel_clip)]
     add                  r2, dstq
 %assign i 0
 %rep 16
     mova                m16, [r4+64*(15-i)]
     mova                m17, [r4+64*(i-16)]
     mova                m18, [r4-64*(17+i)]
     paddd               m19, m %+ i, m16
     psubd                m0, m %+ i, m16
     call .write_32x2
     %assign i i+1
 %endrep
     RET
 ALIGN function_align
 .write_32x2:
     paddd               m16, m17, m18
     psubd               m17, m18
     REPX       {psrad x, 6}, m19, m16, m0, m17
     packssdw            m16, m19
     packssdw            m17, m0
     sub                  r2, strideq
     vpermq              m16, m20, m16
     vpermq              m17, m20, m17
     paddsw              m16, [dstq]
     paddsw              m17, [r2  ]
     psubusw             m16, m21
     psubusw             m17, m21
     mova             [dstq], m16
     mova             [r2  ], m17
     add                dstq, strideq
     ret
 ALIGN function_align
 .pass1_main:
     mova                 m0, [cq+128* 1]
     mova                 m1, [cq+128* 3]
     mova                 m2, [cq+128* 5]
     mova                 m3, [cq+128* 7]
     mova                 m4, [cq+128* 9]
     mova                 m5, [cq+128*11]
     mova                 m6, [cq+128*13]
     mova                 m7, [cq+128*15]
     mova                 m8, [cq+128*17]
     mova                 m9, [cq+128*19]
     mova                m10, [cq+128*21]
     mova                m11, [cq+128*23]
     mova                m12, [cq+128*25]
     mova                m13, [cq+128*27]
     mova                m14, [cq+128*29]
     mova                m15, [cq+128*31]
     call .main
     mova                 m0, [cq+128* 0]
     mova                 m1, [cq+128* 2]
     mova                 m2, [cq+128* 4]
     mova                 m3, [cq+128* 6]
     mova                 m4, [cq+128* 8]
     mova                 m5, [cq+128*10]
     mova                 m6, [cq+128*12]
     mova                 m7, [cq+128*14]
     mova                 m8, [cq+128*16]
     mova                 m9, [cq+128*18]
     mova                m10, [cq+128*20]
     mova                m11, [cq+128*22]
     mova                m12, [cq+128*24]
     mova                m13, [cq+128*26]
     mova                m14, [cq+128*28]
     mova                m15, [cq+128*30]
     call m(vp9_idct_16x16_internal_10).main_part1
 .pass1_main_end:
     call m(vp9_idct_16x16_internal_10).main_part2
 .pass1_main_end2:
     pxor                m16, m16
 .pass1_zero_loop:
     mova      [cq+r6+128*0], m16
     mova      [cq+r6+128*1], m16
     mova      [cq+r6+128*2], m16
     mova      [cq+r6+128*3], m16
     sub                 r6d, 128*4
     jge .pass1_zero_loop
     mova                m16, [r4+64*15]
     mova                m19, [r4+64*14]
     mova                m22, [r4+64*13]
     mova                m17, [r4+64*12]
     psubd               m18, m0, m16
     paddd               m16, m0
     paddd                m0, m19, m1
     psubd               m19, m1, m19
     paddd                m1, m17, m3
     psubd                m3, m17
     paddd               m17, m2, m22
     psubd                m2, m22
     TRANSPOSE_4D          3,  2, 19, 18, 22 ; 28 29 30 31
     TRANSPOSE_4D         16,  0, 17,  1, 22 ;  0  1  2  3
     mova         [r4+64*54], m3
     mova         [r4+64*55], m19
     mova         [r4+64*38], m2
     mova         [r4+64*39], m18
     mova                 m2, [r4+64*11]
     mova                m19, [r4+64*10]
     mova                 m3, [r4+64* 9]
     mova                m22, [r4+64* 8]
     paddd               m18, m4, m2
     psubd                m4, m2
     paddd                m2, m5, m19
     psubd                m5, m19
     paddd               m19, m6, m3
     psubd                m6, m3
     paddd                m3, m7, m22
     psubd                m7, m22
     TRANSPOSE_4D          7,  6,  5,  4, 22 ; 24 25 26 27
     TRANSPOSE_4D         18,  2, 19,  3, 22 ;  4  5  6  7
     mova         [r4+64*52], m7
     mova         [r4+64*53], m5
     mova         [r4+64*36], m6
     mova         [r4+64*37], m4
     mova                 m7, [r4+64* 7]
     mova                 m4, [r4+64* 6]
     mova                 m5, [r4+64* 5]
     mova                m22, [r4+64* 4]
     psubd                m6, m8, m7
     paddd                m8, m7
     psubd                m7, m9, m4
     paddd                m4, m9
     paddd                m9, m10, m5
     psubd               m10, m5
     paddd                m5, m11, m22
     psubd               m11, m22
     TRANSPOSE_4D         11, 10,  7,  6, 22 ; 20 21 22 23
     TRANSPOSE_4D          8,  4,  9,  5, 22 ;  8  9 10 11
     mova         [r4+64*50], m11
     mova         [r4+64*51], m7
     mova         [r4+64*34], m10
     mova         [r4+64*35], m6
     mova                 m6, [r4+64* 3]
     mova                m11, [r4+64* 2]
     mova                 m7, [r4+64* 1]
     mova                m22, [r4+64* 0]
     paddd               m10, m12, m6
     psubd               m12, m6
     paddd                m6, m13, m11
     psubd               m13, m11
     paddd               m11, m14, m7
     psubd               m14, m7
     paddd                m7, m15, m22
     psubd               m15, m22
     TRANSPOSE_4D         15, 14, 13, 12, 22 ; 16 17 18 19
     TRANSPOSE_4D         10,  6, 11,  7, 22 ; 12 13 14 15
     mova         [r4+64*48], m15
     mova         [r4+64*49], m13
     mova         [r4+64*32], m14
     mova         [r4+64*33], m12
     TRANSPOSE_4DQ         0,  2,  4,  6, 22
     TRANSPOSE_4DQ         1,  3,  5,  7, 22
     TRANSPOSE_4DQ        16, 18,  8, 10, 22
     TRANSPOSE_4DQ        17, 19,  9, 11, 22
     ret
 ALIGN function_align
 .pass2_main_left:
     vpbroadcastd        m22, [o(pixel_clip6)]
     paddd                m0, m22
     paddd               m18, m22
     call m(vp9_idct_16x16_internal_10).main_part2
     mova         [r4+64*16], m0
     mova         [r4+64*17], m1
     mova         [r4+64*18], m2
     mova         [r4+64*19], m3
     mova         [r4+64*20], m4
     mova         [r4+64*21], m5
     mova         [r4+64*22], m6
     mova         [r4+64*23], m7
     mova         [r4+64*24], m8
     mova         [r4+64*25], m9
     mova         [r4+64*26], m10
     mova         [r4+64*27], m11
     mova         [r4+64*28], m12
     mova         [r4+64*29], m13
     mova         [r4+64*30], m14
     mova         [r4+64*31], m15
     add                  r4, 64*32
     mova                 m0, [r4+64* 0]
     mova                 m1, [r4+64* 1]
     mova                 m2, [r4+64* 2]
     mova                 m3, [r4+64* 3]
     mova                 m4, [r4+64* 4]
     mova                 m5, [r4+64* 5]
     mova                 m6, [r4+64* 6]
     mova                 m7, [r4+64* 7]
     jmp .pass2_main_transpose
 ALIGN function_align
 .pass2_main_right:
     mova                 m0, [r4+64*16]
     mova                 m1, [r4+64*17]
     mova                 m2, [r4+64*18]
     mova                 m3, [r4+64*19]
     mova                 m4, [r4+64*20]
     mova                 m5, [r4+64*21]
     mova                 m6, [r4+64*22]
     mova                 m7, [r4+64*23]
 .pass2_main_transpose:
     TRANSPOSE_4DQ         0, 2, 4, 6, 8
     TRANSPOSE_4DQ         1, 3, 5, 7, 8
     ret
 ALIGN function_align
 .main_fast:
     pmulld              m15, m0, [o(pd_16364)] {1to16} ; t31a
     pmulld               m0, [o(pd_804)] {1to16}       ; t16a
     pmulld               m8, m7, [o(pd_11003)] {1to16} ; t17a
     pmulld               m7, [o(pd_12140)] {1to16}     ; t30a
     pmulld              m11, m4, [o(pd_14811)] {1to16} ; t29a
     pmulld               m4, [o(pd_7005)] {1to16}      ; t18a
     pmulld              m12, m3, [o(pd_5520)] {1to16}  ; t19a
     pmulld               m3, [o(pd_15426)] {1to16}     ; t28a
     pmulld              m13, m2, [o(pd_15893)] {1to16} ; t27a
     pmulld               m2, [o(pd_3981)] {1to16}      ; t20a
     pmulld              m10, m5, [o(pd_8423)] {1to16}  ; t21a
     pmulld               m5, [o(pd_14053)] {1to16}     ; t26a
     pmulld               m9, m6, [o(pd_13160)] {1to16} ; t25a
     pmulld               m6, [o(pd_9760)] {1to16}      ; t22a
     pmulld              m14, m1, [o(pd_2404)] {1to16}  ; t23a
     pmulld               m1, [o(pd_16207)] {1to16}     ; t24a
     REPX  {psubd x, m20, x}, m8, m12, m10, m14
     jmp .main2
 ALIGN function_align
 .main:
     ITX_MULSUB_2D         0, 15, 16, 17, 18, _,   804, 16364 ; t16a, t31a
     ITX_MULSUB_2D         8,  7, 16, 17, 18, _, 12140, 11003 ; t17a, t30a
     ITX_MULSUB_2D         4, 11, 16, 17, 18, _,  7005, 14811 ; t18a, t29a
     ITX_MULSUB_2D        12,  3, 16, 17, 18, _, 15426,  5520 ; t19a, t28a
     ITX_MULSUB_2D         2, 13, 16, 17, 18, _,  3981, 15893 ; t20a, t27a
     ITX_MULSUB_2D        10,  5, 16, 17, 18, _, 14053,  8423 ; t21a, t26a
     ITX_MULSUB_2D         6,  9, 16, 17, 18, _,  9760, 13160 ; t22a, t25a
     ITX_MULSUB_2D        14,  1, 16, 17, 18, _, 16207,  2404 ; t23a, t24a
     REPX     {paddd x, m20}, m8, m12, m10, m14
 .main2:
     REPX     {paddd x, m20}, m0, m15, m7, m4, m3, m11
     REPX     {psrad x, 14 }, m8, m0, m15, m7, m12, m4, m3, m11
     psubd               m16, m0, m8   ; t17
     paddd                m0, m8       ; t16
     psubd                m8, m15, m7  ; t30
     paddd               m15, m7       ; t31
     paddd                m7, m12, m4  ; t19
     psubd               m12, m4       ; t18
     paddd                m4, m3, m11  ; t28
     psubd                m3, m11      ; t29
     REPX     {paddd x, m20}, m2, m13, m5, m6, m1, m9
     REPX     {psrad x, 14 }, m10, m2, m13, m5, m14, m6, m1, m9
     psubd               m11, m2, m10  ; t21
     paddd                m2, m10      ; t20
     psubd               m10, m13, m5  ; t26
     paddd               m13, m5       ; t27
     psubd                m5, m14, m6  ; t22
     paddd                m6, m14      ; t23
     psubd               m14, m1, m9   ; t25
     paddd                m9, m1       ; t24
     vpbroadcastd        m19, [o(pd_16069)]
     vpbroadcastd        m18, [o(pd_3196)]
     ITX_MULSUB_2D         8, 16,  1, 17, _, 20, 18, 19    ; t17a, t30a
     ITX_MULSUB_2D         3, 12,  1, 17, _, 20, 18, 19, 1 ; t29a, t18a
     vpbroadcastd        m19, [o(pd_9102)]
     vpbroadcastd        m18, [o(pd_13623)]
     ITX_MULSUB_2D        10, 11,  1, 17, _, 20, 18, 19    ; t21a, t26a
     ITX_MULSUB_2D        14,  5,  1, 17, _, 20, 18, 19, 1 ; t25a, t22a
     paddd                m1, m6, m2   ; t23a
     psubd                m6, m2       ; t20a
     psubd                m2, m9, m13  ; t27a
     paddd                m9, m13      ; t24a
     psubd               m13, m15, m4  ; t28a
     paddd               m15, m4       ; t31a
     psubd                m4, m8, m12  ; t18
     paddd                m8, m12      ; t17
     psubd               m12, m0, m7   ; t19a
     paddd                m0, m7       ; t16a
     psubd                m7, m16, m3  ; t29
     paddd                m3, m16      ; t30
     paddd               m16, m5, m10  ; t22
     psubd                m5, m10      ; t21
     psubd               m10, m14, m11 ; t26
     paddd               m14, m11      ; t25
     vpbroadcastd        m19, [o(pd_15137)]
     vpbroadcastd        m18, [o(pd_6270)]
     ITX_MULSUB_2D        13, 12, 11, 17, _, 20, 18, 19    ; t19,  t28
     ITX_MULSUB_2D         2,  6, 11, 17, _, 20, 18, 19, 1 ; t27,  t20
     ITX_MULSUB_2D         7,  4, 11, 17, _, 20, 18, 19    ; t18a, t29a
     ITX_MULSUB_2D        10,  5, 11, 17, _, 20, 18, 19, 1 ; t26a, t21a
     psubd               m11, m0, m1   ; t23
     paddd                m0, m1       ; t16
     paddd                m1, m16, m8  ; t17a
     psubd               m16, m8, m16  ; t22a
     psubd                m8, m15, m9  ; t24
     paddd               m15, m9       ; t31
     psubd                m9, m3, m14  ; t25a
     paddd               m14, m3       ; t30a
     paddd                m3, m6, m13  ; t19a
     psubd                m6, m13, m6  ; t20a
     paddd               m13, m10, m4  ; t29
     psubd               m10, m4, m10  ; t26
     psubd                m4, m12, m2  ; t27a
     paddd               m12, m2       ; t28a
     paddd                m2, m7, m5   ; t18
     psubd                m7, m5       ; t21
     REPX    {pmulld x, m21}, m10, m8, m4, m9, m7, m11, m6, m16
     mova         [r4+64* 0], m0
     mova         [r4+64* 1], m1
     mova         [r4+64* 2], m2
     mova         [r4+64* 3], m3
     mova         [r4+64*12], m12
     mova         [r4+64*13], m13
     mova         [r4+64*14], m14
     mova         [r4+64*15], m15
     REPX    {paddd  x, m20}, m10, m8, m4, m9
     psubd                m5, m10, m7  ; t21a
     paddd               m10, m7       ; t26a
     psubd                m7, m8, m11  ; t23a
     paddd                m8, m11      ; t24a
     REPX    {psrad  x, 14 }, m5, m10, m7, m8
     paddd               m11, m4, m6   ; t27
     psubd                m4, m6       ; t20
     psubd                m6, m9, m16  ; t22
     paddd                m9, m16      ; t25
     REPX    {psrad  x, 14 }, m11, m4, m6, m9
     mova         [r4+64* 4], m4
     mova         [r4+64* 5], m5
     mova         [r4+64* 6], m6
     mova         [r4+64* 7], m7
     mova         [r4+64* 8], m8
     mova         [r4+64* 9], m9
     mova         [r4+64*10], m10
     mova         [r4+64*11], m11
     ret

 %endif