libavcodec/loongarch/h264qpel.S - third_party/ffmpeg - Git at Google

 /*
  * Loongson LSX optimized h264qpel
  *
  * Copyright (c) 2023 Loongson Technology Corporation Limited
  * Contributed by Hecai Yuan <yuanhecai@loongson.cn>
  *
  * This file is part of FFmpeg.
  *
  * FFmpeg is free software; you can redistribute it and/or
  * modify it under the terms of the GNU Lesser General Public
  * License as published by the Free Software Foundation; either
  * version 2.1 of the License, or (at your option) any later version.
  *
  * FFmpeg is distributed in the hope that it will be useful,
  * but WITHOUT ANY WARRANTY; without even the implied warranty of
  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  * Lesser General Public License for more details.
  *
  * You should have received a copy of the GNU Lesser General Public
  * License along with FFmpeg; if not, write to the Free Software
  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  */

 #include "loongson_asm.S"

 .macro VLD_QPEL8_H_SSRANI_LSX in0, in1, in2, in3, in4
     vld           vr0,    \in4,   0
     vldx          vr1,    \in4,   a2
     QPEL8_H_LSX   \in0,   \in1
     vssrani.bu.h  \in0,   \in2,   5
     vssrani.bu.h  \in1,   \in3,   5
 .endm

 .macro VLDX_QPEL8_H_SSRANI_LSX in0, in1, in2, in3, in4
     vldx          vr0,    \in4,   t1
     vldx          vr1,    \in4,   t2
     QPEL8_H_LSX   \in0,   \in1
     vssrani.bu.h  \in0,   \in2,   5
     vssrani.bu.h  \in1,   \in3,   5
 .endm

 .macro VLD_DOUBLE_QPEL8_H_SSRANI_LSX in0, in1, in2, in3, in4, in5, in6, in7, in8
     vld           vr0,    \in8,   0
     vldx          vr1,    \in8,   a2
     QPEL8_H_LSX   \in0,   \in1
     vssrani.bu.h  \in0,   \in4,   5
     vssrani.bu.h  \in1,   \in5,   5
     vldx          vr0,    \in8,   t1
     vldx          vr1,    \in8,   t2
     QPEL8_H_LSX   \in2,   \in3
     vssrani.bu.h  \in2,   \in6,   5
     vssrani.bu.h  \in3,   \in7,   5
 .endm

 function ff_put_h264_qpel16_mc00_lsx
     slli.d        t0,     a2,     1
     add.d         t1,     t0,     a2
     slli.d        t2,     t0,     1
 .rept 4
     vld           vr0,    a1,     0
     vldx          vr1,    a1,     a2
     vldx          vr2,    a1,     t0
     vldx          vr3,    a1,     t1
     add.d         a1,     a1,     t2
     vst           vr0,    a0,     0
     vstx          vr1,    a0,     a2
     vstx          vr2,    a0,     t0
     vstx          vr3,    a0,     t1
     add.d         a0,     a0,     t2
 .endr
 endfunc

 .macro QPEL8_H_LSX out0, out1
     vbsrl.v       vr2,    vr0,    1
     vbsrl.v       vr3,    vr1,    1
     vbsrl.v       vr4,    vr0,    2
     vbsrl.v       vr5,    vr1,    2
     vbsrl.v       vr6,    vr0,    3
     vbsrl.v       vr7,    vr1,    3
     vbsrl.v       vr8,    vr0,    4
     vbsrl.v       vr9,    vr1,    4
     vbsrl.v       vr10,   vr0,    5
     vbsrl.v       vr11,   vr1,    5

     vilvl.b       vr6,    vr4,    vr6
     vilvl.b       vr7,    vr5,    vr7
     vilvl.b       vr8,    vr2,    vr8
     vilvl.b       vr9,    vr3,    vr9
     vilvl.b       vr10,   vr0,    vr10
     vilvl.b       vr11,   vr1,    vr11
     vhaddw.hu.bu  vr6,    vr6,    vr6
     vhaddw.hu.bu  vr7,    vr7,    vr7
     vhaddw.hu.bu  vr8,    vr8,    vr8
     vhaddw.hu.bu  vr9,    vr9,    vr9
     vhaddw.hu.bu  vr10,   vr10,   vr10
     vhaddw.hu.bu  vr11,   vr11,   vr11
     vmul.h        vr2,    vr6,    vr20
     vmul.h        vr3,    vr7,    vr20
     vmul.h        vr4,    vr8,    vr21
     vmul.h        vr5,    vr9,    vr21
     vssub.h       vr2,    vr2,    vr4
     vssub.h       vr3,    vr3,    vr5
     vsadd.h       vr2,    vr2,    vr10
     vsadd.h       vr3,    vr3,    vr11
     vsadd.h       \out0,  vr2,    vr22
     vsadd.h       \out1,  vr3,    vr22
 .endm

 .macro VLD_DOUBLE_QPEL8_H_LSX in0, in1, in2, in3, in4
     vld           vr0,    \in4,   0
     vldx          vr1,    \in4,   a2
     QPEL8_H_LSX   \in0,   \in1
     vldx          vr0,    \in4,   t1
     vldx          vr1,    \in4,   t2
     QPEL8_H_LSX   \in2,   \in3
 .endm

 .macro put_h264_qpel16 in0
 function ff_put_h264_qpel16_mc\in0\()_lsx
 .ifc \in0, 10
     addi.d        t8,     a1,     0
 .else
     addi.d        t8,     a1,     1
 .endif
     vldi          vr20,   0x414
     vldi          vr21,   0x405
     vldi          vr22,   0x410
     slli.d        t1,     a2,     1
     add.d         t2,     t1,     a2
     addi.d        t0,     a1,     -2   // t0 = src - 2
     addi.d        a1,     t0,     8    // a1 = t0 + 8
 .rept 4
     VLD_DOUBLE_QPEL8_H_LSX vr12, vr13, vr14, vr15, t0
     VLD_QPEL8_H_SSRANI_LSX vr2, vr3, vr12, vr13, a1
     vld           vr10,   t8,     0
     vldx          vr11,   t8,     a2
     vavgr.bu      vr0,    vr2,    vr10
     vavgr.bu      vr1,    vr3,    vr11
     vst           vr0,    a0,     0
     vstx          vr1,    a0,     a2
     VLDX_QPEL8_H_SSRANI_LSX vr4, vr5, vr14, vr15, a1
     vldx          vr12,   t8,     t1
     vldx          vr13,   t8,     t2
     vavgr.bu      vr2,    vr4,    vr12
     vavgr.bu      vr3,    vr5,    vr13
     vstx          vr2,    a0,     t1
     vstx          vr3,    a0,     t2
     alsl.d        a0,     a2,     a0,    2
     alsl.d        t8,     a2,     t8,    2
     alsl.d        a1,     a2,     a1,    2
     alsl.d        t0,     a2,     t0,    2
 .endr
 endfunc
 .endm

 put_h264_qpel16 10
 put_h264_qpel16 30

 function ff_put_h264_qpel16_mc20_lsx
     vldi          vr20,   0x414
     vldi          vr21,   0x405
     vldi          vr22,   0x410
     slli.d        t1,     a2,     1
     add.d         t2,     t1,     a2
     addi.d        t0,     a1,     -2   // t0 = src - 2
     addi.d        a1,     t0,     8    // a1 = t0 + 8
 .rept 4
     VLD_DOUBLE_QPEL8_H_LSX vr12, vr13, vr14, vr15, t0
     VLD_QPEL8_H_SSRANI_LSX vr2, vr3, vr12, vr13, a1
     vst           vr2,    a0,     0
     vstx          vr3,    a0,     a2
     VLDX_QPEL8_H_SSRANI_LSX vr4, vr5, vr14, vr15, a1
     vstx          vr4,    a0,     t1
     vstx          vr5,    a0,     t2
     alsl.d        a0,     a2,     a0,    2
     alsl.d        a1,     a2,     a1,    2
     alsl.d        t0,     a2,     t0,    2
 .endr
 endfunc

 .macro QPEL8_V_LSX in0, in1, in2, in3, in4, in5, in6
     vilvl.b       vr7,    \in3,   \in2
     vilvl.b       vr8,    \in4,   \in3
     vilvl.b       vr9,    \in4,   \in1
     vilvl.b       vr10,   \in5,   \in2
     vilvl.b       vr11,   \in5,   \in0
     vilvl.b       vr12,   \in6,   \in1
     vhaddw.hu.bu  vr7,    vr7,    vr7
     vhaddw.hu.bu  vr8,    vr8,    vr8
     vhaddw.hu.bu  vr9,    vr9,    vr9
     vhaddw.hu.bu  vr10,   vr10,   vr10
     vhaddw.hu.bu  vr11,   vr11,   vr11
     vhaddw.hu.bu  vr12,   vr12,   vr12
     vmul.h        vr7,    vr7,    vr20
     vmul.h        vr8,    vr8,    vr20
     vmul.h        vr9,    vr9,    vr21
     vmul.h        vr10,   vr10,   vr21
     vssub.h       vr7,    vr7,    vr9
     vssub.h       vr8,    vr8,    vr10
     vsadd.h       vr7,    vr7,    vr11
     vsadd.h       vr8,    vr8,    vr12
     vsadd.h       vr7,    vr7,    vr22
     vsadd.h       vr8,    vr8,    vr22

     vilvh.b       vr13,   \in3,   \in2
     vilvh.b       vr14,   \in4,   \in3
     vilvh.b       vr15,   \in4,   \in1
     vilvh.b       vr16,   \in5,   \in2
     vilvh.b       vr17,   \in5,   \in0
     vilvh.b       vr18,   \in6,   \in1
     vhaddw.hu.bu  vr13,   vr13,   vr13
     vhaddw.hu.bu  vr14,   vr14,   vr14
     vhaddw.hu.bu  vr15,   vr15,   vr15
     vhaddw.hu.bu  vr16,   vr16,   vr16
     vhaddw.hu.bu  vr17,   vr17,   vr17
     vhaddw.hu.bu  vr18,   vr18,   vr18
     vmul.h        vr13,   vr13,   vr20
     vmul.h        vr14,   vr14,   vr20
     vmul.h        vr15,   vr15,   vr21
     vmul.h        vr16,   vr16,   vr21
     vssub.h       vr13,   vr13,   vr15
     vssub.h       vr14,   vr14,   vr16
     vsadd.h       vr13,   vr13,   vr17
     vsadd.h       vr14,   vr14,   vr18
     vsadd.h       vr13,   vr13,   vr22
     vsadd.h       vr14,   vr14,   vr22
     vssrani.bu.h  vr13,   vr7,    5
     vssrani.bu.h  vr14,   vr8,    5
 .endm

 .macro put_h264_qpel16_mc1 in0
 function ff_put_h264_qpel16_mc\in0\()_lsx
     slli.d        t0,     a2,     1
     add.d         t1,     t0,     a2
     sub.d         t2,     a1,     t0  // t2 = src - 2 * stride
     vldi          vr20,   0x414
     vldi          vr21,   0x405
     vldi          vr22,   0x410

     vld           vr0,    t2,     0
     vldx          vr1,    t2,     a2
     vldx          vr2,    t2,     t0
     vldx          vr3,    t2,     t1
     alsl.d        t2,     a2,     t2,    2  // t2 = t2 + 4 * stride
     vld           vr4,    t2,     0
     vldx          vr5,    t2,     a2
     vldx          vr6,    t2,     t0
     QPEL8_V_LSX vr0, vr1, vr2, vr3, vr4, vr5, vr6
 .ifc \in0, 01
     vavgr.bu      vr13,   vr2,    vr13
     vavgr.bu      vr14,   vr3,    vr14
 .else
     vavgr.bu      vr13,   vr3,    vr13
     vavgr.bu      vr14,   vr4,    vr14
 .endif
     vst           vr13,   a0,     0
     vstx          vr14,   a0,     a2

     vldx          vr0,    t2,     t1
     alsl.d        t2,     a2,     t2,    2  // t2 = t2 + 4 *stride
     vld           vr1,    t2,     0
     QPEL8_V_LSX vr2, vr3, vr4, vr5, vr6, vr0, vr1
 .ifc \in0, 01
     vavgr.bu      vr13,   vr4,    vr13
     vavgr.bu      vr14,   vr5,    vr14
 .else
     vavgr.bu      vr13,   vr5,    vr13
     vavgr.bu      vr14,   vr6,    vr14
 .endif
     vstx          vr13,   a0,     t0
     vstx          vr14,   a0,     t1

     alsl.d        a0,     a2,     a0,    2  // dst = dst + 4 * stride

     vldx          vr2,    t2,     a2
     vldx          vr3,    t2,     t0
     QPEL8_V_LSX vr4, vr5, vr6, vr0, vr1, vr2, vr3
 .ifc \in0, 01
     vavgr.bu      vr13,   vr6,    vr13
     vavgr.bu      vr14,   vr0,    vr14
 .else
     vavgr.bu      vr13,   vr0,    vr13
     vavgr.bu      vr14,   vr1,    vr14
 .endif
     vst           vr13,   a0,     0
     vstx          vr14,   a0,     a2

     vldx          vr4,    t2,     t1
     alsl.d        t2,     a2,     t2,    2 // t2 = t2 + 4 * stride
     vld           vr5,    t2,     0
     QPEL8_V_LSX vr6, vr0, vr1, vr2, vr3, vr4, vr5
 .ifc \in0, 01
     vavgr.bu      vr13,   vr1,    vr13
     vavgr.bu      vr14,   vr2,    vr14
 .else
     vavgr.bu      vr13,   vr2,    vr13
     vavgr.bu      vr14,   vr3,    vr14
 .endif
     vstx          vr13,   a0,     t0
     vstx          vr14,   a0,     t1

     alsl.d        a0,     a2,     a0,    2  // dst = dst + 4 * stride

     vldx          vr6,    t2,     a2
     vldx          vr0,    t2,     t0
     QPEL8_V_LSX vr1, vr2, vr3, vr4, vr5, vr6, vr0
 .ifc \in0, 01
     vavgr.bu      vr13,   vr3,    vr13
     vavgr.bu      vr14,   vr4,    vr14
 .else
     vavgr.bu      vr13,   vr4,    vr13
     vavgr.bu      vr14,   vr5,    vr14
 .endif
     vst           vr13,   a0,     0
     vstx          vr14,   a0,     a2

     vldx          vr1,    t2,     t1
     alsl.d        t2,     a2,     t2,    2  // t2 = t2 + 4 * stride
     vld           vr2,    t2,     0
     QPEL8_V_LSX vr3, vr4, vr5, vr6, vr0, vr1, vr2
 .ifc \in0, 01
     vavgr.bu      vr13,   vr5,    vr13
     vavgr.bu      vr14,   vr6,    vr14
 .else
     vavgr.bu      vr13,   vr6,    vr13
     vavgr.bu      vr14,   vr0,    vr14
 .endif
     vstx          vr13,   a0,     t0
     vstx          vr14,   a0,     t1

     alsl.d        a0,     a2,     a0,    2  // dst = dst + 4 * stride

     vldx          vr3,    t2,     a2
     vldx          vr4,    t2,     t0
     QPEL8_V_LSX vr5, vr6, vr0, vr1, vr2, vr3, vr4
 .ifc \in0, 01
     vavgr.bu      vr13,   vr0,    vr13
     vavgr.bu      vr14,   vr1,    vr14
 .else
     vavgr.bu      vr13,   vr1,    vr13
     vavgr.bu      vr14,   vr2,    vr14
 .endif
     vst           vr13,   a0,     0
     vstx          vr14,   a0,     a2

     vldx          vr5,    t2,     t1
     alsl.d        t2,     a2,     t2,    2 // t2 = t2 + 4 * stride
     vld           vr6,    t2,     0
     QPEL8_V_LSX vr0, vr1, vr2, vr3, vr4, vr5, vr6
 .ifc \in0, 01
     vavgr.bu      vr13,   vr2,    vr13
     vavgr.bu      vr14,   vr3,    vr14
 .else
     vavgr.bu      vr13,   vr3,    vr13
     vavgr.bu      vr14,   vr4,    vr14
 .endif
     vstx          vr13,   a0,     t0
     vstx          vr14,   a0,     t1
 endfunc
 .endm

 put_h264_qpel16_mc1 01
 put_h264_qpel16_mc1 03

 .macro VST_QPEL8_V_LOWPASS_LSX in0, in1, in2, in3, in4, in5, in6, in7, in8
     QPEL8_V_LSX \in0, \in1, \in2, \in3, \in4, \in5, \in6
     vavgr.bu      vr13,   \in7,   vr13
     vavgr.bu      vr14,   \in8,   vr14
     vst           vr13,   a0,     0
     vstx          vr14,   a0,     a2
 .endm

 .macro VSTX_QPEL8_V_LOWPASS_LSX in0, in1, in2, in3, in4, in5, in6, in7, in8
     QPEL8_V_LSX \in0, \in1, \in2, \in3, \in4, \in5, \in6
     vavgr.bu      vr13,   \in7,   vr13
     vavgr.bu      vr14,   \in8,   vr14
     vstx          vr13,   a0,     t1
     vstx          vr14,   a0,     t2
 .endm

 function ff_put_h264_qpel16_mc11_lsx
     addi.d        sp,     sp,     -64
     fst.d         f24,    sp,     0
     fst.d         f25,    sp,     8
     fst.d         f26,    sp,     16
     fst.d         f27,    sp,     24
     fst.d         f28,    sp,     32
     fst.d         f29,    sp,     40
     fst.d         f30,    sp,     48
     fst.d         f31,    sp,     56
     slli.d        t1,     a2,     1
     add.d         t2,     t1,     a2
     slli.d        t6,     t1,     1
     vldi          vr20,   0x414
     vldi          vr21,   0x405
     vldi          vr22,   0x410
     sub.d         t4,     a1,     t1   // t4 = src - 2 * stride
     addi.d        t0,     a1,     -2   // t0 = src - 2
     addi.d        a1,     t0,     8    // a1 = t0 + 8
 .rept 2
     VLD_DOUBLE_QPEL8_H_LSX vr12, vr13, vr14, vr15, t0
     alsl.d        t0,     a2,     t0,    2
     VLD_DOUBLE_QPEL8_H_LSX vr16, vr17, vr18, vr19, t0
     VLD_DOUBLE_QPEL8_H_SSRANI_LSX vr23, vr24, vr25, vr26, vr12, vr13, \
                                   vr14, vr15, a1
     alsl.d        a1,     a2,     a1,    2
     VLD_DOUBLE_QPEL8_H_SSRANI_LSX vr27, vr28, vr29, vr30, vr16, vr17, \
                                   vr18, vr19, a1

     vld           vr0,    t4,     0      // t4 = src - 2 * stride
     vldx          vr1,    t4,     a2
     vldx          vr2,    t4,     t1
     vldx          vr3,    t4,     t2
     alsl.d        t4,     a2,     t4,    2  // src + 2 *stride
     vld           vr4,    t4,     0
     vldx          vr5,    t4,     a2
     vldx          vr6,    t4,     t1
     VST_QPEL8_V_LOWPASS_LSX vr0, vr1, vr2, vr3, vr4, vr5, vr6, vr23, vr24
     vldx          vr0,    t4,     t2
     alsl.d        t4,     a2,     t4,    2  // src + 6 *stride
     vld           vr1,    t4,     0
     VSTX_QPEL8_V_LOWPASS_LSX vr2, vr3, vr4, vr5, vr6, vr0, vr1, vr25, vr26
     alsl.d        a0,     a2,     a0,    2  // dst = dst + 4 * stride
     vldx          vr2,    t4,     a2
     vldx          vr3,    t4,     t1
     VST_QPEL8_V_LOWPASS_LSX vr4, vr5, vr6, vr0, vr1, vr2, vr3, vr27, vr28
     vldx          vr4,    t4,     t2
     alsl.d        t4,     a2,     t4,    2  // src + 10 *stride
     vld           vr5,    t4,     0
     VSTX_QPEL8_V_LOWPASS_LSX vr6, vr0, vr1, vr2, vr3, vr4, vr5, vr29, vr30
     alsl.d        t0,     a2,     t0,    2
     alsl.d        a1,     a2,     a1,    2   // a1 = src + 8 * stride
     alsl.d        a0,     a2,     a0,    2   // dst = dst + 8 * stride
     sub.d         t4,     t4,     t6
 .endr
     fld.d         f24,    sp,     0
     fld.d         f25,    sp,     8
     fld.d         f26,    sp,     16
     fld.d         f27,    sp,     24
     fld.d         f28,    sp,     32
     fld.d         f29,    sp,     40
     fld.d         f30,    sp,     48
     fld.d         f31,    sp,     56
     addi.d        sp,     sp,     64
 endfunc

 function ff_avg_h264_qpel16_mc00_lsx
     slli.d        t0,     a2,     1
     add.d         t1,     t0,     a2
     slli.d        t2,     t0,     1
     addi.d        t3,     a0,     0
 .rept 4
     vld           vr0,    a1,     0
     vldx          vr1,    a1,     a2
     vldx          vr2,    a1,     t0
     vldx          vr3,    a1,     t1
     add.d         a1,     a1,     t2
     vld           vr8,    t3,     0
     vldx          vr9,    t3,     a2
     vldx          vr10,   t3,     t0
     vldx          vr11,   t3,     t1
     add.d         t3,     t3,     t2
     vavgr.bu      vr0,    vr8,    vr0
     vavgr.bu      vr1,    vr9,    vr1
     vavgr.bu      vr2,    vr10,   vr2
     vavgr.bu      vr3,    vr11,   vr3
     vst           vr0,    a0,     0
     vstx          vr1,    a0,     a2
     vstx          vr2,    a0,     t0
     vstx          vr3,    a0,     t1
     add.d         a0,     a0,     t2
 .endr
 endfunc

 .macro put_h264_qpel16_mc in0
 function ff_put_h264_qpel16_mc\in0\()_lsx
     addi.d        sp,     sp,     -64
     fst.d         f24,    sp,     0
     fst.d         f25,    sp,     8
     fst.d         f26,    sp,     16
     fst.d         f27,    sp,     24
     fst.d         f28,    sp,     32
     fst.d         f29,    sp,     40
     fst.d         f30,    sp,     48
     fst.d         f31,    sp,     56
     slli.d        t1,     a2,     1
     add.d         t2,     t1,     a2
     vldi          vr20,   0x414
     vldi          vr21,   0x405
     vldi          vr22,   0x410
     addi.d        t0,     a1,     -2   // t0 = src - 2

 .ifc \in0, 33
     add.d         t0,     t0,     a2
 .endif
     add.d         t3,     a1,     zero // t3 = src
     sub.d         t4,     a1,     t1   // t4 = src - 2 * stride
     addi.d        t4,     t4,     1

     VLD_DOUBLE_QPEL8_H_LSX vr12, vr13, vr14, vr15, t0
     alsl.d        a1,     a2,     t0,    2
     VLD_DOUBLE_QPEL8_H_LSX vr16, vr17, vr18, vr19, a1
     addi.d        a1,     t0,     8
     VLD_DOUBLE_QPEL8_H_SSRANI_LSX vr23, vr24, vr25, vr26, vr12, vr13, \
                                   vr14, vr15, a1
     alsl.d        a1,     a2,     a1,    2
     VLD_DOUBLE_QPEL8_H_SSRANI_LSX vr27, vr28, vr29, vr30, vr16, vr17, \
                                   vr18, vr19, a1
     vld           vr0,    t4,     0      // t4 = src - 2 * stride + 1
     vldx          vr1,    t4,     a2
     vldx          vr2,    t4,     t1
     vldx          vr3,    t4,     t2
     alsl.d        t4,     a2,     t4,    2
     vld           vr4,    t4,     0
     vldx          vr5,    t4,     a2
     vldx          vr6,    t4,     t1
     VST_QPEL8_V_LOWPASS_LSX vr0, vr1, vr2, vr3, vr4, vr5, vr6, vr23, vr24
     vldx          vr0,    t4,     t2
     alsl.d        t4,     a2,     t4,    2
     vld           vr1,    t4,     0
     VSTX_QPEL8_V_LOWPASS_LSX vr2, vr3, vr4, vr5, vr6, vr0, vr1, vr25, vr26
     add.d         t6,     t4,     zero     // t6 = src + 6 * stride
     alsl.d        a0,     a2,     a0,    2  // dst = dst + 4 * stride
     vldx          vr2,    t4,     a2
     vldx          vr3,    t4,     t1
     VST_QPEL8_V_LOWPASS_LSX vr4, vr5, vr6, vr0, vr1, vr2, vr3, vr27, vr28
     vldx          vr4,    t4,     t2
     alsl.d        t4,     a2,     t4,    2
     vld           vr5,    t4,     0
     VSTX_QPEL8_V_LOWPASS_LSX vr6, vr0, vr1, vr2, vr3, vr4, vr5, vr29, vr30
     alsl.d        a1,     a2,     t0,    3  // a1 = src + 8 * stride
     addi.d        t5,     a1,     8         // a1 = src + 8 * stride + 8
     VLD_DOUBLE_QPEL8_H_LSX vr12, vr13, vr14, vr15, a1
     alsl.d        a1,     a2,     a1,    2
     VLD_DOUBLE_QPEL8_H_LSX vr16, vr17, vr18, vr19, a1
     VLD_DOUBLE_QPEL8_H_SSRANI_LSX vr23, vr24, vr25, vr26, vr12, vr13, \
                                   vr14, vr15, t5
     alsl.d        t5,     a2,     t5,    2
     VLD_DOUBLE_QPEL8_H_SSRANI_LSX vr27, vr28, vr29, vr30, vr16, vr17, \
                                   vr18, vr19, t5
     alsl.d        a0,     a2,     a0,    2   // dst = dst + 4 * stride

     // t6 = src + 6 * stride + 1
     vld           vr0,    t6,     0
     vldx          vr1,    t6,     a2
     vldx          vr2,    t6,     t1
     vldx          vr3,    t6,     t2
     alsl.d        t6,     a2,     t6,    2
     vld           vr4,    t6,     0
     vldx          vr5,    t6,     a2
     vldx          vr6,    t6,     t1
     VST_QPEL8_V_LOWPASS_LSX vr0, vr1, vr2, vr3, vr4, vr5, vr6, vr23, vr24
     vldx          vr0,    t6,     t2
     alsl.d        t6,     a2,     t6,    2
     vld           vr1,    t6,     0
     VSTX_QPEL8_V_LOWPASS_LSX vr2, vr3, vr4, vr5 ,vr6, vr0, vr1, vr25, vr26
     alsl.d        a0,     a2,     a0,    2    // dst = dst + 4 *stride
     vldx          vr2,    t6,     a2
     vldx          vr3,    t6,     t1
     VST_QPEL8_V_LOWPASS_LSX vr4, vr5, vr6, vr0, vr1, vr2, vr3, vr27, vr28
     vldx          vr4,    t6,     t2
     alsl.d        t6,     a2,     t6,    2
     vld           vr5,    t6,     0
     VSTX_QPEL8_V_LOWPASS_LSX vr6, vr0, vr1, vr2, vr3, vr4, vr5, vr29, vr30

     fld.d         f24,    sp,     0
     fld.d         f25,    sp,     8
     fld.d         f26,    sp,     16
     fld.d         f27,    sp,     24
     fld.d         f28,    sp,     32
     fld.d         f29,    sp,     40
     fld.d         f30,    sp,     48
     fld.d         f31,    sp,     56
     addi.d        sp,     sp,     64
 endfunc
 .endm

 put_h264_qpel16_mc 33
 put_h264_qpel16_mc 31

 function ff_put_h264_qpel16_mc13_lsx
     slli.d        t1,     a2,     1
     add.d         t2,     t1,     a2
     vldi          vr20,   0x414
     vldi          vr21,   0x405
     vldi          vr22,   0x410
     addi.d        sp,     sp,     -64
     fst.d         f24,    sp,     0
     fst.d         f25,    sp,     8
     fst.d         f26,    sp,     16
     fst.d         f27,    sp,     24
     fst.d         f28,    sp,     32
     fst.d         f29,    sp,     40
     fst.d         f30,    sp,     48
     fst.d         f31,    sp,     56
     addi.d        t0,     a1,     -2   // t0 = src - 2
     add.d         t0,     t0,     a2
     add.d         t3,     a1,     zero // t3 = src
     sub.d         t4,     a1,     t1   // t4 = src - 2 * stride

     VLD_DOUBLE_QPEL8_H_LSX vr12, vr13, vr14, vr15, t0
     alsl.d        a1,     a2,     t0,    2
     VLD_DOUBLE_QPEL8_H_LSX vr16, vr17, vr18, vr19, a1
     addi.d        a1,     t0,     8
     VLD_DOUBLE_QPEL8_H_SSRANI_LSX vr23, vr24, vr25, vr26, vr12, vr13, \
                                   vr14, vr15, a1
     alsl.d        a1,     a2,     a1,    2
     VLD_DOUBLE_QPEL8_H_SSRANI_LSX vr27, vr28, vr29, vr30, vr16, vr17, \
                                   vr18, vr19, a1
     vld           vr0,    t4,     0      // t4 = src - 2 * stride + 1
     vldx          vr1,    t4,     a2
     vldx          vr2,    t4,     t1
     vldx          vr3,    t4,     t2
     alsl.d        t4,     a2,     t4,    2
     vld           vr4,    t4,     0
     vldx          vr5,    t4,     a2
     vldx          vr6,    t4,     t1
     VST_QPEL8_V_LOWPASS_LSX vr0, vr1, vr2, vr3, vr4, vr5, vr6, vr23, vr24
     vldx          vr0,    t4,     t2
     alsl.d        t4,     a2,     t4,    2
     vld           vr1,    t4,     0
     VSTX_QPEL8_V_LOWPASS_LSX vr2, vr3, vr4, vr5, vr6, vr0, vr1, vr25, vr26
     add.d         t6,     t4,     zero
     alsl.d        a0,     a2,     a0,    2  // dst = dst + 4 * stride
     vldx          vr2,    t4,     a2
     vldx          vr3,    t4,     t1
     VST_QPEL8_V_LOWPASS_LSX vr4, vr5, vr6, vr0, vr1, vr2, vr3, vr27, vr28
     vldx          vr4,    t4,     t2
     alsl.d        t4,     a2,     t4,    2
     vld           vr5,    t4,     0
     VSTX_QPEL8_V_LOWPASS_LSX vr6, vr0, vr1, vr2, vr3, vr4, vr5, vr29, vr30
     alsl.d        a1,     a2,     t0,    3  // a1 = src + 8 * stride
     addi.d        t5,     a1,     8         // a1 = src + 8 * stride + 8
     VLD_DOUBLE_QPEL8_H_LSX vr12, vr13, vr14, vr15, a1
     alsl.d        a1,     a2,     a1,    2
     VLD_DOUBLE_QPEL8_H_LSX vr16, vr17, vr18, vr19, a1
     VLD_DOUBLE_QPEL8_H_SSRANI_LSX vr23, vr24, vr25, vr26, vr12, vr13, \
                                   vr14, vr15, t5
     alsl.d        t5,     a2,     t5,    2
     VLD_DOUBLE_QPEL8_H_SSRANI_LSX vr27, vr28, vr29, vr30, vr16, vr17, \
                                   vr18, vr19, t5
     alsl.d        a0,     a2,     a0,    2   // dst = dst + 4 * stride

     vld           vr0,    t6,     0          // // t6 = src + 6 * stride + 1
     vldx          vr1,    t6,     a2
     vldx          vr2,    t6,     t1
     vldx          vr3,    t6,     t2
     alsl.d        t6,     a2,     t6,    2
     vld           vr4,    t6,     0
     vldx          vr5,    t6,     a2
     vldx          vr6,    t6,     t1
     VST_QPEL8_V_LOWPASS_LSX vr0, vr1, vr2, vr3, vr4, vr5, vr6, vr23, vr24
     vldx          vr0,    t6,     t2
     alsl.d        t6,     a2,     t6,    2
     vld           vr1,    t6,     0
     VSTX_QPEL8_V_LOWPASS_LSX vr2, vr3, vr4, vr5, vr6, vr0, vr1, vr25, vr26
     alsl.d        a0,     a2,     a0,    2    // dst = dst + 4 *stride
     vldx          vr2,    t6,     a2
     vldx          vr3,    t6,     t1
     VST_QPEL8_V_LOWPASS_LSX vr4, vr5, vr6, vr0, vr1, vr2, vr3, vr27, vr28
     vldx          vr4,    t6,     t2
     alsl.d        t6,     a2,     t6,    2
     vld           vr5,    t6,     0
     VSTX_QPEL8_V_LOWPASS_LSX vr6, vr0, vr1, vr2, vr3, vr4, vr5, vr29, vr30
     fld.d         f24,    sp,     0
     fld.d         f25,    sp,     8
     fld.d         f26,    sp,     16
     fld.d         f27,    sp,     24
     fld.d         f28,    sp,     32
     fld.d         f29,    sp,     40
     fld.d         f30,    sp,     48
     fld.d         f31,    sp,     56
     addi.d        sp,     sp,     64
 endfunc

 function ff_avg_h264_qpel16_mc10_lsx
     addi.d        t0,     a0,     0   // t0 = dst
     addi.d        t4,     a1,     -2  // t1 = src - 2
     addi.d        t5,     t4,     8
     slli.d        t1,     a2,     1
     add.d         t2,     a2,     t1
     vldi          vr20,   0x414
     vldi          vr21,   0x405
     vldi          vr22,   0x410
 .rept 2
     VLD_DOUBLE_QPEL8_H_LSX vr12, vr13, vr14, vr15, t4
     alsl.d        t4,     a2,     t4,    2
     VLD_DOUBLE_QPEL8_H_LSX vr16, vr17, vr18, vr19, t4
     VLD_QPEL8_H_SSRANI_LSX vr2, vr3, vr12, vr13, t5
     vld           vr0,    a1,     0
     vldx          vr1,    a1,     a2
     vld           vr12,   t0,     0
     vldx          vr13,   t0,     a2
     vavgr.bu      vr0,    vr0,    vr2
     vavgr.bu      vr1,    vr1,    vr3
     vavgr.bu      vr0,    vr0,    vr12
     vavgr.bu      vr1,    vr1,    vr13
     vst           vr0,    a0,     0
     vstx          vr1,    a0,     a2
     VLDX_QPEL8_H_SSRANI_LSX vr2, vr3, vr14, vr15, t5
     vldx          vr0,    a1,     t1
     vldx          vr1,    a1,     t2
     vldx          vr12,   t0,     t1
     vldx          vr13,   t0,     t2
     vavgr.bu      vr0,    vr0,    vr2
     vavgr.bu      vr1,    vr1,    vr3
     vavgr.bu      vr0,    vr0,    vr12
     vavgr.bu      vr1,    vr1,    vr13
     vstx          vr0,    a0,     t1
     vstx          vr1,    a0,     t2
     alsl.d        t5,     a2,     t5,    2
     alsl.d        a1,     a2,     a1,    2
     alsl.d        t0,     a2,     t0,    2
     alsl.d        a0,     a2,     a0,    2
     VLD_QPEL8_H_SSRANI_LSX vr2, vr3, vr16, vr17, t5
     vld           vr0,    a1,     0
     vldx          vr1,    a1,     a2
     vld           vr12,   t0,     0
     vldx          vr13,   t0,     a2
     vavgr.bu      vr0,    vr0,    vr2
     vavgr.bu      vr1,    vr1,    vr3
     vavgr.bu      vr0,    vr0,    vr12
     vavgr.bu      vr1,    vr1,    vr13
     vst           vr0,    a0,     0
     vstx          vr1,    a0,     a2
     VLDX_QPEL8_H_SSRANI_LSX vr2, vr3, vr18, vr19, t5
     vldx          vr0,    a1,     t1
     vldx          vr1,    a1,     t2
     vldx          vr12,   t0,     t1
     vldx          vr13,   t0,     t2
     vavgr.bu      vr0,    vr0,    vr2
     vavgr.bu      vr1,    vr1,    vr3
     vavgr.bu      vr0,    vr0,    vr12
     vavgr.bu      vr1,    vr1,    vr13
     vstx          vr0,    a0,     t1
     vstx          vr1,    a0,     t2
     alsl.d        t5,     a2,     t5,    2
     alsl.d        a1,     a2,     a1,    2
     alsl.d        t0,     a2,     t0,    2
     alsl.d        a0,     a2,     a0,    2
     alsl.d        t4,     a2,     t4,    2   // src + 8 * stride -2
 .endr
 endfunc

 function ff_avg_h264_qpel16_mc30_lsx
     addi.d        t0,     a0,     0   // t0 = dst
     addi.d        t4,     a1,     -2  // t1 = src - 2
     addi.d        t5,     t4,     8
     addi.d        a1,     a1,     1   // a1 = a1 + 1
     slli.d        t1,     a2,     1
     add.d         t2,     a2,     t1
     vldi          vr20,   0x414
     vldi          vr21,   0x405
     vldi          vr22,   0x410
 .rept 2
     VLD_DOUBLE_QPEL8_H_LSX vr12, vr13, vr14, vr15, t4
     alsl.d        t4,     a2,     t4,    2
     VLD_DOUBLE_QPEL8_H_LSX vr16, vr17, vr18, vr19, t4
     VLD_QPEL8_H_SSRANI_LSX vr2, vr3, vr12, vr13, t5
     vld           vr0,    a1,     0
     vldx          vr1,    a1,     a2
     vld           vr12,   t0,     0
     vldx          vr13,   t0,     a2
     vavgr.bu      vr0,    vr0,    vr2
     vavgr.bu      vr1,    vr1,    vr3
     vavgr.bu      vr0,    vr0,    vr12
     vavgr.bu      vr1,    vr1,    vr13
     vst           vr0,    a0,     0
     vstx          vr1,    a0,     a2
     VLDX_QPEL8_H_SSRANI_LSX vr2, vr3, vr14, vr15, t5
     vldx          vr0,    a1,     t1
     vldx          vr1,    a1,     t2
     vldx          vr12,   t0,     t1
     vldx          vr13,   t0,     t2
     vavgr.bu      vr0,    vr0,    vr2
     vavgr.bu      vr1,    vr1,    vr3
     vavgr.bu      vr0,    vr0,    vr12
     vavgr.bu      vr1,    vr1,    vr13
     vstx          vr0,    a0,     t1
     vstx          vr1,    a0,     t2
     alsl.d        t5,     a2,     t5,    2
     alsl.d        a1,     a2,     a1,    2
     alsl.d        t0,     a2,     t0,    2
     alsl.d        a0,     a2,     a0,    2
     VLD_QPEL8_H_SSRANI_LSX vr2, vr3, vr16, vr17, t5
     vld           vr0,    a1,     0
     vldx          vr1,    a1,     a2
     vld           vr12,   t0,     0
     vldx          vr13,   t0,     a2
     vavgr.bu      vr0,    vr0,    vr2
     vavgr.bu      vr1,    vr1,    vr3
     vavgr.bu      vr0,    vr0,    vr12
     vavgr.bu      vr1,    vr1,    vr13
     vst           vr0,    a0,     0
     vstx          vr1,    a0,     a2
     VLDX_QPEL8_H_SSRANI_LSX vr2, vr3, vr18, vr19, t5
     vldx          vr0,    a1,     t1
     vldx          vr1,    a1,     t2
     vldx          vr12,   t0,     t1
     vldx          vr13,   t0,     t2
     vavgr.bu      vr0,    vr0,    vr2
     vavgr.bu      vr1,    vr1,    vr3
     vavgr.bu      vr0,    vr0,    vr12
     vavgr.bu      vr1,    vr1,    vr13
     vstx          vr0,    a0,     t1
     vstx          vr1,    a0,     t2
     alsl.d        t5,     a2,     t5,    2
     alsl.d        a1,     a2,     a1,    2
     alsl.d        t0,     a2,     t0,    2
     alsl.d        a0,     a2,     a0,    2
     alsl.d        t4,     a2,     t4,    2   // t1 = src + 8 * stride -2
 .endr
 endfunc

 function ff_put_h264_qpel16_mc02_lsx
     slli.d        t0,     a2,     1
     add.d         t1,     t0,     a2
     sub.d         t2,     a1,     t0  // t2 = src - 2 * stride
     vldi          vr20,   0x414
     vldi          vr21,   0x405
     vldi          vr22,   0x410

     vld           vr0,    t2,     0
     vldx          vr1,    t2,     a2
     vldx          vr2,    t2,     t0
     vldx          vr3,    t2,     t1
     alsl.d        t2,     a2,     t2,    2  // t2 = t2 + 4 * stride
     vld           vr4,    t2,     0
     vldx          vr5,    t2,     a2
     vldx          vr6,    t2,     t0
     QPEL8_V_LSX   vr0, vr1, vr2, vr3, vr4, vr5, vr6
     vst           vr13,   a0,     0
     vstx          vr14,   a0,     a2
     vldx          vr0,    t2,     t1
     alsl.d        t2,     a2,     t2,    2  // t2 = t2 + 4 *stride
     vld           vr1,    t2,     0
     QPEL8_V_LSX   vr2, vr3, vr4, vr5, vr6, vr0, vr1
     vstx          vr13,   a0,     t0
     vstx          vr14,   a0,     t1
     alsl.d        a0,     a2,     a0,    2  // dst = dst + 4 * stride
     vldx          vr2,    t2,     a2
     vldx          vr3,    t2,     t0
     QPEL8_V_LSX   vr4, vr5, vr6, vr0, vr1, vr2, vr3
     vst           vr13,   a0,     0
     vstx          vr14,   a0,     a2
     vldx          vr4,    t2,     t1
     alsl.d        t2,     a2,     t2,    2 // t2 = t2 + 4 * stride
     vld           vr5,    t2,     0
     QPEL8_V_LSX   vr6, vr0, vr1, vr2, vr3, vr4, vr5
     vstx          vr13,   a0,     t0
     vstx          vr14,   a0,     t1

     alsl.d        a0,     a2,     a0,    2  // dst = dst + 4 * stride

     vldx          vr6,    t2,     a2
     vldx          vr0,    t2,     t0
     QPEL8_V_LSX   vr1, vr2, vr3, vr4, vr5, vr6, vr0
     vst           vr13,   a0,     0
     vstx          vr14,   a0,     a2
     vldx          vr1,    t2,     t1
     alsl.d        t2,     a2,     t2,    2  // t2 = t2 + 4 * stride
     vld           vr2,    t2,     0
     QPEL8_V_LSX   vr3, vr4, vr5, vr6, vr0, vr1, vr2
     vstx          vr13,   a0,     t0
     vstx          vr14,   a0,     t1
     alsl.d        a0,     a2,     a0,    2  // dst = dst + 4 * stride
     vldx          vr3,    t2,     a2
     vldx          vr4,    t2,     t0
     QPEL8_V_LSX   vr5, vr6, vr0, vr1, vr2, vr3, vr4
     vst           vr13,   a0,     0
     vstx          vr14,   a0,     a2
     vldx          vr5,    t2,     t1
     alsl.d        t2,     a2,     t2,    2 // t2 = t2 + 4 * stride
     vld           vr6,    t2,     0
     QPEL8_V_LSX   vr0, vr1, vr2, vr3, vr4, vr5, vr6
     vstx          vr13,   a0,     t0
     vstx          vr14,   a0,     t1
 endfunc

 .macro avc_luma_hv_qrt_and_aver_dst_16x16_lsx
     addi.d        sp,     sp,     -64
     fst.d         f24,    sp,     0
     fst.d         f25,    sp,     8
     fst.d         f26,    sp,     16
     fst.d         f27,    sp,     24
     fst.d         f28,    sp,     32
     fst.d         f29,    sp,     40
     fst.d         f30,    sp,     48
     fst.d         f31,    sp,     56
     vldi          vr20,   0x414
     vldi          vr21,   0x405
     vldi          vr22,   0x410

     VLD_DOUBLE_QPEL8_H_LSX vr12, vr13, vr14, vr15, t0
     alsl.d        a1,     a2,     t0,    2
     VLD_DOUBLE_QPEL8_H_LSX vr16, vr17, vr18, vr19, a1
     addi.d        a1,     t0,     8
     VLD_DOUBLE_QPEL8_H_SSRANI_LSX vr23, vr24, vr25, vr26, vr12, vr13, \
                                   vr14, vr15, a1
     alsl.d        a1,     a2,     a1,    2
     VLD_DOUBLE_QPEL8_H_SSRANI_LSX vr27, vr28, vr29, vr30, vr16, vr17, \
                                   vr18, vr19, a1
     vld           vr0,    t4,     0      // t4 = src - 2 * stride + 1
     vldx          vr1,    t4,     a2
     vldx          vr2,    t4,     t1
     vldx          vr3,    t4,     t2
     alsl.d        t4,     a2,     t4,    2
     vld           vr4,    t4,     0
     vldx          vr5,    t4,     a2
     vldx          vr6,    t4,     t1
     QPEL8_V_LSX   vr0, vr1, vr2, vr3, vr4, vr5, vr6
     vld           vr0,    t8,     0
     vldx          vr1,    t8,     a2
     vavgr.bu      vr13,   vr23,   vr13
     vavgr.bu      vr14,   vr24,   vr14
     vavgr.bu      vr13,   vr13,   vr0
     vavgr.bu      vr14,   vr14,   vr1
     vst           vr13,   a0,     0
     vstx          vr14,   a0,     a2
     vldx          vr0,    t4,     t2
     alsl.d        t4,     a2,     t4,    2
     vld           vr1,    t4,     0
     QPEL8_V_LSX   vr2, vr3, vr4, vr5, vr6, vr0, vr1
     vldx          vr2,    t8,     t1
     vldx          vr3,    t8,     t2
     vavgr.bu      vr13,   vr25,   vr13
     vavgr.bu      vr14,   vr26,   vr14
     vavgr.bu      vr13,   vr13,   vr2
     vavgr.bu      vr14,   vr14,   vr3
     add.d         t6,     t4,     zero     // t6 = src + 6 * stride
     vstx          vr13,   a0,     t1
     vstx          vr14,   a0,     t2
     alsl.d        a0,     a2,     a0,    2  // dst = dst + 4 * stride
     alsl.d        t8,     a2,     t8,    2
     vldx          vr2,    t4,     a2
     vldx          vr3,    t4,     t1
     QPEL8_V_LSX   vr4, vr5, vr6, vr0, vr1, vr2, vr3
     vld           vr4,    t8,     0
     vldx          vr5,    t8,     a2
     vavgr.bu      vr13,   vr27,   vr13
     vavgr.bu      vr14,   vr28,   vr14
     vavgr.bu      vr13,   vr13,   vr4
     vavgr.bu      vr14,   vr14,   vr5
     vst           vr13,   a0,     0
     vstx          vr14,   a0,     a2
     vldx          vr4,    t4,     t2
     alsl.d        t4,     a2,     t4,    2
     vld           vr5,    t4,     0
     QPEL8_V_LSX   vr6, vr0, vr1, vr2, vr3, vr4, vr5
     vldx          vr6,    t8,     t1
     vldx          vr0,    t8,     t2
     vavgr.bu      vr13,   vr29,   vr13
     vavgr.bu      vr14,   vr30,   vr14
     vavgr.bu      vr13,   vr13,   vr6
     vavgr.bu      vr14,   vr14,   vr0
     vstx          vr13,   a0,     t1
     vstx          vr14,   a0,     t2
     alsl.d        a1,     a2,     t0,    3  // a1 = src + 8 * stride
     addi.d        t5,     a1,     8         // a1 = src + 8 * stride + 8
     VLD_DOUBLE_QPEL8_H_LSX vr12, vr13, vr14, vr15, a1
     alsl.d        a1,     a2,     a1,    2
     VLD_DOUBLE_QPEL8_H_LSX vr16, vr17, vr18, vr19, a1
     VLD_DOUBLE_QPEL8_H_SSRANI_LSX vr23, vr24, vr25, vr26, vr12, vr13, \
                                   vr14, vr15, t5
     alsl.d        t5,     a2,     t5,    2
     VLD_DOUBLE_QPEL8_H_SSRANI_LSX vr27, vr28, vr29, vr30, vr16, vr17, \
                                   vr18, vr19, t5
     alsl.d        a0,     a2,     a0,    2   // dst = dst + 4 * stride
     alsl.d        t8,     a2,     t8,    2
     // t6 = src + 6 * stride + 1
     vld           vr0,    t6,     0
     vldx          vr1,    t6,     a2
     vldx          vr2,    t6,     t1
     vldx          vr3,    t6,     t2
     alsl.d        t6,     a2,     t6,    2
     vld           vr4,    t6,     0
     vldx          vr5,    t6,     a2
     vldx          vr6,    t6,     t1
     QPEL8_V_LSX   vr0, vr1, vr2, vr3, vr4, vr5, vr6
     vld           vr0,    t8,     0
     vldx          vr1,    t8,     a2
     vavgr.bu      vr13,   vr23,   vr13
     vavgr.bu      vr14,   vr24,   vr14
     vavgr.bu      vr13,   vr13,   vr0
     vavgr.bu      vr14,   vr14,   vr1
     vst           vr13,   a0,     0
     vstx          vr14,   a0,     a2
     vldx          vr0,    t6,     t2
     alsl.d        t6,     a2,     t6,    2
     vld           vr1,    t6,     0
     QPEL8_V_LSX   vr2, vr3, vr4, vr5, vr6, vr0, vr1
     vldx          vr2,    t8,     t1
     vldx          vr3,    t8,     t2
     vavgr.bu      vr13,   vr25,   vr13
     vavgr.bu      vr14,   vr26,   vr14
     vavgr.bu      vr13,   vr13,   vr2
     vavgr.bu      vr14,   vr14,   vr3
     vstx          vr13,   a0,     t1
     vstx          vr14,   a0,     t2
     alsl.d        a0,     a2,     a0,    2    // dst = dst + 4 *stride
     alsl.d        t8,     a2,     t8,    2
     vldx          vr2,    t6,     a2
     vldx          vr3,    t6,     t1
     QPEL8_V_LSX   vr4, vr5, vr6, vr0, vr1, vr2, vr3
     vld           vr4,    t8,     0
     vldx          vr5,    t8,     a2
     vavgr.bu      vr13,   vr27,   vr13
     vavgr.bu      vr14,   vr28,   vr14
     vavgr.bu      vr13,   vr13,   vr4
     vavgr.bu      vr14,   vr14,   vr5
     vst           vr13,   a0,     0
     vstx          vr14,   a0,     a2
     vldx          vr4,    t6,     t2
     alsl.d        t6,     a2,     t6,    2
     vld           vr5,    t6,     0
     QPEL8_V_LSX   vr6, vr0, vr1, vr2, vr3, vr4, vr5
     vldx          vr6,    t8,     t1
     vldx          vr0,    t8,     t2
     vavgr.bu      vr13,   vr29,   vr13
     vavgr.bu      vr14,   vr30,   vr14
     vavgr.bu      vr13,   vr13,   vr6
     vavgr.bu      vr14,   vr14,   vr0
     vstx          vr13,   a0,     t1
     vstx          vr14,   a0,     t2
     fld.d         f24,    sp,     0
     fld.d         f25,    sp,     8
     fld.d         f26,    sp,     16
     fld.d         f27,    sp,     24
     fld.d         f28,    sp,     32
     fld.d         f29,    sp,     40
     fld.d         f30,    sp,     48
     fld.d         f31,    sp,     56
     addi.d        sp,     sp,     64
 .endm

 function ff_avg_h264_qpel16_mc33_lsx
     slli.d        t1,     a2,     1
     add.d         t2,     t1,     a2
     addi.d        t0,     a1,     -2   // t0 = src - 2
     add.d         t0,     t0,     a2   // t0 = src + stride - 2
     add.d         t3,     a1,     zero // t3 = src
     sub.d         t4,     a1,     t1   // t4 = src - 2 * stride
     addi.d        t4,     t4,     1
     addi.d        t8,     a0,     0
     avc_luma_hv_qrt_and_aver_dst_16x16_lsx
 endfunc

 function ff_avg_h264_qpel16_mc11_lsx
     slli.d        t1,     a2,     1
     add.d         t2,     t1,     a2
     addi.d        t0,     a1,     -2   // t0 = src - 2
     add.d         t3,     a1,     zero // t3 = src
     sub.d         t4,     a1,     t1   // t4 = src - 2 * stride
     addi.d        t8,     a0,     0
     avc_luma_hv_qrt_and_aver_dst_16x16_lsx
 endfunc

 function ff_avg_h264_qpel16_mc31_lsx
     slli.d        t1,     a2,     1
     add.d         t2,     t1,     a2
     addi.d        t0,     a1,     -2   // t0 = src - 2
     add.d         t3,     a1,     zero // t3 = src
     sub.d         t4,     a1,     t1   // t4 = src - 2 * stride
     addi.d        t4,     t4,     1
     addi.d        t8,     a0,     0
     avc_luma_hv_qrt_and_aver_dst_16x16_lsx
 endfunc

 function ff_avg_h264_qpel16_mc13_lsx
     slli.d        t1,     a2,     1
     add.d         t2,     t1,     a2
     addi.d        t0,     a1,     -2   // t0 = src - 2
     add.d         t0,     t0,     a2
     add.d         t3,     a1,     zero // t3 = src
     sub.d         t4,     a1,     t1   // t4 = src - 2 * stride
     addi.d        t8,     a0,     0
     avc_luma_hv_qrt_and_aver_dst_16x16_lsx
 endfunc

 function ff_avg_h264_qpel16_mc20_lsx
     slli.d        t1,     a2,     1
     add.d         t2,     t1,     a2
     vldi          vr20,   0x414
     vldi          vr21,   0x405
     vldi          vr22,   0x410
     addi.d        t0,     a1,     -2   // t0 = src - 2
     addi.d        t5,     a0,     0
     addi.d        a1,     t0,     8
 .rept 4
     VLD_DOUBLE_QPEL8_H_LSX vr12, vr13, vr14, vr15, t0
     VLD_QPEL8_H_SSRANI_LSX vr2, vr3, vr12, vr13, a1
     vld           vr0,    t5,     0
     vldx          vr1,    t5,     a2
     vavgr.bu      vr0,    vr0,    vr2
     vavgr.bu      vr1,    vr1,    vr3
     vst           vr0,    a0,     0
     vstx          vr1,    a0,     a2
     add.d         a1,     a1,     t1
     VLD_QPEL8_H_SSRANI_LSX vr2, vr3, vr14, vr15, a1
     vldx          vr0,    t5,     t1
     vldx          vr1,    t5,     t2
     vavgr.bu      vr0,    vr0,    vr2
     vavgr.bu      vr1,    vr1,    vr3
     vstx          vr0,    a0,     t1
     vstx          vr1,    a0,     t2
     alsl.d        t0,     a2,     t0,    2
     alsl.d        t5,     a2,     t5,    2
     alsl.d        a0,     a2,     a0,    2
     alsl.d        a1,     a2,     a1,    1
 .endr
 endfunc

 .macro QPEL8_HV_H_LSX out0, out1
     vbsrl.v       vr2,    vr0,    1
     vbsrl.v       vr3,    vr1,    1
     vbsrl.v       vr4,    vr0,    2
     vbsrl.v       vr5,    vr1,    2
     vbsrl.v       vr6,    vr0,    3
     vbsrl.v       vr7,    vr1,    3
     vbsrl.v       vr8,    vr0,    4
     vbsrl.v       vr9,    vr1,    4
     vbsrl.v       vr10,   vr0,    5
     vbsrl.v       vr11,   vr1,    5
     vilvl.b       vr6,    vr4,    vr6
     vilvl.b       vr7,    vr5,    vr7
     vilvl.b       vr8,    vr2,    vr8
     vilvl.b       vr9,    vr3,    vr9
     vilvl.b       vr10,   vr0,    vr10
     vilvl.b       vr11,   vr1,    vr11
     vhaddw.hu.bu  vr6,    vr6,    vr6
     vhaddw.hu.bu  vr7,    vr7,    vr7
     vhaddw.hu.bu  vr8,    vr8,    vr8
     vhaddw.hu.bu  vr9,    vr9,    vr9
     vhaddw.hu.bu  vr10,   vr10,   vr10
     vhaddw.hu.bu  vr11,   vr11,   vr11
     vmul.h        vr2,    vr6,    vr20
     vmul.h        vr3,    vr7,    vr20
     vmul.h        vr4,    vr8,    vr21
     vmul.h        vr5,    vr9,    vr21
     vssub.h       vr2,    vr2,    vr4
     vssub.h       vr3,    vr3,    vr5
     vsadd.h       \out0,  vr2,    vr10
     vsadd.h       \out1,  vr3,    vr11
 .endm

 .macro QPEL8_HV_V_LSX in0, in1, in2, in3, in4, in5, in6, out0, out1, out2, out3
     vilvl.h       vr0,    \in2,   \in3
     vilvl.h       vr1,    \in3,   \in4  // tmp0
     vilvl.h       vr2,    \in1,   \in4
     vilvl.h       vr3,    \in2,   \in5  // tmp2
     vilvl.h       vr4,    \in0,   \in5
     vilvl.h       vr5,    \in1,   \in6  // tmp4
     vhaddw.w.h    vr0,    vr0,    vr0
     vhaddw.w.h    vr1,    vr1,    vr1
     vhaddw.w.h    vr2,    vr2,    vr2
     vhaddw.w.h    vr3,    vr3,    vr3
     vhaddw.w.h    vr4,    vr4,    vr4
     vhaddw.w.h    vr5,    vr5,    vr5
     vmul.w        vr0,    vr0,    vr22
     vmul.w        vr1,    vr1,    vr22
     vmul.w        vr2,    vr2,    vr23
     vmul.w        vr3,    vr3,    vr23
     vssub.w       vr0,    vr0,    vr2
     vssub.w       vr1,    vr1,    vr3
     vsadd.w       vr0,    vr0,    vr4
     vsadd.w       vr1,    vr1,    vr5
     vsadd.w       \out0,  vr0,    vr24
     vsadd.w       \out1,  vr1,    vr24
     vilvh.h       vr0,    \in2,   \in3
     vilvh.h       vr1,    \in3,   \in4  // tmp0
     vilvh.h       vr2,    \in1,   \in4
     vilvh.h       vr3,    \in2,   \in5  // tmp2
     vilvh.h       vr4,    \in0,   \in5
     vilvh.h       vr5,    \in1,   \in6  // tmp4
     vhaddw.w.h    vr0,    vr0,    vr0
     vhaddw.w.h    vr1,    vr1,    vr1
     vhaddw.w.h    vr2,    vr2,    vr2
     vhaddw.w.h    vr3,    vr3,    vr3
     vhaddw.w.h    vr4,    vr4,    vr4
     vhaddw.w.h    vr5,    vr5,    vr5
     vmul.w        vr0,    vr0,    vr22
     vmul.w        vr1,    vr1,    vr22
     vmul.w        vr2,    vr2,    vr23
     vmul.w        vr3,    vr3,    vr23
     vssub.w       vr0,    vr0,    vr2
     vssub.w       vr1,    vr1,    vr3
     vsadd.w       vr0,    vr0,    vr4
     vsadd.w       vr1,    vr1,    vr5
     vsadd.w       \out2,  vr0,    vr24
     vsadd.w       \out3,  vr1,    vr24
     vssrani.hu.w  \out2,  \out0,  10
     vssrani.hu.w  \out3,  \out1,  10
     vssrani.bu.h  \out3,  \out2,  0
 .endm

 .macro h264_qpel8_hv_lowpass_core_lsx in0, in1, type
     vld           vr0,    \in0,  0
     vldx          vr1,    \in0,  a3
     QPEL8_HV_H_LSX vr12, vr13 // a b$
     vldx          vr0,    \in0,  t1
     vldx          vr1,    \in0,  t2
     QPEL8_HV_H_LSX vr14, vr15 // c d$

     alsl.d        \in0,   a3,    \in0,   2

     vld           vr0,    \in0,  0
     vldx          vr1,    \in0,  a3
     QPEL8_HV_H_LSX vr16, vr17 // e f$
     vldx          vr0,    \in0,  t1
     vldx          vr1,    \in0,  t2
     QPEL8_HV_H_LSX vr18, vr19 // g h$
     QPEL8_HV_V_LSX vr12, vr13, vr14, vr15, vr16, vr17, vr18, vr6, vr7, vr0, vr1
 .ifc \type, avg
     fld.d         f2,     t3,      0
     fldx.d        f3,     t3,      a2
     vilvl.d       vr2,    vr3,     vr2
     vavgr.bu      vr1,    vr2,     vr1
 .endif
     vstelm.d      vr1,    \in1,    0,     0
     add.d         \in1,   \in1,    a2
     vstelm.d      vr1,    \in1,    0,     1

     alsl.d        \in0,    a3,    \in0,   2

     // tmp8
     vld           vr0,    \in0,   0
     vldx          vr1,    \in0,   a3
     QPEL8_HV_H_LSX vr12, vr13
     QPEL8_HV_V_LSX vr14, vr15, vr16, vr17, vr18, vr19, vr12, vr6, vr7, vr0, vr1
 .ifc \type, avg
     fldx.d        f2,     t3,      t5
     fldx.d        f3,     t3,      t6
     vilvl.d       vr2,    vr3,     vr2
     vavgr.bu      vr1,    vr2,     vr1
 .endif
     add.d         \in1,   \in1,   a2
     vstelm.d      vr1,    \in1,   0,     0
     add.d         \in1,   \in1,   a2
     vstelm.d      vr1,    \in1,   0,     1

     // tmp10
     vldx          vr0,    \in0,   t1
     vldx          vr1,    \in0,   t2
     QPEL8_HV_H_LSX vr14, vr15
     QPEL8_HV_V_LSX vr16, vr17, vr18, vr19, vr12, vr13, vr14, vr6, vr7, vr0, vr1
 .ifc \type, avg
     alsl.d        t3,     a2,      t3,   2
     fld.d         f2,     t3,      0
     fldx.d        f3,     t3,      a2
     vilvl.d       vr2,    vr3,     vr2
     vavgr.bu      vr1,    vr2,     vr1
 .endif
     add.d         \in1,   \in1,   a2
     vstelm.d      vr1,    \in1,   0,     0
     add.d         \in1,   \in1,   a2
     vstelm.d      vr1,    \in1,   0,     1

     // tmp12
     alsl.d        \in0,   a3,     \in0,  2

     vld           vr0,    \in0,   0
     vldx          vr1,    \in0,   a3
     QPEL8_HV_H_LSX vr16, vr17
     QPEL8_HV_V_LSX vr18, vr19, vr12, vr13, vr14, vr15, vr16, vr6, vr7, vr0, vr1
 .ifc \type, avg
     fldx.d        f2,     t3,     t5
     fldx.d        f3,     t3,     t6
     vilvl.d       vr2,    vr3,    vr2
     vavgr.bu      vr1,    vr2,    vr1
 .endif
     add.d         \in1,   \in1,   a2
     vstelm.d      vr1,    \in1,   0,     0
     add.d         \in1,   \in1,   a2
     vstelm.d      vr1,    \in1,   0,     1
 .endm

 function put_h264_qpel8_hv_lowpass_lsx
     slli.d        t1,     a3,     1
     add.d         t2,     t1,     a3
     addi.d        sp,     sp,     -8
     fst.d         f24,    sp,     0
     addi.d        t0,     a1,     -2   // t0 = src - 2
     sub.d         t0,     t0,     t1   // t0 = t0 - 2 * stride
     vldi          vr20,   0x414   // h_20
     vldi          vr21,   0x405   // h_5
     vldi          vr22,   0x814   // w_20
     vldi          vr23,   0x805   // w_5
     addi.d        t4,     zero,   512
     vreplgr2vr.w  vr24,   t4      // w_512
     h264_qpel8_hv_lowpass_core_lsx t0, a0, put
     fld.d         f24,    sp,     0
     addi.d        sp,     sp,     8
 endfunc

 function put_h264_qpel8_h_lowpass_lsx
     slli.d        t1,     a3,     1
     add.d         t2,     t1,     a3
     vldi          vr20,   0x414
     vldi          vr21,   0x405
     vldi          vr22,   0x410
     addi.d        t0,     a1,     -2   // t0 = src - 2
     add.d         t3,     a1,     zero // t3 = src
 .rept 2
     vld           vr0,    t0,     0
     vldx          vr1,    t0,     a3
     QPEL8_H_LSX   vr12, vr13
     vssrani.bu.h  vr13,   vr12,   5
     vstelm.d      vr13,   a0,     0,    0
     add.d         a0,     a0,     a2
     vstelm.d      vr13,   a0,     0,    1
     add.d         a0,     a0,     a2
     vldx          vr0,    t0,     t1
     vldx          vr1,    t0,     t2
     QPEL8_H_LSX   vr12, vr13
     vssrani.bu.h  vr13,   vr12,   5
     vstelm.d      vr13,   a0,     0,    0
     add.d         a0,     a0,     a2
     vstelm.d      vr13,   a0,     0,    1
     add.d         a0,     a0,     a2
     alsl.d        t0,     a3,     t0,    2
 .endr
 endfunc

 function put_pixels16_l2_8_lsx
     slli.d        t0,     a4,     1
     add.d         t1,     t0,     a4
     slli.d        t2,     t0,     1
     slli.d        t3,     a3,     1
     add.d         t4,     t3,     a3
     slli.d        t5,     t3,     1
 .rept 4
     vld           vr0,    a1,     0
     vldx          vr1,    a1,     a4
     vldx          vr2,    a1,     t0
     vldx          vr3,    a1,     t1
     add.d         a1,     a1,     t2
     vld           vr8,    a2,     0x00
     vld           vr9,    a2,     0x10
     vld           vr10,   a2,     0x20
     vld           vr11,   a2,     0x30
     addi.d        a2,     a2,     0x40
     vavgr.bu      vr0,    vr8,    vr0
     vavgr.bu      vr1,    vr9,    vr1
     vavgr.bu      vr2,    vr10,   vr2
     vavgr.bu      vr3,    vr11,   vr3
     vst           vr0,    a0,     0
     vstx          vr1,    a0,     a3
     vstx          vr2,    a0,     t3
     vstx          vr3,    a0,     t4
     add.d         a0,     a0,     t5
 .endr
 endfunc

 .macro QPEL8_V1_LSX in0, in1, in2, in3, in4, in5, in6
     vilvl.b       vr7,    \in3,   \in2
     vilvl.b       vr8,    \in4,   \in3
     vilvl.b       vr9,    \in4,   \in1
     vilvl.b       vr10,   \in5,   \in2
     vilvl.b       vr11,   \in5,   \in0
     vilvl.b       vr12,   \in6,   \in1
     vhaddw.hu.bu  vr7,    vr7,    vr7
     vhaddw.hu.bu  vr8,    vr8,    vr8
     vhaddw.hu.bu  vr9,    vr9,    vr9
     vhaddw.hu.bu  vr10,   vr10,   vr10
     vhaddw.hu.bu  vr11,   vr11,   vr11
     vhaddw.hu.bu  vr12,   vr12,   vr12
     vmul.h        vr7,    vr7,    vr20
     vmul.h        vr8,    vr8,    vr20
     vmul.h        vr9,    vr9,    vr21
     vmul.h        vr10,   vr10,   vr21
     vssub.h       vr7,    vr7,    vr9
     vssub.h       vr8,    vr8,    vr10
     vsadd.h       vr7,    vr7,    vr11
     vsadd.h       vr8,    vr8,    vr12
     vsadd.h       vr7,    vr7,    vr22
     vsadd.h       vr8,    vr8,    vr22
     vssrani.bu.h  vr8,    vr7,    5
 .endm

 .macro h264_qpel8_v_lowpass_lsx type
 function \type\()_h264_qpel8_v_lowpass_lsx
     slli.d        t0,     a3,     1
     add.d         t1,     t0,     a3
     sub.d         t2,     a1,     t0  // t2 = src - 2 * stride
 .ifc \type, avg
     addi.d        t3,     a0,     0
     slli.d        t4,     a2,     1
     add.d         t5,     t4,     a2
 .endif
     vldi          vr20,   0x414
     vldi          vr21,   0x405
     vldi          vr22,   0x410

     fld.d         f0,     t2,     0
     fldx.d        f1,     t2,     a3
     fldx.d        f2,     t2,     t0
     fldx.d        f3,     t2,     t1
     alsl.d        t2,     a3,     t2,    2  // t2 = t2 + 4 * stride
     fld.d         f4,     t2,     0
     fldx.d        f5,     t2,     a3
     fldx.d        f6,     t2,     t0
     QPEL8_V1_LSX  vr0, vr1, vr2, vr3, vr4, vr5, vr6
 .ifc \type, avg
     fld.d         f0,     t3,     0
     fldx.d        f1,     t3,     a2
     vilvl.d       vr0,    vr1,    vr0
     vavgr.bu      vr8,    vr8,    vr0
 .endif
     vstelm.d      vr8,    a0,     0,    0
     add.d         a0,     a0,     a2
     vstelm.d      vr8,    a0,     0,    1
     add.d         a0,     a0,     a2

     fldx.d        f0,     t2,     t1
     alsl.d        t2,     a3,     t2,   2  // t2 = t2 + 4 *stride
     fld.d         f1,     t2,     0
     QPEL8_V1_LSX  vr2, vr3, vr4, vr5, vr6, vr0, vr1
 .ifc \type, avg
     fldx.d        f2,     t3,     t4
     fldx.d        f3,     t3,     t5
     vilvl.d       vr2,    vr3,    vr2
     vavgr.bu      vr8,    vr8,    vr2
 .endif
     vstelm.d      vr8,    a0,     0,    0
     add.d         a0,     a0,     a2
     vstelm.d      vr8,    a0,     0,    1
     add.d         a0,     a0,     a2

     alsl.d        t3,     a2,     t3,   2

     fldx.d        f2,     t2,     a3
     fldx.d        f3,     t2,     t0
     QPEL8_V1_LSX  vr4, vr5, vr6, vr0, vr1, vr2, vr3
 .ifc \type, avg
     fld.d         f4,     t3,     0
     fldx.d        f5,     t3,     a2
     vilvl.d       vr4,    vr5,    vr4
     vavgr.bu      vr8,    vr8,    vr4
 .endif
     vstelm.d      vr8,    a0,     0,    0
     add.d         a0,     a0,     a2
     vstelm.d      vr8,    a0,     0,    1
     add.d         a0,     a0,     a2

     fldx.d        f4,     t2,     t1
     alsl.d        t2,     a3,     t2,   2 // t2 = t2 + 4 * stride
     fld.d         f5,     t2,     0
     QPEL8_V1_LSX  vr6, vr0, vr1, vr2, vr3, vr4, vr5
 .ifc \type, avg
     fldx.d        f6,     t3,     t4
     fldx.d        f0,     t3,     t5
     vilvl.d       vr6,    vr0,    vr6
     vavgr.bu      vr8,    vr8,    vr6
 .endif
     vstelm.d      vr8,    a0,     0,    0
     add.d         a0,     a0,     a2
     vstelm.d      vr8,    a0,     0,    1
 endfunc
 .endm

 h264_qpel8_v_lowpass_lsx put
 h264_qpel8_v_lowpass_lsx avg

 function avg_pixels16_l2_8_lsx
     slli.d        t0,     a4,     1
     add.d         t1,     t0,     a4
     slli.d        t2,     t0,     1
     slli.d        t3,     a3,     1
     add.d         t4,     t3,     a3
     slli.d        t5,     t3,     1
     addi.d        t6,     a0,     0
 .rept 4
     vld           vr0,    a1,     0
     vldx          vr1,    a1,     a4
     vldx          vr2,    a1,     t0
     vldx          vr3,    a1,     t1
     add.d         a1,     a1,     t2
     vld           vr8,    a2,     0x00
     vld           vr9,    a2,     0x10
     vld           vr10,   a2,     0x20
     vld           vr11,   a2,     0x30
     addi.d        a2,     a2,     0x40
     vavgr.bu      vr0,    vr8,    vr0
     vavgr.bu      vr1,    vr9,    vr1
     vavgr.bu      vr2,    vr10,   vr2
     vavgr.bu      vr3,    vr11,   vr3
     vld           vr8,    t6,     0
     vldx          vr9,    t6,     a3
     vldx          vr10,   t6,     t3
     vldx          vr11,   t6,     t4
     add.d         t6,     t6,     t5
     vavgr.bu      vr0,    vr8,    vr0
     vavgr.bu      vr1,    vr9,    vr1
     vavgr.bu      vr2,    vr10,   vr2
     vavgr.bu      vr3,    vr11,   vr3
     vst           vr0,    a0,     0
     vstx          vr1,    a0,     a3
     vstx          vr2,    a0,     t3
     vstx          vr3,    a0,     t4
     add.d         a0,     a0,     t5
 .endr
 endfunc

 function avg_h264_qpel8_hv_lowpass_lsx
     slli.d        t1,     a3,     1
     add.d         t2,     t1,     a3
     slli.d        t5,     a2,     1
     add.d         t6,     a2,     t5
     addi.d        sp,     sp,     -8
     fst.d         f24,    sp,     0
     vldi          vr20,   0x414   // h_20
     vldi          vr21,   0x405   // h_5
     vldi          vr22,   0x814   // w_20
     vldi          vr23,   0x805   // w_5
     addi.d        t4,     zero,   512
     vreplgr2vr.w  vr24,   t4      // w_512
     addi.d        t0,     a1,     -2   // t0 = src - 2
     sub.d         t0,     t0,     t1   // t0 = t0 - 2 * stride
     addi.d        t3,     a0,     0    // t3 = dst
     h264_qpel8_hv_lowpass_core_lsx t0, a0, avg
     fld.d         f24,    sp,     0
     addi.d        sp,     sp,     8
 endfunc

 function put_pixels8_l2_8_lsx
     slli.d        t0,     a4,     1
     add.d         t1,     t0,     a4
     slli.d        t2,     t0,     1
 .rept 2
     vld           vr0,    a1,     0
     vldx          vr1,    a1,     a4
     vldx          vr2,    a1,     t0
     vldx          vr3,    a1,     t1
     add.d         a1,     a1,     t2
     vilvl.d       vr0,    vr1,    vr0
     vilvl.d       vr2,    vr3,    vr2
     vld           vr8,    a2,     0x00
     vld           vr9,    a2,     0x08
     vld           vr10,   a2,     0x10
     vld           vr11,   a2,     0x18
     vilvl.d       vr8,    vr9,    vr8
     vilvl.d       vr10,   vr11,   vr10
     addi.d        a2,     a2,     32
     vavgr.bu      vr0,    vr8,    vr0
     vavgr.bu      vr2,    vr10,   vr2
     vstelm.d      vr0,    a0,     0,     0
     add.d         a0,     a0,     a3
     vstelm.d      vr0,    a0,     0,     1
     add.d         a0,     a0,     a3
     vstelm.d      vr2,    a0,     0,     0
     add.d         a0,     a0,     a3
     vstelm.d      vr2,    a0,     0,     1
     add.d         a0,     a0,     a3
 .endr
 endfunc

 function ff_put_h264_qpel8_mc00_lsx
     slli.d        t0,     a2,     1
     add.d         t1,     t0,     a2
     slli.d        t2,     t0,     1
     ld.d          t3,     a1,     0x0
     ldx.d         t4,     a1,     a2
     ldx.d         t5,     a1,     t0
     ldx.d         t6,     a1,     t1
     st.d          t3,     a0,     0x0
     stx.d         t4,     a0,     a2
     stx.d         t5,     a0,     t0
     stx.d         t6,     a0,     t1
     add.d         a1,     a1,     t2
     add.d         a0,     a0,     t2
     ld.d          t3,     a1,     0x0
     ldx.d         t4,     a1,     a2
     ldx.d         t5,     a1,     t0
     ldx.d         t6,     a1,     t1
     st.d          t3,     a0,     0x0
     stx.d         t4,     a0,     a2
     stx.d         t5,     a0,     t0
     stx.d         t6,     a0,     t1
 endfunc

 function ff_avg_h264_qpel8_mc00_lsx
     slli.d        t0,     a2,     1
     add.d         t1,     t0,     a2
     slli.d        t2,     t0,     1
     addi.d        t3,     a0,     0
 .rept 2
     vld           vr0,    a1,     0
     vldx          vr1,    a1,     a2
     vldx          vr2,    a1,     t0
     vldx          vr3,    a1,     t1
     add.d         a1,     a1,     t2
     vilvl.d       vr0,    vr1,    vr0
     vilvl.d       vr2,    vr3,    vr2
     vld           vr8,    t3,     0
     vldx          vr9,    t3,     a2
     vldx          vr10,   t3,     t0
     vldx          vr11,   t3,     t1
     add.d         t3,     t3,     t2
     vilvl.d       vr8,    vr9,    vr8
     vilvl.d       vr10,   vr11,   vr10
     vavgr.bu      vr0,    vr8,    vr0
     vavgr.bu      vr2,    vr10,   vr2
     vstelm.d      vr0,    a0,     0,     0
     add.d         a0,     a0,     a2
     vstelm.d      vr0,    a0,     0,     1
     add.d         a0,     a0,     a2
     vstelm.d      vr2,    a0,     0,     0
     add.d         a0,     a0,     a2
     vstelm.d      vr2,    a0,     0,     1
     add.d         a0,     a0,     a2
 .endr
 endfunc

 function avg_pixels8_l2_8_lsx
     slli.d        t0,     a4,     1
     add.d         t1,     t0,     a4
     slli.d        t2,     t0,     1
     addi.d        t3,     a0,     0
     slli.d        t4,     a3,     1
     add.d         t5,     t4,     a3
     slli.d        t6,     t4,     1
 .rept 2
     vld           vr0,    a1,     0
     vldx          vr1,    a1,     a4
     vldx          vr2,    a1,     t0
     vldx          vr3,    a1,     t1
     add.d         a1,     a1,     t2
     vilvl.d       vr0,    vr1,    vr0
     vilvl.d       vr2,    vr3,    vr2
     vld           vr8,    a2,     0x00
     vld           vr9,    a2,     0x08
     vld           vr10,   a2,     0x10
     vld           vr11,   a2,     0x18
     addi.d        a2,     a2,     0x20
     vilvl.d       vr8,    vr9,    vr8
     vilvl.d       vr10,   vr11,   vr10
     vavgr.bu      vr0,    vr8,    vr0
     vavgr.bu      vr2,    vr10,   vr2
     vld           vr8,    t3,     0
     vldx          vr9,    t3,     a3
     vldx          vr10,   t3,     t4
     vldx          vr11,   t3,     t5
     add.d         t3,     t3,     t6
     vilvl.d       vr8,    vr9,    vr8
     vilvl.d       vr10,   vr11,   vr10
     vavgr.bu      vr0,    vr8,    vr0
     vavgr.bu      vr2,    vr10,   vr2
     vstelm.d      vr0,    a0,     0,     0
     add.d         a0,     a0,     a3
     vstelm.d      vr0,    a0,     0,     1
     add.d         a0,     a0,     a3
     vstelm.d      vr2,    a0,     0,     0
     add.d         a0,     a0,     a3
     vstelm.d      vr2,    a0,     0,     1
     add.d         a0,     a0,     a3
 .endr
 endfunc

 function avg_h264_qpel8_h_lowpass_lsx
     slli.d        t1,     a3,     1
     add.d         t2,     t1,     a3
     slli.d        t5,     a2,     1
     add.d         t6,     t5,     a2
     vldi          vr20,   0x414
     vldi          vr21,   0x405
     vldi          vr22,   0x410
     addi.d        t0,     a1,     -2   // t0 = src - 2
     add.d         t3,     a1,     zero // t3 = src
     addi.d        t4,     a0,     0    // t4 = dst
 .rept 4
     vld           vr0,    t0,     0
     vldx          vr1,    t0,     a3
     QPEL8_H_LSX   vr12, vr13
     vssrani.bu.h  vr13,   vr12,   5
     fld.d         f0,     t4,     0
     fldx.d        f1,     t4,     a2
     vilvl.d       vr0,    vr1,    vr0
     vavgr.bu      vr13,   vr13,   vr0
     vstelm.d      vr13,   a0,     0,    0
     add.d         a0,     a0,     a2
     vstelm.d      vr13,   a0,     0,    1
     add.d         a0,     a0,     a2
     add.d         t0,     t0,     t1
     add.d         t4,     t4,     t1
 .endr
 endfunc