common/arm/ideint_cac_a9.s

*a97c2a1fSXin Li@/******************************************************************************
*a97c2a1fSXin Li@ *
*a97c2a1fSXin Li@ * Copyright (C) 2015 The Android Open Source Project
*a97c2a1fSXin Li@ *
*a97c2a1fSXin Li@ * Licensed under the Apache License, Version 2.0 (the "License");
*a97c2a1fSXin Li@ * you may not use this file except in compliance with the License.
*a97c2a1fSXin Li@ * You may obtain a copy of the License at:
*a97c2a1fSXin Li@ *
*a97c2a1fSXin Li@ * http://www.apache.org/licenses/LICENSE-2.0
*a97c2a1fSXin Li@ *
*a97c2a1fSXin Li@ * Unless required by applicable law or agreed to in writing, software
*a97c2a1fSXin Li@ * distributed under the License is distributed on an "AS IS" BASIS,
*a97c2a1fSXin Li@ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*a97c2a1fSXin Li@ * See the License for the specific language governing permissions and
*a97c2a1fSXin Li@ * limitations under the License.
*a97c2a1fSXin Li@ *
*a97c2a1fSXin Li@ *****************************************************************************
*a97c2a1fSXin Li@ * Originally developed and contributed by Ittiam Systems Pvt. Ltd, Bangalore
*a97c2a1fSXin Li@*/
*a97c2a1fSXin Li
*a97c2a1fSXin Li@******************************************************************************
*a97c2a1fSXin Li@*
*a97c2a1fSXin Li@* @brief
*a97c2a1fSXin Li@*  This file contains definitions of routines for spatial filter
*a97c2a1fSXin Li@*
*a97c2a1fSXin Li@* @author
*a97c2a1fSXin Li@*  Ittiam
*a97c2a1fSXin Li@*
*a97c2a1fSXin Li@* @par List of Functions:
*a97c2a1fSXin Li@*  - ideint_cac_8x8_a9()
*a97c2a1fSXin Li@*
*a97c2a1fSXin Li@* @remarks
*a97c2a1fSXin Li@*  None
*a97c2a1fSXin Li@*
*a97c2a1fSXin Li@*******************************************************************************
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li@******************************************************************************
*a97c2a1fSXin Li@*
*a97c2a1fSXin Li@*  @brief Calculates Combing Artifact
*a97c2a1fSXin Li@*
*a97c2a1fSXin Li@*  @par   Description
*a97c2a1fSXin Li@*   This functions calculates combing artifact check (CAC) for given two fields
*a97c2a1fSXin Li@*
*a97c2a1fSXin Li@* @param[in] pu1_top
*a97c2a1fSXin Li@*  UWORD8 pointer to top field
*a97c2a1fSXin Li@*
*a97c2a1fSXin Li@* @param[in] pu1_bot
*a97c2a1fSXin Li@*  UWORD8 pointer to bottom field
*a97c2a1fSXin Li@*
*a97c2a1fSXin Li@* @param[in] top_strd
*a97c2a1fSXin Li@*  Top field stride
*a97c2a1fSXin Li@*
*a97c2a1fSXin Li@* @param[in] bot_strd
*a97c2a1fSXin Li@*  Bottom field stride
*a97c2a1fSXin Li@*
*a97c2a1fSXin Li@* @returns
*a97c2a1fSXin Li@*  None
*a97c2a1fSXin Li@*
*a97c2a1fSXin Li@* @remarks
*a97c2a1fSXin Li@*
*a97c2a1fSXin Li@******************************************************************************
*a97c2a1fSXin Li
*a97c2a1fSXin Li    .global ideint_cac_8x8_a9
*a97c2a1fSXin Li
*a97c2a1fSXin Liideint_cac_8x8_a9:
*a97c2a1fSXin Li
*a97c2a1fSXin Li    stmfd       sp!,    {r4-r10, lr}
*a97c2a1fSXin Li    vpush      {d9}
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ Load first row of top
*a97c2a1fSXin Li    vld1.u8     d28,    [r0],   r2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ Load first row of bottom
*a97c2a1fSXin Li    vld1.u8     d29,    [r1],   r3
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ Load second row of top
*a97c2a1fSXin Li    vld1.u8     d30,    [r0],   r2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ Load second row of bottom
*a97c2a1fSXin Li    vld1.u8     d31,    [r1],   r3
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ Calculate row based adj and alt values
*a97c2a1fSXin Li    @ Get row sums
*a97c2a1fSXin Li    vpaddl.u8   q0,     q14
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vpaddl.u8   q1,     q15
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vpaddl.u16  q0,     q0
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vpaddl.u16  q1,     q1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ Both q0 and q1 have four 32 bit sums corresponding to first 4 rows
*a97c2a1fSXin Li    @ Pack q0 and q1 into a single register (sum does not exceed 16bits)
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vshl.u32    q8,     q1,     #16
*a97c2a1fSXin Li    vorr.u32    q8,     q0,     q8
*a97c2a1fSXin Li    @ q8 now contains 8 sums
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ Load third row of top
*a97c2a1fSXin Li    vld1.u8     d24,    [r0],   r2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ Load third row of bottom
*a97c2a1fSXin Li    vld1.u8     d25,    [r1],   r3
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ Load fourth row of top
*a97c2a1fSXin Li    vld1.u8     d26,    [r0],   r2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ Load fourth row of bottom
*a97c2a1fSXin Li    vld1.u8     d27,    [r1],   r3
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ Get row sums
*a97c2a1fSXin Li    vpaddl.u8   q2,     q12
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vpaddl.u8   q3,     q13
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vpaddl.u16  q2,     q2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vpaddl.u16  q3,     q3
*a97c2a1fSXin Li    @ Both q2 and q3 have four 32 bit sums corresponding to last 4 rows
*a97c2a1fSXin Li    @ Pack q2 and q3 into a single register (sum does not exceed 16bits)
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vshl.u32    q9,     q3,     #16
*a97c2a1fSXin Li    vorr.u32    q9,     q2,     q9
*a97c2a1fSXin Li    @ q9 now contains 8 sums
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ Compute absolute diff between top and bottom row sums
*a97c2a1fSXin Li    vabd.u16    d16,    d16,    d17
*a97c2a1fSXin Li    vabd.u16    d17,    d18,    d19
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ RSUM_CSUM_THRESH
*a97c2a1fSXin Li    vmov.u16    q9,     #20
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ Eliminate values smaller than RSUM_CSUM_THRESH
*a97c2a1fSXin Li    vcge.u16    q10,    q8,     q9
*a97c2a1fSXin Li    vand.u16    q10,    q8,     q10
*a97c2a1fSXin Li    @ q10 now contains 8 absolute diff of sums above the threshold
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ Compute adj
*a97c2a1fSXin Li    vadd.u16    d20,    d20,    d21
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ d20 has four adj values for two sub-blocks
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ Compute alt
*a97c2a1fSXin Li    vabd.u32    q0,     q0,     q1
*a97c2a1fSXin Li    vabd.u32    q2,     q2,     q3
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vadd.u32    q0,     q0,     q2
*a97c2a1fSXin Li    vadd.u32    d21,    d0,     d1
*a97c2a1fSXin Li    @ d21 has two values for two sub-blocks
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ Calculate column based adj and alt values
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrhadd.u8   q0,     q14,    q15
*a97c2a1fSXin Li    vrhadd.u8   q1,     q12,    q13
*a97c2a1fSXin Li    vrhadd.u8   q0,     q0,     q1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vabd.u8     d0,     d0,     d1
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ RSUM_CSUM_THRESH >> 2
*a97c2a1fSXin Li    vmov.u8     d9,     #5
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ Eliminate values smaller than RSUM_CSUM_THRESH >> 2
*a97c2a1fSXin Li    vcge.u8     d1,     d0,     d9
*a97c2a1fSXin Li    vand.u8     d0,     d0,     d1
*a97c2a1fSXin Li    @ d0 now contains 8 absolute diff of sums above the threshold
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vpaddl.u8   d0,     d0
*a97c2a1fSXin Li    vshl.u16    d0,     d0,     #2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ Add row based adj
*a97c2a1fSXin Li    vadd.u16    d20,    d0,     d20
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vpaddl.u16  d20,    d20
*a97c2a1fSXin Li    @ d20 now contains 2 adj values
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrhadd.u8   d0,     d28,    d29
*a97c2a1fSXin Li    vrhadd.u8   d2,     d24,    d25
*a97c2a1fSXin Li    vrhadd.u8   d0,     d0,     d2
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vrhadd.u8   d1,     d30,    d31
*a97c2a1fSXin Li    vrhadd.u8   d3,     d26,    d27
*a97c2a1fSXin Li    vrhadd.u8   d1,     d1,     d3
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vabd.u8     d0,     d0,     d1
*a97c2a1fSXin Li    vpaddl.u8   d0,     d0
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vshl.u16    d0,     d0,     #2
*a97c2a1fSXin Li    vpaddl.u16  d0,     d0
*a97c2a1fSXin Li    vadd.u32    d21,    d0,     d21
*a97c2a1fSXin Li
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ d21 now contains 2 alt values
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ SAD_BIAS_MULT_SHIFT
*a97c2a1fSXin Li    vshr.u32    d0,     d21,    #3
*a97c2a1fSXin Li    vadd.u32    d21,    d21,    d0
*a97c2a1fSXin Li
*a97c2a1fSXin Li    @ SAD_BIAS_ADDITIVE >> 1
*a97c2a1fSXin Li    vmov.u32    d0,     #4
*a97c2a1fSXin Li    vadd.u32    d21,    d21,    d0
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vclt.u32    d0,     d21,    d20
*a97c2a1fSXin Li    vpaddl.u32  d0,     d0
*a97c2a1fSXin Li
*a97c2a1fSXin Li    vmov.u32    r0,     d0[0]
*a97c2a1fSXin Li    cmp         r0,     #0
*a97c2a1fSXin Li    movne       r0,     #1
*a97c2a1fSXin Li    vpop        {d9}
*a97c2a1fSXin Li    ldmfd       sp!,    {r4-r10, pc}