celt/mips/pitch_mipsr1.h

*a58d3d2aSXin Li/* Copyright (c) 2007-2008 CSIRO
*a58d3d2aSXin Li   Copyright (c) 2007-2009 Xiph.Org Foundation
*a58d3d2aSXin Li   Written by Jean-Marc Valin */
*a58d3d2aSXin Li/**
*a58d3d2aSXin Li   @file pitch.h
*a58d3d2aSXin Li   @brief Pitch analysis
*a58d3d2aSXin Li */
*a58d3d2aSXin Li
*a58d3d2aSXin Li/*
*a58d3d2aSXin Li   Redistribution and use in source and binary forms, with or without
*a58d3d2aSXin Li   modification, are permitted provided that the following conditions
*a58d3d2aSXin Li   are met:
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions of source code must retain the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions in binary form must reproduce the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer in the
*a58d3d2aSXin Li   documentation and/or other materials provided with the distribution.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
*a58d3d2aSXin Li   ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
*a58d3d2aSXin Li   LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
*a58d3d2aSXin Li   A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER
*a58d3d2aSXin Li   OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
*a58d3d2aSXin Li   EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
*a58d3d2aSXin Li   PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
*a58d3d2aSXin Li   PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
*a58d3d2aSXin Li   LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
*a58d3d2aSXin Li   NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
*a58d3d2aSXin Li   SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
*a58d3d2aSXin Li*/
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifndef PITCH_MIPSR1_H
*a58d3d2aSXin Li#define PITCH_MIPSR1_H
*a58d3d2aSXin Li
*a58d3d2aSXin Li#define OVERRIDE_DUAL_INNER_PROD
*a58d3d2aSXin Listatic inline void dual_inner_prod(const opus_val16 *x, const opus_val16 *y01, const opus_val16 *y02,
*a58d3d2aSXin Li      int N, opus_val32 *xy1, opus_val32 *xy2, int arch)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int j;
*a58d3d2aSXin Li   opus_val32 xy01=0;
*a58d3d2aSXin Li   opus_val32 xy02=0;
*a58d3d2aSXin Li
*a58d3d2aSXin Li   (void)arch;
*a58d3d2aSXin Li
*a58d3d2aSXin Li   asm volatile("MULT $ac1, $0, $0");
*a58d3d2aSXin Li   asm volatile("MULT $ac2, $0, $0");
*a58d3d2aSXin Li   /* Compute the norm of X+Y and X-Y as |X|^2 + |Y|^2 +/- sum(xy) */
*a58d3d2aSXin Li   for (j=0;j<N;j++)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      asm volatile("MADD $ac1, %0, %1" : : "r" ((int)x[j]), "r" ((int)y01[j]));
*a58d3d2aSXin Li      asm volatile("MADD $ac2, %0, %1" : : "r" ((int)x[j]), "r" ((int)y02[j]));
*a58d3d2aSXin Li      ++j;
*a58d3d2aSXin Li      asm volatile("MADD $ac1, %0, %1" : : "r" ((int)x[j]), "r" ((int)y01[j]));
*a58d3d2aSXin Li      asm volatile("MADD $ac2, %0, %1" : : "r" ((int)x[j]), "r" ((int)y02[j]));
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   asm volatile ("mflo %0, $ac1": "=r"(xy01));
*a58d3d2aSXin Li   asm volatile ("mflo %0, $ac2": "=r"(xy02));
*a58d3d2aSXin Li   *xy1 = xy01;
*a58d3d2aSXin Li   *xy2 = xy02;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void xcorr_kernel_mips(const opus_val16 * x,
*a58d3d2aSXin Li      const opus_val16 * y, opus_val32 sum[4], int len)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int j;
*a58d3d2aSXin Li   opus_val16 y_0, y_1, y_2, y_3;
*a58d3d2aSXin Li
*a58d3d2aSXin Li    opus_int64 sum_0, sum_1, sum_2, sum_3;
*a58d3d2aSXin Li    sum_0 =  (opus_int64)sum[0];
*a58d3d2aSXin Li    sum_1 =  (opus_int64)sum[1];
*a58d3d2aSXin Li    sum_2 =  (opus_int64)sum[2];
*a58d3d2aSXin Li    sum_3 =  (opus_int64)sum[3];
*a58d3d2aSXin Li
*a58d3d2aSXin Li    y_3=0; /* gcc doesn't realize that y_3 can't be used uninitialized */
*a58d3d2aSXin Li    y_0=*y++;
*a58d3d2aSXin Li    y_1=*y++;
*a58d3d2aSXin Li    y_2=*y++;
*a58d3d2aSXin Li    for (j=0;j<len-3;j+=4)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        opus_val16 tmp;
*a58d3d2aSXin Li        tmp = *x++;
*a58d3d2aSXin Li        y_3=*y++;
*a58d3d2aSXin Li
*a58d3d2aSXin Li        sum_0 = __builtin_mips_madd( sum_0, tmp, y_0);
*a58d3d2aSXin Li        sum_1 = __builtin_mips_madd( sum_1, tmp, y_1);
*a58d3d2aSXin Li        sum_2 = __builtin_mips_madd( sum_2, tmp, y_2);
*a58d3d2aSXin Li        sum_3 = __builtin_mips_madd( sum_3, tmp, y_3);
*a58d3d2aSXin Li
*a58d3d2aSXin Li        tmp=*x++;
*a58d3d2aSXin Li        y_0=*y++;
*a58d3d2aSXin Li
*a58d3d2aSXin Li        sum_0 = __builtin_mips_madd( sum_0, tmp, y_1 );
*a58d3d2aSXin Li        sum_1 = __builtin_mips_madd( sum_1, tmp, y_2 );
*a58d3d2aSXin Li        sum_2 = __builtin_mips_madd( sum_2, tmp, y_3);
*a58d3d2aSXin Li        sum_3 = __builtin_mips_madd( sum_3, tmp, y_0);
*a58d3d2aSXin Li
*a58d3d2aSXin Li       tmp=*x++;
*a58d3d2aSXin Li       y_1=*y++;
*a58d3d2aSXin Li
*a58d3d2aSXin Li       sum_0 = __builtin_mips_madd( sum_0, tmp, y_2 );
*a58d3d2aSXin Li       sum_1 = __builtin_mips_madd( sum_1, tmp, y_3 );
*a58d3d2aSXin Li       sum_2 = __builtin_mips_madd( sum_2, tmp, y_0);
*a58d3d2aSXin Li       sum_3 = __builtin_mips_madd( sum_3, tmp, y_1);
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li      tmp=*x++;
*a58d3d2aSXin Li      y_2=*y++;
*a58d3d2aSXin Li
*a58d3d2aSXin Li       sum_0 = __builtin_mips_madd( sum_0, tmp, y_3 );
*a58d3d2aSXin Li       sum_1 = __builtin_mips_madd( sum_1, tmp, y_0 );
*a58d3d2aSXin Li       sum_2 = __builtin_mips_madd( sum_2, tmp, y_1);
*a58d3d2aSXin Li       sum_3 = __builtin_mips_madd( sum_3, tmp, y_2);
*a58d3d2aSXin Li
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   if (j++<len)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      opus_val16 tmp = *x++;
*a58d3d2aSXin Li      y_3=*y++;
*a58d3d2aSXin Li
*a58d3d2aSXin Li       sum_0 = __builtin_mips_madd( sum_0, tmp, y_0 );
*a58d3d2aSXin Li       sum_1 = __builtin_mips_madd( sum_1, tmp, y_1 );
*a58d3d2aSXin Li       sum_2 = __builtin_mips_madd( sum_2, tmp, y_2);
*a58d3d2aSXin Li       sum_3 = __builtin_mips_madd( sum_3, tmp, y_3);
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li
*a58d3d2aSXin Li   if (j++<len)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      opus_val16 tmp=*x++;
*a58d3d2aSXin Li      y_0=*y++;
*a58d3d2aSXin Li
*a58d3d2aSXin Li      sum_0 = __builtin_mips_madd( sum_0, tmp, y_1 );
*a58d3d2aSXin Li      sum_1 = __builtin_mips_madd( sum_1, tmp, y_2 );
*a58d3d2aSXin Li      sum_2 = __builtin_mips_madd( sum_2, tmp, y_3);
*a58d3d2aSXin Li      sum_3 = __builtin_mips_madd( sum_3, tmp, y_0);
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li
*a58d3d2aSXin Li   if (j<len)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      opus_val16 tmp=*x++;
*a58d3d2aSXin Li      y_1=*y++;
*a58d3d2aSXin Li
*a58d3d2aSXin Li       sum_0 = __builtin_mips_madd( sum_0, tmp, y_2 );
*a58d3d2aSXin Li       sum_1 = __builtin_mips_madd( sum_1, tmp, y_3 );
*a58d3d2aSXin Li       sum_2 = __builtin_mips_madd( sum_2, tmp, y_0);
*a58d3d2aSXin Li       sum_3 = __builtin_mips_madd( sum_3, tmp, y_1);
*a58d3d2aSXin Li
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li
*a58d3d2aSXin Li   sum[0] = (opus_val32)sum_0;
*a58d3d2aSXin Li   sum[1] = (opus_val32)sum_1;
*a58d3d2aSXin Li   sum[2] = (opus_val32)sum_2;
*a58d3d2aSXin Li   sum[3] = (opus_val32)sum_3;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#define OVERRIDE_XCORR_KERNEL
*a58d3d2aSXin Li#define xcorr_kernel(x, y, sum, len, arch) \
*a58d3d2aSXin Li    ((void)(arch), xcorr_kernel_mips(x, y, sum, len))
*a58d3d2aSXin Li
*a58d3d2aSXin Li#endif /* PITCH_MIPSR1_H */