celt/x86/pitch_avx.c

*a58d3d2aSXin Li/* Copyright (c) 2023 Amazon */
*a58d3d2aSXin Li/*
*a58d3d2aSXin Li   Redistribution and use in source and binary forms, with or without
*a58d3d2aSXin Li   modification, are permitted provided that the following conditions
*a58d3d2aSXin Li   are met:
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions of source code must retain the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions in binary form must reproduce the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer in the
*a58d3d2aSXin Li   documentation and/or other materials provided with the distribution.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
*a58d3d2aSXin Li   ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
*a58d3d2aSXin Li   LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
*a58d3d2aSXin Li   A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER
*a58d3d2aSXin Li   OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
*a58d3d2aSXin Li   EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
*a58d3d2aSXin Li   PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
*a58d3d2aSXin Li   PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
*a58d3d2aSXin Li   LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
*a58d3d2aSXin Li   NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
*a58d3d2aSXin Li   SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
*a58d3d2aSXin Li*/
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef HAVE_CONFIG_H
*a58d3d2aSXin Li#include "config.h"
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li#include <immintrin.h>
*a58d3d2aSXin Li#include "x86cpu.h"
*a58d3d2aSXin Li#include "pitch.h"
*a58d3d2aSXin Li
*a58d3d2aSXin Li#if defined(OPUS_X86_MAY_HAVE_AVX2) && !defined(FIXED_POINT)
*a58d3d2aSXin Li
*a58d3d2aSXin Li/* Like the "regular" xcorr_kernel(), but computes 8 results at a time. */
*a58d3d2aSXin Listatic void xcorr_kernel_avx(const float *x, const float *y, float sum[8], int len)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    __m256 xsum0, xsum1, xsum2, xsum3, xsum4, xsum5, xsum6, xsum7;
*a58d3d2aSXin Li    xsum7 = xsum6 = xsum5 = xsum4 = xsum3 = xsum2 = xsum1 = xsum0 = _mm256_setzero_ps();
*a58d3d2aSXin Li    int i;
*a58d3d2aSXin Li    __m256 x0;
*a58d3d2aSXin Li    /* Compute 8 inner products using partial sums. */
*a58d3d2aSXin Li    for (i=0;i<len-7;i+=8)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        x0 = _mm256_loadu_ps(x+i);
*a58d3d2aSXin Li        xsum0 = _mm256_fmadd_ps(x0, _mm256_loadu_ps(y+i  ), xsum0);
*a58d3d2aSXin Li        xsum1 = _mm256_fmadd_ps(x0, _mm256_loadu_ps(y+i+1), xsum1);
*a58d3d2aSXin Li        xsum2 = _mm256_fmadd_ps(x0, _mm256_loadu_ps(y+i+2), xsum2);
*a58d3d2aSXin Li        xsum3 = _mm256_fmadd_ps(x0, _mm256_loadu_ps(y+i+3), xsum3);
*a58d3d2aSXin Li        xsum4 = _mm256_fmadd_ps(x0, _mm256_loadu_ps(y+i+4), xsum4);
*a58d3d2aSXin Li        xsum5 = _mm256_fmadd_ps(x0, _mm256_loadu_ps(y+i+5), xsum5);
*a58d3d2aSXin Li        xsum6 = _mm256_fmadd_ps(x0, _mm256_loadu_ps(y+i+6), xsum6);
*a58d3d2aSXin Li        xsum7 = _mm256_fmadd_ps(x0, _mm256_loadu_ps(y+i+7), xsum7);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    if (i != len) {
*a58d3d2aSXin Li        static const int mask[15] = {-1, -1, -1, -1, -1, -1, -1, 0, 0, 0, 0, 0, 0, 0, 0};
*a58d3d2aSXin Li        __m256i m;
*a58d3d2aSXin Li        m = _mm256_loadu_si256((__m256i*)(void*)(mask + 7+i-len));
*a58d3d2aSXin Li        x0 = _mm256_maskload_ps(x+i, m);
*a58d3d2aSXin Li        xsum0 = _mm256_fmadd_ps(x0, _mm256_maskload_ps(y+i  , m), xsum0);
*a58d3d2aSXin Li        xsum1 = _mm256_fmadd_ps(x0, _mm256_maskload_ps(y+i+1, m), xsum1);
*a58d3d2aSXin Li        xsum2 = _mm256_fmadd_ps(x0, _mm256_maskload_ps(y+i+2, m), xsum2);
*a58d3d2aSXin Li        xsum3 = _mm256_fmadd_ps(x0, _mm256_maskload_ps(y+i+3, m), xsum3);
*a58d3d2aSXin Li        xsum4 = _mm256_fmadd_ps(x0, _mm256_maskload_ps(y+i+4, m), xsum4);
*a58d3d2aSXin Li        xsum5 = _mm256_fmadd_ps(x0, _mm256_maskload_ps(y+i+5, m), xsum5);
*a58d3d2aSXin Li        xsum6 = _mm256_fmadd_ps(x0, _mm256_maskload_ps(y+i+6, m), xsum6);
*a58d3d2aSXin Li        xsum7 = _mm256_fmadd_ps(x0, _mm256_maskload_ps(y+i+7, m), xsum7);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    /* 8 horizontal adds. */
*a58d3d2aSXin Li    /* Compute [0 4] [1 5] [2 6] [3 7] */
*a58d3d2aSXin Li    xsum0 = _mm256_add_ps(_mm256_permute2f128_ps(xsum0, xsum4, 2<<4), _mm256_permute2f128_ps(xsum0, xsum4, 1 | (3<<4)));
*a58d3d2aSXin Li    xsum1 = _mm256_add_ps(_mm256_permute2f128_ps(xsum1, xsum5, 2<<4), _mm256_permute2f128_ps(xsum1, xsum5, 1 | (3<<4)));
*a58d3d2aSXin Li    xsum2 = _mm256_add_ps(_mm256_permute2f128_ps(xsum2, xsum6, 2<<4), _mm256_permute2f128_ps(xsum2, xsum6, 1 | (3<<4)));
*a58d3d2aSXin Li    xsum3 = _mm256_add_ps(_mm256_permute2f128_ps(xsum3, xsum7, 2<<4), _mm256_permute2f128_ps(xsum3, xsum7, 1 | (3<<4)));
*a58d3d2aSXin Li    /* Compute [0 1 4 5] [2 3 6 7] */
*a58d3d2aSXin Li    xsum0 = _mm256_hadd_ps(xsum0, xsum1);
*a58d3d2aSXin Li    xsum1 = _mm256_hadd_ps(xsum2, xsum3);
*a58d3d2aSXin Li    /* Compute [0 1 2 3 4 5 6 7] */
*a58d3d2aSXin Li    xsum0 = _mm256_hadd_ps(xsum0, xsum1);
*a58d3d2aSXin Li    _mm256_storeu_ps(sum, xsum0);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid celt_pitch_xcorr_avx2(const float *_x, const float *_y, float *xcorr, int len, int max_pitch, int arch)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i;
*a58d3d2aSXin Li   celt_assert(max_pitch>0);
*a58d3d2aSXin Li   (void)arch;
*a58d3d2aSXin Li   for (i=0;i<max_pitch-7;i+=8)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      xcorr_kernel_avx(_x, _y+i, &xcorr[i], len);
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   for (;i<max_pitch;i++)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      xcorr[i] = celt_inner_prod(_x, _y+i, len, arch);
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#endif