libopus/dnn/vec.h

*a58d3d2aSXin Li/* Copyright (c) 2018 Mozilla
*a58d3d2aSXin Li                 2008-2011 Octasic Inc.
*a58d3d2aSXin Li                 2012-2017 Jean-Marc Valin */
*a58d3d2aSXin Li/*
*a58d3d2aSXin Li   Redistribution and use in source and binary forms, with or without
*a58d3d2aSXin Li   modification, are permitted provided that the following conditions
*a58d3d2aSXin Li   are met:
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions of source code must retain the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions in binary form must reproduce the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer in the
*a58d3d2aSXin Li   documentation and/or other materials provided with the distribution.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
*a58d3d2aSXin Li   ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
*a58d3d2aSXin Li   LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
*a58d3d2aSXin Li   A PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE FOUNDATION OR
*a58d3d2aSXin Li   CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
*a58d3d2aSXin Li   EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
*a58d3d2aSXin Li   PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
*a58d3d2aSXin Li   PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
*a58d3d2aSXin Li   LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
*a58d3d2aSXin Li   NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
*a58d3d2aSXin Li   SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
*a58d3d2aSXin Li*/
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifndef VEC_H
*a58d3d2aSXin Li#define VEC_H
*a58d3d2aSXin Li
*a58d3d2aSXin Li#include "opus_types.h"
*a58d3d2aSXin Li#include <math.h>
*a58d3d2aSXin Li#include "arch.h"
*a58d3d2aSXin Li#include "x86/x86_arch_macros.h"
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Li#if defined(__AVX__) || defined(__SSE2__)
*a58d3d2aSXin Li#include "vec_avx.h"
*a58d3d2aSXin Li#elif (defined(__ARM_NEON__) || defined(__ARM_NEON)) && !defined(DISABLE_NEON)
*a58d3d2aSXin Li#include "vec_neon.h"
*a58d3d2aSXin Li#else
*a58d3d2aSXin Li
*a58d3d2aSXin Li#include "os_support.h"
*a58d3d2aSXin Li
*a58d3d2aSXin Li#define MAX_INPUTS (2048)
*a58d3d2aSXin Li
*a58d3d2aSXin Li#define NO_OPTIMIZATIONS
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void sgemv16x1(float *out, const float *weights, int rows, int cols, int col_stride, const float *x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i, j;
*a58d3d2aSXin Li   OPUS_CLEAR(out, rows);
*a58d3d2aSXin Li   for (i=0;i<rows;i+=16)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      for (j=0;j<cols;j++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         const float * restrict w;
*a58d3d2aSXin Li         float * restrict y;
*a58d3d2aSXin Li         float xj;
*a58d3d2aSXin Li         w = &weights[j*col_stride + i];
*a58d3d2aSXin Li         xj = x[j];
*a58d3d2aSXin Li         y = &out[i];
*a58d3d2aSXin Li         y[0] += w[0]*xj;
*a58d3d2aSXin Li         y[1] += w[1]*xj;
*a58d3d2aSXin Li         y[2] += w[2]*xj;
*a58d3d2aSXin Li         y[3] += w[3]*xj;
*a58d3d2aSXin Li         y[4] += w[4]*xj;
*a58d3d2aSXin Li         y[5] += w[5]*xj;
*a58d3d2aSXin Li         y[6] += w[6]*xj;
*a58d3d2aSXin Li         y[7] += w[7]*xj;
*a58d3d2aSXin Li         y[8] += w[8]*xj;
*a58d3d2aSXin Li         y[9] += w[9]*xj;
*a58d3d2aSXin Li         y[10] += w[10]*xj;
*a58d3d2aSXin Li         y[11] += w[11]*xj;
*a58d3d2aSXin Li         y[12] += w[12]*xj;
*a58d3d2aSXin Li         y[13] += w[13]*xj;
*a58d3d2aSXin Li         y[14] += w[14]*xj;
*a58d3d2aSXin Li         y[15] += w[15]*xj;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void sgemv8x1(float *out, const float *weights, int rows, int cols, int col_stride, const float *x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i, j;
*a58d3d2aSXin Li   OPUS_CLEAR(out, rows);
*a58d3d2aSXin Li   for (i=0;i<rows;i+=8)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      for (j=0;j<cols;j++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         const float * restrict w;
*a58d3d2aSXin Li         float * restrict y;
*a58d3d2aSXin Li         float xj;
*a58d3d2aSXin Li         w = &weights[j*col_stride + i];
*a58d3d2aSXin Li         xj = x[j];
*a58d3d2aSXin Li         y = &out[i];
*a58d3d2aSXin Li         y[0] += w[0]*xj;
*a58d3d2aSXin Li         y[1] += w[1]*xj;
*a58d3d2aSXin Li         y[2] += w[2]*xj;
*a58d3d2aSXin Li         y[3] += w[3]*xj;
*a58d3d2aSXin Li         y[4] += w[4]*xj;
*a58d3d2aSXin Li         y[5] += w[5]*xj;
*a58d3d2aSXin Li         y[6] += w[6]*xj;
*a58d3d2aSXin Li         y[7] += w[7]*xj;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void sgemv(float *out, const float *weights, int rows, int cols, int col_stride, const float *x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   if ((rows&0xf) == 0) sgemv16x1(out, weights, rows, cols, col_stride, x);
*a58d3d2aSXin Li   else if ((rows&0x7) == 0) sgemv8x1(out, weights, rows, cols, col_stride, x);
*a58d3d2aSXin Li   else {
*a58d3d2aSXin Li      int i, j;
*a58d3d2aSXin Li      for (i=0;i<rows;i++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         out[i] = 0;
*a58d3d2aSXin Li         for (j=0;j<cols;j++) out[i] += weights[j*col_stride + i]*x[j];
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void sparse_sgemv8x4(float *out, const float *w, const int *idx, int rows, const float *x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i, j;
*a58d3d2aSXin Li   OPUS_CLEAR(out, rows);
*a58d3d2aSXin Li   for (i=0;i<rows;i+=8)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      int cols;
*a58d3d2aSXin Li      cols = *idx++;
*a58d3d2aSXin Li      for (j=0;j<cols;j++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         int pos;
*a58d3d2aSXin Li         float * restrict y;
*a58d3d2aSXin Li         float xj0, xj1, xj2, xj3;
*a58d3d2aSXin Li         pos = (*idx++);
*a58d3d2aSXin Li         xj0 = x[pos+0];
*a58d3d2aSXin Li         xj1 = x[pos+1];
*a58d3d2aSXin Li         xj2 = x[pos+2];
*a58d3d2aSXin Li         xj3 = x[pos+3];
*a58d3d2aSXin Li         y = &out[i];
*a58d3d2aSXin Li         y[0] += w[0]*xj0;
*a58d3d2aSXin Li         y[1] += w[1]*xj0;
*a58d3d2aSXin Li         y[2] += w[2]*xj0;
*a58d3d2aSXin Li         y[3] += w[3]*xj0;
*a58d3d2aSXin Li         y[4] += w[4]*xj0;
*a58d3d2aSXin Li         y[5] += w[5]*xj0;
*a58d3d2aSXin Li         y[6] += w[6]*xj0;
*a58d3d2aSXin Li         y[7] += w[7]*xj0;
*a58d3d2aSXin Li
*a58d3d2aSXin Li         y[0] += w[8]*xj1;
*a58d3d2aSXin Li         y[1] += w[9]*xj1;
*a58d3d2aSXin Li         y[2] += w[10]*xj1;
*a58d3d2aSXin Li         y[3] += w[11]*xj1;
*a58d3d2aSXin Li         y[4] += w[12]*xj1;
*a58d3d2aSXin Li         y[5] += w[13]*xj1;
*a58d3d2aSXin Li         y[6] += w[14]*xj1;
*a58d3d2aSXin Li         y[7] += w[15]*xj1;
*a58d3d2aSXin Li
*a58d3d2aSXin Li         y[0] += w[16]*xj2;
*a58d3d2aSXin Li         y[1] += w[17]*xj2;
*a58d3d2aSXin Li         y[2] += w[18]*xj2;
*a58d3d2aSXin Li         y[3] += w[19]*xj2;
*a58d3d2aSXin Li         y[4] += w[20]*xj2;
*a58d3d2aSXin Li         y[5] += w[21]*xj2;
*a58d3d2aSXin Li         y[6] += w[22]*xj2;
*a58d3d2aSXin Li         y[7] += w[23]*xj2;
*a58d3d2aSXin Li
*a58d3d2aSXin Li         y[0] += w[24]*xj3;
*a58d3d2aSXin Li         y[1] += w[25]*xj3;
*a58d3d2aSXin Li         y[2] += w[26]*xj3;
*a58d3d2aSXin Li         y[3] += w[27]*xj3;
*a58d3d2aSXin Li         y[4] += w[28]*xj3;
*a58d3d2aSXin Li         y[5] += w[29]*xj3;
*a58d3d2aSXin Li         y[6] += w[30]*xj3;
*a58d3d2aSXin Li         y[7] += w[31]*xj3;
*a58d3d2aSXin Li         w += 32;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef USE_SU_BIAS
*a58d3d2aSXin Listatic inline void sparse_cgemv8x4(float *out, const opus_int8 *w, const int *idx, const float *scale, int rows, int cols, const float *_x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i, j;
*a58d3d2aSXin Li   unsigned char x[MAX_INPUTS];
*a58d3d2aSXin Li   for (i=0;i<rows;i++) out[i] = 0;
*a58d3d2aSXin Li   for (i=0;i<cols;i++) x[i] = 127+floor(.5+127*_x[i]);
*a58d3d2aSXin Li   for (i=0;i<rows;i+=8)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      int colblocks;
*a58d3d2aSXin Li      colblocks = *idx++;
*a58d3d2aSXin Li      for (j=0;j<colblocks;j++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         int pos;
*a58d3d2aSXin Li         float * restrict y;
*a58d3d2aSXin Li         int xj0, xj1, xj2, xj3;
*a58d3d2aSXin Li         pos = (*idx++);
*a58d3d2aSXin Li         xj0 = x[pos+0];
*a58d3d2aSXin Li         xj1 = x[pos+1];
*a58d3d2aSXin Li         xj2 = x[pos+2];
*a58d3d2aSXin Li         xj3 = x[pos+3];
*a58d3d2aSXin Li         y = &out[i];
*a58d3d2aSXin Li         y[0] += (w[0]*xj0+w[1]*xj1+w[2]*xj2+w[3]*xj3);
*a58d3d2aSXin Li         y[1] += (w[4]*xj0+w[5]*xj1+w[6]*xj2+w[7]*xj3);
*a58d3d2aSXin Li         y[2] += (w[8]*xj0+w[9]*xj1+w[10]*xj2+w[11]*xj3);
*a58d3d2aSXin Li         y[3] += (w[12]*xj0+w[13]*xj1+w[14]*xj2+w[15]*xj3);
*a58d3d2aSXin Li         y[4] += (w[16]*xj0+w[17]*xj1+w[18]*xj2+w[19]*xj3);
*a58d3d2aSXin Li         y[5] += (w[20]*xj0+w[21]*xj1+w[22]*xj2+w[23]*xj3);
*a58d3d2aSXin Li         y[6] += (w[24]*xj0+w[25]*xj1+w[26]*xj2+w[27]*xj3);
*a58d3d2aSXin Li         y[7] += (w[28]*xj0+w[29]*xj1+w[30]*xj2+w[31]*xj3);
*a58d3d2aSXin Li         w += 32;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   for (i=0;i<rows;i++) out[i] *= scale[i];
*a58d3d2aSXin Li}
*a58d3d2aSXin Listatic inline void cgemv8x4(float *out, const opus_int8 *w, const float *scale, int rows, int cols, const float *_x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i, j;
*a58d3d2aSXin Li   unsigned char x[MAX_INPUTS];
*a58d3d2aSXin Li   for (i=0;i<rows;i++) out[i] = 0;
*a58d3d2aSXin Li   for (i=0;i<cols;i++) x[i] = 127+(int)floor(.5+127*_x[i]);
*a58d3d2aSXin Li   for (i=0;i<rows;i+=8)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      for (j=0;j<cols;j+=4)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         float *y;
*a58d3d2aSXin Li         float xj0, xj1, xj2, xj3;
*a58d3d2aSXin Li         xj0 = x[j+0];
*a58d3d2aSXin Li         xj1 = x[j+1];
*a58d3d2aSXin Li         xj2 = x[j+2];
*a58d3d2aSXin Li         xj3 = x[j+3];
*a58d3d2aSXin Li         y = &out[i];
*a58d3d2aSXin Li         y[0] += (w[0]*xj0+w[1]*xj1+w[2]*xj2+w[3]*xj3);
*a58d3d2aSXin Li         y[1] += (w[4]*xj0+w[5]*xj1+w[6]*xj2+w[7]*xj3);
*a58d3d2aSXin Li         y[2] += (w[8]*xj0+w[9]*xj1+w[10]*xj2+w[11]*xj3);
*a58d3d2aSXin Li         y[3] += (w[12]*xj0+w[13]*xj1+w[14]*xj2+w[15]*xj3);
*a58d3d2aSXin Li         y[4] += (w[16]*xj0+w[17]*xj1+w[18]*xj2+w[19]*xj3);
*a58d3d2aSXin Li         y[5] += (w[20]*xj0+w[21]*xj1+w[22]*xj2+w[23]*xj3);
*a58d3d2aSXin Li         y[6] += (w[24]*xj0+w[25]*xj1+w[26]*xj2+w[27]*xj3);
*a58d3d2aSXin Li         y[7] += (w[28]*xj0+w[29]*xj1+w[30]*xj2+w[31]*xj3);
*a58d3d2aSXin Li         w += 32;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   for (i=0;i<rows;i++) out[i] *= scale[i];
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#else
*a58d3d2aSXin Listatic inline void sparse_cgemv8x4(float *out, const opus_int8 *w, const int *idx, const float *scale, int rows, int cols, const float *_x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i, j;
*a58d3d2aSXin Li   opus_int8 x[MAX_INPUTS];
*a58d3d2aSXin Li   for (i=0;i<rows;i++) out[i] = 0;
*a58d3d2aSXin Li   for (i=0;i<cols;i++) x[i] = (int)floor(.5+127*_x[i]);
*a58d3d2aSXin Li   for (i=0;i<rows;i+=8)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      int colblocks;
*a58d3d2aSXin Li      colblocks = *idx++;
*a58d3d2aSXin Li      for (j=0;j<colblocks;j++)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         int pos;
*a58d3d2aSXin Li         float * restrict y;
*a58d3d2aSXin Li         int xj0, xj1, xj2, xj3;
*a58d3d2aSXin Li         pos = (*idx++);
*a58d3d2aSXin Li         xj0 = x[pos+0];
*a58d3d2aSXin Li         xj1 = x[pos+1];
*a58d3d2aSXin Li         xj2 = x[pos+2];
*a58d3d2aSXin Li         xj3 = x[pos+3];
*a58d3d2aSXin Li         y = &out[i];
*a58d3d2aSXin Li         y[0] += (w[0]*xj0+w[1]*xj1+w[2]*xj2+w[3]*xj3);
*a58d3d2aSXin Li         y[1] += (w[4]*xj0+w[5]*xj1+w[6]*xj2+w[7]*xj3);
*a58d3d2aSXin Li         y[2] += (w[8]*xj0+w[9]*xj1+w[10]*xj2+w[11]*xj3);
*a58d3d2aSXin Li         y[3] += (w[12]*xj0+w[13]*xj1+w[14]*xj2+w[15]*xj3);
*a58d3d2aSXin Li         y[4] += (w[16]*xj0+w[17]*xj1+w[18]*xj2+w[19]*xj3);
*a58d3d2aSXin Li         y[5] += (w[20]*xj0+w[21]*xj1+w[22]*xj2+w[23]*xj3);
*a58d3d2aSXin Li         y[6] += (w[24]*xj0+w[25]*xj1+w[26]*xj2+w[27]*xj3);
*a58d3d2aSXin Li         y[7] += (w[28]*xj0+w[29]*xj1+w[30]*xj2+w[31]*xj3);
*a58d3d2aSXin Li         w += 32;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   for (i=0;i<rows;i++) out[i] *= scale[i];
*a58d3d2aSXin Li}
*a58d3d2aSXin Listatic inline void cgemv8x4(float *out, const opus_int8 *w, const float *scale, int rows, int cols, const float *_x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int i, j;
*a58d3d2aSXin Li   opus_int8 x[MAX_INPUTS];
*a58d3d2aSXin Li   for (i=0;i<rows;i++) out[i] = 0;
*a58d3d2aSXin Li   for (i=0;i<cols;i++) x[i] = (int)floor(.5+127*_x[i]);
*a58d3d2aSXin Li   for (i=0;i<rows;i+=8)
*a58d3d2aSXin Li   {
*a58d3d2aSXin Li      for (j=0;j<cols;j+=4)
*a58d3d2aSXin Li      {
*a58d3d2aSXin Li         float *y;
*a58d3d2aSXin Li         float xj0, xj1, xj2, xj3;
*a58d3d2aSXin Li         xj0 = x[j+0];
*a58d3d2aSXin Li         xj1 = x[j+1];
*a58d3d2aSXin Li         xj2 = x[j+2];
*a58d3d2aSXin Li         xj3 = x[j+3];
*a58d3d2aSXin Li         y = &out[i];
*a58d3d2aSXin Li         y[0] += (w[0]*xj0+w[1]*xj1+w[2]*xj2+w[3]*xj3);
*a58d3d2aSXin Li         y[1] += (w[4]*xj0+w[5]*xj1+w[6]*xj2+w[7]*xj3);
*a58d3d2aSXin Li         y[2] += (w[8]*xj0+w[9]*xj1+w[10]*xj2+w[11]*xj3);
*a58d3d2aSXin Li         y[3] += (w[12]*xj0+w[13]*xj1+w[14]*xj2+w[15]*xj3);
*a58d3d2aSXin Li         y[4] += (w[16]*xj0+w[17]*xj1+w[18]*xj2+w[19]*xj3);
*a58d3d2aSXin Li         y[5] += (w[20]*xj0+w[21]*xj1+w[22]*xj2+w[23]*xj3);
*a58d3d2aSXin Li         y[6] += (w[24]*xj0+w[25]*xj1+w[26]*xj2+w[27]*xj3);
*a58d3d2aSXin Li         y[7] += (w[28]*xj0+w[29]*xj1+w[30]*xj2+w[31]*xj3);
*a58d3d2aSXin Li         w += 32;
*a58d3d2aSXin Li      }
*a58d3d2aSXin Li   }
*a58d3d2aSXin Li   for (i=0;i<rows;i++) out[i] *= scale[i];
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li/* No AVX2/FMA support */
*a58d3d2aSXin Li#ifndef LPCNET_TEST
*a58d3d2aSXin Listatic inline float lpcnet_exp2(float x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   int integer;
*a58d3d2aSXin Li   float frac;
*a58d3d2aSXin Li   union {
*a58d3d2aSXin Li      float f;
*a58d3d2aSXin Li      opus_uint32 i;
*a58d3d2aSXin Li   } res;
*a58d3d2aSXin Li   integer = floor(x);
*a58d3d2aSXin Li   if (integer < -50)
*a58d3d2aSXin Li      return 0;
*a58d3d2aSXin Li   frac = x-integer;
*a58d3d2aSXin Li   /* K0 = 1, K1 = log(2), K2 = 3-4*log(2), K3 = 3*log(2) - 2 */
*a58d3d2aSXin Li   res.f = 0.99992522f + frac * (0.69583354f
*a58d3d2aSXin Li           + frac * (0.22606716f + 0.078024523f*frac));
*a58d3d2aSXin Li   res.i = (res.i + (integer<<23)) & 0x7fffffff;
*a58d3d2aSXin Li   return res.f;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#define lpcnet_exp(x) lpcnet_exp2((x)*1.44269504f)
*a58d3d2aSXin Li
*a58d3d2aSXin Li#define fmadd(a, b, c) ((a)*(b)+(c))
*a58d3d2aSXin Listatic OPUS_INLINE float tanh_approx(float x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    const float N0 = 952.52801514f;
*a58d3d2aSXin Li    const float N1 = 96.39235687f;
*a58d3d2aSXin Li    const float N2 = 0.60863042f;
*a58d3d2aSXin Li    const float D0 = 952.72399902f;
*a58d3d2aSXin Li    const float D1 = 413.36801147f;
*a58d3d2aSXin Li    const float D2 = 11.88600922f;
*a58d3d2aSXin Li    float X2, num, den;
*a58d3d2aSXin Li    X2 = x*x;
*a58d3d2aSXin Li    num = fmadd(fmadd(N2, X2, N1), X2, N0);
*a58d3d2aSXin Li    den = fmadd(fmadd(D2, X2, D1), X2, D0);
*a58d3d2aSXin Li    num = num*x/den;
*a58d3d2aSXin Li    return MAX32(-1.f, MIN32(1.f, num));
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline float sigmoid_approx(float x)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li   return .5f + .5f*tanh_approx(.5f*x);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void softmax(float *y, const float *x, int N)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    int i;
*a58d3d2aSXin Li    for (i=0;i<N;i++)
*a58d3d2aSXin Li        y[i] = lpcnet_exp(x[i]);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void vec_tanh(float *y, const float *x, int N)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    int i;
*a58d3d2aSXin Li    for (i=0;i<N;i++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        y[i] = tanh_approx(x[i]);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic inline void vec_sigmoid(float *y, const float *x, int N)
*a58d3d2aSXin Li{
*a58d3d2aSXin Li    int i;
*a58d3d2aSXin Li    for (i=0;i<N;i++)
*a58d3d2aSXin Li    {
*a58d3d2aSXin Li        y[i] = sigmoid_approx(x[i]);
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li#define SCALE (128.f*127.f)
*a58d3d2aSXin Li#define SCALE_1 (1.f/128.f/127.f)
*a58d3d2aSXin Li
*a58d3d2aSXin Li#endif /*no optimizations*/
*a58d3d2aSXin Li#endif /*VEC_H*/