libopus/dnn/lpcnet_enc.c

*a58d3d2aSXin Li/* Copyright (c) 2017-2019 Mozilla */
*a58d3d2aSXin Li/*
*a58d3d2aSXin Li   Redistribution and use in source and binary forms, with or without
*a58d3d2aSXin Li   modification, are permitted provided that the following conditions
*a58d3d2aSXin Li   are met:
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions of source code must retain the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   - Redistributions in binary form must reproduce the above copyright
*a58d3d2aSXin Li   notice, this list of conditions and the following disclaimer in the
*a58d3d2aSXin Li   documentation and/or other materials provided with the distribution.
*a58d3d2aSXin Li
*a58d3d2aSXin Li   THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
*a58d3d2aSXin Li   ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
*a58d3d2aSXin Li   LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
*a58d3d2aSXin Li   A PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE FOUNDATION OR
*a58d3d2aSXin Li   CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
*a58d3d2aSXin Li   EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
*a58d3d2aSXin Li   PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR
*a58d3d2aSXin Li   PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF
*a58d3d2aSXin Li   LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING
*a58d3d2aSXin Li   NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
*a58d3d2aSXin Li   SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
*a58d3d2aSXin Li*/
*a58d3d2aSXin Li
*a58d3d2aSXin Li#ifdef HAVE_CONFIG_H
*a58d3d2aSXin Li#include "config.h"
*a58d3d2aSXin Li#endif
*a58d3d2aSXin Li
*a58d3d2aSXin Li#include <stdlib.h>
*a58d3d2aSXin Li#include <string.h>
*a58d3d2aSXin Li#include <stdio.h>
*a58d3d2aSXin Li#include "kiss_fft.h"
*a58d3d2aSXin Li#include "common.h"
*a58d3d2aSXin Li#include <math.h>
*a58d3d2aSXin Li#include "freq.h"
*a58d3d2aSXin Li#include "pitch.h"
*a58d3d2aSXin Li#include "arch.h"
*a58d3d2aSXin Li#include <assert.h>
*a58d3d2aSXin Li#include "lpcnet_private.h"
*a58d3d2aSXin Li#include "lpcnet.h"
*a58d3d2aSXin Li#include "os_support.h"
*a58d3d2aSXin Li#include "_kiss_fft_guts.h"
*a58d3d2aSXin Li#include "celt_lpc.h"
*a58d3d2aSXin Li#include "mathops.h"
*a58d3d2aSXin Li
*a58d3d2aSXin Li
*a58d3d2aSXin Liint lpcnet_encoder_get_size(void) {
*a58d3d2aSXin Li  return sizeof(LPCNetEncState);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Liint lpcnet_encoder_init(LPCNetEncState *st) {
*a58d3d2aSXin Li  memset(st, 0, sizeof(*st));
*a58d3d2aSXin Li  pitchdnn_init(&st->pitchdnn);
*a58d3d2aSXin Li  return 0;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Liint lpcnet_encoder_load_model(LPCNetEncState *st, const void *data, int len) {
*a58d3d2aSXin Li  return pitchdnn_load_model(&st->pitchdnn, data, len);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin LiLPCNetEncState *lpcnet_encoder_create(void) {
*a58d3d2aSXin Li  LPCNetEncState *st;
*a58d3d2aSXin Li  st = opus_alloc(lpcnet_encoder_get_size());
*a58d3d2aSXin Li  lpcnet_encoder_init(st);
*a58d3d2aSXin Li  return st;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid lpcnet_encoder_destroy(LPCNetEncState *st) {
*a58d3d2aSXin Li  opus_free(st);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic void frame_analysis(LPCNetEncState *st, kiss_fft_cpx *X, float *Ex, const float *in) {
*a58d3d2aSXin Li  float x[WINDOW_SIZE];
*a58d3d2aSXin Li  OPUS_COPY(x, st->analysis_mem, OVERLAP_SIZE);
*a58d3d2aSXin Li  OPUS_COPY(&x[OVERLAP_SIZE], in, FRAME_SIZE);
*a58d3d2aSXin Li  OPUS_COPY(st->analysis_mem, &in[FRAME_SIZE-OVERLAP_SIZE], OVERLAP_SIZE);
*a58d3d2aSXin Li  apply_window(x);
*a58d3d2aSXin Li  forward_transform(X, x);
*a58d3d2aSXin Li  lpcn_compute_band_energy(Ex, X);
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic void biquad(float *y, float mem[2], const float *x, const float *b, const float *a, int N) {
*a58d3d2aSXin Li  int i;
*a58d3d2aSXin Li  float mem0, mem1;
*a58d3d2aSXin Li  mem0 = mem[0];
*a58d3d2aSXin Li  mem1 = mem[1];
*a58d3d2aSXin Li  for (i=0;i<N;i++) {
*a58d3d2aSXin Li    float xi, yi, mem00;
*a58d3d2aSXin Li    xi = x[i];
*a58d3d2aSXin Li    yi = x[i] + mem0;
*a58d3d2aSXin Li    mem00 = mem0;
*a58d3d2aSXin Li    /* Original code:
*a58d3d2aSXin Li    mem0 = mem1 + (b[0]*xi - a[0]*yi);
*a58d3d2aSXin Li    mem1 = (b[1]*xi - a[1]*yi);
*a58d3d2aSXin Li    Modified to reduce dependency chains: (the +1e-30f forces the ordering and has no effect on the output)
*a58d3d2aSXin Li    */
*a58d3d2aSXin Li    mem0 = (b[0]-a[0])*xi + mem1 - a[0]*mem0;
*a58d3d2aSXin Li    mem1 = (b[1]-a[1])*xi + 1e-30f - a[1]*mem00;
*a58d3d2aSXin Li    y[i] = yi;
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li  mem[0] = mem0;
*a58d3d2aSXin Li  mem[1] = mem1;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Li#define celt_log10(x) (0.3010299957f*celt_log2(x))
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid compute_frame_features(LPCNetEncState *st, const float *in, int arch) {
*a58d3d2aSXin Li  float aligned_in[FRAME_SIZE];
*a58d3d2aSXin Li  int i;
*a58d3d2aSXin Li  float Ly[NB_BANDS];
*a58d3d2aSXin Li  float follow, logMax;
*a58d3d2aSXin Li  kiss_fft_cpx X[FREQ_SIZE];
*a58d3d2aSXin Li  float Ex[NB_BANDS];
*a58d3d2aSXin Li  float xcorr[PITCH_MAX_PERIOD];
*a58d3d2aSXin Li  float ener0;
*a58d3d2aSXin Li  float ener;
*a58d3d2aSXin Li  float x[FRAME_SIZE+LPC_ORDER];
*a58d3d2aSXin Li  float frame_corr;
*a58d3d2aSXin Li  float xy, xx, yy;
*a58d3d2aSXin Li  int pitch;
*a58d3d2aSXin Li  float ener_norm[PITCH_MAX_PERIOD - PITCH_MIN_PERIOD];
*a58d3d2aSXin Li  /* [b,a]=ellip(2, 2, 20, 1200/8000); */
*a58d3d2aSXin Li  static const float lp_b[2] = {-0.84946f, 1.f};
*a58d3d2aSXin Li  static const float lp_a[2] = {-1.54220f, 0.70781f};
*a58d3d2aSXin Li  OPUS_COPY(aligned_in, &st->analysis_mem[OVERLAP_SIZE-TRAINING_OFFSET], TRAINING_OFFSET);
*a58d3d2aSXin Li  frame_analysis(st, X, Ex, in);
*a58d3d2aSXin Li  st->if_features[0] = MAX16(-1.f, MIN16(1.f, (1.f/64)*(10.f*celt_log10(1e-15f + X[0].r*X[0].r)-6.f)));
*a58d3d2aSXin Li  for (i=1;i<PITCH_IF_MAX_FREQ;i++) {
*a58d3d2aSXin Li    kiss_fft_cpx prod;
*a58d3d2aSXin Li    float norm_1;
*a58d3d2aSXin Li    C_MULC(prod, X[i], st->prev_if[i]);
*a58d3d2aSXin Li    norm_1 = 1.f/sqrt(1e-15f + prod.r*prod.r + prod.i*prod.i);
*a58d3d2aSXin Li    C_MULBYSCALAR(prod, norm_1);
*a58d3d2aSXin Li    st->if_features[3*i-2] = prod.r;
*a58d3d2aSXin Li    st->if_features[3*i-1] = prod.i;
*a58d3d2aSXin Li    st->if_features[3*i] = MAX16(-1.f, MIN16(1.f, (1.f/64)*(10.f*celt_log10(1e-15f + X[i].r*X[i].r + X[i].i*X[i].i)-6.f)));
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li  OPUS_COPY(st->prev_if, X, PITCH_IF_MAX_FREQ);
*a58d3d2aSXin Li  /*for (i=0;i<88;i++) printf("%f ", st->if_features[i]);printf("\n");*/
*a58d3d2aSXin Li  logMax = -2;
*a58d3d2aSXin Li  follow = -2;
*a58d3d2aSXin Li  for (i=0;i<NB_BANDS;i++) {
*a58d3d2aSXin Li    Ly[i] = celt_log10(1e-2f+Ex[i]);
*a58d3d2aSXin Li    Ly[i] = MAX16(logMax-8, MAX16(follow-2.5f, Ly[i]));
*a58d3d2aSXin Li    logMax = MAX16(logMax, Ly[i]);
*a58d3d2aSXin Li    follow = MAX16(follow-2.5f, Ly[i]);
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li  dct(st->features, Ly);
*a58d3d2aSXin Li  st->features[0] -= 4;
*a58d3d2aSXin Li  lpc_from_cepstrum(st->lpc, st->features);
*a58d3d2aSXin Li  for (i=0;i<LPC_ORDER;i++) st->features[NB_BANDS+2+i] = st->lpc[i];
*a58d3d2aSXin Li  OPUS_MOVE(st->exc_buf, &st->exc_buf[FRAME_SIZE], PITCH_MAX_PERIOD);
*a58d3d2aSXin Li  OPUS_MOVE(st->lp_buf, &st->lp_buf[FRAME_SIZE], PITCH_MAX_PERIOD);
*a58d3d2aSXin Li  OPUS_COPY(&aligned_in[TRAINING_OFFSET], in, FRAME_SIZE-TRAINING_OFFSET);
*a58d3d2aSXin Li  OPUS_COPY(&x[0], st->pitch_mem, LPC_ORDER);
*a58d3d2aSXin Li  OPUS_COPY(&x[LPC_ORDER], aligned_in, FRAME_SIZE);
*a58d3d2aSXin Li  OPUS_COPY(st->pitch_mem, &aligned_in[FRAME_SIZE-LPC_ORDER], LPC_ORDER);
*a58d3d2aSXin Li  celt_fir(&x[LPC_ORDER], st->lpc, &st->lp_buf[PITCH_MAX_PERIOD], FRAME_SIZE, LPC_ORDER, arch);
*a58d3d2aSXin Li  for (i=0;i<FRAME_SIZE;i++) {
*a58d3d2aSXin Li    st->exc_buf[PITCH_MAX_PERIOD+i] = st->lp_buf[PITCH_MAX_PERIOD+i] + .7f*st->pitch_filt;
*a58d3d2aSXin Li    st->pitch_filt = st->lp_buf[PITCH_MAX_PERIOD+i];
*a58d3d2aSXin Li    /*printf("%f\n", st->exc_buf[PITCH_MAX_PERIOD+i]);*/
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li  biquad(&st->lp_buf[PITCH_MAX_PERIOD], st->lp_mem, &st->lp_buf[PITCH_MAX_PERIOD], lp_b, lp_a, FRAME_SIZE);
*a58d3d2aSXin Li  {
*a58d3d2aSXin Li    double ener1;
*a58d3d2aSXin Li    float *buf = st->exc_buf;
*a58d3d2aSXin Li    celt_pitch_xcorr(&buf[PITCH_MAX_PERIOD], buf, xcorr, FRAME_SIZE, PITCH_MAX_PERIOD-PITCH_MIN_PERIOD, arch);
*a58d3d2aSXin Li    ener0 = celt_inner_prod(&buf[PITCH_MAX_PERIOD], &buf[PITCH_MAX_PERIOD], FRAME_SIZE, arch);
*a58d3d2aSXin Li    ener1 = celt_inner_prod(&buf[0], &buf[0], FRAME_SIZE, arch);
*a58d3d2aSXin Li    /*printf("%f\n", st->frame_weight[sub]);*/
*a58d3d2aSXin Li    for (i=0;i<PITCH_MAX_PERIOD-PITCH_MIN_PERIOD;i++) {
*a58d3d2aSXin Li      ener = 1 + ener0 + ener1;
*a58d3d2aSXin Li      st->xcorr_features[i] = 2*xcorr[i];
*a58d3d2aSXin Li      ener_norm[i] = ener;
*a58d3d2aSXin Li      ener1 += buf[i+FRAME_SIZE]*(double)buf[i+FRAME_SIZE] - buf[i]*(double)buf[i];
*a58d3d2aSXin Li      /*printf("%f ", st->xcorr_features[i]);*/
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    /* Split in a separate loop so the compiler can vectorize it */
*a58d3d2aSXin Li    for (i=0;i<PITCH_MAX_PERIOD-PITCH_MIN_PERIOD;i++) {
*a58d3d2aSXin Li      st->xcorr_features[i] /= ener_norm[i];
*a58d3d2aSXin Li    }
*a58d3d2aSXin Li    /*printf("\n");*/
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li  st->dnn_pitch = compute_pitchdnn(&st->pitchdnn, st->if_features, st->xcorr_features, arch);
*a58d3d2aSXin Li  pitch = (int)floor(.5+256./pow(2.f,((1./60.)*((st->dnn_pitch+1.5)*60))));
*a58d3d2aSXin Li  xx = celt_inner_prod(&st->lp_buf[PITCH_MAX_PERIOD], &st->lp_buf[PITCH_MAX_PERIOD], FRAME_SIZE, arch);
*a58d3d2aSXin Li  yy = celt_inner_prod(&st->lp_buf[PITCH_MAX_PERIOD-pitch], &st->lp_buf[PITCH_MAX_PERIOD-pitch], FRAME_SIZE, arch);
*a58d3d2aSXin Li  xy = celt_inner_prod(&st->lp_buf[PITCH_MAX_PERIOD], &st->lp_buf[PITCH_MAX_PERIOD-pitch], FRAME_SIZE, arch);
*a58d3d2aSXin Li  /*printf("%f %f\n", frame_corr, xy/sqrt(1e-15+xx*yy));*/
*a58d3d2aSXin Li  frame_corr = xy/sqrt(1+xx*yy);
*a58d3d2aSXin Li  frame_corr = log(1.f+exp(5.f*frame_corr))/log(1+exp(5.f));
*a58d3d2aSXin Li  st->features[NB_BANDS] = st->dnn_pitch;
*a58d3d2aSXin Li  st->features[NB_BANDS + 1] = frame_corr-.5f;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Livoid preemphasis(float *y, float *mem, const float *x, float coef, int N) {
*a58d3d2aSXin Li  int i;
*a58d3d2aSXin Li  for (i=0;i<N;i++) {
*a58d3d2aSXin Li    float yi;
*a58d3d2aSXin Li    yi = x[i] + *mem;
*a58d3d2aSXin Li    *mem = -coef*x[i];
*a58d3d2aSXin Li    y[i] = yi;
*a58d3d2aSXin Li  }
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Listatic int lpcnet_compute_single_frame_features_impl(LPCNetEncState *st, float *x, float features[NB_TOTAL_FEATURES], int arch) {
*a58d3d2aSXin Li  preemphasis(x, &st->mem_preemph, x, PREEMPHASIS, FRAME_SIZE);
*a58d3d2aSXin Li  compute_frame_features(st, x, arch);
*a58d3d2aSXin Li  OPUS_COPY(features, &st->features[0], NB_TOTAL_FEATURES);
*a58d3d2aSXin Li  return 0;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Liint lpcnet_compute_single_frame_features(LPCNetEncState *st, const opus_int16 *pcm, float features[NB_TOTAL_FEATURES], int arch) {
*a58d3d2aSXin Li  int i;
*a58d3d2aSXin Li  float x[FRAME_SIZE];
*a58d3d2aSXin Li  for (i=0;i<FRAME_SIZE;i++) x[i] = pcm[i];
*a58d3d2aSXin Li  lpcnet_compute_single_frame_features_impl(st, x, features, arch);
*a58d3d2aSXin Li  return 0;
*a58d3d2aSXin Li}
*a58d3d2aSXin Li
*a58d3d2aSXin Liint lpcnet_compute_single_frame_features_float(LPCNetEncState *st, const float *pcm, float features[NB_TOTAL_FEATURES], int arch) {
*a58d3d2aSXin Li  int i;
*a58d3d2aSXin Li  float x[FRAME_SIZE];
*a58d3d2aSXin Li  for (i=0;i<FRAME_SIZE;i++) x[i] = pcm[i];
*a58d3d2aSXin Li  lpcnet_compute_single_frame_features_impl(st, x, features, arch);
*a58d3d2aSXin Li  return 0;
*a58d3d2aSXin Li}