gemmlowp/test/test_fixedpoint.cc

*5f39d1b3SJooyung Han// Copyright 2016 The Gemmlowp Authors. All Rights Reserved.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Licensed under the Apache License, Version 2.0 (the "License");
*5f39d1b3SJooyung Han// you may not use this file except in compliance with the License.
*5f39d1b3SJooyung Han// You may obtain a copy of the License at
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han//     http://www.apache.org/licenses/LICENSE-2.0
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Unless required by applicable law or agreed to in writing, software
*5f39d1b3SJooyung Han// distributed under the License is distributed on an "AS IS" BASIS,
*5f39d1b3SJooyung Han// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*5f39d1b3SJooyung Han// See the License for the specific language governing permissions and
*5f39d1b3SJooyung Han// limitations under the License.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// test_fixedpoint.cc: unit tests covering the fixedpoint/ directory.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#define GEMMLOWP_ENABLE_FIXEDPOINT_CONSTANTS_CHECKS
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#include <algorithm>
*5f39d1b3SJooyung Han#include <cinttypes>
*5f39d1b3SJooyung Han#include <cmath>
*5f39d1b3SJooyung Han#include <cstdio>
*5f39d1b3SJooyung Han#include <random>
*5f39d1b3SJooyung Han#include <vector>
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#include "../fixedpoint/fixedpoint.h"
*5f39d1b3SJooyung Han#include "test.h"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hannamespace gemmlowp {
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hannamespace {
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename T>
*5f39d1b3SJooyung HanT Load(const typename FixedPointRawTypeTraits<T>::ScalarRawType* src) {
*5f39d1b3SJooyung Han  return *src;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Hantemplate <typename T>
*5f39d1b3SJooyung Hanvoid Store(typename FixedPointRawTypeTraits<T>::ScalarRawType* dst, T v) {
*5f39d1b3SJooyung Han  *dst = v;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_NEON
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Hanint32x4_t Load<int32x4_t>(const std::int32_t* src) {
*5f39d1b3SJooyung Han  return vld1q_s32(src);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Hanint16x8_t Load<int16x8_t>(const std::int16_t* src) {
*5f39d1b3SJooyung Han  return vld1q_s16(src);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Hanvoid Store<int32x4_t>(std::int32_t* dst, int32x4_t v) {
*5f39d1b3SJooyung Han  vst1q_s32(dst, v);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Hanvoid Store<int16x8_t>(std::int16_t* dst, int16x8_t v) {
*5f39d1b3SJooyung Han  vst1q_s16(dst, v);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_SSE4
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Han__m128i Load<__m128i>(const std::int32_t* src) {
*5f39d1b3SJooyung Han  return _mm_loadu_si128(reinterpret_cast<const __m128i*>(src));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Hanvoid Store<__m128i>(std::int32_t* dst, __m128i v) {
*5f39d1b3SJooyung Han  _mm_storeu_si128(reinterpret_cast<__m128i*>(dst), v);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Hanint16x8_m128i Load<int16x8_m128i>(const std::int16_t* src) {
*5f39d1b3SJooyung Han  return to_int16x8_m128i(
*5f39d1b3SJooyung Han      _mm_loadu_si128(reinterpret_cast<const __m128i*>(src)));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Hanvoid Store<int16x8_m128i>(std::int16_t* dst, int16x8_m128i v) {
*5f39d1b3SJooyung Han  _mm_storeu_si128(reinterpret_cast<__m128i*>(dst), v.v);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_MSA
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Hanv4i32 Load<v4i32>(const std::int32_t* src) {
*5f39d1b3SJooyung Han  return __builtin_msa_ld_w(const_cast<std::int32_t*>(src), 0);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Hanv8i16 Load<v8i16>(const std::int16_t* src) {
*5f39d1b3SJooyung Han  return __builtin_msa_ld_h(const_cast<std::int16_t*>(src), 0);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Hanvoid Store<v4i32>(std::int32_t* dst, v4i32 v) {
*5f39d1b3SJooyung Han  __builtin_msa_st_w(v, dst, 0);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Hanvoid Store<v8i16>(std::int16_t* dst, v8i16 v) {
*5f39d1b3SJooyung Han  __builtin_msa_st_h(v, dst, 0);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_AVX2
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Han__m256i Load<__m256i>(const std::int32_t* src) {
*5f39d1b3SJooyung Han  return _mm256_loadu_si256(reinterpret_cast<const __m256i*>(src));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Hanint16x16_m256i Load<int16x16_m256i>(const std::int16_t* src) {
*5f39d1b3SJooyung Han  return to_int16x16_m256i(
*5f39d1b3SJooyung Han      _mm256_loadu_si256(reinterpret_cast<const __m256i*>(src)));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Hanvoid Store<__m256i>(std::int32_t* dst, __m256i v) {
*5f39d1b3SJooyung Han  _mm256_storeu_si256(reinterpret_cast<__m256i*>(dst), v);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Hanvoid Store<int16x16_m256i>(std::int16_t* dst, int16x16_m256i v) {
*5f39d1b3SJooyung Han  _mm256_storeu_si256(reinterpret_cast<__m256i*>(dst), v.v);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename tSimdType>
*5f39d1b3SJooyung Hanclass TestFixedPoint {
*5f39d1b3SJooyung Han public:
*5f39d1b3SJooyung Han  using SimdType = tSimdType;
*5f39d1b3SJooyung Han  using SimdTypeTraits = FixedPointRawTypeTraits<SimdType>;
*5f39d1b3SJooyung Han  using ScalarType = typename SimdTypeTraits::ScalarRawType;
*5f39d1b3SJooyung Han  static constexpr int kSimdLanes = SimdTypeTraits::kLanes;
*5f39d1b3SJooyung Han  static constexpr int kScalarTypeBits = 8 * sizeof(ScalarType);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Explanation of UnaryOpBase, its *Op subclasses below, and TestUnaryOp:
*5f39d1b3SJooyung Han  // Most (though not all) of the fixedpoint functionality being tested
*5f39d1b3SJooyung Han  // consists of functions taking one fixedpoint value and returning one
*5f39d1b3SJooyung Han  // fixedpoint value, e.g. "exp" or "tanh". We call them "unary operators".
*5f39d1b3SJooyung Han  // We factor a lot of testing boilerplate into a common TestUnaryOp function
*5f39d1b3SJooyung Han  // taking a "unary op" object that fully describes the function to be tested.
*5f39d1b3SJooyung Han  // These objects inherit UnaryOpBase mostly as a means to share some default
*5f39d1b3SJooyung Han  // values for some properties.
*5f39d1b3SJooyung Han  //
*5f39d1b3SJooyung Han  // An important design element here is that the fixed-point values are passed
*5f39d1b3SJooyung Han  // around as raw integers (e.g. int32_t or SIMD types such as int32x4_t), not
*5f39d1b3SJooyung Han  // as higher-level FixedPoint objects. The motivation for this design is 1) to
*5f39d1b3SJooyung Han  // avoid having to templatize everything in the tIntegerBits parameter of
*5f39d1b3SJooyung Han  // class FixedPoint, and 2) to allow directly testing low-level functions
*5f39d1b3SJooyung Han  // operating on raw types (e.g. RoundingDivideByPOT) without needlessly
*5f39d1b3SJooyung Han  // requiring
*5f39d1b3SJooyung Han  // wrapping raw values in FixedPoint objects.
*5f39d1b3SJooyung Han  class UnaryOpBase {
*5f39d1b3SJooyung Han   public:
*5f39d1b3SJooyung Han    // Min bound of the input range of this op. For example, an op only handling
*5f39d1b3SJooyung Han    // nonnegative values would return 0.
*5f39d1b3SJooyung Han    ScalarType MinInput() const {
*5f39d1b3SJooyung Han      return std::numeric_limits<ScalarType>::min();
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    // Max bound of the input range of this op. For example, an op only handling
*5f39d1b3SJooyung Han    // nonpositive values would return 0.
*5f39d1b3SJooyung Han    ScalarType MaxInput() const {
*5f39d1b3SJooyung Han      return std::numeric_limits<ScalarType>::max();
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    // Tolerated difference between actual and reference ScalarType values.
*5f39d1b3SJooyung Han    // Note that the corresponding real-numbers tolerance depends on the number
*5f39d1b3SJooyung Han    // of integer bits of the fixed-point representation of the results of this
*5f39d1b3SJooyung Han    // op.
*5f39d1b3SJooyung Han    // For example, for an op returning fixed-point values with 0 integer bits,
*5f39d1b3SJooyung Han    // the correspondence between real-number values and raw values is
*5f39d1b3SJooyung Han    // real_number = (2^31) * raw_value.
*5f39d1b3SJooyung Han    ScalarType Tolerance() const { return 0; }
*5f39d1b3SJooyung Han  };
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Op wrapping RoundingDivideByPOT
*5f39d1b3SJooyung Han  class RoundingDivideByPOTOp final : public UnaryOpBase {
*5f39d1b3SJooyung Han   public:
*5f39d1b3SJooyung Han    RoundingDivideByPOTOp(int exponent) : exponent_(exponent) {}
*5f39d1b3SJooyung Han    ScalarType ReferenceOp(ScalarType x) const {
*5f39d1b3SJooyung Han      const double d = static_cast<double>(x) / (1ll << exponent_);
*5f39d1b3SJooyung Han      return static_cast<ScalarType>(std::round(d));
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    template <typename RawType>
*5f39d1b3SJooyung Han    RawType Op(RawType x) const {
*5f39d1b3SJooyung Han      return RoundingDivideByPOT(x, exponent_);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han   private:
*5f39d1b3SJooyung Han    const int exponent_;
*5f39d1b3SJooyung Han  };
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Op wrapping SaturatingRoundingMultiplyByPOT
*5f39d1b3SJooyung Han  template <int tExponent>
*5f39d1b3SJooyung Han  class SaturatingRoundingMultiplyByPOTOp final : public UnaryOpBase {
*5f39d1b3SJooyung Han   public:
*5f39d1b3SJooyung Han    ScalarType ReferenceOp(ScalarType x) const {
*5f39d1b3SJooyung Han      const double d = static_cast<double>(x) * std::pow(2., tExponent);
*5f39d1b3SJooyung Han      const double clamp_min = std::numeric_limits<ScalarType>::min();
*5f39d1b3SJooyung Han      const double clamp_max = std::numeric_limits<ScalarType>::max();
*5f39d1b3SJooyung Han      const double clamped = std::min(clamp_max, std::max(clamp_min, d));
*5f39d1b3SJooyung Han      return static_cast<ScalarType>(std::round(clamped));
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    template <typename RawType>
*5f39d1b3SJooyung Han    RawType Op(RawType x) const {
*5f39d1b3SJooyung Han      return SaturatingRoundingMultiplyByPOT<tExponent>(x);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  };
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Op wrapping exp_on_interval_between_negative_one_quarter_and_0_excl
*5f39d1b3SJooyung Han  class ExpOnIntervalBetweenNegativeOneQuarterAnd0ExclOp final
*5f39d1b3SJooyung Han      : public UnaryOpBase {
*5f39d1b3SJooyung Han   public:
*5f39d1b3SJooyung Han    ScalarType MinInput() const { return -(1 << (kScalarTypeBits - 3)); }
*5f39d1b3SJooyung Han    ScalarType MaxInput() const { return 0; }
*5f39d1b3SJooyung Han    ScalarType Tolerance() const { return kScalarTypeBits == 32 ? 500 : 1; }
*5f39d1b3SJooyung Han    ScalarType ReferenceOp(ScalarType x) const {
*5f39d1b3SJooyung Han      using F = FixedPoint<ScalarType, 0>;
*5f39d1b3SJooyung Han      const double d = ToDouble(F::FromRaw(x));
*5f39d1b3SJooyung Han      const double e = std::exp(d);
*5f39d1b3SJooyung Han      return F::FromDouble(e).raw();
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    template <typename RawType>
*5f39d1b3SJooyung Han    RawType Op(RawType x) const {
*5f39d1b3SJooyung Han      using F = FixedPoint<RawType, 0>;
*5f39d1b3SJooyung Han      const F f = F::FromRaw(x);
*5f39d1b3SJooyung Han      const F e = exp_on_interval_between_negative_one_quarter_and_0_excl(f);
*5f39d1b3SJooyung Han      return e.raw();
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  };
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Op wrapping exp_on_negative_values
*5f39d1b3SJooyung Han  template <int tIntegerBits>
*5f39d1b3SJooyung Han  class ExpOnNegativeValuesOp final : public UnaryOpBase {
*5f39d1b3SJooyung Han   public:
*5f39d1b3SJooyung Han    ScalarType MaxInput() const { return 0; }
*5f39d1b3SJooyung Han    ScalarType Tolerance() const { return kScalarTypeBits == 32 ? 500 : 2; }
*5f39d1b3SJooyung Han    ScalarType ReferenceOp(ScalarType x) const {
*5f39d1b3SJooyung Han      using F = FixedPoint<ScalarType, tIntegerBits>;
*5f39d1b3SJooyung Han      using F0 = FixedPoint<ScalarType, 0>;
*5f39d1b3SJooyung Han      const double d = ToDouble(F::FromRaw(x));
*5f39d1b3SJooyung Han      const double e = std::exp(d);
*5f39d1b3SJooyung Han      return F0::FromDouble(e).raw();
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    template <typename RawType>
*5f39d1b3SJooyung Han    RawType Op(RawType x) const {
*5f39d1b3SJooyung Han      using F = FixedPoint<RawType, tIntegerBits>;
*5f39d1b3SJooyung Han      const F f = F::FromRaw(x);
*5f39d1b3SJooyung Han      return exp_on_negative_values(f).raw();
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  };
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Op wrapping one_minus_x_over_one_plus_x_for_x_in_0_1
*5f39d1b3SJooyung Han  class OneMinusXOverOnePlusXForXIn01Op final : public UnaryOpBase {
*5f39d1b3SJooyung Han   public:
*5f39d1b3SJooyung Han    ScalarType MinInput() const { return 0; }
*5f39d1b3SJooyung Han    ScalarType Tolerance() const { return kScalarTypeBits == 32 ? 12 : 11; }
*5f39d1b3SJooyung Han    ScalarType ReferenceOp(ScalarType x) const {
*5f39d1b3SJooyung Han      using F = FixedPoint<ScalarType, 0>;
*5f39d1b3SJooyung Han      const double d = ToDouble(F::FromRaw(x));
*5f39d1b3SJooyung Han      const double e = (1 - d) / (1 + d);
*5f39d1b3SJooyung Han      return F::FromDouble(e).raw();
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    template <typename RawType>
*5f39d1b3SJooyung Han    RawType Op(RawType x) const {
*5f39d1b3SJooyung Han      using F = FixedPoint<RawType, 0>;
*5f39d1b3SJooyung Han      const F f = F::FromRaw(x);
*5f39d1b3SJooyung Han      return one_minus_x_over_one_plus_x_for_x_in_0_1(f).raw();
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  };
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Op wrapping tanh
*5f39d1b3SJooyung Han  template <int tIntegerBits>
*5f39d1b3SJooyung Han  class TanhOp final : public UnaryOpBase {
*5f39d1b3SJooyung Han   public:
*5f39d1b3SJooyung Han    ScalarType Tolerance() const { return kScalarTypeBits == 32 ? 310 : 12; }
*5f39d1b3SJooyung Han    ScalarType ReferenceOp(ScalarType x) const {
*5f39d1b3SJooyung Han      using F = FixedPoint<ScalarType, tIntegerBits>;
*5f39d1b3SJooyung Han      using F0 = FixedPoint<ScalarType, 0>;
*5f39d1b3SJooyung Han      const double d = ToDouble(F::FromRaw(x));
*5f39d1b3SJooyung Han      const double e = std::tanh(d);
*5f39d1b3SJooyung Han      return F0::FromDouble(e).raw();
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    template <typename RawType>
*5f39d1b3SJooyung Han    RawType Op(RawType x) const {
*5f39d1b3SJooyung Han      using F = FixedPoint<RawType, tIntegerBits>;
*5f39d1b3SJooyung Han      const F f = F::FromRaw(x);
*5f39d1b3SJooyung Han      return tanh(f).raw();
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  };
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Op wrapping one_over_one_plus_x_for_x_in_0_1
*5f39d1b3SJooyung Han  class OneOverOnePlusXForXIn01Op final : public UnaryOpBase {
*5f39d1b3SJooyung Han   public:
*5f39d1b3SJooyung Han    ScalarType MinInput() const { return 0; }
*5f39d1b3SJooyung Han    ScalarType Tolerance() const { return kScalarTypeBits == 32 ? 6 : 5; }
*5f39d1b3SJooyung Han    ScalarType ReferenceOp(ScalarType x) const {
*5f39d1b3SJooyung Han      using F = FixedPoint<ScalarType, 0>;
*5f39d1b3SJooyung Han      const double d = ToDouble(F::FromRaw(x));
*5f39d1b3SJooyung Han      const double e = 1 / (1 + d);
*5f39d1b3SJooyung Han      return F::FromDouble(e).raw();
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    template <typename RawType>
*5f39d1b3SJooyung Han    RawType Op(RawType x) const {
*5f39d1b3SJooyung Han      using F = FixedPoint<RawType, 0>;
*5f39d1b3SJooyung Han      const F f = F::FromRaw(x);
*5f39d1b3SJooyung Han      return one_over_one_plus_x_for_x_in_0_1(f).raw();
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  };
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Op wrapping logistic
*5f39d1b3SJooyung Han  template <int tIntegerBits>
*5f39d1b3SJooyung Han  class LogisticOp final : public UnaryOpBase {
*5f39d1b3SJooyung Han   public:
*5f39d1b3SJooyung Han    ScalarType Tolerance() const { return kScalarTypeBits == 32 ? 155 : 6; }
*5f39d1b3SJooyung Han    ScalarType ReferenceOp(ScalarType x) const {
*5f39d1b3SJooyung Han      using F = FixedPoint<ScalarType, tIntegerBits>;
*5f39d1b3SJooyung Han      using F0 = FixedPoint<ScalarType, 0>;
*5f39d1b3SJooyung Han      const double d = ToDouble(F::FromRaw(x));
*5f39d1b3SJooyung Han      const double e = 1 / (1 + std::exp(-d));
*5f39d1b3SJooyung Han      return F0::FromDouble(e).raw();
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    template <typename RawType>
*5f39d1b3SJooyung Han    RawType Op(RawType x) const {
*5f39d1b3SJooyung Han      using F = FixedPoint<RawType, tIntegerBits>;
*5f39d1b3SJooyung Han      const F f = F::FromRaw(x);
*5f39d1b3SJooyung Han      return logistic(f).raw();
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  };
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Tests a given op, on a given list of int32 input values.
*5f39d1b3SJooyung Han  template <typename tUnaryOpType>
*5f39d1b3SJooyung Han  void TestUnaryOp(const tUnaryOpType& unary_op,
*5f39d1b3SJooyung Han                   const std::vector<ScalarType>& testvals) {
*5f39d1b3SJooyung Han    Check(0 == (testvals.size() % kSimdLanes));
*5f39d1b3SJooyung Han    for (std::size_t i = 0; i < testvals.size(); i += kSimdLanes) {
*5f39d1b3SJooyung Han      // First, clamp input values accoding to the MinInput() and MaxInput()
*5f39d1b3SJooyung Han      // bounds returned by the op.
*5f39d1b3SJooyung Han      ScalarType input[kSimdLanes] = {0};
*5f39d1b3SJooyung Han      for (std::size_t j = 0; j < kSimdLanes; j++) {
*5f39d1b3SJooyung Han        const ScalarType raw_input = testvals[i + j];
*5f39d1b3SJooyung Han        input[j] = std::min(unary_op.MaxInput(),
*5f39d1b3SJooyung Han                            std::max(unary_op.MinInput(), raw_input));
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han      // Compute reference results and check that the actual results on
*5f39d1b3SJooyung Han      // scalar inputs agree with them, to the Tolerance() returned by the op.
*5f39d1b3SJooyung Han      ScalarType reference[kSimdLanes] = {0};
*5f39d1b3SJooyung Han      ScalarType actual_scalar[kSimdLanes] = {0};
*5f39d1b3SJooyung Han      for (std::size_t j = 0; j < kSimdLanes; j++) {
*5f39d1b3SJooyung Han        reference[j] = unary_op.ReferenceOp(input[j]);
*5f39d1b3SJooyung Han        actual_scalar[j] = unary_op.Op(input[j]);
*5f39d1b3SJooyung Han        const std::int64_t diff = static_cast<std::int64_t>(actual_scalar[j]) -
*5f39d1b3SJooyung Han                                  static_cast<std::int64_t>(reference[j]);
*5f39d1b3SJooyung Han        if (std::abs(diff) > unary_op.Tolerance()) {
*5f39d1b3SJooyung Han          fprintf(stderr, "abs(diff) (%" PRId64 ") > tolerance (%d)\n", diff,
*5f39d1b3SJooyung Han                  unary_op.Tolerance());
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han        Check(std::abs(diff) <= unary_op.Tolerance());
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han      // Check that the actual results on SIMD inputs agree *exactly* with the
*5f39d1b3SJooyung Han      // actual results on scalar inputs. I.e. SIMD must make absolutely no
*5f39d1b3SJooyung Han      // difference
*5f39d1b3SJooyung Han      // to the results, regardless of the fact that both scalar and SIMD
*5f39d1b3SJooyung Han      // results may differ from the reference results.
*5f39d1b3SJooyung Han      ScalarType actual_simd[kSimdLanes] = {0};
*5f39d1b3SJooyung Han      Store<SimdType>(actual_simd, unary_op.Op(Load<SimdType>(input)));
*5f39d1b3SJooyung Han      for (std::size_t j = 0; j < kSimdLanes; j++) {
*5f39d1b3SJooyung Han        if (actual_simd[j] != actual_scalar[j]) {
*5f39d1b3SJooyung Han          fprintf(stderr, "SIMD (%d) != scalar (%d)\n", actual_simd[j],
*5f39d1b3SJooyung Han                  actual_scalar[j]);
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han        Check(actual_simd[j] == actual_scalar[j]);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  template <int tIntegerBits>
*5f39d1b3SJooyung Han  void test_convert(FixedPoint<ScalarType, tIntegerBits> x) {
*5f39d1b3SJooyung Han    typedef FixedPoint<ScalarType, tIntegerBits> F;
*5f39d1b3SJooyung Han    F y = F::FromDouble(ToDouble(x));
*5f39d1b3SJooyung Han    Check(y == x);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  template <int tIntegerBits_a, int tIntegerBits_b>
*5f39d1b3SJooyung Han  void test_Rescale(FixedPoint<ScalarType, tIntegerBits_a> a) {
*5f39d1b3SJooyung Han    FixedPoint<ScalarType, tIntegerBits_b> actual = Rescale<tIntegerBits_b>(a);
*5f39d1b3SJooyung Han    FixedPoint<ScalarType, tIntegerBits_b> expected =
*5f39d1b3SJooyung Han        FixedPoint<ScalarType, tIntegerBits_b>::FromDouble(ToDouble(a));
*5f39d1b3SJooyung Han    Check(actual == expected);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  template <int tIntegerBits_a, int tIntegerBits_b>
*5f39d1b3SJooyung Han  void test_Rescale(const std::vector<ScalarType>& testvals) {
*5f39d1b3SJooyung Han    for (auto a : testvals) {
*5f39d1b3SJooyung Han      FixedPoint<ScalarType, tIntegerBits_a> aq;
*5f39d1b3SJooyung Han      aq.raw() = a;
*5f39d1b3SJooyung Han      test_Rescale<tIntegerBits_a, tIntegerBits_b>(aq);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  template <int tIntegerBits_a, int tIntegerBits_b>
*5f39d1b3SJooyung Han  void test_mul(FixedPoint<ScalarType, tIntegerBits_a> a,
*5f39d1b3SJooyung Han                FixedPoint<ScalarType, tIntegerBits_b> b) {
*5f39d1b3SJooyung Han    static const int ProductIntegerBits = tIntegerBits_a + tIntegerBits_b;
*5f39d1b3SJooyung Han    using ProductFixedPoint = FixedPoint<ScalarType, ProductIntegerBits>;
*5f39d1b3SJooyung Han    ProductFixedPoint ab;
*5f39d1b3SJooyung Han    ab = a * b;
*5f39d1b3SJooyung Han    double a_double = ToDouble(a);
*5f39d1b3SJooyung Han    double b_double = ToDouble(b);
*5f39d1b3SJooyung Han    double ab_double = a_double * b_double;
*5f39d1b3SJooyung Han    ProductFixedPoint expected = ProductFixedPoint::FromDouble(ab_double);
*5f39d1b3SJooyung Han    std::int64_t diff = std::int64_t(ab.raw()) - std::int64_t(expected.raw());
*5f39d1b3SJooyung Han    Check(std::abs(diff) <= 1);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  template <int tIntegerBits_a, int tIntegerBits_b>
*5f39d1b3SJooyung Han  void test_mul(const std::vector<ScalarType>& testvals) {
*5f39d1b3SJooyung Han    for (auto a : testvals) {
*5f39d1b3SJooyung Han      for (auto b : testvals) {
*5f39d1b3SJooyung Han        FixedPoint<ScalarType, tIntegerBits_a> aq;
*5f39d1b3SJooyung Han        FixedPoint<ScalarType, tIntegerBits_b> bq;
*5f39d1b3SJooyung Han        aq.raw() = a;
*5f39d1b3SJooyung Han        bq.raw() = b;
*5f39d1b3SJooyung Han        test_mul(aq, bq);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  template <int tExponent, int tIntegerBits_a>
*5f39d1b3SJooyung Han  void test_ExactMulByPot(FixedPoint<ScalarType, tIntegerBits_a> a) {
*5f39d1b3SJooyung Han    double x = ToDouble(a) * std::pow(2.0, tExponent);
*5f39d1b3SJooyung Han    double y = ToDouble(ExactMulByPot<tExponent>(a));
*5f39d1b3SJooyung Han    Check(x == y);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  template <int tExponent, int tIntegerBits_a>
*5f39d1b3SJooyung Han  void test_ExactMulByPot(const std::vector<ScalarType>& testvals) {
*5f39d1b3SJooyung Han    for (auto a : testvals) {
*5f39d1b3SJooyung Han      FixedPoint<ScalarType, tIntegerBits_a> aq;
*5f39d1b3SJooyung Han      aq.raw() = a;
*5f39d1b3SJooyung Han      test_ExactMulByPot<tExponent, tIntegerBits_a>(aq);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Make the list of test values to test each op against.
*5f39d1b3SJooyung Han  std::vector<ScalarType> MakeTestVals() {
*5f39d1b3SJooyung Han    std::vector<ScalarType> testvals;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    for (int i = 0; i < kScalarTypeBits - 1; i++) {
*5f39d1b3SJooyung Han      testvals.push_back((1 << i) - 2);
*5f39d1b3SJooyung Han      testvals.push_back((1 << i) - 1);
*5f39d1b3SJooyung Han      testvals.push_back((1 << i));
*5f39d1b3SJooyung Han      testvals.push_back((1 << i) + 1);
*5f39d1b3SJooyung Han      testvals.push_back((1 << i) + 2);
*5f39d1b3SJooyung Han      testvals.push_back(-(1 << i) - 2);
*5f39d1b3SJooyung Han      testvals.push_back(-(1 << i) - 1);
*5f39d1b3SJooyung Han      testvals.push_back(-(1 << i));
*5f39d1b3SJooyung Han      testvals.push_back(-(1 << i) + 1);
*5f39d1b3SJooyung Han      testvals.push_back(-(1 << i) + 2);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    testvals.push_back(std::numeric_limits<ScalarType>::min());
*5f39d1b3SJooyung Han    testvals.push_back(std::numeric_limits<ScalarType>::min() + 1);
*5f39d1b3SJooyung Han    testvals.push_back(std::numeric_limits<ScalarType>::min() + 2);
*5f39d1b3SJooyung Han    testvals.push_back(std::numeric_limits<ScalarType>::max() - 2);
*5f39d1b3SJooyung Han    testvals.push_back(std::numeric_limits<ScalarType>::max() - 1);
*5f39d1b3SJooyung Han    testvals.push_back(std::numeric_limits<ScalarType>::max());
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    std::mt19937 random_engine;
*5f39d1b3SJooyung Han    std::uniform_int_distribution<ScalarType> uniform_distribution(
*5f39d1b3SJooyung Han        std::numeric_limits<ScalarType>::min(),
*5f39d1b3SJooyung Han        std::numeric_limits<ScalarType>::max());
*5f39d1b3SJooyung Han    for (int i = 0; i < 1000; i++) {
*5f39d1b3SJooyung Han      testvals.push_back(uniform_distribution(random_engine));
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    // SIMD tests will require the length of testvals to be a multiple
*5f39d1b3SJooyung Han    // of SIMD vector size.
*5f39d1b3SJooyung Han    while (testvals.size() % kSimdLanes) {
*5f39d1b3SJooyung Han      testvals.push_back(0);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    std::sort(testvals.begin(), testvals.end());
*5f39d1b3SJooyung Han    return testvals;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  void RunTests(const char* msg) {
*5f39d1b3SJooyung Han    const std::vector<ScalarType> testvals = MakeTestVals();
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    for (int s = 0; s < kScalarTypeBits; s++) {
*5f39d1b3SJooyung Han      TestUnaryOp(RoundingDivideByPOTOp(s), testvals);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<1 - kScalarTypeBits>(),
*5f39d1b3SJooyung Han                testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<2 - kScalarTypeBits>(),
*5f39d1b3SJooyung Han                testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<3 - kScalarTypeBits>(),
*5f39d1b3SJooyung Han                testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<14 - kScalarTypeBits>(),
*5f39d1b3SJooyung Han                testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<15 - kScalarTypeBits>(),
*5f39d1b3SJooyung Han                testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<-15>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<-4>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<-3>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<-2>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<-1>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<0>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<1>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<2>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<3>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<4>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<15>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<kScalarTypeBits - 15>(),
*5f39d1b3SJooyung Han                testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<kScalarTypeBits - 14>(),
*5f39d1b3SJooyung Han                testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<kScalarTypeBits - 3>(),
*5f39d1b3SJooyung Han                testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<kScalarTypeBits - 2>(),
*5f39d1b3SJooyung Han                testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(SaturatingRoundingMultiplyByPOTOp<kScalarTypeBits - 1>(),
*5f39d1b3SJooyung Han                testvals);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    TestUnaryOp(ExpOnIntervalBetweenNegativeOneQuarterAnd0ExclOp(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(ExpOnNegativeValuesOp<0>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(ExpOnNegativeValuesOp<1>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(ExpOnNegativeValuesOp<2>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(ExpOnNegativeValuesOp<3>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(ExpOnNegativeValuesOp<4>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(ExpOnNegativeValuesOp<5>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(ExpOnNegativeValuesOp<6>(), testvals);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    TestUnaryOp(OneMinusXOverOnePlusXForXIn01Op(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(TanhOp<0>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(TanhOp<1>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(TanhOp<2>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(TanhOp<3>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(TanhOp<4>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(TanhOp<5>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(TanhOp<6>(), testvals);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    TestUnaryOp(OneOverOnePlusXForXIn01Op(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(LogisticOp<0>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(LogisticOp<1>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(LogisticOp<2>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(LogisticOp<3>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(LogisticOp<4>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(LogisticOp<5>(), testvals);
*5f39d1b3SJooyung Han    TestUnaryOp(LogisticOp<6>(), testvals);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    for (auto a : testvals) {
*5f39d1b3SJooyung Han      FixedPoint<ScalarType, 4> x;
*5f39d1b3SJooyung Han      x.raw() = a;
*5f39d1b3SJooyung Han      test_convert(x);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    test_mul<0, 0>(testvals);
*5f39d1b3SJooyung Han    test_mul<0, 1>(testvals);
*5f39d1b3SJooyung Han    test_mul<2, 0>(testvals);
*5f39d1b3SJooyung Han    test_mul<1, 1>(testvals);
*5f39d1b3SJooyung Han    test_mul<4, 4>(testvals);
*5f39d1b3SJooyung Han    test_mul<3, 5>(testvals);
*5f39d1b3SJooyung Han    test_mul<7, 2>(testvals);
*5f39d1b3SJooyung Han    test_mul<kScalarTypeBits / 2 - 1, kScalarTypeBits / 2 - 2>(testvals);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    test_Rescale<0, 0>(testvals);
*5f39d1b3SJooyung Han    test_Rescale<0, 1>(testvals);
*5f39d1b3SJooyung Han    test_Rescale<2, 0>(testvals);
*5f39d1b3SJooyung Han    test_Rescale<4, 4>(testvals);
*5f39d1b3SJooyung Han    test_Rescale<4, 5>(testvals);
*5f39d1b3SJooyung Han    test_Rescale<6, 3>(testvals);
*5f39d1b3SJooyung Han    test_Rescale<13, 9>(testvals);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    test_ExactMulByPot<0, 0>(testvals);
*5f39d1b3SJooyung Han    test_ExactMulByPot<0, 4>(testvals);
*5f39d1b3SJooyung Han    test_ExactMulByPot<1, 4>(testvals);
*5f39d1b3SJooyung Han    test_ExactMulByPot<3, 2>(testvals);
*5f39d1b3SJooyung Han    test_ExactMulByPot<-4, 5>(testvals);
*5f39d1b3SJooyung Han    test_ExactMulByPot<-2, 6>(testvals);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    fprintf(stderr, "PASS (%s)\n", msg);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han}  // end anonymous namespace
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han}  // end namespace gemmlowp
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanint main() {
*5f39d1b3SJooyung Han  gemmlowp::TestFixedPoint<std::int32_t>().RunTests("Scalar int32");
*5f39d1b3SJooyung Han  gemmlowp::TestFixedPoint<std::int16_t>().RunTests("Scalar int16");
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_SSE4
*5f39d1b3SJooyung Han  gemmlowp::TestFixedPoint<__m128i>().RunTests("SSE4 __m128i = int32x4");
*5f39d1b3SJooyung Han  gemmlowp::TestFixedPoint<gemmlowp::int16x8_m128i>().RunTests(
*5f39d1b3SJooyung Han      "SSE4 __m128i = int16x8");
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_NEON
*5f39d1b3SJooyung Han  gemmlowp::TestFixedPoint<int32x4_t>().RunTests("NEON int32x4_t");
*5f39d1b3SJooyung Han  gemmlowp::TestFixedPoint<int16x8_t>().RunTests("NEON int16x8_t");
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_MSA
*5f39d1b3SJooyung Han  gemmlowp::TestFixedPoint<v4i32>().RunTests("MSA v4i32");
*5f39d1b3SJooyung Han  gemmlowp::TestFixedPoint<v8i16>().RunTests("MSA v8i16");
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_AVX2
*5f39d1b3SJooyung Han  gemmlowp::TestFixedPoint<__m256i>().RunTests("AVX __m256i");
*5f39d1b3SJooyung Han  gemmlowp::TestFixedPoint<gemmlowp::int16x16_m256i>().RunTests(
*5f39d1b3SJooyung Han      "AVX2 __m256i = int16x16");
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han}