gemmlowp/internal/output.h

*5f39d1b3SJooyung Han// Copyright 2015 The Gemmlowp Authors. All Rights Reserved.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Licensed under the Apache License, Version 2.0 (the "License");
*5f39d1b3SJooyung Han// you may not use this file except in compliance with the License.
*5f39d1b3SJooyung Han// You may obtain a copy of the License at
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han//     http://www.apache.org/licenses/LICENSE-2.0
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Unless required by applicable law or agreed to in writing, software
*5f39d1b3SJooyung Han// distributed under the License is distributed on an "AS IS" BASIS,
*5f39d1b3SJooyung Han// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*5f39d1b3SJooyung Han// See the License for the specific language governing permissions and
*5f39d1b3SJooyung Han// limitations under the License.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// output.h: processing the 32-bit accumulators output by the unpack
*5f39d1b3SJooyung Han// stage, obtaining the final result matrix entries and storing them into
*5f39d1b3SJooyung Han// the destination matrix.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifndef GEMMLOWP_INTERNAL_OUTPUT_H_
*5f39d1b3SJooyung Han#define GEMMLOWP_INTERNAL_OUTPUT_H_
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#include <cmath>
*5f39d1b3SJooyung Han#include <tuple>
*5f39d1b3SJooyung Han#include <type_traits>
*5f39d1b3SJooyung Han#include <typeinfo>
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#include "../fixedpoint/fixedpoint.h"
*5f39d1b3SJooyung Han#include "../public/output_stages.h"
*5f39d1b3SJooyung Han#include "simd_wrappers.h"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hannamespace gemmlowp {
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename OutputStage, typename InputBufferType>
*5f39d1b3SJooyung Hanstruct OutputStageEvalBufferImpl {
*5f39d1b3SJooyung Han  // This generic template body should never be hit.
*5f39d1b3SJooyung Han  static_assert(
*5f39d1b3SJooyung Han      std::is_same<InputBufferType, void>::value,
*5f39d1b3SJooyung Han      "Unimplemented: missing implementation of this output pipeline stage "
*5f39d1b3SJooyung Han      "for this data type. This would happen if some architecture-specific "
*5f39d1b3SJooyung Han      "SIMD back-end (output_$arch.h) were incomplete.");
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename OutputStage, typename InputType>
*5f39d1b3SJooyung Hanstruct OutputStageEvalImpl {
*5f39d1b3SJooyung Han  static constexpr int kRows = InputType::kRows;
*5f39d1b3SJooyung Han  static constexpr int kCols = InputType::kCols;
*5f39d1b3SJooyung Han  using InputBufferType = typename InputType::BufferType;
*5f39d1b3SJooyung Han  using BufferEvalImplType =
*5f39d1b3SJooyung Han      OutputStageEvalBufferImpl<OutputStage, InputBufferType>;
*5f39d1b3SJooyung Han  using OutputBufferType = typename BufferEvalImplType::OutputType;
*5f39d1b3SJooyung Han  using OutputScalarType = typename OutputBufferType::ScalarType;
*5f39d1b3SJooyung Han  using OutputType = RegisterBlock<OutputScalarType, kRows, kCols>;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputStageEvalImpl(const OutputStage& s) : buffer_eval_impl(s) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputType Eval(InputType input, int, int) const {
*5f39d1b3SJooyung Han    OutputType output;
*5f39d1b3SJooyung Han    output.buf = buffer_eval_impl.Eval(input.buf);
*5f39d1b3SJooyung Han    return output;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const BufferEvalImplType buffer_eval_impl;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <int Size>
*5f39d1b3SJooyung Hanstruct OutputStageEvalBufferImpl<OutputStageQuantizeDownInt32ToUint8Scale,
*5f39d1b3SJooyung Han                                 RegisterBuffer<std::int32_t, Size>> {
*5f39d1b3SJooyung Han  using InputType = RegisterBuffer<std::int32_t, Size>;
*5f39d1b3SJooyung Han  using OutputType = RegisterBuffer<std::int32_t, Size>;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  typedef OutputStageQuantizeDownInt32ToUint8Scale OutputStage;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputStageEvalBufferImpl(const OutputStage& s) : output_stage(s) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputType Eval(InputType input) const {
*5f39d1b3SJooyung Han    const int result_shift = output_stage.result_shift;
*5f39d1b3SJooyung Han    const std::int32_t result_mult_int = output_stage.result_mult_int;
*5f39d1b3SJooyung Han    using RegisterType = typename InputType::RegisterType;
*5f39d1b3SJooyung Han    const RegisterType result_offset =
*5f39d1b3SJooyung Han        Dup<RegisterType>(output_stage.result_offset);
*5f39d1b3SJooyung Han    OutputType output;
*5f39d1b3SJooyung Han    for (int i = 0; i < InputType::kRegisterCount; i++) {
*5f39d1b3SJooyung Han      output.reg[i] = RoundingDivideByPOT(
*5f39d1b3SJooyung Han          Mul(Add(input.reg[i], result_offset), result_mult_int), result_shift);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    return output;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const OutputStage& output_stage;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <int Rows, int Cols, VectorShape Shape>
*5f39d1b3SJooyung Hanstruct OutputStageEvalImpl<OutputStageQuantizeDownInt32ToUint8ScalePC<Shape>,
*5f39d1b3SJooyung Han                           RegisterBlock<std::int32_t, Rows, Cols>> {
*5f39d1b3SJooyung Han  typedef RegisterBlock<std::int32_t, Rows, Cols> InputType;
*5f39d1b3SJooyung Han  typedef RegisterBlock<std::int32_t, Rows, Cols> OutputType;
*5f39d1b3SJooyung Han  typedef OutputStageQuantizeDownInt32ToUint8ScalePC<Shape> OutputStage;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputStageEvalImpl(const OutputStage& s) : output_stage(s) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputType Eval(InputType input, int row, int col) const {
*5f39d1b3SJooyung Han    OutputType output;
*5f39d1b3SJooyung Han    const int result_shift = output_stage.result_shift;
*5f39d1b3SJooyung Han    const int pos = Shape == VectorShape::Col ? row : col;
*5f39d1b3SJooyung Han    const auto result_mult_int =
*5f39d1b3SJooyung Han        LoadForBroadcasting<InputType>(output_stage.result_mult_int, pos);
*5f39d1b3SJooyung Han    const auto result_offset =
*5f39d1b3SJooyung Han        LoadForBroadcasting<InputType>(output_stage.result_offset, pos);
*5f39d1b3SJooyung Han    const auto dividend = BroadcastMul<InputType>(
*5f39d1b3SJooyung Han        BroadcastAdd<InputType>(input, result_offset), result_mult_int);
*5f39d1b3SJooyung Han    for (int i = 0; i < InputType::kRegisterCount; i++) {
*5f39d1b3SJooyung Han      output.buf.reg[i] =
*5f39d1b3SJooyung Han          RoundingDivideByPOT(dividend.buf.reg[i], result_shift);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    return output;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const OutputStage& output_stage;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <int Size>
*5f39d1b3SJooyung Hanstruct OutputStageEvalBufferImpl<
*5f39d1b3SJooyung Han    OutputStageQuantizeDownInt32ByFixedPoint,
*5f39d1b3SJooyung Han    RegisterBuffer<std::int32_t, Size>> {
*5f39d1b3SJooyung Han  typedef RegisterBuffer<std::int32_t, Size> InputType;
*5f39d1b3SJooyung Han  typedef RegisterBuffer<std::int32_t, Size> OutputType;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  typedef OutputStageQuantizeDownInt32ByFixedPoint OutputStage;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputStageEvalBufferImpl(const OutputStage& s) : output_stage(s) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputType Eval(InputType input) const {
*5f39d1b3SJooyung Han    OutputType output;
*5f39d1b3SJooyung Han    using RegisterType = typename InputType::RegisterType;
*5f39d1b3SJooyung Han    const RegisterType result_offset_after_shift =
*5f39d1b3SJooyung Han        Dup<RegisterType>(output_stage.result_offset_after_shift);
*5f39d1b3SJooyung Han    for (int i = 0; i < InputType::kRegisterCount; i++) {
*5f39d1b3SJooyung Han      const RegisterType mulhigh_val = SaturatingRoundingDoublingHighMul(
*5f39d1b3SJooyung Han          input.reg[i], output_stage.result_fixedpoint_multiplier);
*5f39d1b3SJooyung Han      output.reg[i] =
*5f39d1b3SJooyung Han          Add(RoundingDivideByPOT(mulhigh_val, output_stage.result_shift),
*5f39d1b3SJooyung Han              result_offset_after_shift);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    return output;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const OutputStage& output_stage;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <int Size>
*5f39d1b3SJooyung Hanstruct OutputStageEvalBufferImpl<OutputStageScaleInt32ByFixedPointAndExponent,
*5f39d1b3SJooyung Han                                 RegisterBuffer<std::int32_t, Size>> {
*5f39d1b3SJooyung Han  typedef RegisterBuffer<std::int32_t, Size> InputType;
*5f39d1b3SJooyung Han  typedef RegisterBuffer<std::int32_t, Size> OutputType;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  typedef OutputStageScaleInt32ByFixedPointAndExponent OutputStage;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputStageEvalBufferImpl(const OutputStage& s) : output_stage(s) {
*5f39d1b3SJooyung Han    left_shift = std::max(0, output_stage.result_exponent);
*5f39d1b3SJooyung Han    right_shift = std::max(0, -output_stage.result_exponent);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputType Eval(InputType input) const {
*5f39d1b3SJooyung Han    OutputType output;
*5f39d1b3SJooyung Han    using RegisterType = typename InputType::RegisterType;
*5f39d1b3SJooyung Han    const RegisterType result_offset_after_shift =
*5f39d1b3SJooyung Han        Dup<RegisterType>(output_stage.result_offset_after_shift);
*5f39d1b3SJooyung Han    for (int i = 0; i < InputType::kRegisterCount; i++) {
*5f39d1b3SJooyung Han      const RegisterType mulhigh_val = SaturatingRoundingDoublingHighMul(
*5f39d1b3SJooyung Han          ShiftLeft(input.reg[i], left_shift),
*5f39d1b3SJooyung Han          output_stage.result_fixedpoint_multiplier);
*5f39d1b3SJooyung Han      output.reg[i] = Add(RoundingDivideByPOT(mulhigh_val, right_shift),
*5f39d1b3SJooyung Han                          result_offset_after_shift);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    return output;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const OutputStage& output_stage;
*5f39d1b3SJooyung Han  int left_shift;
*5f39d1b3SJooyung Han  int right_shift;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <int Rows, int Cols, VectorShape Shape>
*5f39d1b3SJooyung Hanstruct OutputStageEvalImpl<
*5f39d1b3SJooyung Han    OutputStageScaleInt32ByFixedPointAndExponentPC<Shape>,
*5f39d1b3SJooyung Han    RegisterBlock<std::int32_t, Rows, Cols>> {
*5f39d1b3SJooyung Han  typedef RegisterBlock<std::int32_t, Rows, Cols> InputType;
*5f39d1b3SJooyung Han  typedef RegisterBlock<std::int32_t, Rows, Cols> OutputType;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  typedef OutputStageScaleInt32ByFixedPointAndExponentPC<Shape> OutputStage;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputStageEvalImpl(const OutputStage& s) : output_stage(s) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputType Eval(InputType input, int row, int col) const {
*5f39d1b3SJooyung Han    OutputType output;
*5f39d1b3SJooyung Han    const int pos = Shape == VectorShape::Row ? col : row;
*5f39d1b3SJooyung Han    using RegisterType = typename InputType::RegisterType;
*5f39d1b3SJooyung Han    const RegisterType result_offset_after_shift =
*5f39d1b3SJooyung Han        Dup<RegisterType>(output_stage.result_offset_after_shift);
*5f39d1b3SJooyung Han    auto left_shift =
*5f39d1b3SJooyung Han        LoadForBroadcasting<InputType>(output_stage.result_exponent, pos);
*5f39d1b3SJooyung Han    auto right_shift =
*5f39d1b3SJooyung Han        LoadForBroadcasting<InputType>(output_stage.result_exponent, pos);
*5f39d1b3SJooyung Han    const auto result_fixedpoint_multiplier = LoadForBroadcasting<InputType>(
*5f39d1b3SJooyung Han        output_stage.result_fixedpoint_multiplier, pos);
*5f39d1b3SJooyung Han    for (int i = 0; i < decltype(left_shift)::kRegisterCount; i++) {
*5f39d1b3SJooyung Han      left_shift.buf.reg[i] = Max(left_shift.buf.reg[i], 0);
*5f39d1b3SJooyung Han      right_shift.buf.reg[i] = Max(-right_shift.buf.reg[i], 0);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    const auto mulhigh_val = BroadcastSaturatingRoundingDoublingHighMul(
*5f39d1b3SJooyung Han        BroadcastShiftLeft(input, left_shift), result_fixedpoint_multiplier);
*5f39d1b3SJooyung Han    const auto rdpot_val =
*5f39d1b3SJooyung Han        BroadcastRoundingDivideByPOT(mulhigh_val, right_shift);
*5f39d1b3SJooyung Han    for (int i = 0; i < InputType::kRegisterCount; i++) {
*5f39d1b3SJooyung Han      output.buf.reg[i] = Add(rdpot_val.buf.reg[i], result_offset_after_shift);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    return output;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const OutputStage& output_stage;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Implementation of OutputStageSaturatingCastToUint8 for scalar data.
*5f39d1b3SJooyung Hantemplate <int Size>
*5f39d1b3SJooyung Hanstruct OutputStageEvalBufferImpl<OutputStageSaturatingCastToUint8,
*5f39d1b3SJooyung Han                                 RegisterBuffer<std::int32_t, Size>> {
*5f39d1b3SJooyung Han  typedef RegisterBuffer<std::int32_t, Size> InputType;
*5f39d1b3SJooyung Han  typedef RegisterBuffer<std::uint8_t, Size> OutputType;
*5f39d1b3SJooyung Han  static_assert(InputType::kRegisterLanes == 1,
*5f39d1b3SJooyung Han                "This path is only for scalar values");
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  typedef OutputStageSaturatingCastToUint8 OutputStage;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputStageEvalBufferImpl(const OutputStage&) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputType Eval(InputType input) const {
*5f39d1b3SJooyung Han    OutputType output;
*5f39d1b3SJooyung Han    for (int i = 0; i < InputType::kRegisterCount; i++) {
*5f39d1b3SJooyung Han      std::int32_t data = input.reg[i];
*5f39d1b3SJooyung Han      output.reg[i] = data > 255 ? 255 : data < 0 ? 0 : data;
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    return output;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Implementation of OutputStageSaturatingCastToInt8 for scalar data.
*5f39d1b3SJooyung Hantemplate <int Size>
*5f39d1b3SJooyung Hanstruct OutputStageEvalBufferImpl<OutputStageSaturatingCastToInt8,
*5f39d1b3SJooyung Han                                 RegisterBuffer<std::int32_t, Size>> {
*5f39d1b3SJooyung Han  typedef RegisterBuffer<std::int32_t, Size> InputType;
*5f39d1b3SJooyung Han  typedef RegisterBuffer<std::int8_t, Size> OutputType;
*5f39d1b3SJooyung Han  static_assert(InputType::kRegisterLanes == 1,
*5f39d1b3SJooyung Han                "This path is only for scalar values");
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  typedef OutputStageSaturatingCastToInt8 OutputStage;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputStageEvalBufferImpl(const OutputStage&) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputType Eval(InputType input) const {
*5f39d1b3SJooyung Han    OutputType output;
*5f39d1b3SJooyung Han    for (int i = 0; i < InputType::kRegisterCount; i++) {
*5f39d1b3SJooyung Han      std::int32_t data = input.reg[i];
*5f39d1b3SJooyung Han      output.reg[i] = data > 127 ? 127 : data < -128 ? -128 : data;
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    return output;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Implementation of OutputStageSaturatingCastToInt16 for scalar data.
*5f39d1b3SJooyung Hantemplate <int Size>
*5f39d1b3SJooyung Hanstruct OutputStageEvalBufferImpl<OutputStageSaturatingCastToInt16,
*5f39d1b3SJooyung Han                                 RegisterBuffer<std::int32_t, Size>> {
*5f39d1b3SJooyung Han  typedef RegisterBuffer<std::int32_t, Size> InputType;
*5f39d1b3SJooyung Han  typedef RegisterBuffer<std::int16_t, Size> OutputType;
*5f39d1b3SJooyung Han  static_assert(InputType::kRegisterLanes == 1,
*5f39d1b3SJooyung Han                "This path is only for scalar values");
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  typedef OutputStageSaturatingCastToInt16 OutputStage;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputStageEvalBufferImpl(const OutputStage&) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputType Eval(InputType input) const {
*5f39d1b3SJooyung Han    OutputType output;
*5f39d1b3SJooyung Han    for (int i = 0; i < InputType::kRegisterCount; i++) {
*5f39d1b3SJooyung Han      std::int32_t data = input.reg[i];
*5f39d1b3SJooyung Han      output.reg[i] = data > 32767 ? 32767 : data < -32768 ? -32768 : data;
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    return output;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Implementation of OutputStageTruncatingCastToUint8 for scalar data
*5f39d1b3SJooyung Hantemplate <int Size>
*5f39d1b3SJooyung Hanstruct OutputStageEvalBufferImpl<OutputStageTruncatingCastToUint8,
*5f39d1b3SJooyung Han                                 RegisterBuffer<std::int32_t, Size>> {
*5f39d1b3SJooyung Han  typedef RegisterBuffer<std::int32_t, Size> InputType;
*5f39d1b3SJooyung Han  typedef RegisterBuffer<std::uint8_t, Size> OutputType;
*5f39d1b3SJooyung Han  static_assert(InputType::kRegisterLanes == 1,
*5f39d1b3SJooyung Han                "This path is only for scalar values");
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  typedef OutputStageTruncatingCastToUint8 OutputStage;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputStageEvalBufferImpl(const OutputStage&) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputType Eval(InputType input) const {
*5f39d1b3SJooyung Han    OutputType output;
*5f39d1b3SJooyung Han    for (int i = 0; i < InputType::kRegisterCount; i++) {
*5f39d1b3SJooyung Han      output.reg[i] = input.reg[i];
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    return output;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <int Rows, int Cols, typename VectorType>
*5f39d1b3SJooyung Hanstruct OutputStageEvalImpl<OutputStageBiasAddition<VectorType>,
*5f39d1b3SJooyung Han                           RegisterBlock<std::int32_t, Rows, Cols>> {
*5f39d1b3SJooyung Han  typedef RegisterBlock<std::int32_t, Rows, Cols> InputType;
*5f39d1b3SJooyung Han  typedef RegisterBlock<std::int32_t, Rows, Cols> OutputType;
*5f39d1b3SJooyung Han  typedef OutputStageBiasAddition<VectorType> OutputStage;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputStageEvalImpl(const OutputStage& s) : output_stage(s) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputType Eval(InputType input, int row, int col) const {
*5f39d1b3SJooyung Han    const int pos = VectorType::kShape == VectorShape::Row ? col : row;
*5f39d1b3SJooyung Han    return BroadcastAdd<InputType>(
*5f39d1b3SJooyung Han        input, LoadForBroadcasting<InputType>(output_stage.bias_vector, pos));
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const OutputStage& output_stage;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <int Size>
*5f39d1b3SJooyung Hanstruct OutputStageEvalBufferImpl<OutputStageClamp,
*5f39d1b3SJooyung Han                                 RegisterBuffer<std::int32_t, Size>> {
*5f39d1b3SJooyung Han  typedef RegisterBuffer<std::int32_t, Size> InputType;
*5f39d1b3SJooyung Han  typedef RegisterBuffer<std::int32_t, Size> OutputType;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  typedef OutputStageClamp OutputStage;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputStageEvalBufferImpl(const OutputStage& s) : output_stage(s) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputType Eval(InputType input) const {
*5f39d1b3SJooyung Han    using RegisterType = typename InputType::RegisterType;
*5f39d1b3SJooyung Han    const RegisterType min = Dup<RegisterType>(output_stage.min);
*5f39d1b3SJooyung Han    const RegisterType max = Dup<RegisterType>(output_stage.max);
*5f39d1b3SJooyung Han    OutputType output;
*5f39d1b3SJooyung Han    for (int i = 0; i < InputType::kRegisterCount; i++) {
*5f39d1b3SJooyung Han      output.reg[i] = Min(Max(input.reg[i], min), max);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    return output;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const OutputStage& output_stage;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <int Size>
*5f39d1b3SJooyung Hanstruct OutputStageEvalBufferImpl<OutputStageTanh,
*5f39d1b3SJooyung Han                                 RegisterBuffer<std::int32_t, Size>> {
*5f39d1b3SJooyung Han  typedef RegisterBuffer<std::int32_t, Size> InputType;
*5f39d1b3SJooyung Han  typedef RegisterBuffer<std::int32_t, Size> OutputType;
*5f39d1b3SJooyung Han  using RegisterType = typename InputType::RegisterType;
*5f39d1b3SJooyung Han  typedef RegisterType DataType;
*5f39d1b3SJooyung Han  typedef OutputStageTanh OutputStage;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputStageEvalBufferImpl(const OutputStage& s) : output_stage(s) {
*5f39d1b3SJooyung Han    const std::int32_t real_zero_as_int32 = output_stage.real_zero_as_int32;
*5f39d1b3SJooyung Han    const std::int32_t real_amplitude_as_int32 =
*5f39d1b3SJooyung Han        output_stage.real_amplitude_as_int32;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    input_cutoff_min = real_zero_as_int32 - 8 * real_amplitude_as_int32;
*5f39d1b3SJooyung Han    input_cutoff_max = real_zero_as_int32 + 8 * real_amplitude_as_int32;
*5f39d1b3SJooyung Han    output_min = real_zero_as_int32 - real_amplitude_as_int32;
*5f39d1b3SJooyung Han    output_max = real_zero_as_int32 + real_amplitude_as_int32;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    double inverse_amplitude_normalized_double = 1.0 / real_amplitude_as_int32;
*5f39d1b3SJooyung Han    inverse_amplitude_neg_exponent = 0;
*5f39d1b3SJooyung Han    while (inverse_amplitude_normalized_double < 0.5) {
*5f39d1b3SJooyung Han      inverse_amplitude_normalized_double *= 2;
*5f39d1b3SJooyung Han      inverse_amplitude_neg_exponent++;
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    inverse_amplitude_normalized = FixedPoint<DataType, 0>::FromDouble(
*5f39d1b3SJooyung Han        inverse_amplitude_normalized_double);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    double amplitude_normalized_double = real_amplitude_as_int32;
*5f39d1b3SJooyung Han    amplitude_exponent = 0;
*5f39d1b3SJooyung Han    while (amplitude_normalized_double >= 1.0) {
*5f39d1b3SJooyung Han      amplitude_normalized_double *= 0.5;
*5f39d1b3SJooyung Han      amplitude_exponent++;
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    amplitude_normalized =
*5f39d1b3SJooyung Han        FixedPoint<DataType, 0>::FromDouble(amplitude_normalized_double);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputType Eval(InputType input) const {
*5f39d1b3SJooyung Han    const std::int32_t real_zero_as_int32 = output_stage.real_zero_as_int32;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    typedef FixedPoint<DataType, 3> F3;
*5f39d1b3SJooyung Han    typedef FixedPoint<DataType, 0> F0;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    OutputType output;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    for (int i = 0; i < OutputType::kRegisterCount; i++) {
*5f39d1b3SJooyung Han      // fixed-point affine transformation
*5f39d1b3SJooyung Han      DataType input_centered =
*5f39d1b3SJooyung Han          Sub(input.reg[i], Dup<DataType>(real_zero_as_int32));
*5f39d1b3SJooyung Han      F3 fixedpoint_input =
*5f39d1b3SJooyung Han          F3::FromRaw(input_centered) * inverse_amplitude_normalized;
*5f39d1b3SJooyung Han      // left shift
*5f39d1b3SJooyung Han      fixedpoint_input.raw() = ShiftLeft(fixedpoint_input.raw(),
*5f39d1b3SJooyung Han                                         28 - inverse_amplitude_neg_exponent);
*5f39d1b3SJooyung Han      // fixed-point tanh and multiplication
*5f39d1b3SJooyung Han      F0 fixedpoint_output = tanh(fixedpoint_input) * amplitude_normalized;
*5f39d1b3SJooyung Han      // right shift
*5f39d1b3SJooyung Han      DataType int32_output =
*5f39d1b3SJooyung Han          Add(Dup<DataType>(real_zero_as_int32),
*5f39d1b3SJooyung Han              ShiftRight(fixedpoint_output.raw(), 31 - amplitude_exponent));
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han      DataType mask_if_below_cutoff_min =
*5f39d1b3SJooyung Han          MaskIfLessThanOrEqual(input.reg[i], Dup<DataType>(input_cutoff_min));
*5f39d1b3SJooyung Han      DataType mask_if_above_cutoff_max = MaskIfGreaterThanOrEqual(
*5f39d1b3SJooyung Han          input.reg[i], Dup<DataType>(input_cutoff_max));
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han      output.reg[i] = SelectUsingMask(
*5f39d1b3SJooyung Han          mask_if_below_cutoff_min, Dup<DataType>(output_min),
*5f39d1b3SJooyung Han          SelectUsingMask(mask_if_above_cutoff_max, Dup<DataType>(output_max),
*5f39d1b3SJooyung Han                          int32_output));
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    return output;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const OutputStage& output_stage;
*5f39d1b3SJooyung Han  std::int32_t input_cutoff_min, input_cutoff_max;
*5f39d1b3SJooyung Han  std::int32_t output_min, output_max;
*5f39d1b3SJooyung Han  FixedPoint<DataType, 0> inverse_amplitude_normalized;
*5f39d1b3SJooyung Han  int inverse_amplitude_neg_exponent;
*5f39d1b3SJooyung Han  FixedPoint<DataType, 0> amplitude_normalized;
*5f39d1b3SJooyung Han  int amplitude_exponent;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// OutputPipelineOutputType is a helper to determine the output data type of a
*5f39d1b3SJooyung Han// pipeline, for a
*5f39d1b3SJooyung Han// given input data type. It is a recursive template; see the explanation on
*5f39d1b3SJooyung Han// OutputPipelineEvalImpl below.
*5f39d1b3SJooyung Hantemplate <typename OutputPipelineType, int FirstStage, typename InputType,
*5f39d1b3SJooyung Han          bool StopRecursion =
*5f39d1b3SJooyung Han              FirstStage == std::tuple_size<OutputPipelineType>::value>
*5f39d1b3SJooyung Hanstruct OutputPipelineOutputType {
*5f39d1b3SJooyung Han  typedef typename std::tuple_element<FirstStage, OutputPipelineType>::type
*5f39d1b3SJooyung Han      FirstStageType;
*5f39d1b3SJooyung Han  typedef typename OutputStageEvalImpl<FirstStageType, InputType>::OutputType
*5f39d1b3SJooyung Han      FirstStageOutputType;
*5f39d1b3SJooyung Han  typedef typename OutputPipelineOutputType<OutputPipelineType, FirstStage + 1,
*5f39d1b3SJooyung Han                                            FirstStageOutputType>::Type Type;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename OutputPipelineType, int FirstStage, typename InputType>
*5f39d1b3SJooyung Hanstruct OutputPipelineOutputType<OutputPipelineType, FirstStage, InputType,
*5f39d1b3SJooyung Han                                true> {
*5f39d1b3SJooyung Han  typedef InputType Type;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// OutputPipelineEvalImpl is a helper to implement the evaluation of
*5f39d1b3SJooyung Han// the whole pipeline. It is a recursive template to implement compile-time
*5f39d1b3SJooyung Han// unrolling of the loop over all pipeline stages. The 'FirstStage' parameter
*5f39d1b3SJooyung Han// is how we implement recursion: each specialization implements only
*5f39d1b3SJooyung Han// evaluation starting at 'FirstStage'. The StopRecursion parameter is just a
*5f39d1b3SJooyung Han// helper to implement the termination of the recursion as a partial
*5f39d1b3SJooyung Han// specialization below.
*5f39d1b3SJooyung Hantemplate <typename OutputPipelineType, int FirstStage, typename InputType,
*5f39d1b3SJooyung Han          bool StopRecursion =
*5f39d1b3SJooyung Han              FirstStage == std::tuple_size<OutputPipelineType>::value>
*5f39d1b3SJooyung Hanstruct OutputPipelineEvalImpl {
*5f39d1b3SJooyung Han  typedef typename std::tuple_element<FirstStage, OutputPipelineType>::type
*5f39d1b3SJooyung Han      FirstStageType;
*5f39d1b3SJooyung Han  typedef typename OutputStageEvalImpl<FirstStageType, InputType>::OutputType
*5f39d1b3SJooyung Han      FirstStageOutputType;
*5f39d1b3SJooyung Han  typedef typename OutputPipelineOutputType<OutputPipelineType, FirstStage,
*5f39d1b3SJooyung Han                                            InputType>::Type OutputType;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputPipelineEvalImpl(const OutputPipelineType& output_pipeline)
*5f39d1b3SJooyung Han      : head_impl(std::get<FirstStage>(output_pipeline)),
*5f39d1b3SJooyung Han        tail_impl(output_pipeline) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  OutputType Eval(InputType input, int row, int col) const {
*5f39d1b3SJooyung Han    // Evaluate the first stage.
*5f39d1b3SJooyung Han    FirstStageOutputType first_stage_output = head_impl.Eval(input, row, col);
*5f39d1b3SJooyung Han    // Recurse into the remaining stages.
*5f39d1b3SJooyung Han    return tail_impl.Eval(first_stage_output, row, col);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const OutputStageEvalImpl<FirstStageType, InputType> head_impl;
*5f39d1b3SJooyung Han  const OutputPipelineEvalImpl<OutputPipelineType, FirstStage + 1,
*5f39d1b3SJooyung Han                               FirstStageOutputType>
*5f39d1b3SJooyung Han      tail_impl;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Specialization on 'StopRecursion' for terminating the recursion.
*5f39d1b3SJooyung Hantemplate <typename OutputPipelineType, int FirstStage, typename InputType>
*5f39d1b3SJooyung Hanstruct OutputPipelineEvalImpl<OutputPipelineType, FirstStage, InputType, true> {
*5f39d1b3SJooyung Han  OutputPipelineEvalImpl(const OutputPipelineType&) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  InputType Eval(InputType input, int, int) const {
*5f39d1b3SJooyung Han    // Terminating the recursion.
*5f39d1b3SJooyung Han    return input;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename RegisterBlockType, typename DstType>
*5f39d1b3SJooyung Hanstruct StoreFinalOutputImpl {
*5f39d1b3SJooyung Han  static_assert(std::is_same<RegisterBlockType, void>::value,
*5f39d1b3SJooyung Han                "This generic impl should never be hit");
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename ScalarType, int Rows, int Cols, typename DstType>
*5f39d1b3SJooyung Hanstruct StoreFinalOutputImpl<RegisterBlock<ScalarType, Rows, Cols>, DstType> {
*5f39d1b3SJooyung Han  using RegisterBlockType = RegisterBlock<ScalarType, Rows, Cols>;
*5f39d1b3SJooyung Han  static void Run(const RegisterBlockType& src, DstType* dst, int row,
*5f39d1b3SJooyung Han                  int col) {
*5f39d1b3SJooyung Han    for (int r = 0; r < Rows; r++) {
*5f39d1b3SJooyung Han      for (int c = 0; c < Cols; c++) {
*5f39d1b3SJooyung Han        *dst->data(row + r, col + c) = src.buf.reg[r + c * Rows];
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// StoreFinalOutput takes the final value at the end of the output pipeline and
*5f39d1b3SJooyung Han// stores it into the destination matrix. It can be specialized for different
*5f39d1b3SJooyung Han// data types; the generic implementation here is typically used only for plain
*5f39d1b3SJooyung Han// old scalar (not SIMD) types.
*5f39d1b3SJooyung Hantemplate <typename RegisterBlockType, typename DstType>
*5f39d1b3SJooyung Hanvoid StoreFinalOutput(RegisterBlockType src, DstType* dst, int row, int col) {
*5f39d1b3SJooyung Han  StoreFinalOutputImpl<RegisterBlockType, DstType>::Run(src, dst, row, col);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename OutputPipelineType, typename InputType>
*5f39d1b3SJooyung Hanstruct OutputPipelineExecutor {
*5f39d1b3SJooyung Han  OutputPipelineExecutor(const OutputPipelineType& output_pipeline)
*5f39d1b3SJooyung Han      : output_pipeline_eval_impl_(output_pipeline) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Execute is the entry point into the output pipeline evaluation
*5f39d1b3SJooyung Han  // code. It should be the only thing that unpack code calls. It takes the
*5f39d1b3SJooyung Han  // result
*5f39d1b3SJooyung Han  // of the unpack stage and stores it into the destination matrix.
*5f39d1b3SJooyung Han  template <typename DstType>
*5f39d1b3SJooyung Han  void Execute(InputType input, DstType* dst, int src_global_row,
*5f39d1b3SJooyung Han               int src_global_col, int dst_row, int dst_col) const {
*5f39d1b3SJooyung Han    // Statically assert that the output pipeline matches the given destination
*5f39d1b3SJooyung Han    // matrix's scalar type.
*5f39d1b3SJooyung Han    typedef typename OutputPipelineOutputType<
*5f39d1b3SJooyung Han        OutputPipelineType, 0, InputType>::Type::BufferType::ScalarType
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        ScalarOutputType;
*5f39d1b3SJooyung Han    typedef typename DstType::Scalar ScalarDstType;
*5f39d1b3SJooyung Han    static_assert(std::is_same<ScalarOutputType, ScalarDstType>::value,
*5f39d1b3SJooyung Han                  "mismatched destination scalar type and output pipeline");
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    // Evaluate the output pipeline.
*5f39d1b3SJooyung Han    auto output =
*5f39d1b3SJooyung Han        output_pipeline_eval_impl_.Eval(input, src_global_row, src_global_col);
*5f39d1b3SJooyung Han    // Store the result into the destination matrix.
*5f39d1b3SJooyung Han    StoreFinalOutput(output, dst, dst_row, dst_col);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const OutputPipelineEvalImpl<OutputPipelineType, 0, InputType>
*5f39d1b3SJooyung Han      output_pipeline_eval_impl_;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han}  // namespace gemmlowp
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_NEON
*5f39d1b3SJooyung Han#include "output_neon.h"
*5f39d1b3SJooyung Han#elif defined(GEMMLOWP_SSE4)
*5f39d1b3SJooyung Han#include "output_sse.h"
*5f39d1b3SJooyung Han#elif defined(GEMMLOWP_MSA)
*5f39d1b3SJooyung Han#include "output_msa.h"
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#endif  // GEMMLOWP_INTERNAL_OUTPUT_H_