gemmlowp/meta/legacy_multi_thread_gemv.h

*5f39d1b3SJooyung Han// Copyright 2015 The Gemmlowp Authors. All Rights Reserved.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Licensed under the Apache License, Version 2.0 (the "License");
*5f39d1b3SJooyung Han// you may not use this file except in compliance with the License.
*5f39d1b3SJooyung Han// You may obtain a copy of the License at
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han//     http://www.apache.org/licenses/LICENSE-2.0
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Unless required by applicable law or agreed to in writing, software
*5f39d1b3SJooyung Han// distributed under the License is distributed on an "AS IS" BASIS,
*5f39d1b3SJooyung Han// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*5f39d1b3SJooyung Han// See the License for the specific language governing permissions and
*5f39d1b3SJooyung Han// limitations under the License.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// multi_thread_gemv.h: Entry point to the multithreaded version of the
*5f39d1b3SJooyung Han// generated (meta) gemv library.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifndef GEMMLOWP_META_MULTI_THREAD_GEMV_H_
*5f39d1b3SJooyung Han#define GEMMLOWP_META_MULTI_THREAD_GEMV_H_
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_NEON
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#include "legacy_multi_thread_common.h"
*5f39d1b3SJooyung Han#include "legacy_operations_common.h"
*5f39d1b3SJooyung Han#include "legacy_single_thread_gemm.h"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hannamespace gemmlowp {
*5f39d1b3SJooyung Hannamespace meta {
*5f39d1b3SJooyung Hannamespace internal {
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanclass GemvQuantized8BitOperation : public Quantized8BitOperation {
*5f39d1b3SJooyung Han public:
*5f39d1b3SJooyung Han  GemvQuantized8BitOperation(std::int32_t lhs_offset, std::int32_t rhs_offset,
*5f39d1b3SJooyung Han                             std::int32_t sum_offset, std::int32_t multiplier,
*5f39d1b3SJooyung Han                             std::int32_t shift)
*5f39d1b3SJooyung Han      : Quantized8BitOperation(lhs_offset, rhs_offset, sum_offset, multiplier,
*5f39d1b3SJooyung Han                               shift) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  void ExecuteMatrixMatrix(std::uint8_t* scratch, const std::uint8_t* lhs,
*5f39d1b3SJooyung Han                           const std::uint8_t* rhs, std::int32_t m,
*5f39d1b3SJooyung Han                           std::int32_t n, std::int32_t k, std::uint8_t* result,
*5f39d1b3SJooyung Han                           std::int32_t result_stride) const {
*5f39d1b3SJooyung Han    gemv_q8(scratch, lhs, rhs, n, k, lhs_offset, rhs_offset, sum_offset,
*5f39d1b3SJooyung Han            multiplier, shift, result);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static std::int32_t ScratchPerThread(std::int32_t m, std::int32_t n,
*5f39d1b3SJooyung Han                                       std::int32_t k) {
*5f39d1b3SJooyung Han    return 128 * 1024;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanclass GemvFloatOperation : public FloatOperation {
*5f39d1b3SJooyung Han public:
*5f39d1b3SJooyung Han  GemvFloatOperation(std::int32_t lhs_offset, std::int32_t rhs_offset,
*5f39d1b3SJooyung Han                     float result_offset)
*5f39d1b3SJooyung Han      : FloatOperation(lhs_offset, rhs_offset, result_offset) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  void ExecuteMatrixMatrix(std::uint8_t* scratch, const std::uint8_t* lhs,
*5f39d1b3SJooyung Han                           const std::uint8_t* rhs, std::int32_t m,
*5f39d1b3SJooyung Han                           std::int32_t n, std::int32_t k, float* result,
*5f39d1b3SJooyung Han                           std::int32_t result_stride) const {
*5f39d1b3SJooyung Han    gemv_f(scratch, lhs, rhs, n, k, lhs_offset, rhs_offset, result_offset,
*5f39d1b3SJooyung Han           result);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static std::int32_t ScratchPerThread(std::int32_t m, std::int32_t n,
*5f39d1b3SJooyung Han                                       std::int32_t k) {
*5f39d1b3SJooyung Han    return 128 * 1024;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanclass GemvInt32Operation : public Int32Operation {
*5f39d1b3SJooyung Han public:
*5f39d1b3SJooyung Han  GemvInt32Operation(std::int32_t lhs_offset, std::int32_t rhs_offset)
*5f39d1b3SJooyung Han      : Int32Operation(lhs_offset, rhs_offset) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  void ExecuteMatrixMatrix(std::uint8_t* scratch, const std::uint8_t* lhs,
*5f39d1b3SJooyung Han                           const std::uint8_t* rhs, std::int32_t m,
*5f39d1b3SJooyung Han                           std::int32_t n, std::int32_t k, std::int32_t* result,
*5f39d1b3SJooyung Han                           std::int32_t result_stride) const {
*5f39d1b3SJooyung Han    gemv_i32(scratch, lhs, rhs, n, k, lhs_offset, rhs_offset, result);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static std::int32_t ScratchPerThread(std::int32_t m, std::int32_t n,
*5f39d1b3SJooyung Han                                       std::int32_t k) {
*5f39d1b3SJooyung Han    return 128 * 1024;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han}  // namespace internal
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanstd::int32_t gemv_q8_scratch(std::int32_t m, std::int32_t n, std::int32_t k,
*5f39d1b3SJooyung Han                             std::int32_t max_threads) {
*5f39d1b3SJooyung Han  return internal::ResolveMaxThreads(max_threads) *
*5f39d1b3SJooyung Han         internal::GemvQuantized8BitOperation::ScratchPerThread(m, n, k);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanvoid multi_thread_gemv_q8(gemmlowp::WorkersPool* pool, std::int32_t max_threads,
*5f39d1b3SJooyung Han                          std::uint8_t* scratch, const std::uint8_t* lhs,
*5f39d1b3SJooyung Han                          const std::uint8_t* rhs, std::int32_t n,
*5f39d1b3SJooyung Han                          std::int32_t k, std::int32_t lhs_offset,
*5f39d1b3SJooyung Han                          std::int32_t rhs_offset, std::int32_t sum_offset,
*5f39d1b3SJooyung Han                          std::int32_t multiplier, std::int32_t shift,
*5f39d1b3SJooyung Han                          std::uint8_t* result) {
*5f39d1b3SJooyung Han  max_threads = internal::ResolveMaxThreads(max_threads);
*5f39d1b3SJooyung Han  internal::GemvQuantized8BitOperation operation(lhs_offset, rhs_offset,
*5f39d1b3SJooyung Han                                                 sum_offset, multiplier, shift);
*5f39d1b3SJooyung Han  if (max_threads == 1) {
*5f39d1b3SJooyung Han    operation.ExecuteMatrixMatrix(scratch, lhs, rhs, 1, n, k, result, n);
*5f39d1b3SJooyung Han  } else {
*5f39d1b3SJooyung Han    internal::MultiThreadedMatrixMatrix(pool, max_threads, scratch, lhs, rhs, 1,
*5f39d1b3SJooyung Han                                        n, k, result, n, operation);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanstd::int32_t gemv_f_scratch(std::int32_t m, std::int32_t n, std::int32_t k,
*5f39d1b3SJooyung Han                            std::int32_t max_threads) {
*5f39d1b3SJooyung Han  return internal::ResolveMaxThreads(max_threads) *
*5f39d1b3SJooyung Han         internal::GemvFloatOperation::ScratchPerThread(m, n, k);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanvoid multi_thread_gemv_f(gemmlowp::WorkersPool* pool, std::int32_t max_threads,
*5f39d1b3SJooyung Han                         std::uint8_t* scratch, const std::uint8_t* lhs,
*5f39d1b3SJooyung Han                         const std::uint8_t* rhs, std::int32_t n,
*5f39d1b3SJooyung Han                         std::int32_t k, std::int32_t lhs_offset,
*5f39d1b3SJooyung Han                         std::int32_t rhs_offset, float result_offset,
*5f39d1b3SJooyung Han                         float* result) {
*5f39d1b3SJooyung Han  max_threads = internal::ResolveMaxThreads(max_threads);
*5f39d1b3SJooyung Han  internal::GemvFloatOperation operation(lhs_offset, rhs_offset, result_offset);
*5f39d1b3SJooyung Han  if (max_threads == 1) {
*5f39d1b3SJooyung Han    operation.ExecuteMatrixMatrix(scratch, lhs, rhs, 1, n, k, result, n);
*5f39d1b3SJooyung Han  } else {
*5f39d1b3SJooyung Han    internal::MultiThreadedMatrixMatrix(pool, max_threads, scratch, lhs, rhs, 1,
*5f39d1b3SJooyung Han                                        n, k, result, n, operation);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanstd::int32_t gemv_i32_scratch(std::int32_t m, std::int32_t n, std::int32_t k,
*5f39d1b3SJooyung Han                              std::int32_t max_threads) {
*5f39d1b3SJooyung Han  return internal::ResolveMaxThreads(max_threads) *
*5f39d1b3SJooyung Han         internal::GemvInt32Operation::ScratchPerThread(m, n, k);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanvoid multi_thread_gemv_i32(gemmlowp::WorkersPool* pool,
*5f39d1b3SJooyung Han                           std::int32_t max_threads, std::uint8_t* scratch,
*5f39d1b3SJooyung Han                           const std::uint8_t* lhs, const std::uint8_t* rhs,
*5f39d1b3SJooyung Han                           std::int32_t n, std::int32_t k,
*5f39d1b3SJooyung Han                           std::int32_t lhs_offset, std::int32_t rhs_offset,
*5f39d1b3SJooyung Han                           std::int32_t* result) {
*5f39d1b3SJooyung Han  max_threads = internal::ResolveMaxThreads(max_threads);
*5f39d1b3SJooyung Han  internal::GemvInt32Operation operation(lhs_offset, rhs_offset);
*5f39d1b3SJooyung Han  if (max_threads == 1) {
*5f39d1b3SJooyung Han    operation.ExecuteMatrixMatrix(scratch, lhs, rhs, 1, n, k, result, n);
*5f39d1b3SJooyung Han  } else {
*5f39d1b3SJooyung Han    internal::MultiThreadedMatrixMatrix(pool, max_threads, scratch, lhs, rhs, 1,
*5f39d1b3SJooyung Han                                        n, k, result, n, operation);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han}  // namespace meta
*5f39d1b3SJooyung Han}  // namespace gemmlowp
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#else
*5f39d1b3SJooyung Han#warning "Meta gemm fast-path requires GEMMLOWP_NEON_(32|64)!"
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#endif  // GEMMLOWP_META_MULTI_THREAD_GEMV_H_