gemmlowp/meta/legacy_multi_thread_gemm.h

*5f39d1b3SJooyung Han// Copyright 2015 The Gemmlowp Authors. All Rights Reserved.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Licensed under the Apache License, Version 2.0 (the "License");
*5f39d1b3SJooyung Han// you may not use this file except in compliance with the License.
*5f39d1b3SJooyung Han// You may obtain a copy of the License at
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han//     http://www.apache.org/licenses/LICENSE-2.0
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Unless required by applicable law or agreed to in writing, software
*5f39d1b3SJooyung Han// distributed under the License is distributed on an "AS IS" BASIS,
*5f39d1b3SJooyung Han// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*5f39d1b3SJooyung Han// See the License for the specific language governing permissions and
*5f39d1b3SJooyung Han// limitations under the License.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifndef GEMMLOWP_META_MULTI_THREAD_GEMM_H_
*5f39d1b3SJooyung Han#define GEMMLOWP_META_MULTI_THREAD_GEMM_H_
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#include "../internal/common.h"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_NEON
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#include "legacy_multi_thread_common.h"
*5f39d1b3SJooyung Han#include "legacy_multi_thread_gemv.h"
*5f39d1b3SJooyung Han#include "legacy_operations_common.h"
*5f39d1b3SJooyung Han#include "legacy_single_thread_gemm.h"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hannamespace gemmlowp {
*5f39d1b3SJooyung Hannamespace meta {
*5f39d1b3SJooyung Hannamespace internal {
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanconst std::int32_t kMaxCacheFriendlySize = 256 * 1024;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename IN_TYPE, typename OUT_TYPE, typename F>
*5f39d1b3SJooyung Hanvoid CacheFriendlyMatrixMatrix(std::uint8_t* scratch, const IN_TYPE* lhs,
*5f39d1b3SJooyung Han                               const IN_TYPE* rhs, std::int32_t m,
*5f39d1b3SJooyung Han                               std::int32_t n, std::int32_t k, OUT_TYPE* result,
*5f39d1b3SJooyung Han                               std::int32_t result_stride, const F& operation) {
*5f39d1b3SJooyung Han  const std::int32_t rhs_size = n * k * sizeof(IN_TYPE);
*5f39d1b3SJooyung Han  if (rhs_size > kMaxCacheFriendlySize) {
*5f39d1b3SJooyung Han    const std::int32_t optimal_n =
*5f39d1b3SJooyung Han        std::max(1, 4 * (kMaxCacheFriendlySize / (k * 4)));
*5f39d1b3SJooyung Han    const std::int32_t chunks_count_less_one = n / optimal_n - 1;
*5f39d1b3SJooyung Han    const std::int32_t chunk_size = optimal_n * k;
*5f39d1b3SJooyung Han    for (int i = 0; i < chunks_count_less_one; ++i) {
*5f39d1b3SJooyung Han      operation.ExecuteCacheFriendlyMatrixMatrix(
*5f39d1b3SJooyung Han          scratch, lhs, rhs + i * chunk_size, m, optimal_n, k,
*5f39d1b3SJooyung Han          result + i * optimal_n, result_stride);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    const std::int32_t n_left = n - chunks_count_less_one * optimal_n;
*5f39d1b3SJooyung Han    operation.ExecuteCacheFriendlyMatrixMatrix(
*5f39d1b3SJooyung Han        scratch, lhs, rhs + chunks_count_less_one * chunk_size, m, n_left, k,
*5f39d1b3SJooyung Han        result + chunks_count_less_one * optimal_n, result_stride);
*5f39d1b3SJooyung Han  } else {
*5f39d1b3SJooyung Han    operation.ExecuteCacheFriendlyMatrixMatrix(scratch, lhs, rhs, m, n, k,
*5f39d1b3SJooyung Han                                               result, result_stride);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanclass GemmQuantized8BitOperation : public Quantized8BitOperation {
*5f39d1b3SJooyung Han public:
*5f39d1b3SJooyung Han  GemmQuantized8BitOperation(std::int32_t lhs_offset, std::int32_t rhs_offset,
*5f39d1b3SJooyung Han                             std::int32_t sum_offset, std::int32_t multiplier,
*5f39d1b3SJooyung Han                             std::int32_t shift)
*5f39d1b3SJooyung Han      : Quantized8BitOperation(lhs_offset, rhs_offset, sum_offset, multiplier,
*5f39d1b3SJooyung Han                               shift) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  void ExecuteMatrixMatrix(std::uint8_t* scratch, const std::uint8_t* lhs,
*5f39d1b3SJooyung Han                           const std::uint8_t* rhs, std::int32_t m,
*5f39d1b3SJooyung Han                           std::int32_t n, std::int32_t k, std::uint8_t* result,
*5f39d1b3SJooyung Han                           std::int32_t result_stride) const {
*5f39d1b3SJooyung Han    CacheFriendlyMatrixMatrix(scratch, lhs, rhs, m, n, k, result, result_stride,
*5f39d1b3SJooyung Han                              *this);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  void ExecuteCacheFriendlyMatrixMatrix(std::uint8_t* scratch,
*5f39d1b3SJooyung Han                                        const std::uint8_t* lhs,
*5f39d1b3SJooyung Han                                        const std::uint8_t* rhs, std::int32_t m,
*5f39d1b3SJooyung Han                                        std::int32_t n, std::int32_t k,
*5f39d1b3SJooyung Han                                        std::uint8_t* result,
*5f39d1b3SJooyung Han                                        std::int32_t result_stride) const {
*5f39d1b3SJooyung Han    gemm_q8_strided(scratch, lhs, rhs, m, n, k, lhs_offset, rhs_offset,
*5f39d1b3SJooyung Han                    sum_offset, multiplier, shift, result, result_stride);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static std::int32_t ScratchPerThread(std::int32_t m, std::int32_t n,
*5f39d1b3SJooyung Han                                       std::int32_t k) {
*5f39d1b3SJooyung Han    return 4 * kMaxCacheFriendlySize;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanclass GemmFloatOperation : public FloatOperation {
*5f39d1b3SJooyung Han public:
*5f39d1b3SJooyung Han  GemmFloatOperation(std::int32_t lhs_offset, std::int32_t rhs_offset,
*5f39d1b3SJooyung Han                     float result_offset)
*5f39d1b3SJooyung Han      : FloatOperation(lhs_offset, rhs_offset, result_offset) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  void ExecuteMatrixMatrix(std::uint8_t* scratch, const std::uint8_t* lhs,
*5f39d1b3SJooyung Han                           const std::uint8_t* rhs, std::int32_t m,
*5f39d1b3SJooyung Han                           std::int32_t n, std::int32_t k, float* result,
*5f39d1b3SJooyung Han                           std::int32_t result_stride) const {
*5f39d1b3SJooyung Han    CacheFriendlyMatrixMatrix(scratch, lhs, rhs, m, n, k, result, result_stride,
*5f39d1b3SJooyung Han                              *this);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  void ExecuteCacheFriendlyMatrixMatrix(std::uint8_t* scratch,
*5f39d1b3SJooyung Han                                        const std::uint8_t* lhs,
*5f39d1b3SJooyung Han                                        const std::uint8_t* rhs, std::int32_t m,
*5f39d1b3SJooyung Han                                        std::int32_t n, std::int32_t k,
*5f39d1b3SJooyung Han                                        float* result,
*5f39d1b3SJooyung Han                                        std::int32_t result_stride) const {
*5f39d1b3SJooyung Han    gemm_f_strided(scratch, lhs, rhs, m, n, k, lhs_offset, rhs_offset,
*5f39d1b3SJooyung Han                   result_offset, result, result_stride);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static std::int32_t ScratchPerThread(std::int32_t m, std::int32_t n,
*5f39d1b3SJooyung Han                                       std::int32_t k) {
*5f39d1b3SJooyung Han    return 4 * kMaxCacheFriendlySize;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanclass GemmInt32Operation : public Int32Operation {
*5f39d1b3SJooyung Han public:
*5f39d1b3SJooyung Han  GemmInt32Operation(std::int32_t lhs_offset, std::int32_t rhs_offset)
*5f39d1b3SJooyung Han      : Int32Operation(lhs_offset, rhs_offset) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  void ExecuteMatrixMatrix(std::uint8_t* scratch, const std::uint8_t* lhs,
*5f39d1b3SJooyung Han                           const std::uint8_t* rhs, std::int32_t m,
*5f39d1b3SJooyung Han                           std::int32_t n, std::int32_t k, std::int32_t* result,
*5f39d1b3SJooyung Han                           std::int32_t result_stride) const {
*5f39d1b3SJooyung Han    CacheFriendlyMatrixMatrix(scratch, lhs, rhs, m, n, k, result, result_stride,
*5f39d1b3SJooyung Han                              *this);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  void ExecuteCacheFriendlyMatrixMatrix(std::uint8_t* scratch,
*5f39d1b3SJooyung Han                                        const std::uint8_t* lhs,
*5f39d1b3SJooyung Han                                        const std::uint8_t* rhs, std::int32_t m,
*5f39d1b3SJooyung Han                                        std::int32_t n, std::int32_t k,
*5f39d1b3SJooyung Han                                        std::int32_t* result,
*5f39d1b3SJooyung Han                                        std::int32_t result_stride) const {
*5f39d1b3SJooyung Han    gemm_i32_strided(scratch, lhs, rhs, m, n, k, lhs_offset, rhs_offset, result,
*5f39d1b3SJooyung Han                     result_stride);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static std::int32_t ScratchPerThread(std::int32_t m, std::int32_t n,
*5f39d1b3SJooyung Han                                       std::int32_t k) {
*5f39d1b3SJooyung Han    return 4 * kMaxCacheFriendlySize;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han}  // namespace internal
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanstd::int32_t gemm_q8_scratch(std::int32_t m, std::int32_t n, std::int32_t k,
*5f39d1b3SJooyung Han                             std::int32_t max_threads) {
*5f39d1b3SJooyung Han  return internal::ResolveMaxThreads(max_threads) *
*5f39d1b3SJooyung Han         internal::GemmQuantized8BitOperation::ScratchPerThread(m, n, k);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanvoid multi_thread_gemm_q8(gemmlowp::WorkersPool* pool, std::int32_t max_threads,
*5f39d1b3SJooyung Han                          std::uint8_t* scratch, const std::uint8_t* lhs,
*5f39d1b3SJooyung Han                          const std::uint8_t* rhs, std::int32_t m,
*5f39d1b3SJooyung Han                          std::int32_t n, std::int32_t k,
*5f39d1b3SJooyung Han                          std::int32_t lhs_offset, std::int32_t rhs_offset,
*5f39d1b3SJooyung Han                          std::int32_t sum_offset, std::int32_t multiplier,
*5f39d1b3SJooyung Han                          std::int32_t shift, std::uint8_t* result) {
*5f39d1b3SJooyung Han  if (m == 1) {
*5f39d1b3SJooyung Han    multi_thread_gemv_q8(pool, max_threads, scratch, lhs, rhs, n, k, lhs_offset,
*5f39d1b3SJooyung Han                         rhs_offset, sum_offset, multiplier, shift, result);
*5f39d1b3SJooyung Han    return;
*5f39d1b3SJooyung Han  } else if (n == 1) {
*5f39d1b3SJooyung Han    multi_thread_gemv_q8(pool, max_threads, scratch, rhs, lhs, m, k, rhs_offset,
*5f39d1b3SJooyung Han                         lhs_offset, sum_offset, multiplier, shift, result);
*5f39d1b3SJooyung Han    return;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  max_threads = internal::ResolveMaxThreads(max_threads);
*5f39d1b3SJooyung Han  internal::GemmQuantized8BitOperation operation(lhs_offset, rhs_offset,
*5f39d1b3SJooyung Han                                                 sum_offset, multiplier, shift);
*5f39d1b3SJooyung Han  if (max_threads == 1) {
*5f39d1b3SJooyung Han    internal::CacheFriendlyMatrixMatrix(scratch, lhs, rhs, m, n, k, result, n,
*5f39d1b3SJooyung Han                                        operation);
*5f39d1b3SJooyung Han  } else {
*5f39d1b3SJooyung Han    internal::MultiThreadedMatrixMatrix(pool, max_threads, scratch, lhs, rhs, m,
*5f39d1b3SJooyung Han                                        n, k, result, n, operation);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanstd::int32_t gemm_f_scratch(std::int32_t m, std::int32_t n, std::int32_t k,
*5f39d1b3SJooyung Han                            std::int32_t max_threads) {
*5f39d1b3SJooyung Han  return internal::ResolveMaxThreads(max_threads) *
*5f39d1b3SJooyung Han         internal::GemmFloatOperation::ScratchPerThread(m, n, k);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanvoid multi_thread_gemm_f(gemmlowp::WorkersPool* pool, std::int32_t max_threads,
*5f39d1b3SJooyung Han                         std::uint8_t* scratch, const std::uint8_t* lhs,
*5f39d1b3SJooyung Han                         const std::uint8_t* rhs, std::int32_t m,
*5f39d1b3SJooyung Han                         std::int32_t n, std::int32_t k,
*5f39d1b3SJooyung Han                         std::int32_t lhs_offset, std::int32_t rhs_offset,
*5f39d1b3SJooyung Han                         float result_offset, float* result) {
*5f39d1b3SJooyung Han  if (m == 1) {
*5f39d1b3SJooyung Han    multi_thread_gemv_f(pool, max_threads, scratch, lhs, rhs, n, k, lhs_offset,
*5f39d1b3SJooyung Han                        rhs_offset, result_offset, result);
*5f39d1b3SJooyung Han    return;
*5f39d1b3SJooyung Han  } else if (n == 1) {
*5f39d1b3SJooyung Han    multi_thread_gemv_f(pool, max_threads, scratch, rhs, lhs, m, k, rhs_offset,
*5f39d1b3SJooyung Han                        lhs_offset, result_offset, result);
*5f39d1b3SJooyung Han    return;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  max_threads = internal::ResolveMaxThreads(max_threads);
*5f39d1b3SJooyung Han  internal::GemmFloatOperation operation(lhs_offset, rhs_offset, result_offset);
*5f39d1b3SJooyung Han  if (max_threads == 1) {
*5f39d1b3SJooyung Han    internal::CacheFriendlyMatrixMatrix(scratch, lhs, rhs, m, n, k, result, n,
*5f39d1b3SJooyung Han                                        operation);
*5f39d1b3SJooyung Han  } else {
*5f39d1b3SJooyung Han    internal::MultiThreadedMatrixMatrix(pool, max_threads, scratch, lhs, rhs, m,
*5f39d1b3SJooyung Han                                        n, k, result, n, operation);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanstd::int32_t gemm_i32_scratch(std::int32_t m, std::int32_t n, std::int32_t k,
*5f39d1b3SJooyung Han                              std::int32_t max_threads) {
*5f39d1b3SJooyung Han  return internal::ResolveMaxThreads(max_threads) *
*5f39d1b3SJooyung Han         internal::GemmInt32Operation::ScratchPerThread(m, n, k);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanvoid multi_thread_gemm_i32(gemmlowp::WorkersPool* pool,
*5f39d1b3SJooyung Han                           std::int32_t max_threads, std::uint8_t* scratch,
*5f39d1b3SJooyung Han                           const std::uint8_t* lhs, const std::uint8_t* rhs,
*5f39d1b3SJooyung Han                           std::int32_t m, std::int32_t n, std::int32_t k,
*5f39d1b3SJooyung Han                           std::int32_t lhs_offset, std::int32_t rhs_offset,
*5f39d1b3SJooyung Han                           std::int32_t* result) {
*5f39d1b3SJooyung Han  if (m == 1) {
*5f39d1b3SJooyung Han    multi_thread_gemv_i32(pool, max_threads, scratch, lhs, rhs, n, k,
*5f39d1b3SJooyung Han                          lhs_offset, rhs_offset, result);
*5f39d1b3SJooyung Han    return;
*5f39d1b3SJooyung Han  } else if (n == 1) {
*5f39d1b3SJooyung Han    multi_thread_gemv_i32(pool, max_threads, scratch, rhs, lhs, m, k,
*5f39d1b3SJooyung Han                          rhs_offset, lhs_offset, result);
*5f39d1b3SJooyung Han    return;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  max_threads = internal::ResolveMaxThreads(max_threads);
*5f39d1b3SJooyung Han  internal::GemmInt32Operation operation(lhs_offset, rhs_offset);
*5f39d1b3SJooyung Han  if (max_threads == 1) {
*5f39d1b3SJooyung Han    internal::CacheFriendlyMatrixMatrix(scratch, lhs, rhs, m, n, k, result, n,
*5f39d1b3SJooyung Han                                        operation);
*5f39d1b3SJooyung Han  } else {
*5f39d1b3SJooyung Han    internal::MultiThreadedMatrixMatrix(pool, max_threads, scratch, lhs, rhs, m,
*5f39d1b3SJooyung Han                                        n, k, result, n, operation);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han}  // namespace meta
*5f39d1b3SJooyung Han}  // namespace gemmlowp
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#else
*5f39d1b3SJooyung Han#warning "Meta gemm fast-path requires GEMMLOWP_NEON_(32|64)!"
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#endif  // GEMMLOWP_META_MULTI_THREAD_GEMM_H_