gemmlowp/meta/multi_thread_gemm.h

*5f39d1b3SJooyung Han// Copyright 2016 The Gemmlowp Authors. All Rights Reserved.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Licensed under the Apache License, Version 2.0 (the "License");
*5f39d1b3SJooyung Han// you may not use this file except in compliance with the License.
*5f39d1b3SJooyung Han// You may obtain a copy of the License at
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han//     http://www.apache.org/licenses/LICENSE-2.0
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Unless required by applicable law or agreed to in writing, software
*5f39d1b3SJooyung Han// distributed under the License is distributed on an "AS IS" BASIS,
*5f39d1b3SJooyung Han// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*5f39d1b3SJooyung Han// See the License for the specific language governing permissions and
*5f39d1b3SJooyung Han// limitations under the License.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifndef GEMMLOWP_META_MULTI_THREAD_GEMM_H_
*5f39d1b3SJooyung Han#define GEMMLOWP_META_MULTI_THREAD_GEMM_H_
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#include "multi_thread_common.h"
*5f39d1b3SJooyung Han#include "single_thread_gemm.h"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hannamespace gemmlowp {
*5f39d1b3SJooyung Hannamespace meta {
*5f39d1b3SJooyung Hannamespace internal {
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanconst std::int32_t kMinGemmTaskSize = 16000;
*5f39d1b3SJooyung Hanconst std::int32_t kMinGemmTaskDimension = 4;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename Executor, typename Params>
*5f39d1b3SJooyung Hanstd::uint8_t* PrepareGemmTask(const Params& params, int kernel_m, int kernel_n,
*5f39d1b3SJooyung Han                              int kernel_k, std::uint8_t* scratch, int m_start,
*5f39d1b3SJooyung Han                              int m, int n_start, int n,
*5f39d1b3SJooyung Han                              std::vector<Params>* tasks) {
*5f39d1b3SJooyung Han  tasks->push_back(params);
*5f39d1b3SJooyung Han  Params& task = tasks->back();
*5f39d1b3SJooyung Han  task.scratch = scratch;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  task.m = m;
*5f39d1b3SJooyung Han  task.lhs =
*5f39d1b3SJooyung Han      StreamUtil<typename Params::InType, typename Params::LeftStream>::Offset(
*5f39d1b3SJooyung Han          params.left_stream, params.lhs, m_start, 0);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  task.n = n;
*5f39d1b3SJooyung Han  task.rhs =
*5f39d1b3SJooyung Han      StreamUtil<typename Params::InType, typename Params::RightStream>::Offset(
*5f39d1b3SJooyung Han          params.right_stream, params.rhs, n_start, 0);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  task.result =
*5f39d1b3SJooyung Han      StreamUtil<typename Params::OutType, typename Params::OutputStream>::
*5f39d1b3SJooyung Han          Offset(params.fused_kernel.output_stream, params.result, m_start,
*5f39d1b3SJooyung Han                 n_start);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  return scratch + Executor::template EstimateScratchSize<Params>(
*5f39d1b3SJooyung Han                       task, kernel_m, kernel_n, kernel_k);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename MultiThreadingContext, typename Executor, typename Params>
*5f39d1b3SJooyung Hanbool PrepareGemmTasks(MultiThreadingContext* context, const Params& params,
*5f39d1b3SJooyung Han                      int kernel_m, int kernel_n, int kernel_k,
*5f39d1b3SJooyung Han                      std::vector<Params>* task_params) {
*5f39d1b3SJooyung Han  const int max_threads = ResolveMaxThreads(context->max_num_threads());
*5f39d1b3SJooyung Han  const int max_tasks_by_size =
*5f39d1b3SJooyung Han      (params.m * params.n * params.k) / kMinGemmTaskSize;
*5f39d1b3SJooyung Han  const int max_tasks_m = params.m / kMinGemmTaskDimension;
*5f39d1b3SJooyung Han  const int max_tasks_n = params.n / kMinGemmTaskDimension;
*5f39d1b3SJooyung Han  const int max_tasks_dimension = std::max(max_tasks_m, max_tasks_n);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const int real_tasks = std::max(
*5f39d1b3SJooyung Han      1,
*5f39d1b3SJooyung Han      std::min(max_threads, std::min(max_tasks_by_size, max_tasks_dimension)));
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  if (real_tasks == 1) {
*5f39d1b3SJooyung Han    return false;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  std::uint8_t* scratch = params.scratch;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  if (max_tasks_m > max_tasks_n) {
*5f39d1b3SJooyung Han    const int m_chunk = params.m / real_tasks;
*5f39d1b3SJooyung Han    for (int i = 0; i < real_tasks - 1; ++i) {
*5f39d1b3SJooyung Han      scratch = PrepareGemmTask<Executor, Params>(
*5f39d1b3SJooyung Han          params, kernel_m, kernel_n, kernel_k, scratch, i * m_chunk, m_chunk,
*5f39d1b3SJooyung Han          0, params.n, task_params);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    const int sum_m = (real_tasks - 1) * m_chunk;
*5f39d1b3SJooyung Han    PrepareGemmTask<Executor, Params>(params, kernel_m, kernel_n, kernel_k,
*5f39d1b3SJooyung Han                                      scratch, sum_m, params.m - sum_m, 0,
*5f39d1b3SJooyung Han                                      params.n, task_params);
*5f39d1b3SJooyung Han  } else {
*5f39d1b3SJooyung Han    const int n_chunk = params.n / real_tasks;
*5f39d1b3SJooyung Han    for (int i = 0; i < real_tasks - 1; ++i) {
*5f39d1b3SJooyung Han      scratch = PrepareGemmTask<Executor, Params>(
*5f39d1b3SJooyung Han          params, kernel_m, kernel_n, kernel_k, scratch, 0, params.m,
*5f39d1b3SJooyung Han          i * n_chunk, n_chunk, task_params);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    int sum_n = (real_tasks - 1) * n_chunk;
*5f39d1b3SJooyung Han    PrepareGemmTask<Executor, Params>(params, kernel_m, kernel_n, kernel_k,
*5f39d1b3SJooyung Han                                      scratch, 0, params.m, sum_n,
*5f39d1b3SJooyung Han                                      params.n - sum_n, task_params);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  return true;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename Executor, typename Params, int kernel_m, int kernel_n,
*5f39d1b3SJooyung Han          int kernel_k>
*5f39d1b3SJooyung Hanstruct GemmTaskRunner : gemmlowp::Task {
*5f39d1b3SJooyung Han  GemmTaskRunner(const Params& params) : params(params) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  void Run() override {
*5f39d1b3SJooyung Han    Gemm<Executor, Params, kernel_m, kernel_n, kernel_k>(params);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  Params params;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han}  // namespace internal
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename MultiThreadingContext, typename Executor, typename Params,
*5f39d1b3SJooyung Han          int kernel_m, int kernel_n, int kernel_k>
*5f39d1b3SJooyung Haninline void MultiThreadGemm(MultiThreadingContext* context,
*5f39d1b3SJooyung Han                            const Params& params) {
*5f39d1b3SJooyung Han  typedef internal::GemmTaskRunner<Executor, Params, kernel_m, kernel_n,
*5f39d1b3SJooyung Han                                   kernel_k>
*5f39d1b3SJooyung Han      TaskRunnerType;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  std::vector<Params> task_params;
*5f39d1b3SJooyung Han  if (!internal::PrepareGemmTasks<MultiThreadingContext, Executor, Params>(
*5f39d1b3SJooyung Han          context, params, kernel_m, kernel_n, kernel_k, &task_params)) {
*5f39d1b3SJooyung Han    Gemm<Executor, Params, kernel_m, kernel_n, kernel_k>(params);
*5f39d1b3SJooyung Han    return;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  auto workers_pool = context->workers_pool();
*5f39d1b3SJooyung Han  std::vector<Task*> tasks;
*5f39d1b3SJooyung Han  for (auto& task_param : task_params) {
*5f39d1b3SJooyung Han    tasks.push_back(new TaskRunnerType(task_param));
*5f39d1b3SJooyung Han  };
*5f39d1b3SJooyung Han  workers_pool->Execute(tasks);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han}  // namespace meta
*5f39d1b3SJooyung Han}  // namespace gemmlowp
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#endif  // GEMMLOWP_META_MULTI_THREAD_GEMM_H_