gemmlowp/meta/multi_thread_transform.h

*5f39d1b3SJooyung Han// Copyright 2016 The Gemmlowp Authors. All Rights Reserved.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Licensed under the Apache License, Version 2.0 (the "License");
*5f39d1b3SJooyung Han// you may not use this file except in compliance with the License.
*5f39d1b3SJooyung Han// You may obtain a copy of the License at
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han//     http://www.apache.org/licenses/LICENSE-2.0
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Unless required by applicable law or agreed to in writing, software
*5f39d1b3SJooyung Han// distributed under the License is distributed on an "AS IS" BASIS,
*5f39d1b3SJooyung Han// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*5f39d1b3SJooyung Han// See the License for the specific language governing permissions and
*5f39d1b3SJooyung Han// limitations under the License.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifndef GEMMLOWP_META_MULTI_THREAD_TRANSFORM_H_
*5f39d1b3SJooyung Han#define GEMMLOWP_META_MULTI_THREAD_TRANSFORM_H_
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#include "multi_thread_common.h"
*5f39d1b3SJooyung Han#include "single_thread_transform.h"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hannamespace gemmlowp {
*5f39d1b3SJooyung Hannamespace meta {
*5f39d1b3SJooyung Hannamespace internal {
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanconst int kTransformTaskOverhead = 128000;
*5f39d1b3SJooyung Hanconst int kMinTransformTaskSize = 32000;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename MultiThreadingContext, typename Params>
*5f39d1b3SJooyung Haninline bool PrepareTransform1DTasks(MultiThreadingContext* context,
*5f39d1b3SJooyung Han                                    const Params& params, int kernel_size,
*5f39d1b3SJooyung Han                                    std::vector<Params>* task_params) {
*5f39d1b3SJooyung Han  typedef Transform1DUtil<typename Params::InType, typename Params::OutType,
*5f39d1b3SJooyung Han                          typename Params::Kernel>
*5f39d1b3SJooyung Han      Util;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const int max_threads = ResolveMaxThreads(context->max_num_threads());
*5f39d1b3SJooyung Han  const int task_size = Util::EstimateComputeCost(params.kernel);
*5f39d1b3SJooyung Han  const int max_tasks_by_size =
*5f39d1b3SJooyung Han      (task_size - kTransformTaskOverhead) / kMinTransformTaskSize;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const int real_tasks = std::max(1, std::min(max_threads, max_tasks_by_size));
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  if (real_tasks == 1) {
*5f39d1b3SJooyung Han    return false;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const int chunk = params.kernel.count / real_tasks;
*5f39d1b3SJooyung Han  for (int i = 0; i < real_tasks - 1; ++i) {
*5f39d1b3SJooyung Han    task_params->push_back(params);
*5f39d1b3SJooyung Han    Params& task = task_params->back();
*5f39d1b3SJooyung Han    task.kernel.count = chunk;
*5f39d1b3SJooyung Han    task.input = Util::OffsetInput(params.kernel, params.input, i * chunk);
*5f39d1b3SJooyung Han    task.output = Util::OffsetOutput(params.kernel, params.output, i * chunk);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han  task_params->push_back(params);
*5f39d1b3SJooyung Han  Params& task = task_params->back();
*5f39d1b3SJooyung Han  const int sum_chunk = (real_tasks - 1) * chunk;
*5f39d1b3SJooyung Han  task.kernel.count = params.kernel.count - sum_chunk;
*5f39d1b3SJooyung Han  task.input = Util::OffsetInput(params.kernel, params.input, sum_chunk);
*5f39d1b3SJooyung Han  task.output = Util::OffsetOutput(params.kernel, params.output, sum_chunk);
*5f39d1b3SJooyung Han  return true;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename Params, int kernel_size>
*5f39d1b3SJooyung Hanstruct Transform1DTaskRunner : gemmlowp::Task {
*5f39d1b3SJooyung Han  Transform1DTaskRunner(const Params& params) : params(params) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  void Run() override { Transform1D<Params, kernel_size>(params); }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  Params params;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han}  // namespace internal
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename MultiThreadingContext, typename Params, int kernel_size>
*5f39d1b3SJooyung Haninline void MultiThreadTransform1D(MultiThreadingContext* context,
*5f39d1b3SJooyung Han                                   const Params& params) {
*5f39d1b3SJooyung Han  typedef internal::Transform1DTaskRunner<Params, kernel_size> TaskRunnerType;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  std::vector<Params> task_params;
*5f39d1b3SJooyung Han  if (!internal::PrepareTransform1DTasks<MultiThreadingContext, Params>(
*5f39d1b3SJooyung Han          context, params, kernel_size, &task_params)) {
*5f39d1b3SJooyung Han    Transform1D<Params, kernel_size>(params);
*5f39d1b3SJooyung Han    return;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  auto workers_pool = context->workers_pool();
*5f39d1b3SJooyung Han  std::vector<Task*> tasks;
*5f39d1b3SJooyung Han  for (auto& task_param : task_params) {
*5f39d1b3SJooyung Han    tasks.push_back(new TaskRunnerType(task_param));
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han  workers_pool->Execute(tasks);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han}  // namespace meta
*5f39d1b3SJooyung Han}  // namespace gemmlowp
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#endif  // GEMMLOWP_META_MULTI_THREAD_TRANSFORM_H_