gemmlowp/internal/compute.h

*5f39d1b3SJooyung Han// Copyright 2015 The Gemmlowp Authors. All Rights Reserved.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Licensed under the Apache License, Version 2.0 (the "License");
*5f39d1b3SJooyung Han// you may not use this file except in compliance with the License.
*5f39d1b3SJooyung Han// You may obtain a copy of the License at
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han//     http://www.apache.org/licenses/LICENSE-2.0
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Unless required by applicable law or agreed to in writing, software
*5f39d1b3SJooyung Han// distributed under the License is distributed on an "AS IS" BASIS,
*5f39d1b3SJooyung Han// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*5f39d1b3SJooyung Han// See the License for the specific language governing permissions and
*5f39d1b3SJooyung Han// limitations under the License.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// compute.h: the central stage of the Gemm computation, operates
*5f39d1b3SJooyung Han// on already-packed LHS and RHS blocks and calls the Gemm kernel
*5f39d1b3SJooyung Han// to compute a block of the product.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifndef GEMMLOWP_INTERNAL_COMPUTE_H_
*5f39d1b3SJooyung Han#define GEMMLOWP_INTERNAL_COMPUTE_H_
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#include "block_params.h"
*5f39d1b3SJooyung Han#include "kernel.h"
*5f39d1b3SJooyung Han#include "pack.h"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hannamespace gemmlowp {
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename PackedLhs, typename PackedRhs, typename PackedResult>
*5f39d1b3SJooyung Hanclass ComputeImpl {
*5f39d1b3SJooyung Han  typedef typename PackedLhs::KernelSideFormat KernelLhsFormat;
*5f39d1b3SJooyung Han  typedef typename PackedRhs::KernelSideFormat KernelRhsFormat;
*5f39d1b3SJooyung Han  typedef KernelFormat<KernelLhsFormat, KernelRhsFormat> Format;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const KernelBase& kernel_;
*5f39d1b3SJooyung Han  const BlockParams& block_params_;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  PackedResult* const packed_result_;
*5f39d1b3SJooyung Han  const PackedLhs& packed_lhs_;
*5f39d1b3SJooyung Han  const PackedRhs& packed_rhs_;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han public:
*5f39d1b3SJooyung Han  ComputeImpl(const KernelBase& _kernel, const BlockParams& _block_params,
*5f39d1b3SJooyung Han              PackedResult* _packed_result, const PackedLhs& _packed_lhs,
*5f39d1b3SJooyung Han              const PackedRhs& _packed_rhs)
*5f39d1b3SJooyung Han      : kernel_(_kernel),
*5f39d1b3SJooyung Han        block_params_(_block_params),
*5f39d1b3SJooyung Han        packed_result_(_packed_result),
*5f39d1b3SJooyung Han        packed_lhs_(_packed_lhs),
*5f39d1b3SJooyung Han        packed_rhs_(_packed_rhs) {}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  void Compute(int depth) {
*5f39d1b3SJooyung Han    depth = RoundUp<Format::kDepth>(depth);
*5f39d1b3SJooyung Han    assert(depth <= block_params_.l2_depth);
*5f39d1b3SJooyung Han    for (int d = 0; d < depth; d += block_params_.l1_depth) {
*5f39d1b3SJooyung Han      int ds = std::min(block_params_.l1_depth, depth - d);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han      for (int r = 0; r < block_params_.l2_rows; r += block_params_.l1_rows) {
*5f39d1b3SJooyung Han        int rs = std::min(block_params_.l1_rows, block_params_.l2_rows - r);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        ComputeL1(r, rs, 0, block_params_.l2_cols, d, ds);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han private:
*5f39d1b3SJooyung Han  static void MarkPackedResultBlockAsInitialized(
*5f39d1b3SJooyung Han      const MatrixMap<std::int32_t, MapOrder::ColMajor>& packed_result_block) {
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_MARK_MEMORY_AS_INITIALIZED
*5f39d1b3SJooyung Han    for (int col = 0; col < packed_result_block.cols(); col++) {
*5f39d1b3SJooyung Han      MarkMemoryAsInitialized(
*5f39d1b3SJooyung Han          packed_result_block.data() + col * packed_result_block.cols_stride(),
*5f39d1b3SJooyung Han          packed_result_block.rows());
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han#else
*5f39d1b3SJooyung Han    (void)packed_result_block;
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  void ComputeRun(int start_row, int start_col, int start_depth,
*5f39d1b3SJooyung Han                  int depth) GEMMLOWP_NOINLINE {
*5f39d1b3SJooyung Han    packed_lhs_.seek_run(start_row, start_depth);
*5f39d1b3SJooyung Han    packed_rhs_.seek_run(start_col, start_depth);
*5f39d1b3SJooyung Han    auto packed_result_block = packed_result_->Map().block(
*5f39d1b3SJooyung Han        start_row, start_col, Format::kRows, Format::kCols);
*5f39d1b3SJooyung Han    kernel_.Run(packed_result_block.data(), packed_result_block.rows_stride(),
*5f39d1b3SJooyung Han                packed_result_block.cols_stride(), packed_lhs_.current_data(),
*5f39d1b3SJooyung Han                packed_rhs_.current_data(), start_depth, depth);
*5f39d1b3SJooyung Han    MarkPackedResultBlockAsInitialized(packed_result_block);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  void ComputeL1(int start_row, int rows, int start_col, int cols,
*5f39d1b3SJooyung Han                 int start_depth, int depth) {
*5f39d1b3SJooyung Han    assert(rows % Format::kRows == 0);
*5f39d1b3SJooyung Han    assert(cols % Format::kCols == 0);
*5f39d1b3SJooyung Han    assert(depth % Format::kDepth == 0);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    for (int c = 0; c < cols; c += Format::kCols) {
*5f39d1b3SJooyung Han      for (int r = 0; r < rows; r += Format::kRows) {
*5f39d1b3SJooyung Han        ComputeRun(start_row + r, start_col + c, start_depth, depth);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename PackedLhs, typename PackedRhs, typename PackedResult>
*5f39d1b3SJooyung Hanvoid Compute(const KernelBase& kernel, const BlockParams& block_params,
*5f39d1b3SJooyung Han             PackedResult* packed_result, const PackedLhs& packed_lhs,
*5f39d1b3SJooyung Han             const PackedRhs& packed_rhs, int depth) {
*5f39d1b3SJooyung Han  ScopedProfilingLabel label("compute");
*5f39d1b3SJooyung Han  ComputeImpl<PackedLhs, PackedRhs, PackedResult> impl(
*5f39d1b3SJooyung Han      kernel, block_params, packed_result, packed_lhs, packed_rhs);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  impl.Compute(depth);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han}  // namespace gemmlowp
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#endif  // GEMMLOWP_INTERNAL_COMPUTE_H_