1*5f39d1b3SJooyung Han // Copyright 2015 The Gemmlowp Authors. All Rights Reserved.
2*5f39d1b3SJooyung Han //
3*5f39d1b3SJooyung Han // Licensed under the Apache License, Version 2.0 (the "License");
4*5f39d1b3SJooyung Han // you may not use this file except in compliance with the License.
5*5f39d1b3SJooyung Han // You may obtain a copy of the License at
6*5f39d1b3SJooyung Han //
7*5f39d1b3SJooyung Han // http://www.apache.org/licenses/LICENSE-2.0
8*5f39d1b3SJooyung Han //
9*5f39d1b3SJooyung Han // Unless required by applicable law or agreed to in writing, software
10*5f39d1b3SJooyung Han // distributed under the License is distributed on an "AS IS" BASIS,
11*5f39d1b3SJooyung Han // WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12*5f39d1b3SJooyung Han // See the License for the specific language governing permissions and
13*5f39d1b3SJooyung Han // limitations under the License.
14*5f39d1b3SJooyung Han
15*5f39d1b3SJooyung Han // compute.h: the central stage of the Gemm computation, operates
16*5f39d1b3SJooyung Han // on already-packed LHS and RHS blocks and calls the Gemm kernel
17*5f39d1b3SJooyung Han // to compute a block of the product.
18*5f39d1b3SJooyung Han
19*5f39d1b3SJooyung Han #ifndef GEMMLOWP_INTERNAL_COMPUTE_H_
20*5f39d1b3SJooyung Han #define GEMMLOWP_INTERNAL_COMPUTE_H_
21*5f39d1b3SJooyung Han
22*5f39d1b3SJooyung Han #include "block_params.h"
23*5f39d1b3SJooyung Han #include "kernel.h"
24*5f39d1b3SJooyung Han #include "pack.h"
25*5f39d1b3SJooyung Han
26*5f39d1b3SJooyung Han namespace gemmlowp {
27*5f39d1b3SJooyung Han
28*5f39d1b3SJooyung Han template <typename PackedLhs, typename PackedRhs, typename PackedResult>
29*5f39d1b3SJooyung Han class ComputeImpl {
30*5f39d1b3SJooyung Han typedef typename PackedLhs::KernelSideFormat KernelLhsFormat;
31*5f39d1b3SJooyung Han typedef typename PackedRhs::KernelSideFormat KernelRhsFormat;
32*5f39d1b3SJooyung Han typedef KernelFormat<KernelLhsFormat, KernelRhsFormat> Format;
33*5f39d1b3SJooyung Han
34*5f39d1b3SJooyung Han const KernelBase& kernel_;
35*5f39d1b3SJooyung Han const BlockParams& block_params_;
36*5f39d1b3SJooyung Han
37*5f39d1b3SJooyung Han PackedResult* const packed_result_;
38*5f39d1b3SJooyung Han const PackedLhs& packed_lhs_;
39*5f39d1b3SJooyung Han const PackedRhs& packed_rhs_;
40*5f39d1b3SJooyung Han
41*5f39d1b3SJooyung Han public:
ComputeImpl(const KernelBase & _kernel,const BlockParams & _block_params,PackedResult * _packed_result,const PackedLhs & _packed_lhs,const PackedRhs & _packed_rhs)42*5f39d1b3SJooyung Han ComputeImpl(const KernelBase& _kernel, const BlockParams& _block_params,
43*5f39d1b3SJooyung Han PackedResult* _packed_result, const PackedLhs& _packed_lhs,
44*5f39d1b3SJooyung Han const PackedRhs& _packed_rhs)
45*5f39d1b3SJooyung Han : kernel_(_kernel),
46*5f39d1b3SJooyung Han block_params_(_block_params),
47*5f39d1b3SJooyung Han packed_result_(_packed_result),
48*5f39d1b3SJooyung Han packed_lhs_(_packed_lhs),
49*5f39d1b3SJooyung Han packed_rhs_(_packed_rhs) {}
50*5f39d1b3SJooyung Han
Compute(int depth)51*5f39d1b3SJooyung Han void Compute(int depth) {
52*5f39d1b3SJooyung Han depth = RoundUp<Format::kDepth>(depth);
53*5f39d1b3SJooyung Han assert(depth <= block_params_.l2_depth);
54*5f39d1b3SJooyung Han for (int d = 0; d < depth; d += block_params_.l1_depth) {
55*5f39d1b3SJooyung Han int ds = std::min(block_params_.l1_depth, depth - d);
56*5f39d1b3SJooyung Han
57*5f39d1b3SJooyung Han for (int r = 0; r < block_params_.l2_rows; r += block_params_.l1_rows) {
58*5f39d1b3SJooyung Han int rs = std::min(block_params_.l1_rows, block_params_.l2_rows - r);
59*5f39d1b3SJooyung Han
60*5f39d1b3SJooyung Han ComputeL1(r, rs, 0, block_params_.l2_cols, d, ds);
61*5f39d1b3SJooyung Han }
62*5f39d1b3SJooyung Han }
63*5f39d1b3SJooyung Han }
64*5f39d1b3SJooyung Han
65*5f39d1b3SJooyung Han private:
MarkPackedResultBlockAsInitialized(const MatrixMap<std::int32_t,MapOrder::ColMajor> & packed_result_block)66*5f39d1b3SJooyung Han static void MarkPackedResultBlockAsInitialized(
67*5f39d1b3SJooyung Han const MatrixMap<std::int32_t, MapOrder::ColMajor>& packed_result_block) {
68*5f39d1b3SJooyung Han #ifdef GEMMLOWP_MARK_MEMORY_AS_INITIALIZED
69*5f39d1b3SJooyung Han for (int col = 0; col < packed_result_block.cols(); col++) {
70*5f39d1b3SJooyung Han MarkMemoryAsInitialized(
71*5f39d1b3SJooyung Han packed_result_block.data() + col * packed_result_block.cols_stride(),
72*5f39d1b3SJooyung Han packed_result_block.rows());
73*5f39d1b3SJooyung Han }
74*5f39d1b3SJooyung Han #else
75*5f39d1b3SJooyung Han (void)packed_result_block;
76*5f39d1b3SJooyung Han #endif
77*5f39d1b3SJooyung Han }
78*5f39d1b3SJooyung Han
ComputeRun(int start_row,int start_col,int start_depth,int depth)79*5f39d1b3SJooyung Han void ComputeRun(int start_row, int start_col, int start_depth,
80*5f39d1b3SJooyung Han int depth) GEMMLOWP_NOINLINE {
81*5f39d1b3SJooyung Han packed_lhs_.seek_run(start_row, start_depth);
82*5f39d1b3SJooyung Han packed_rhs_.seek_run(start_col, start_depth);
83*5f39d1b3SJooyung Han auto packed_result_block = packed_result_->Map().block(
84*5f39d1b3SJooyung Han start_row, start_col, Format::kRows, Format::kCols);
85*5f39d1b3SJooyung Han kernel_.Run(packed_result_block.data(), packed_result_block.rows_stride(),
86*5f39d1b3SJooyung Han packed_result_block.cols_stride(), packed_lhs_.current_data(),
87*5f39d1b3SJooyung Han packed_rhs_.current_data(), start_depth, depth);
88*5f39d1b3SJooyung Han MarkPackedResultBlockAsInitialized(packed_result_block);
89*5f39d1b3SJooyung Han }
90*5f39d1b3SJooyung Han
ComputeL1(int start_row,int rows,int start_col,int cols,int start_depth,int depth)91*5f39d1b3SJooyung Han void ComputeL1(int start_row, int rows, int start_col, int cols,
92*5f39d1b3SJooyung Han int start_depth, int depth) {
93*5f39d1b3SJooyung Han assert(rows % Format::kRows == 0);
94*5f39d1b3SJooyung Han assert(cols % Format::kCols == 0);
95*5f39d1b3SJooyung Han assert(depth % Format::kDepth == 0);
96*5f39d1b3SJooyung Han
97*5f39d1b3SJooyung Han for (int c = 0; c < cols; c += Format::kCols) {
98*5f39d1b3SJooyung Han for (int r = 0; r < rows; r += Format::kRows) {
99*5f39d1b3SJooyung Han ComputeRun(start_row + r, start_col + c, start_depth, depth);
100*5f39d1b3SJooyung Han }
101*5f39d1b3SJooyung Han }
102*5f39d1b3SJooyung Han }
103*5f39d1b3SJooyung Han };
104*5f39d1b3SJooyung Han
105*5f39d1b3SJooyung Han template <typename PackedLhs, typename PackedRhs, typename PackedResult>
Compute(const KernelBase & kernel,const BlockParams & block_params,PackedResult * packed_result,const PackedLhs & packed_lhs,const PackedRhs & packed_rhs,int depth)106*5f39d1b3SJooyung Han void Compute(const KernelBase& kernel, const BlockParams& block_params,
107*5f39d1b3SJooyung Han PackedResult* packed_result, const PackedLhs& packed_lhs,
108*5f39d1b3SJooyung Han const PackedRhs& packed_rhs, int depth) {
109*5f39d1b3SJooyung Han ScopedProfilingLabel label("compute");
110*5f39d1b3SJooyung Han ComputeImpl<PackedLhs, PackedRhs, PackedResult> impl(
111*5f39d1b3SJooyung Han kernel, block_params, packed_result, packed_lhs, packed_rhs);
112*5f39d1b3SJooyung Han
113*5f39d1b3SJooyung Han impl.Compute(depth);
114*5f39d1b3SJooyung Han }
115*5f39d1b3SJooyung Han
116*5f39d1b3SJooyung Han } // namespace gemmlowp
117*5f39d1b3SJooyung Han
118*5f39d1b3SJooyung Han #endif // GEMMLOWP_INTERNAL_COMPUTE_H_
119