1*5f39d1b3SJooyung Han // Copyright 2016 The Gemmlowp Authors. All Rights Reserved.
2*5f39d1b3SJooyung Han //
3*5f39d1b3SJooyung Han // Licensed under the Apache License, Version 2.0 (the "License");
4*5f39d1b3SJooyung Han // you may not use this file except in compliance with the License.
5*5f39d1b3SJooyung Han // You may obtain a copy of the License at
6*5f39d1b3SJooyung Han //
7*5f39d1b3SJooyung Han // http://www.apache.org/licenses/LICENSE-2.0
8*5f39d1b3SJooyung Han //
9*5f39d1b3SJooyung Han // Unless required by applicable law or agreed to in writing, software
10*5f39d1b3SJooyung Han // distributed under the License is distributed on an "AS IS" BASIS,
11*5f39d1b3SJooyung Han // WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
12*5f39d1b3SJooyung Han // See the License for the specific language governing permissions and
13*5f39d1b3SJooyung Han // limitations under the License.
14*5f39d1b3SJooyung Han
15*5f39d1b3SJooyung Han #include <unistd.h>
16*5f39d1b3SJooyung Han #ifdef __APPLE__
17*5f39d1b3SJooyung Han #include <sys/time.h>
18*5f39d1b3SJooyung Han #endif
19*5f39d1b3SJooyung Han
20*5f39d1b3SJooyung Han #include <cstdint>
21*5f39d1b3SJooyung Han #include <cstdlib>
22*5f39d1b3SJooyung Han #include <ctime>
23*5f39d1b3SJooyung Han #include <iomanip>
24*5f39d1b3SJooyung Han #include <iostream>
25*5f39d1b3SJooyung Han #include <map>
26*5f39d1b3SJooyung Han #include <memory>
27*5f39d1b3SJooyung Han #include <vector>
28*5f39d1b3SJooyung Han
29*5f39d1b3SJooyung Han #include "multi_thread_transform.h"
30*5f39d1b3SJooyung Han #include "transform_kernels.h"
31*5f39d1b3SJooyung Han
32*5f39d1b3SJooyung Han using namespace gemmlowp::meta;
33*5f39d1b3SJooyung Han
time()34*5f39d1b3SJooyung Han double time() {
35*5f39d1b3SJooyung Han #ifdef __APPLE__
36*5f39d1b3SJooyung Han timeval t;
37*5f39d1b3SJooyung Han gettimeofday(&t, nullptr);
38*5f39d1b3SJooyung Han return t.tv_sec + 1e-6 * t.tv_usec;
39*5f39d1b3SJooyung Han #else
40*5f39d1b3SJooyung Han timespec t;
41*5f39d1b3SJooyung Han clock_gettime(CLOCK_REALTIME, &t);
42*5f39d1b3SJooyung Han return t.tv_sec + 1e-9 * t.tv_nsec;
43*5f39d1b3SJooyung Han #endif
44*5f39d1b3SJooyung Han }
45*5f39d1b3SJooyung Han
46*5f39d1b3SJooyung Han #define kernel_size (16)
47*5f39d1b3SJooyung Han
48*5f39d1b3SJooyung Han template <typename Context, typename Params>
run_benchmark(const std::string & name,int repetitions,int elements,Context * context,const Params & params)49*5f39d1b3SJooyung Han void run_benchmark(const std::string& name, int repetitions, int elements,
50*5f39d1b3SJooyung Han Context* context, const Params& params) {
51*5f39d1b3SJooyung Han std::cout << "Benchmark: " << name << std::endl;
52*5f39d1b3SJooyung Han std::cout << "Warmup single." << std::endl;
53*5f39d1b3SJooyung Han
54*5f39d1b3SJooyung Han for (int i = 0; i < 10; ++i) {
55*5f39d1b3SJooyung Han Transform1D<Params, kernel_size>(params);
56*5f39d1b3SJooyung Han }
57*5f39d1b3SJooyung Han
58*5f39d1b3SJooyung Han std::cout << "Benchmark single." << std::endl;
59*5f39d1b3SJooyung Han
60*5f39d1b3SJooyung Han double start = time();
61*5f39d1b3SJooyung Han
62*5f39d1b3SJooyung Han for (int i = 0; i < repetitions; ++i) {
63*5f39d1b3SJooyung Han Transform1D<Params, kernel_size>(params);
64*5f39d1b3SJooyung Han }
65*5f39d1b3SJooyung Han
66*5f39d1b3SJooyung Han double wall_time = time() - start;
67*5f39d1b3SJooyung Han double ops = static_cast<double>(elements) * repetitions;
68*5f39d1b3SJooyung Han std::cout << "Avg: " << (wall_time / repetitions) << std::endl;
69*5f39d1b3SJooyung Han std::cout << "Perf: " << static_cast<std::int64_t>(ops / wall_time) << "/s."
70*5f39d1b3SJooyung Han << std::endl;
71*5f39d1b3SJooyung Han
72*5f39d1b3SJooyung Han std::cout << "Warmup single." << std::endl;
73*5f39d1b3SJooyung Han
74*5f39d1b3SJooyung Han for (int i = 0; i < 10; ++i) {
75*5f39d1b3SJooyung Han MultiThreadTransform1D<Context, Params, kernel_size>(context, params);
76*5f39d1b3SJooyung Han }
77*5f39d1b3SJooyung Han
78*5f39d1b3SJooyung Han std::cout << "Benchmark multi." << std::endl;
79*5f39d1b3SJooyung Han
80*5f39d1b3SJooyung Han start = time();
81*5f39d1b3SJooyung Han
82*5f39d1b3SJooyung Han for (int i = 0; i < repetitions; ++i) {
83*5f39d1b3SJooyung Han MultiThreadTransform1D<Context, Params, kernel_size>(context, params);
84*5f39d1b3SJooyung Han }
85*5f39d1b3SJooyung Han
86*5f39d1b3SJooyung Han wall_time = time() - start;
87*5f39d1b3SJooyung Han ops = static_cast<double>(elements) * repetitions;
88*5f39d1b3SJooyung Han std::cout << "Avg: " << (wall_time / repetitions) << std::endl;
89*5f39d1b3SJooyung Han std::cout << "Perf: " << static_cast<std::int64_t>(ops / wall_time) << "/s."
90*5f39d1b3SJooyung Han << std::endl;
91*5f39d1b3SJooyung Han }
92*5f39d1b3SJooyung Han
main()93*5f39d1b3SJooyung Han int main() {
94*5f39d1b3SJooyung Han const int repetitions = 500;
95*5f39d1b3SJooyung Han const int elements = 4 * 1024 * 1024;
96*5f39d1b3SJooyung Han
97*5f39d1b3SJooyung Han std::unique_ptr<std::int32_t[]> int32_array(new std::int32_t[elements]);
98*5f39d1b3SJooyung Han std::unique_ptr<std::uint8_t[]> uint8_array(new std::uint8_t[elements]);
99*5f39d1b3SJooyung Han std::unique_ptr<float[]> float_array(new float[elements]);
100*5f39d1b3SJooyung Han
101*5f39d1b3SJooyung Han typedef SimpleContext<gemmlowp::WorkersPool> Context;
102*5f39d1b3SJooyung Han Context context(4, new gemmlowp::WorkersPool());
103*5f39d1b3SJooyung Han
104*5f39d1b3SJooyung Han typedef Transform1DParams<std::int32_t, std::uint8_t, Requantize> RequantizeParams;
105*5f39d1b3SJooyung Han RequantizeParams requantize_params;
106*5f39d1b3SJooyung Han requantize_params.input = int32_array.get();
107*5f39d1b3SJooyung Han requantize_params.output = uint8_array.get();
108*5f39d1b3SJooyung Han requantize_params.kernel.count = elements;
109*5f39d1b3SJooyung Han requantize_params.kernel.input_range_min = -100.0f;
110*5f39d1b3SJooyung Han requantize_params.kernel.input_range_scale =
111*5f39d1b3SJooyung Han 200.0f / ((static_cast<std::int64_t>(1) << 32) - 1);
112*5f39d1b3SJooyung Han requantize_params.kernel.input_range_offset =
113*5f39d1b3SJooyung Han static_cast<float>(std::numeric_limits<std::int32_t>::lowest());
114*5f39d1b3SJooyung Han requantize_params.kernel.output_range_min = -200.0f;
115*5f39d1b3SJooyung Han requantize_params.kernel.one_over_output_range_scale =
116*5f39d1b3SJooyung Han static_cast<float>((static_cast<std::int64_t>(1) << 8) - 1) / 500.0f;
117*5f39d1b3SJooyung Han requantize_params.kernel.output_range_offset =
118*5f39d1b3SJooyung Han static_cast<float>(std::numeric_limits<std::uint8_t>::lowest());
119*5f39d1b3SJooyung Han
120*5f39d1b3SJooyung Han run_benchmark("Requantize", repetitions, elements, &context,
121*5f39d1b3SJooyung Han requantize_params);
122*5f39d1b3SJooyung Han
123*5f39d1b3SJooyung Han typedef Transform1DParams<std::uint8_t, float, Dequantize> DequantizeParams;
124*5f39d1b3SJooyung Han DequantizeParams dequantize_params;
125*5f39d1b3SJooyung Han dequantize_params.input = uint8_array.get();
126*5f39d1b3SJooyung Han dequantize_params.output = float_array.get();
127*5f39d1b3SJooyung Han dequantize_params.kernel.count = elements;
128*5f39d1b3SJooyung Han dequantize_params.kernel.range_min = -100.0f;
129*5f39d1b3SJooyung Han dequantize_params.kernel.range_scale =
130*5f39d1b3SJooyung Han static_cast<float>((static_cast<std::int64_t>(1) << 8) - 1) / 200.0f;
131*5f39d1b3SJooyung Han dequantize_params.kernel.range_offset =
132*5f39d1b3SJooyung Han static_cast<float>(std::numeric_limits<std::uint8_t>::lowest());
133*5f39d1b3SJooyung Han
134*5f39d1b3SJooyung Han run_benchmark("Dequantize", repetitions, elements, &context,
135*5f39d1b3SJooyung Han dequantize_params);
136*5f39d1b3SJooyung Han
137*5f39d1b3SJooyung Han typedef Transform1DParams<float, std::uint8_t, Quantize> QuantizeParams;
138*5f39d1b3SJooyung Han QuantizeParams quantize_params;
139*5f39d1b3SJooyung Han quantize_params.input = float_array.get();
140*5f39d1b3SJooyung Han quantize_params.output = uint8_array.get();
141*5f39d1b3SJooyung Han quantize_params.kernel.count = elements;
142*5f39d1b3SJooyung Han quantize_params.kernel.range_min = -100.0f;
143*5f39d1b3SJooyung Han quantize_params.kernel.range_scale =
144*5f39d1b3SJooyung Han 200.0f / ((static_cast<std::int64_t>(1) << 8) - 1);
145*5f39d1b3SJooyung Han quantize_params.kernel.range_offset =
146*5f39d1b3SJooyung Han static_cast<float>(std::numeric_limits<std::uint8_t>::lowest());
147*5f39d1b3SJooyung Han
148*5f39d1b3SJooyung Han run_benchmark("Quantize", repetitions, elements, &context, quantize_params);
149*5f39d1b3SJooyung Han
150*5f39d1b3SJooyung Han return 0;
151*5f39d1b3SJooyung Han }
152