gemmlowp/standalone/neon-gemm-kernel-benchmark.cc

*5f39d1b3SJooyung Han// Copyright 2016 The gemmlowp Authors. All Rights Reserved.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Licensed under the Apache License, Version 2.0 (the "License");
*5f39d1b3SJooyung Han// you may not use this file except in compliance with the License.
*5f39d1b3SJooyung Han// You may obtain a copy of the License at
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han//     http://www.apache.org/licenses/LICENSE-2.0
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Unless required by applicable law or agreed to in writing, software
*5f39d1b3SJooyung Han// distributed under the License is distributed on an "AS IS" BASIS,
*5f39d1b3SJooyung Han// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*5f39d1b3SJooyung Han// See the License for the specific language governing permissions and
*5f39d1b3SJooyung Han// limitations under the License.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// This is a standalone testbed and benchmark for gemmlowp-style GEMM kernels,
*5f39d1b3SJooyung Han// either doing integer or float arithmetic.
*5f39d1b3SJooyung Han// It verifies that a kernel produces correct results, then benchmarks it.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Some benchmark results are recorded in this spreadsheet:
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// https://docs.google.com/spreadsheets/d/1UPbzbp9rdsD6RXxOr5q6AZ0n1omgEknLYO2ogiw6Kqk/edit?usp=sharing
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// This program is entirely self-contained, and can be compiled manually
*5f39d1b3SJooyung Han// such as suggested in the command lines below.
*5f39d1b3SJooyung Han// It currently supports only Android/ARM but would trivially generalize to
*5f39d1b3SJooyung Han// other OSes (it's mostly standard POSIX) or architectures (each kernel
*5f39d1b3SJooyung Han// targets a specific architecture, one may simply add more).
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han/*
*5f39d1b3SJooyung Han Build and run this benchmark on Android/ARM/32bit:
*5f39d1b3SJooyung Han ~/android/toolchains/arm-linux-androideabi/bin/arm-linux-androideabi-clang++ \
*5f39d1b3SJooyung Han -fPIE -pie -O3 --std=c++11 standalone/neon-gemm-kernel-benchmark.cc -o \
*5f39d1b3SJooyung Han /tmp/benchmark -mfloat-abi=softfp -mfpu=neon-vfpv4 && adb push /tmp/benchmark \
*5f39d1b3SJooyung Han /data/local/tmp && adb shell /data/local/tmp/benchmark
*5f39d1b3SJooyung Han Build and run this benchmark on Android/ARM/64bit:
*5f39d1b3SJooyung Han ~/android/toolchains/aarch64-linux-android/bin/aarch64-linux-android-clang++ \
*5f39d1b3SJooyung Han -fPIE -static -O3 --std=c++11 standalone/neon-gemm-kernel-benchmark.cc -o \
*5f39d1b3SJooyung Han /tmp/benchmark && adb push /tmp/benchmark /data/local/tmp && adb shell \
*5f39d1b3SJooyung Han /data/local/tmp/benchmark
*5f39d1b3SJooyung Han */
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// For big.LITTLE devices, use 'taskset' to select which cores to benchmark.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// The syntax is: taskset <mask> <commandline>
*5f39d1b3SJooyung Han// where mask is a binary mask where each bit corresponds to a core,
*5f39d1b3SJooyung Han// and low bits are little cores.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Examples:
*5f39d1b3SJooyung Han// Nexus 5X big cores: taskset 30
*5f39d1b3SJooyung Han// Nexus 5X little cores: taskset 0f
*5f39d1b3SJooyung Han// Pixel XL big cores: taskset 0c
*5f39d1b3SJooyung Han// Pixel XL little cores: taskset 03
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Full example:
*5f39d1b3SJooyung Han// adb shell taskset 0c /data/local/tmp/benchmark
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#include <sched.h>
*5f39d1b3SJooyung Han#include <unistd.h>
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#include <algorithm>
*5f39d1b3SJooyung Han#include <cassert>
*5f39d1b3SJooyung Han#include <cstdint>
*5f39d1b3SJooyung Han#include <cstdlib>
*5f39d1b3SJooyung Han#include <cstring>
*5f39d1b3SJooyung Han#include <iostream>
*5f39d1b3SJooyung Han#include <random>
*5f39d1b3SJooyung Han#include <type_traits>
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#if !defined(__arm__) && !defined(__aarch64__) && \
*5f39d1b3SJooyung Han  !(defined(__mips) && (__mips_isa_rev >= 5) && defined(__mips_msa))
*5f39d1b3SJooyung Han#error This benchmark assumes ARM or MIPS (for intrinsics and inline assembly sections).
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#if defined(__arm__) || defined(__aarch64__)
*5f39d1b3SJooyung Han#include <arm_neon.h>
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#if defined(__mips)
*5f39d1b3SJooyung Han#include <msa.h>
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Some convenience macros to hide differences between MIPS32 and MIPS64.
*5f39d1b3SJooyung Han#ifdef __LP64__
*5f39d1b3SJooyung Han#define GEMMLOWP_MIPS_XADDIU     "daddiu"
*5f39d1b3SJooyung Han#else
*5f39d1b3SJooyung Han#define GEMMLOWP_MIPS_XADDIU     "addiu"
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Typically one wants to fit in L1 cache, and GEMM implementations
*5f39d1b3SJooyung Han// are carefully optimized to tune their access patterns to that effect.
*5f39d1b3SJooyung Han// Most devices have at least 16k of L1 cache. The Kraits have exactly 16k.
*5f39d1b3SJooyung Hanconst int kDefaultCacheSizeK = 16;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanconst int kCacheLineSize = 64;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// These definitions are used for labels within assembly code. Required for
*5f39d1b3SJooyung Han// iOS toolchain compatibility.
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_AFTER_LOOP "1"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_LOOP "2"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_ACCUMULATE_EXISTING_DST_VALUES "3"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_STORE "4"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// BEGIN code copied from gemmlowp/internal/kernel.h
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Explanation of general gemmlowp terminology
*5f39d1b3SJooyung Han// ===========================================
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// We use the following abbreviations:
*5f39d1b3SJooyung Han// LHS = "left-hand side"
*5f39d1b3SJooyung Han// RHS = "right-hand side"
*5f39d1b3SJooyung Han// Sometimes when referring to either LHS or RHS, we just say a "Side".
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// In a matrix product of a MxK matrix times a KxN matrix,
*5f39d1b3SJooyung Han// we call K the 'depth'. Note that M is the number of rows
*5f39d1b3SJooyung Han// of the result (and of the LHS), and N is the number of columns
*5f39d1b3SJooyung Han// of the result (and of the RHS).
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// In each of the LHS and RHS matrices, we call 'width' the
*5f39d1b3SJooyung Han// other dimension, besides the depth. So in the LHS, 'width'
*5f39d1b3SJooyung Han// is the number of rows, while in the RHS, 'width' is the number
*5f39d1b3SJooyung Han// of columns.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han//  So in the LHS MxK matrix, the depth is K and the width in M.
*5f39d1b3SJooyung Han// And in the RHS KxN matrix, the depth is K and the width in N.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// This is illustrated in this picture:
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han//                             RHS width
*5f39d1b3SJooyung Han//                        <----------------->
*5f39d1b3SJooyung Han//                        +-----------------+ ^
*5f39d1b3SJooyung Han//                        |       RHS       | | Depth
*5f39d1b3SJooyung Han//                        +-----------------+ v
*5f39d1b3SJooyung Han//                 ^ +--+ +-----------------+
*5f39d1b3SJooyung Han//                 | |L | |                 |
*5f39d1b3SJooyung Han//       LHS width | |H | |      Result     |
*5f39d1b3SJooyung Han//                 | |S | |                 |
*5f39d1b3SJooyung Han//                 v +--+ +-----------------+
*5f39d1b3SJooyung Han//                   <-->
*5f39d1b3SJooyung Han//                   Depth
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Explanation of gemmlowp kernel formats and "cells"
*5f39d1b3SJooyung Han// ==================================================
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Kernels operate on small LHS and RHS blocks that fit in registers.
*5f39d1b3SJooyung Han// These blocks are stored contiguously in memory, but not always
*5f39d1b3SJooyung Han// in a traditional column-major or row-major order; instead,
*5f39d1b3SJooyung Han// they consist of a number of sub-blocks, which we call "cells",
*5f39d1b3SJooyung Han// that are stored in column-major or row-major order. However,
*5f39d1b3SJooyung Han// what really matters to us is not so much rows vs columns, but
*5f39d1b3SJooyung Han// rather width vs depth. So we refer to "width-major" and "depth-major"
*5f39d1b3SJooyung Han// storage orders. In the LHS, width-major means row-major,
*5f39d1b3SJooyung Han// while in the RHS, width-major means column-major.
*5f39d1b3SJooyung Han// There is also a third possibility, "diagonal order",
*5f39d1b3SJooyung Han// which is unused at the moment.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// We aim to treat both sides, LHS and RHS, on an equal footing,
*5f39d1b3SJooyung Han// so we call them both 'sides'. A KernelFormat thus is just a pair
*5f39d1b3SJooyung Han// of KernelSideFormat's, one for LHS and one for RHS; each KernelSideFormat
*5f39d1b3SJooyung Han// contains a CellFormat and a number of cells; cells are only ever
*5f39d1b3SJooyung Han// stacked in the width dimension, which means stacked vertically in the
*5f39d1b3SJooyung Han// LHS and stacked horizondally in the RHS.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Example
*5f39d1b3SJooyung Han// =======
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Let's work out the data layout expected by a kernel having the
*5f39d1b3SJooyung Han// following format (the struct names here are defined below in this file):
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// KernelFormat<
*5f39d1b3SJooyung Han//   KernelSideFormat<CellFormat<3, 4>, 3>,
*5f39d1b3SJooyung Han//   KernelSideFormat<CellFormat<5, 4>, 2>
*5f39d1b3SJooyung Han// >
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// The LHS format, KernelSideFormat<CellFormat<3, 4>, 3>, means:
*5f39d1b3SJooyung Han// 3 cells, each cell having dimensions (width=3, depth=4), laid out in
*5f39d1b3SJooyung Han// DepthMajor order (the default value, see CellFormat). In the LHS,
*5f39d1b3SJooyung Han// DepthMajor means column-major, so the LHS cells are of size 3x4 in
*5f39d1b3SJooyung Han// column-major order, so the LHS layout is:
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// 0  3  6  9
*5f39d1b3SJooyung Han// 1  4  7  10
*5f39d1b3SJooyung Han// 2  5  8  11
*5f39d1b3SJooyung Han// 12 15 18 21
*5f39d1b3SJooyung Han// 13 16 19 22
*5f39d1b3SJooyung Han// 14 17 20 23
*5f39d1b3SJooyung Han// 24 27 30 33
*5f39d1b3SJooyung Han// 25 28 31 34
*5f39d1b3SJooyung Han// 26 29 32 35
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// The RHS format, KernelSideFormat<CellFormat<5, 4>, 2>, means:
*5f39d1b3SJooyung Han// 2 cells each having dimensions (width=5, depth=4), laid out in
*5f39d1b3SJooyung Han// DepthMajor order (the default value, see CellFormat). In the RHS,
*5f39d1b3SJooyung Han// DepthMajor means row-major, so the RHS cells are of size 4x5 in
*5f39d1b3SJooyung Han// row-major order, so the RHS layout is:
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// 0  1  2  3  4  20 21 22 23 24
*5f39d1b3SJooyung Han// 5  6  7  8  9  25 26 27 28 29
*5f39d1b3SJooyung Han// 10 11 12 13 14 30 31 32 33 34
*5f39d1b3SJooyung Han// 15 16 17 18 19 35 36 37 38 39
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// CellOrder enumerates the possible storage orders (=layouts) for
*5f39d1b3SJooyung Han// a cell (see explanation above).
*5f39d1b3SJooyung Hanenum class CellOrder { DepthMajor, WidthMajor, Diagonal };
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// CellFormat describes how data is laid
*5f39d1b3SJooyung Han// out in a cell. That is, a CellOrder together with actual dimensions.
*5f39d1b3SJooyung Hantemplate <int tWidth, int tDepth, CellOrder tOrder>
*5f39d1b3SJooyung Hanstruct CellFormat {
*5f39d1b3SJooyung Han  static const int kWidth = tWidth;
*5f39d1b3SJooyung Han  static const int kDepth = tDepth;
*5f39d1b3SJooyung Han  static const CellOrder kOrder = tOrder;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static const int kSize = kWidth * kDepth;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// KernelSideFormat describes how data is laid out in a kernel side
*5f39d1b3SJooyung Han// (i.e. LHS or RHS). That is, a CellFormat together with a number of
*5f39d1b3SJooyung Han// cells. These cells are always stacked in the Width dimension.
*5f39d1b3SJooyung Han// For example, in the LHS case, the Width dimension is the rows dimension,
*5f39d1b3SJooyung Han// se we're saying that in the LHS, cells are stacked vertically.
*5f39d1b3SJooyung Han// We never stack cells in the Depth dimension.
*5f39d1b3SJooyung Hantemplate <typename tCellFormat, int tCells>
*5f39d1b3SJooyung Hanstruct KernelSideFormat {
*5f39d1b3SJooyung Han  typedef tCellFormat Cell;
*5f39d1b3SJooyung Han  static const int kCells = tCells;
*5f39d1b3SJooyung Han  static const int kWidth = kCells * Cell::kWidth;
*5f39d1b3SJooyung Han  static const int kDepth = Cell::kDepth;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// KernelFormat describes fully the input data layout that a kernel expects.
*5f39d1b3SJooyung Han// It consists of two KernelSideFormat's, one for LHS and one for RHS.
*5f39d1b3SJooyung Hantemplate <typename tLhs, typename tRhs>
*5f39d1b3SJooyung Hanstruct KernelFormat {
*5f39d1b3SJooyung Han  typedef tLhs Lhs;
*5f39d1b3SJooyung Han  typedef tRhs Rhs;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static_assert(Lhs::Cell::kDepth == Rhs::Cell::kDepth, "");
*5f39d1b3SJooyung Han  static const int kDepth = Lhs::Cell::kDepth;
*5f39d1b3SJooyung Han  static const int kRows = Lhs::Cell::kWidth * Lhs::kCells;
*5f39d1b3SJooyung Han  static const int kCols = Rhs::Cell::kWidth * Rhs::kCells;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// KernelOperandRanges specifies the minimum and maximum values an operand can
*5f39d1b3SJooyung Han// take. It consists of two ranges: one for the LHS and one for the RHS. The
*5f39d1b3SJooyung Han// default values are the minimum and maximum values of the operand data type.
*5f39d1b3SJooyung Hantemplate <typename Kernel, typename OperandType = typename Kernel::OperandType>
*5f39d1b3SJooyung Hanstruct KernelOperandRanges {
*5f39d1b3SJooyung Han  static OperandType LhsMin() {
*5f39d1b3SJooyung Han    return std::numeric_limits<OperandType>::lowest();
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han  static OperandType LhsMax() {
*5f39d1b3SJooyung Han    return std::numeric_limits<OperandType>::max();
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han  static OperandType RhsMin() {
*5f39d1b3SJooyung Han    return std::numeric_limits<OperandType>::lowest();
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han  static OperandType RhsMax() {
*5f39d1b3SJooyung Han    return std::numeric_limits<OperandType>::max();
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename Kernel>
*5f39d1b3SJooyung Hanstruct KernelOperandRanges<Kernel, float> {
*5f39d1b3SJooyung Han  static float LhsMin() { return -100.f; }
*5f39d1b3SJooyung Han  static float LhsMax() { return 100.f; }
*5f39d1b3SJooyung Han  static float RhsMin() { return -100.f; }
*5f39d1b3SJooyung Han  static float RhsMax() { return 100.f; }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#define SET_7BIT_RANGES(kernel) \
*5f39d1b3SJooyung Hantemplate <> \
*5f39d1b3SJooyung Hanstruct KernelOperandRanges<kernel, std::int8_t> { \
*5f39d1b3SJooyung Han  static std::int8_t LhsMin() { return -63; } \
*5f39d1b3SJooyung Han  static std::int8_t LhsMax() { return 63; } \
*5f39d1b3SJooyung Han  static std::int8_t RhsMin() { return -64; } \
*5f39d1b3SJooyung Han  static std::int8_t RhsMax() { return 63; } \
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#define SET_425BIT_RANGES(kernel) \
*5f39d1b3SJooyung Hantemplate <> \
*5f39d1b3SJooyung Hanstruct KernelOperandRanges<kernel, std::int8_t> { \
*5f39d1b3SJooyung Han  static std::int8_t LhsMin() { return -7; } \
*5f39d1b3SJooyung Han  static std::int8_t LhsMax() { return 7; } \
*5f39d1b3SJooyung Han  static std::int8_t RhsMin() { return -9; } \
*5f39d1b3SJooyung Han  static std::int8_t RhsMax() { return 9; } \
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Haninline const char* CellOrderName(CellOrder o) {
*5f39d1b3SJooyung Han  switch (o) {
*5f39d1b3SJooyung Han    case CellOrder::DepthMajor:
*5f39d1b3SJooyung Han      return "DepthMajor";
*5f39d1b3SJooyung Han    case CellOrder::WidthMajor:
*5f39d1b3SJooyung Han      return "WidthMajor";
*5f39d1b3SJooyung Han    case CellOrder::Diagonal:
*5f39d1b3SJooyung Han      return "Diagonal";
*5f39d1b3SJooyung Han    default:
*5f39d1b3SJooyung Han      assert(false);
*5f39d1b3SJooyung Han      return nullptr;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Returns the offset into a cell, at which a given coefficient is stored.
*5f39d1b3SJooyung Hantemplate <typename CellFormat>
*5f39d1b3SJooyung Haninline int OffsetIntoCell(int w, int d) {
*5f39d1b3SJooyung Han  switch (CellFormat::kOrder) {
*5f39d1b3SJooyung Han    case CellOrder::DepthMajor:
*5f39d1b3SJooyung Han      return w + d * CellFormat::kWidth;
*5f39d1b3SJooyung Han    case CellOrder::WidthMajor:
*5f39d1b3SJooyung Han      return d + w * CellFormat::kDepth;
*5f39d1b3SJooyung Han    case CellOrder::Diagonal:
*5f39d1b3SJooyung Han      assert(CellFormat::kWidth == CellFormat::kDepth);
*5f39d1b3SJooyung Han      static const int size = CellFormat::kWidth;
*5f39d1b3SJooyung Han      return ((size + w - d) * size + d) % (size * size);
*5f39d1b3SJooyung Han    default:
*5f39d1b3SJooyung Han      assert(false);
*5f39d1b3SJooyung Han      return 0;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// END code copied from gemmlowp/internal/kernel.h
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifdef __arm__
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// This is the current standard kernel in gemmlowp, see:
*5f39d1b3SJooyung Han// https://github.com/google/gemmlowp/blob/b1e2a29ff866680028f3080efc244e10e8dd7f46/internal/kernel_neon.h#L33
*5f39d1b3SJooyung Hanstruct NEON_32bit_GEMM_Uint8Operands_Uint32Accumulators {
*5f39d1b3SJooyung Han  typedef std::uint8_t OperandType;
*5f39d1b3SJooyung Han  typedef std::uint32_t AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 2, CellOrder::DepthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 2, CellOrder::DepthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load 1 Rhs cell of size 2x4
*5f39d1b3SJooyung Han        "vld1.8 {d0}, [%[rhs_ptr]]!\n"
*5f39d1b3SJooyung Han        // Load 3 Lhs cells of size 4x2 each
*5f39d1b3SJooyung Han        "vld1.8 {d2}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vld1.8 {d4}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vld1.8 {d6}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov r0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "vld1.32 {d8, d9},   [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d24, d25}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d10, d11}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d18, d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d26, d27}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d12, d13}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d20, d21}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d28, d29}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d14, d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d22, d23}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d30, d31}, [r0]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "subs %[depth], #2\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "beq " GEMMLOWP_LABEL_AFTER_LOOP "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han        // Overview of register layout:
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 2x4 cell of Rhs is stored in 16bit in d0--d1 (q0).
*5f39d1b3SJooyung Han        // A 12x2 block of 3 4x2 cells Lhs is stored in 16bit in d2--d7
*5f39d1b3SJooyung Han        // (q1--q3).
*5f39d1b3SJooyung Han        // A 12x4 block of accumulators is stored in 32bit in q4--q15.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                   +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //                   |d0[0]|d0[1]|d0[2]|d0[3]|
*5f39d1b3SJooyung Han        //              Rhs  +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //                   |d1[0]|d1[1]|d1[2]|d1[3]|
*5f39d1b3SJooyung Han        //                   +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                   |     |     |     |     |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //    Lhs            |     |     |     |     |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //  +--+--+ - - - -  +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //  |d2|d3|          | q4  | q5  | q6  | q7  |
*5f39d1b3SJooyung Han        //  |d2|d3|          | q4  | q5  | q6  | q7  |
*5f39d1b3SJooyung Han        //  |d2|d3|          | q4  | q5  | q6  | q7  |
*5f39d1b3SJooyung Han        //  |d2|d3|          | q4  | q5  | q6  | q7  |
*5f39d1b3SJooyung Han        //  +--+--+ - - - -  +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //  |d4|d5|          | q8  | q9  | q10 | q11 |
*5f39d1b3SJooyung Han        //  |d4|d5|          | q8  | q9  | q10 | q11 |
*5f39d1b3SJooyung Han        //  |d4|d5|          | q8  | q9  | q10 | q11 |
*5f39d1b3SJooyung Han        //  |d4|d5|          | q8  | q9  | q10 | q11 |
*5f39d1b3SJooyung Han        //  +--+--+ - - - -  +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //  |d6|d7|          | q12 | q13 | q14 | q15 |
*5f39d1b3SJooyung Han        //  |d6|d7|          | q12 | q13 | q14 | q15 |
*5f39d1b3SJooyung Han        //  |d6|d7|          | q12 | q13 | q14 | q15 |
*5f39d1b3SJooyung Han        //  |d6|d7|          | q12 | q13 | q14 | q15 |
*5f39d1b3SJooyung Han        //  +--+--+ - - - -  +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                            Accumulator
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Expand Lhs/Rhs cells to 16 bit.
*5f39d1b3SJooyung Han        // Note: moving theses vmovls further down to allow for
*5f39d1b3SJooyung Han        // longer data pipelining helps a little on A57 but is
*5f39d1b3SJooyung Han        // harmful on A53 --- It looks as if A53 doesn't like
*5f39d1b3SJooyung Han        // interleaving vmovl's into the vmlal's.
*5f39d1b3SJooyung Han        "vmovl.u8 q0, d0\n"
*5f39d1b3SJooyung Han        "vmovl.u8 q1, d2\n"
*5f39d1b3SJooyung Han        "vmovl.u8 q2, d4\n"
*5f39d1b3SJooyung Han        "vmovl.u8 q3, d6\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate, level of depth 0
*5f39d1b3SJooyung Han        "vmlal.u16 q4, d2, d0[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q5, d2, d0[1]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q6, d2, d0[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q7, d2, d0[3]\n"
*5f39d1b3SJooyung Han        "vldr d2, [%[lhs_ptr]]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q8, d4, d0[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q9, d4, d0[1]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q10, d4, d0[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q11, d4, d0[3]\n"
*5f39d1b3SJooyung Han        "vldr d4, [%[lhs_ptr], #8]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q12, d6, d0[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q13, d6, d0[1]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q14, d6, d0[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q15, d6, d0[3]\n"
*5f39d1b3SJooyung Han        "vldr d6, [%[lhs_ptr], #16]\n"
*5f39d1b3SJooyung Han        "vldr d0, [%[rhs_ptr]]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate, level of depth 1
*5f39d1b3SJooyung Han        "vmlal.u16 q4, d3, d1[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q5, d3, d1[1]\n"
*5f39d1b3SJooyung Han        "add %[lhs_ptr], #24\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q6, d3, d1[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q7, d3, d1[3]\n"
*5f39d1b3SJooyung Han        "add %[rhs_ptr], #8\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q8, d5, d1[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q9, d5, d1[1]\n"
*5f39d1b3SJooyung Han        "subs %[depth], #2\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q10, d5, d1[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q11, d5, d1[3]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q12, d7, d1[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q13, d7, d1[1]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q14, d7, d1[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q15, d7, d1[3]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_AFTER_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Expand Lhs/Rhs cells to 16 bit.
*5f39d1b3SJooyung Han        "vmovl.u8 q0, d0\n"
*5f39d1b3SJooyung Han        "vmovl.u8 q1, d2\n"
*5f39d1b3SJooyung Han        "vmovl.u8 q2, d4\n"
*5f39d1b3SJooyung Han        "vmovl.u8 q3, d6\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate, level of depth 0
*5f39d1b3SJooyung Han        "vmlal.u16 q4, d2, d0[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q5, d2, d0[1]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q6, d2, d0[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q7, d2, d0[3]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q8, d4, d0[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q9, d4, d0[1]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q10, d4, d0[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q11, d4, d0[3]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q12, d6, d0[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q13, d6, d0[1]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q14, d6, d0[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q15, d6, d0[3]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate, level of depth 1
*5f39d1b3SJooyung Han        "vmlal.u16 q4, d3, d1[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q5, d3, d1[1]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q6, d3, d1[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q7, d3, d1[3]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q8, d5, d1[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q9, d5, d1[1]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q10, d5, d1[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q11, d5, d1[3]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q12, d7, d1[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q13, d7, d1[1]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q14, d7, d1[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q15, d7, d1[3]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov r0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "vst1.32 {d8, d9},   [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d24, d25}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d10, d11}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d18, d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d26, d27}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d12, d13}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d20, d21}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d28, d29}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d14, d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d22, d23}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d30, d31}, [r0]!\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "r0", "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7",
*5f39d1b3SJooyung Han        "d8", "d9", "d10", "d11", "d12", "d13", "d14", "d15", "d16", "d17",
*5f39d1b3SJooyung Han        "d18", "d19", "d20", "d21", "d22", "d23", "d24", "d25", "d26", "d27",
*5f39d1b3SJooyung Han        "d28", "d29", "d30", "d31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// This is Maciek Chociej's fast kernel not expanding operands,
*5f39d1b3SJooyung Han// from gemmlowp/meta/. Search for
*5f39d1b3SJooyung Han//      mul_3x8_3x8_int32_lhsadd_rhsadd
*5f39d1b3SJooyung Han// in this file:
*5f39d1b3SJooyung Han// https://raw.githubusercontent.com/google/gemmlowp/e4b9d858b6637d5d0058bfa3d869d2b95864251b/meta/single_thread_gemm.h
*5f39d1b3SJooyung Hanstruct NEON_32bit_GEMM_Uint8Operands_Uint32Accumulators_noexpand {
*5f39d1b3SJooyung Han  typedef std::uint8_t OperandType;
*5f39d1b3SJooyung Han  typedef std::uint32_t AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<3, 8, CellOrder::WidthMajor>, 1>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<3, 8, CellOrder::WidthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Clear aggregators.
*5f39d1b3SJooyung Han        "vmov.i32 q0, #0\n"
*5f39d1b3SJooyung Han        "vmov.i32 q1, #0\n"
*5f39d1b3SJooyung Han        "vmov.i32 q2, #0\n"
*5f39d1b3SJooyung Han        "vmov.i32 q3, q0\n"
*5f39d1b3SJooyung Han        "vmov.i32 q4, q1\n"
*5f39d1b3SJooyung Han        "vmov.i32 q5, q2\n"
*5f39d1b3SJooyung Han        "vmov.i32 q6, q3\n"
*5f39d1b3SJooyung Han        "vmov.i32 q7, q4\n"
*5f39d1b3SJooyung Han        "vmov.i32 q8, q5\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Loop head
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Subtract counter.
*5f39d1b3SJooyung Han        "subs %[depth], %[depth], #8\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "vld1.8 {d18, d19, d20}, [%[rhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vld1.8 {d21, d22, d23}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vmull.u8 q12, d18, d21\n"
*5f39d1b3SJooyung Han        "vmull.u8 q13, d18, d22\n"
*5f39d1b3SJooyung Han        "vmull.u8 q14, d18, d23\n"
*5f39d1b3SJooyung Han        "vmull.u8 q15, d19, d21\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q0, q12\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q1, q13\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q2, q14\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q3, q15\n"
*5f39d1b3SJooyung Han        "vmull.u8 q12, d19, d22\n"
*5f39d1b3SJooyung Han        "vmull.u8 q13, d19, d23\n"
*5f39d1b3SJooyung Han        "vmull.u8 q14, d20, d21\n"
*5f39d1b3SJooyung Han        "vmull.u8 q15, d20, d22\n"
*5f39d1b3SJooyung Han        "vmull.u8 q9, d20, d23\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q4, q12\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q5, q13\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q6, q14\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q7, q15\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q8, q9\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Loop branch
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Horizontal reduce aggregators, step 1
*5f39d1b3SJooyung Han        "vpadd.u32 d0, d0, d1\n"
*5f39d1b3SJooyung Han        "vpadd.u32 d2, d2, d3\n"
*5f39d1b3SJooyung Han        "vpadd.u32 d4, d4, d5\n"
*5f39d1b3SJooyung Han        "vpadd.u32 d6, d6, d7\n"
*5f39d1b3SJooyung Han        "vpadd.u32 d8, d8, d9\n"
*5f39d1b3SJooyung Han        "vpadd.u32 d10, d10, d11\n"
*5f39d1b3SJooyung Han        "vpadd.u32 d12, d12, d13\n"
*5f39d1b3SJooyung Han        "vpadd.u32 d14, d14, d15\n"
*5f39d1b3SJooyung Han        "vpadd.u32 d16, d16, d17\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Horizontal reduce aggregators, step 2
*5f39d1b3SJooyung Han        "vpadd.u32 d0, d0, d2\n"
*5f39d1b3SJooyung Han        "vpadd.u32 d1, d4, d4\n"
*5f39d1b3SJooyung Han        "vpadd.u32 d6, d6, d8\n"
*5f39d1b3SJooyung Han        "vpadd.u32 d7, d10, d10\n"
*5f39d1b3SJooyung Han        "vpadd.u32 d12, d12, d14\n"
*5f39d1b3SJooyung Han        "vpadd.u32 d13, d16, d16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov r0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "vld1.32 {d2}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d3[0]}, [r0]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "vld1.32 {d8}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d9[0]}, [r0]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "vld1.32 {d14}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d15[0]}, [r0]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Accumulate
*5f39d1b3SJooyung Han        "vadd.s32 q0, q0, q1\n"
*5f39d1b3SJooyung Han        "vadd.s32 q3, q3, q4\n"
*5f39d1b3SJooyung Han        "vadd.s32 q6, q6, q7\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov r0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "vst1.32 {d0}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d1[0]}, [r0]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "vst1.32 {d6}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d7[0]}, [r0]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "vst1.32 {d12}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d13[0]}, [r0]!\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "r0", "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7",
*5f39d1b3SJooyung Han        "d8", "d9", "d10", "d11", "d12", "d13", "d14", "d15", "d16", "d17",
*5f39d1b3SJooyung Han        "d18", "d19", "d20", "d21", "d22", "d23", "d24", "d25", "d26", "d27",
*5f39d1b3SJooyung Han        "d28", "d29", "d30", "d31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Fast kernel operating on int8 operands.
*5f39d1b3SJooyung Han// It is assumed that one of the two int8 operands only takes values
*5f39d1b3SJooyung Han// in [-127, 127], while the other may freely range in [-128, 127].
*5f39d1b3SJooyung Han// The issue with both operands taking the value -128 is that:
*5f39d1b3SJooyung Han// -128*-128 + -128*-128 == -32768 overflows int16.
*5f39d1b3SJooyung Han// Every other expression a*b + c*d, for any int8 a,b,c,d, fits in int16
*5f39d1b3SJooyung Han// range. That is the basic idea of this kernel.
*5f39d1b3SJooyung Hanstruct NEON_32bit_GEMM_Int8Operands_AccumTwoWithin16Bits {
*5f39d1b3SJooyung Han  typedef std::int8_t OperandType;
*5f39d1b3SJooyung Han  typedef std::int32_t AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 16, CellOrder::WidthMajor>, 1>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<2, 16, CellOrder::WidthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    std::size_t start_depth = 123;
*5f39d1b3SJooyung Han    std::size_t run_depth = depth;
*5f39d1b3SJooyung Han    AccumulatorType* dst_ptr = accum_ptr;
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Overview of register layout:
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 2x16 block of Rhs is stored in 8 bit in d0--d3.
*5f39d1b3SJooyung Han        // A 4x16 block of Lhs is stored in 8 bit in d4--d7. That is only
*5f39d1b3SJooyung Han        // half of the register space required, so we loop over these registers
*5f39d1b3SJooyung Han        // twice. Only half of it, a 2x16 block, is stored in d4--d7 at
*5f39d1b3SJooyung Han        // any given time.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 4x2 block of accumulators is stored in q8--q15 (as 4x32 bit
*5f39d1b3SJooyung Han        // components which need to be horizontally-added at the end)
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // The Lhs vectors are multiplied by the Rhs vectors with a widening
*5f39d1b3SJooyung Han        // multiply over the 8 first levels of depth, producing int16x8
*5f39d1b3SJooyung Han        // vectors of products for each position in the accumulator matrix.
*5f39d1b3SJooyung Han        // Here comes the special trick: since the operands are signed int8,
*5f39d1b3SJooyung Han        // their range being [ -2^7 , 2^7 ), their products are in range
*5f39d1b3SJooyung Han        // [ -2^14 , 2^14 - 1 ), meaning that we can add two such values
*5f39d1b3SJooyung Han        // without any risk of overflowing int16.
*5f39d1b3SJooyung Han        // We thus proceed with the 8 next levels of depth, multiplying
*5f39d1b3SJooyung Han        // again Lhs by Rhs, accumulating into this existing int16x8 vector.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Only then, having processed 16 levels of depth, do we need to
*5f39d1b3SJooyung Han        // horizontally add these int16x8 accumulators into the final
*5f39d1b3SJooyung Han        // int32x4 accumulators.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // As we do not have enough registers to store all 16 int16x8
*5f39d1b3SJooyung Han        // temporary-16bit-accumulators, we have them cycle through q4--q7.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Register layout (ignoring the q4--q7 temporary 16bit accumulators):
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                               +----+----+
*5f39d1b3SJooyung Han        //                               | d0 | d2 |
*5f39d1b3SJooyung Han        //                               | .  | .  |
*5f39d1b3SJooyung Han        //                               | .  | .  |
*5f39d1b3SJooyung Han        //                               | .  | .  |
*5f39d1b3SJooyung Han        //                       Rhs     +----+----+
*5f39d1b3SJooyung Han        //                               | d1 | d3 |
*5f39d1b3SJooyung Han        //                               | .  | .  |
*5f39d1b3SJooyung Han        //                               | .  | .  |
*5f39d1b3SJooyung Han        //                               | .  | .  |
*5f39d1b3SJooyung Han        //                               +----+----+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                               |    |    |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //    Lhs                        |    |    |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //  +--------+--------+ - - - -  +----+----+
*5f39d1b3SJooyung Han        //  | d4 ... | d5 ... |          | q8 | q9 |
*5f39d1b3SJooyung Han        //  | d6 ... | d7 ... |          | q10| q11|
*5f39d1b3SJooyung Han        //  | d4 ... | d5 ... |          | q12| q13|
*5f39d1b3SJooyung Han        //  | d6 ... | d7 ... |          | q14| q15|
*5f39d1b3SJooyung Han        //  +--------+--------+ - - - -  +----+----+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                               Accumulator
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Clear accumulators, and, interleaved with it,
*5f39d1b3SJooyung Han        // initial loads of the first loop iteration,
*5f39d1b3SJooyung Han        // taken out of the loop so that in the loop itself we have
*5f39d1b3SJooyung Han        // optimal streaming of data from memory.
*5f39d1b3SJooyung Han        "vldr d0, [%[rhs_ptr], #0]\n"
*5f39d1b3SJooyung Han        "vmov.i32 q8, #0\n"
*5f39d1b3SJooyung Han        "vldr d4, [%[lhs_ptr], #0]\n"
*5f39d1b3SJooyung Han        "vmov.i32 q9, #0\n"
*5f39d1b3SJooyung Han        "vldr d2, [%[rhs_ptr], #16]\n"
*5f39d1b3SJooyung Han        "vmov.i32 q10, q8\n"
*5f39d1b3SJooyung Han        "vldr d6, [%[lhs_ptr], #16]\n"
*5f39d1b3SJooyung Han        "vmov.i32 q11, q8\n"
*5f39d1b3SJooyung Han        "vldr d1, [%[rhs_ptr], #8]\n"
*5f39d1b3SJooyung Han        "vmov.i32 q12, q8\n"
*5f39d1b3SJooyung Han        "vldr d5, [%[lhs_ptr], #8]\n"
*5f39d1b3SJooyung Han        "vmov.i32 q13, q8\n"
*5f39d1b3SJooyung Han        "vldr d3, [%[rhs_ptr], #24]\n"
*5f39d1b3SJooyung Han        "vmov.i32 q14, q8\n"
*5f39d1b3SJooyung Han        "vldr d7, [%[lhs_ptr], #24]\n"
*5f39d1b3SJooyung Han        "vmov.i32 q15, q8\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // General loop.
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply 8 first levels of depth.
*5f39d1b3SJooyung Han        "vmull.s8    q4,  d0,  d4\n"
*5f39d1b3SJooyung Han        "add %[rhs_ptr], %[rhs_ptr], #32\n"
*5f39d1b3SJooyung Han        "vmull.s8    q5,  d2,  d4\n"
*5f39d1b3SJooyung Han        "vldr d4, [%[lhs_ptr], #32]\n"
*5f39d1b3SJooyung Han        "vmull.s8    q6,  d0,  d6\n"
*5f39d1b3SJooyung Han        "vmull.s8    q7,  d2,  d6\n"
*5f39d1b3SJooyung Han        "vldr d6, [%[lhs_ptr], #48]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate second-half, again into the same
*5f39d1b3SJooyung Han        // 16bit local accumulator registers. This is where we
*5f39d1b3SJooyung Han        // take advantage of having int8 instead of uint8 and therefore
*5f39d1b3SJooyung Han        // being able to accumulate two products into int16.
*5f39d1b3SJooyung Han        "vmlal.s8    q4,  d1,  d5\n"
*5f39d1b3SJooyung Han        "vmlal.s8    q5,  d3,  d5\n"
*5f39d1b3SJooyung Han        "vldr d5, [%[lhs_ptr], #40]\n"
*5f39d1b3SJooyung Han        "vmlal.s8    q6,  d1,  d7\n"
*5f39d1b3SJooyung Han        "vmlal.s8    q7,  d3,  d7\n"
*5f39d1b3SJooyung Han        "vldr d7, [%[lhs_ptr], #56]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Add pairwise, accumulate into 32-bit accumulators.
*5f39d1b3SJooyung Han        "vpadal.s16   q8,  q4\n"
*5f39d1b3SJooyung Han        "add %[lhs_ptr], %[lhs_ptr], #64\n"
*5f39d1b3SJooyung Han        "vpadal.s16   q9,  q5\n"
*5f39d1b3SJooyung Han        "subs %[run_depth], %[run_depth], #16\n"
*5f39d1b3SJooyung Han        "vpadal.s16   q10, q6\n"
*5f39d1b3SJooyung Han        "vpadal.s16   q11, q7\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "beq " GEMMLOWP_LABEL_AFTER_LOOP
*5f39d1b3SJooyung Han        "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply first half.
*5f39d1b3SJooyung Han        "vmull.s8    q4,  d0,  d4\n"
*5f39d1b3SJooyung Han        "vmull.s8    q5,  d2,  d4\n"
*5f39d1b3SJooyung Han        "vldr d4, [%[lhs_ptr], #0]\n"
*5f39d1b3SJooyung Han        "vmull.s8    q6,  d0,  d6\n"
*5f39d1b3SJooyung Han        "vldr d0, [%[rhs_ptr], #0]\n"
*5f39d1b3SJooyung Han        "vmull.s8    q7,  d2,  d6\n"
*5f39d1b3SJooyung Han        "vldr d2, [%[rhs_ptr], #16]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate second-half, again into the same
*5f39d1b3SJooyung Han        // 16bit local accumulator registers. This is where we
*5f39d1b3SJooyung Han        // take advantage of having int8 instead of uint8 and therefore
*5f39d1b3SJooyung Han        // being able to accumulate two products into int16.
*5f39d1b3SJooyung Han        "vmlal.s8    q4,  d1,  d5\n"
*5f39d1b3SJooyung Han        "vldr d6, [%[lhs_ptr], #16]\n"
*5f39d1b3SJooyung Han        "vmlal.s8    q5,  d3,  d5\n"
*5f39d1b3SJooyung Han        "vldr d5, [%[lhs_ptr], #8]\n"
*5f39d1b3SJooyung Han        "vmlal.s8    q6,  d1,  d7\n"
*5f39d1b3SJooyung Han        "vldr d1, [%[rhs_ptr], #8]\n"
*5f39d1b3SJooyung Han        "vmlal.s8    q7,  d3,  d7\n"
*5f39d1b3SJooyung Han        "vldr d3, [%[rhs_ptr], #24]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Add pairwise, accumulate into 32-bit accumulators.
*5f39d1b3SJooyung Han        "vpadal.s16   q12, q4\n"
*5f39d1b3SJooyung Han        "vldr d7, [%[lhs_ptr], #24]\n"
*5f39d1b3SJooyung Han        "vpadal.s16   q13, q5\n"
*5f39d1b3SJooyung Han        "vpadal.s16   q14, q6\n"
*5f39d1b3SJooyung Han        "vpadal.s16   q15, q7\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "b " GEMMLOWP_LABEL_LOOP "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_AFTER_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply first half.
*5f39d1b3SJooyung Han        "vmull.s8    q4,  d0,  d4\n"
*5f39d1b3SJooyung Han        "vmull.s8    q5,  d2,  d4\n"
*5f39d1b3SJooyung Han        "vmull.s8    q6,  d0,  d6\n"
*5f39d1b3SJooyung Han        "vmull.s8    q7,  d2,  d6\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate second-half, again into the same
*5f39d1b3SJooyung Han        // 16bit local accumulator registers. This is where we
*5f39d1b3SJooyung Han        // take advantage of having int8 instead of uint8 and therefore
*5f39d1b3SJooyung Han        // being able to accumulate two products into int16.
*5f39d1b3SJooyung Han        "vmlal.s8    q4,  d1,  d5\n"
*5f39d1b3SJooyung Han        "vmlal.s8    q5,  d3,  d5\n"
*5f39d1b3SJooyung Han        "vmlal.s8    q6,  d1,  d7\n"
*5f39d1b3SJooyung Han        "vmlal.s8    q7,  d3,  d7\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Add pairwise, accumulate into 32-bit accumulators.
*5f39d1b3SJooyung Han        "vpadal.s16   q12, q4\n"
*5f39d1b3SJooyung Han        "vpadal.s16   q13, q5\n"
*5f39d1b3SJooyung Han        "vpadal.s16   q14, q6\n"
*5f39d1b3SJooyung Han        "vpadal.s16   q15, q7\n"
*5f39d1b3SJooyung Han        "cmp %[start_depth], #0\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Reduce 32bit accumulators horizontally.
*5f39d1b3SJooyung Han        "vpadd.s32 d0, d16, d17\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d1, d18, d19\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d2, d20, d21\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d3, d22, d23\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d4, d24, d25\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d5, d26, d27\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d6, d28, d29\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d7, d30, d31\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_ACCUMULATE_EXISTING_DST_VALUES
*5f39d1b3SJooyung Han        "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Reduce 32bit accumulators horizontally, second pass
*5f39d1b3SJooyung Han        // (each pass adds pairwise. we need to add 4-wise).
*5f39d1b3SJooyung Han        "vpadd.s32 d8, d0, d2\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d9, d4, d6\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d10, d1, d3\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d11, d5, d7\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "b " GEMMLOWP_LABEL_STORE "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_ACCUMULATE_EXISTING_DST_VALUES
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Reduce 32bit accumulators horizontally, second pass
*5f39d1b3SJooyung Han        // (each pass adds pairwise. we need to add 4-wise),
*5f39d1b3SJooyung Han        // and load destination values from memory.
*5f39d1b3SJooyung Han        "mov r0, %[dst_ptr]\n"
*5f39d1b3SJooyung Han        "vld1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d8, d0, d2\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d9, d4, d6\n"
*5f39d1b3SJooyung Han        "vld1.32 {d18, d19}, [r0]\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d10, d1, d3\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d11, d5, d7\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Add horizontally-reduced accumulators into
*5f39d1b3SJooyung Han        // the values loaded from memory
*5f39d1b3SJooyung Han        "vadd.s32 q4, q8, q4\n"
*5f39d1b3SJooyung Han        "vadd.s32 q5, q9, q5\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_STORE
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han        // Store back into memory
*5f39d1b3SJooyung Han        "mov r0, %[dst_ptr]\n"
*5f39d1b3SJooyung Han        "vst1.32 {d8, d9}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d10, d11}, [r0]\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [dst_ptr] "+r"(dst_ptr), [run_depth] "+r"(run_depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [start_depth] "r"(start_depth)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "r0", "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7",
*5f39d1b3SJooyung Han        "d8", "d9", "d10", "d11", "d12", "d13", "d14", "d15", "d16", "d17",
*5f39d1b3SJooyung Han        "d18", "d19", "d20", "d21", "d22", "d23", "d24", "d25", "d26", "d27",
*5f39d1b3SJooyung Han        "d28", "d29", "d30", "d31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// We don't actually use int32*int32 in production. This is just an
*5f39d1b3SJooyung Han// experiment to help dissociate the effect of integer-vs-float, from the
*5f39d1b3SJooyung Han// effect of operands width.
*5f39d1b3SJooyung Hanstruct NEON_32bit_GEMM_Int32_WithScalar {
*5f39d1b3SJooyung Han  typedef std::int32_t OperandType;
*5f39d1b3SJooyung Han  typedef std::int32_t AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov r0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "vld1.32 {d8, d9},   [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d24, d25}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d10, d11}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d18, d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d26, d27}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d12, d13}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d20, d21}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d28, d29}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d14, d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d22, d23}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d30, d31}, [r0]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 1 Rhs cell of size 1x4
*5f39d1b3SJooyung Han        "vld1.32 {d0, d1}, [%[rhs_ptr]]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 3 Lhs cells of size 4x1 each
*5f39d1b3SJooyung Han        "vld1.32 {d2, d3}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d4, d5}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d6, d7}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate
*5f39d1b3SJooyung Han        "vmla.s32 q4, q1, d0[0]\n"
*5f39d1b3SJooyung Han        "vmla.s32 q5, q1, d0[1]\n"
*5f39d1b3SJooyung Han        "vmla.s32 q6, q1, d1[0]\n"
*5f39d1b3SJooyung Han        "vmla.s32 q7, q1, d1[1]\n"
*5f39d1b3SJooyung Han        "vmla.s32 q8, q2, d0[0]\n"
*5f39d1b3SJooyung Han        "vmla.s32 q9, q2, d0[1]\n"
*5f39d1b3SJooyung Han        "vmla.s32 q10, q2, d1[0]\n"
*5f39d1b3SJooyung Han        "vmla.s32 q11, q2, d1[1]\n"
*5f39d1b3SJooyung Han        "vmla.s32 q12, q3, d0[0]\n"
*5f39d1b3SJooyung Han        "vmla.s32 q13, q3, d0[1]\n"
*5f39d1b3SJooyung Han        "vmla.s32 q14, q3, d1[0]\n"
*5f39d1b3SJooyung Han        "vmla.s32 q15, q3, d1[1]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Loop. Decrement loop index (depth) by 1, since we just handled 1
*5f39d1b3SJooyung Han        // level of depth.
*5f39d1b3SJooyung Han        "subs %[depth], #1\n"
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov r0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "vst1.32 {d8, d9},   [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d24, d25}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d10, d11}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d18, d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d26, d27}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d12, d13}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d20, d21}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d28, d29}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d14, d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d22, d23}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d30, d31}, [r0]!\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "r0", "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7",
*5f39d1b3SJooyung Han        "d8", "d9", "d10", "d11", "d12", "d13", "d14", "d15", "d16", "d17",
*5f39d1b3SJooyung Han        "d18", "d19", "d20", "d21", "d22", "d23", "d24", "d25", "d26", "d27",
*5f39d1b3SJooyung Han        "d28", "d29", "d30", "d31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Not very efficient kernel, just an experiment to see what we can do
*5f39d1b3SJooyung Han// without using NEON multiply-with-scalar instructions.
*5f39d1b3SJooyung Hanstruct NEON_32bit_GEMM_Float32_MLA_WithVectorDuplicatingScalar {
*5f39d1b3SJooyung Han  typedef float OperandType;
*5f39d1b3SJooyung Han  typedef float AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov r0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "vld1.32 {d8, d9},   [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d24, d25}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d10, d11}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d18, d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d26, d27}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d12, d13}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d20, d21}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d28, d29}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d14, d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d22, d23}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d30, d31}, [r0]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 3 Lhs cells of size 4x1 each
*5f39d1b3SJooyung Han        "vld1.32 {d2, d3}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d4, d5}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d6, d7}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate
*5f39d1b3SJooyung Han        "vld1.32 {d0[], d1[]}, [%[rhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vmla.f32 q4, q1, q0\n"
*5f39d1b3SJooyung Han        "vmla.f32 q8, q2, q0\n"
*5f39d1b3SJooyung Han        "vmla.f32 q12, q3, q0\n"
*5f39d1b3SJooyung Han        "vld1.32 {d0[], d1[]}, [%[rhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vmla.f32 q5, q1, q0\n"
*5f39d1b3SJooyung Han        "vmla.f32 q9, q2, q0\n"
*5f39d1b3SJooyung Han        "vmla.f32 q13, q3, q0\n"
*5f39d1b3SJooyung Han        "vld1.32 {d0[], d1[]}, [%[rhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vmla.f32 q6, q1, q0\n"
*5f39d1b3SJooyung Han        "vmla.f32 q10, q2, q0\n"
*5f39d1b3SJooyung Han        "vmla.f32 q14, q3, q0\n"
*5f39d1b3SJooyung Han        "vld1.32 {d0[], d1[]}, [%[rhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vmla.f32 q7, q1, q0\n"
*5f39d1b3SJooyung Han        "vmla.f32 q11, q2, q0\n"
*5f39d1b3SJooyung Han        "vmla.f32 q15, q3, q0\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Loop. Decrement loop index (depth) by 1, since we just handled 1
*5f39d1b3SJooyung Han        // level of depth.
*5f39d1b3SJooyung Han        "subs %[depth], #1\n"
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov r0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "vst1.32 {d8, d9},   [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d24, d25}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d10, d11}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d18, d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d26, d27}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d12, d13}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d20, d21}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d28, d29}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d14, d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d22, d23}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d30, d31}, [r0]!\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "r0", "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7",
*5f39d1b3SJooyung Han        "d8", "d9", "d10", "d11", "d12", "d13", "d14", "d15", "d16", "d17",
*5f39d1b3SJooyung Han        "d18", "d19", "d20", "d21", "d22", "d23", "d24", "d25", "d26", "d27",
*5f39d1b3SJooyung Han        "d28", "d29", "d30", "d31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Not very efficient kernel, just an experiment to see what we can do
*5f39d1b3SJooyung Han// without using NEON multiply-with-scalar instructions.
*5f39d1b3SJooyung Han// This variant is relevant as on ARMv7 FMA does not have a with-scalar variant.
*5f39d1b3SJooyung Hanstruct NEON_32bit_GEMM_Float32_FMA_WithVectorDuplicatingScalar {
*5f39d1b3SJooyung Han  typedef float OperandType;
*5f39d1b3SJooyung Han  typedef float AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov r0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "vld1.32 {d8, d9},   [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d24, d25}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d10, d11}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d18, d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d26, d27}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d12, d13}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d20, d21}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d28, d29}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d14, d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d22, d23}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d30, d31}, [r0]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 3 Lhs cells of size 4x1 each
*5f39d1b3SJooyung Han        "vld1.32 {d2, d3}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d4, d5}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d6, d7}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate
*5f39d1b3SJooyung Han        "vld1.32 {d0[], d1[]}, [%[rhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vfma.f32 q4, q1, q0\n"
*5f39d1b3SJooyung Han        "vfma.f32 q8, q2, q0\n"
*5f39d1b3SJooyung Han        "vfma.f32 q12, q3, q0\n"
*5f39d1b3SJooyung Han        "vld1.32 {d0[], d1[]}, [%[rhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vfma.f32 q5, q1, q0\n"
*5f39d1b3SJooyung Han        "vfma.f32 q9, q2, q0\n"
*5f39d1b3SJooyung Han        "vfma.f32 q13, q3, q0\n"
*5f39d1b3SJooyung Han        "vld1.32 {d0[], d1[]}, [%[rhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vfma.f32 q6, q1, q0\n"
*5f39d1b3SJooyung Han        "vfma.f32 q10, q2, q0\n"
*5f39d1b3SJooyung Han        "vfma.f32 q14, q3, q0\n"
*5f39d1b3SJooyung Han        "vld1.32 {d0[], d1[]}, [%[rhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vfma.f32 q7, q1, q0\n"
*5f39d1b3SJooyung Han        "vfma.f32 q11, q2, q0\n"
*5f39d1b3SJooyung Han        "vfma.f32 q15, q3, q0\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Loop. Decrement loop index (depth) by 1, since we just handled 1
*5f39d1b3SJooyung Han        // level of depth.
*5f39d1b3SJooyung Han        "subs %[depth], #1\n"
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov r0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "vst1.32 {d8, d9},   [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d24, d25}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d10, d11}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d18, d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d26, d27}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d12, d13}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d20, d21}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d28, d29}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d14, d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d22, d23}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d30, d31}, [r0]!\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "r0", "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7",
*5f39d1b3SJooyung Han        "d8", "d9", "d10", "d11", "d12", "d13", "d14", "d15", "d16", "d17",
*5f39d1b3SJooyung Han        "d18", "d19", "d20", "d21", "d22", "d23", "d24", "d25", "d26", "d27",
*5f39d1b3SJooyung Han        "d28", "d29", "d30", "d31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// This is the "most natural" kernel, using NEON multiply-with-scalar
*5f39d1b3SJooyung Han// instructions.
*5f39d1b3SJooyung Hanstruct NEON_32bit_GEMM_Float32_MLA_WithScalar {
*5f39d1b3SJooyung Han  typedef float OperandType;
*5f39d1b3SJooyung Han  typedef float AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov r0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "vld1.32 {d8, d9},   [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d24, d25}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d10, d11}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d18, d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d26, d27}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d12, d13}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d20, d21}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d28, d29}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d14, d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d22, d23}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d30, d31}, [r0]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 1 Rhs cell of size 1x4
*5f39d1b3SJooyung Han        "vld1.32 {d0, d1}, [%[rhs_ptr]]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 3 Lhs cells of size 4x1 each
*5f39d1b3SJooyung Han        "vld1.32 {d2, d3}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d4, d5}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d6, d7}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate
*5f39d1b3SJooyung Han        "vmla.f32 q4, q1, d0[0]\n"
*5f39d1b3SJooyung Han        "vmla.f32 q5, q1, d0[1]\n"
*5f39d1b3SJooyung Han        "vmla.f32 q6, q1, d1[0]\n"
*5f39d1b3SJooyung Han        "vmla.f32 q7, q1, d1[1]\n"
*5f39d1b3SJooyung Han        "vmla.f32 q8, q2, d0[0]\n"
*5f39d1b3SJooyung Han        "vmla.f32 q9, q2, d0[1]\n"
*5f39d1b3SJooyung Han        "vmla.f32 q10, q2, d1[0]\n"
*5f39d1b3SJooyung Han        "vmla.f32 q11, q2, d1[1]\n"
*5f39d1b3SJooyung Han        "vmla.f32 q12, q3, d0[0]\n"
*5f39d1b3SJooyung Han        "vmla.f32 q13, q3, d0[1]\n"
*5f39d1b3SJooyung Han        "vmla.f32 q14, q3, d1[0]\n"
*5f39d1b3SJooyung Han        "vmla.f32 q15, q3, d1[1]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Loop. Decrement loop index (depth) by 1, since we just handled 1
*5f39d1b3SJooyung Han        // level of depth.
*5f39d1b3SJooyung Han        "subs %[depth], #1\n"
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov r0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "vst1.32 {d8, d9},   [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d24, d25}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d10, d11}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d18, d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d26, d27}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d12, d13}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d20, d21}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d28, d29}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d14, d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d22, d23}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d30, d31}, [r0]!\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "r0", "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7",
*5f39d1b3SJooyung Han        "d8", "d9", "d10", "d11", "d12", "d13", "d14", "d15", "d16", "d17",
*5f39d1b3SJooyung Han        "d18", "d19", "d20", "d21", "d22", "d23", "d24", "d25", "d26", "d27",
*5f39d1b3SJooyung Han        "d28", "d29", "d30", "d31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Faster kernel contributed by ARM in 64bit form
*5f39d1b3SJooyung Han// (see NEON_64bit_GEMM_Float32_WithScalar_A53) then ported to 32bit code.
*5f39d1b3SJooyung Han// Tuned for A53.
*5f39d1b3SJooyung Hanstruct NEON_32bit_GEMM_Float32_WithScalar_A53 {
*5f39d1b3SJooyung Han  typedef float OperandType;
*5f39d1b3SJooyung Han  typedef float AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov r0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "vld1.32 {d8, d9},   [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d24, d25}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d10, d11}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d18, d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d26, d27}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d12, d13}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d20, d21}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d28, d29}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d14, d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d22, d23}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d30, d31}, [r0]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Overview of register layout:
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 1x4 cell of Rhs is stored in d0--d1 (q0).
*5f39d1b3SJooyung Han        // A 12x1 block of 3 4x1 cells Lhs is stored in d2--d7
*5f39d1b3SJooyung Han        // (q1--q3).
*5f39d1b3SJooyung Han        // A 12x4 block of accumulators is stored in q4--q15.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                   +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //             Rhs   |d0[0]|d0[1]|d1[0]|d1[1]|
*5f39d1b3SJooyung Han        //                   +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                   |     |     |     |     |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //  Lhs              |     |     |     |     |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //  +--+- - - - - -  +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //  |d2|             | q4  | q5  | q6  | q7  |
*5f39d1b3SJooyung Han        //  |d2|             | q4  | q5  | q6  | q7  |
*5f39d1b3SJooyung Han        //  |d3|             | q4  | q5  | q6  | q7  |
*5f39d1b3SJooyung Han        //  |d3|             | q4  | q5  | q6  | q7  |
*5f39d1b3SJooyung Han        //  +--+- - - - - -  +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //  |d4|             | q8  | q9  | q10 | q11 |
*5f39d1b3SJooyung Han        //  |d4|             | q8  | q9  | q10 | q11 |
*5f39d1b3SJooyung Han        //  |d5|             | q8  | q9  | q10 | q11 |
*5f39d1b3SJooyung Han        //  |d5|             | q8  | q9  | q10 | q11 |
*5f39d1b3SJooyung Han        //  +--+ - - - - - - +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //  |d6|             | q12 | q13 | q14 | q15 |
*5f39d1b3SJooyung Han        //  |d6|             | q12 | q13 | q14 | q15 |
*5f39d1b3SJooyung Han        //  |d7|             | q12 | q13 | q14 | q15 |
*5f39d1b3SJooyung Han        //  |d7|             | q12 | q13 | q14 | q15 |
*5f39d1b3SJooyung Han        //  +--+- - - - - -  +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                            Accumulator
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load Rhs cell
*5f39d1b3SJooyung Han        "vldr d0, [%[rhs_ptr]]\n"
*5f39d1b3SJooyung Han        "ldr r2, [%[rhs_ptr], #8]\n"
*5f39d1b3SJooyung Han        "ldr r3, [%[rhs_ptr], #12]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 1st Lhs Cell
*5f39d1b3SJooyung Han        "vld1.32 {d2, d3}, [%[lhs_ptr]]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "vldr d4, [%[lhs_ptr], #16]\n"  // Load 1st half of 2nd Lhs cell
*5f39d1b3SJooyung Han        "vmov d1, r2, r3\n"             // Prepare 2nd half of Rhs cell
*5f39d1b3SJooyung Han        "vmla.f32 q4, q1, d0[0]\n"      // Multiply 1st Lhs cell with column 0
*5f39d1b3SJooyung Han        "ldr r2, [%[lhs_ptr], #24]\n"   // Load 2nd half of 2nd Lhs cell, part 1
*5f39d1b3SJooyung Han        "vmla.f32 q5, q1, d0[1]\n"      // Multiply 1st Lhs cell with column 1
*5f39d1b3SJooyung Han        "ldr r3, [%[lhs_ptr], #28]\n"   // Load 2nd half of 2nd Lhs cell, part 2
*5f39d1b3SJooyung Han        "vmla.f32 q6, q1, d1[0]\n"      // Multiply 1st Lhs cell with column 2
*5f39d1b3SJooyung Han        "subs %[depth], #1\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "vldr d6, [%[lhs_ptr], #32]\n"  // Load 1st half of 3rd Lhs cell
*5f39d1b3SJooyung Han        "vmov d5, r2, r3\n"             // Prepare 2nd half of 2nd Lhs cell
*5f39d1b3SJooyung Han        "vmla.f32 q7, q1, d1[1]\n"      // Multiply 1st Lhs cell with column 3
*5f39d1b3SJooyung Han        "ldr r2, [%[lhs_ptr], #40]\n"   // Load 2nd half of 3rd Lhs cell, part 1
*5f39d1b3SJooyung Han        "vmla.f32 q8, q2, d0[0]\n"      // Multiply 2nd Lhs cell with column 0
*5f39d1b3SJooyung Han        "ldr r3, [%[lhs_ptr], #44]\n"   // Load 2nd half of 3rd Lhs cell, part 2
*5f39d1b3SJooyung Han        "vmla.f32 q9, q2, d0[1]\n"      // Multiply 2nd Lhs cell with column 1
*5f39d1b3SJooyung Han        "add %[rhs_ptr], %[rhs_ptr], #16\n"  // Move forward by 1 Rhs cell
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "vldr d2, [%[lhs_ptr], #48]\n"  // Load 1st half of 1st Lhs cell of next
*5f39d1b3SJooyung Han        // iteration
*5f39d1b3SJooyung Han        "vmov d7, r2, r3\n"            // Prepare 2nd half of 3rd Lhs cell
*5f39d1b3SJooyung Han        "vmla.f32 q10, q2, d1[0]\n"    // Multiply 2nd Lhs cell with column 2
*5f39d1b3SJooyung Han        "ldr r2, [%[lhs_ptr], #56]\n"  // Load 2nd half of 1st Lhs cell of next
*5f39d1b3SJooyung Han        // iter, part 1
*5f39d1b3SJooyung Han        "vmla.f32 q12, q3, d0[0]\n"    // Multiply 3rd Lhs cell with column 0
*5f39d1b3SJooyung Han        "ldr r3, [%[lhs_ptr], #60]\n"  // Load 2nd half of 1st Lhs cell of next
*5f39d1b3SJooyung Han        // iter, part 2
*5f39d1b3SJooyung Han        "vmla.f32 q13, q3, d0[1]\n"  // Multiply 3rd Lhs cell with column 1
*5f39d1b3SJooyung Han        "add %[lhs_ptr], %[lhs_ptr], #48\n"  // Move forward by 3 Lhs cells
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "vldr d0, [%[rhs_ptr]]\n"  // Load 1st half of Rhs cell of next
*5f39d1b3SJooyung Han        // iteration
*5f39d1b3SJooyung Han        "vmov d3, r2, r3\n"  // Prepare 2nd half of 1st Lhs cell of next
*5f39d1b3SJooyung Han        // iteration
*5f39d1b3SJooyung Han        "vmla.f32 q11, q2, d1[1]\n"   // Multiply 2nd Lhs cell with column 3
*5f39d1b3SJooyung Han        "ldr r2, [%[rhs_ptr], #8]\n"  // Load 2nd half of Rhs cell of next
*5f39d1b3SJooyung Han        // iteration, part 1
*5f39d1b3SJooyung Han        "vmla.f32 q14, q3, d1[0]\n"    // Multiply 3rd Lhs cell with column 2
*5f39d1b3SJooyung Han        "ldr r3, [%[rhs_ptr], #12]\n"  // Load 2nd half of Rhs cell of next
*5f39d1b3SJooyung Han        // iteration, part 2
*5f39d1b3SJooyung Han        "vmla.f32 q15, q3, d1[1]\n"  // Multiply 3rd Lhs cell with column 3
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Loop branch.  This will dual issue in fmla cycle 3 of the 4th block.
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov r0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "vst1.32 {d8, d9},   [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d24, d25}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d10, d11}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d18, d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d26, d27}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d12, d13}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d20, d21}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d28, d29}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d14, d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d22, d23}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d30, d31}, [r0]!\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "r0", "r2", "r3", "d0", "d1", "d2", "d3", "d4", "d5",
*5f39d1b3SJooyung Han        "d6", "d7", "d8", "d9", "d10", "d11", "d12", "d13", "d14", "d15", "d16",
*5f39d1b3SJooyung Han        "d17", "d18", "d19", "d20", "d21", "d22", "d23", "d24", "d25", "d26",
*5f39d1b3SJooyung Han        "d27", "d28", "d29", "d30", "d31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanstruct NEON_32bit_GEMM_Float32_WithScalar_A53_depth2 {
*5f39d1b3SJooyung Han  typedef float OperandType;
*5f39d1b3SJooyung Han  typedef float AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 2, CellOrder::DepthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 2, CellOrder::DepthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov r0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "vld1.32 {d8, d9},   [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d24, d25}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d10, d11}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d18, d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d26, d27}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d12, d13}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d20, d21}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d28, d29}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d14, d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d22, d23}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d30, d31}, [r0]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Overview of register layout:
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 1x4 cell of Rhs is stored in d0--d1 (q0).
*5f39d1b3SJooyung Han        // A 12x1 block of 3 4x1 cells Lhs is stored in d2--d7
*5f39d1b3SJooyung Han        // (q1--q3).
*5f39d1b3SJooyung Han        // A 12x4 block of accumulators is stored in q4--q15.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                   +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //             Rhs   |d0[0]|d0[1]|d1[0]|d1[1]|
*5f39d1b3SJooyung Han        //                   +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                   |     |     |     |     |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //  Lhs              |     |     |     |     |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //  +--+- - - - - -  +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //  |d2|             | q4  | q5  | q6  | q7  |
*5f39d1b3SJooyung Han        //  |d2|             | q4  | q5  | q6  | q7  |
*5f39d1b3SJooyung Han        //  |d3|             | q4  | q5  | q6  | q7  |
*5f39d1b3SJooyung Han        //  |d3|             | q4  | q5  | q6  | q7  |
*5f39d1b3SJooyung Han        //  +--+- - - - - -  +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //  |d4|             | q8  | q9  | q10 | q11 |
*5f39d1b3SJooyung Han        //  |d4|             | q8  | q9  | q10 | q11 |
*5f39d1b3SJooyung Han        //  |d5|             | q8  | q9  | q10 | q11 |
*5f39d1b3SJooyung Han        //  |d5|             | q8  | q9  | q10 | q11 |
*5f39d1b3SJooyung Han        //  +--+ - - - - - - +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //  |d6|             | q12 | q13 | q14 | q15 |
*5f39d1b3SJooyung Han        //  |d6|             | q12 | q13 | q14 | q15 |
*5f39d1b3SJooyung Han        //  |d7|             | q12 | q13 | q14 | q15 |
*5f39d1b3SJooyung Han        //  |d7|             | q12 | q13 | q14 | q15 |
*5f39d1b3SJooyung Han        //  +--+- - - - - -  +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                            Accumulator
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load Rhs cell
*5f39d1b3SJooyung Han        "vldr d0, [%[rhs_ptr]]\n"
*5f39d1b3SJooyung Han        "ldr r2, [%[rhs_ptr], #8]\n"
*5f39d1b3SJooyung Han        "ldr r3, [%[rhs_ptr], #12]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 1st Lhs Cell
*5f39d1b3SJooyung Han        "vld1.32 {d2, d3}, [%[lhs_ptr]]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Loop head - handling 2 levels of depth at once
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Level of depth 1
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "vldr d4, [%[lhs_ptr], #32]\n"  // Load 1st half of 2nd Lhs cell
*5f39d1b3SJooyung Han        "vmov d1, r2, r3\n"             // Prepare 2nd half of Rhs cell
*5f39d1b3SJooyung Han        "vmla.f32 q4, q1, d0[0]\n"      // Multiply 1st Lhs cell with column 0
*5f39d1b3SJooyung Han        "ldr r2, [%[lhs_ptr], #40]\n"   // Load 2nd half of 2nd Lhs cell, part 1
*5f39d1b3SJooyung Han        "vmla.f32 q5, q1, d0[1]\n"      // Multiply 1st Lhs cell with column 1
*5f39d1b3SJooyung Han        "ldr r3, [%[lhs_ptr], #44]\n"   // Load 2nd half of 2nd Lhs cell, part 2
*5f39d1b3SJooyung Han        "vmla.f32 q6, q1, d1[0]\n"      // Multiply 1st Lhs cell with column 2
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "vldr d6, [%[lhs_ptr], #64]\n"  // Load 1st half of 3rd Lhs cell
*5f39d1b3SJooyung Han        "vmov d5, r2, r3\n"             // Prepare 2nd half of 2nd Lhs cell
*5f39d1b3SJooyung Han        "vmla.f32 q7, q1, d1[1]\n"      // Multiply 1st Lhs cell with column 3
*5f39d1b3SJooyung Han        "ldr r2, [%[lhs_ptr], #72]\n"   // Load 2nd half of 3rd Lhs cell, part 1
*5f39d1b3SJooyung Han        "vmla.f32 q8, q2, d0[0]\n"      // Multiply 2nd Lhs cell with column 0
*5f39d1b3SJooyung Han        "ldr r3, [%[lhs_ptr], #76]\n"   // Load 2nd half of 3rd Lhs cell, part 2
*5f39d1b3SJooyung Han        "vmla.f32 q9, q2, d0[1]\n"      // Multiply 2nd Lhs cell with column 1
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "vldr d2, [%[lhs_ptr], #16]\n"  // Load 1st half of 1st Lhs cell of next
*5f39d1b3SJooyung Han        // iteration
*5f39d1b3SJooyung Han        "vmov d7, r2, r3\n"            // Prepare 2nd half of 3rd Lhs cell
*5f39d1b3SJooyung Han        "vmla.f32 q10, q2, d1[0]\n"    // Multiply 2nd Lhs cell with column 2
*5f39d1b3SJooyung Han        "ldr r2, [%[lhs_ptr], #24]\n"  // Load 2nd half of 1st Lhs cell of next
*5f39d1b3SJooyung Han        // iter, part 1
*5f39d1b3SJooyung Han        "vmla.f32 q12, q3, d0[0]\n"    // Multiply 3rd Lhs cell with column 0
*5f39d1b3SJooyung Han        "ldr r3, [%[lhs_ptr], #28]\n"  // Load 2nd half of 1st Lhs cell of next
*5f39d1b3SJooyung Han        // iter, part 2
*5f39d1b3SJooyung Han        "vmla.f32 q13, q3, d0[1]\n"  // Multiply 3rd Lhs cell with column 1
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "vldr d0, [%[rhs_ptr], #16]\n"  // Load 1st half of Rhs cell of next
*5f39d1b3SJooyung Han        // iteration
*5f39d1b3SJooyung Han        "vmov d3, r2, r3\n"  // Prepare 2nd half of 1st Lhs cell of next
*5f39d1b3SJooyung Han        // iteration
*5f39d1b3SJooyung Han        "vmla.f32 q11, q2, d1[1]\n"    // Multiply 2nd Lhs cell with column 3
*5f39d1b3SJooyung Han        "ldr r2, [%[rhs_ptr], #24]\n"  // Load 2nd half of Rhs cell of next
*5f39d1b3SJooyung Han        // iteration, part 1
*5f39d1b3SJooyung Han        "vmla.f32 q14, q3, d1[0]\n"    // Multiply 3rd Lhs cell with column 2
*5f39d1b3SJooyung Han        "ldr r3, [%[rhs_ptr], #28]\n"  // Load 2nd half of Rhs cell of next
*5f39d1b3SJooyung Han        // iteration, part 2
*5f39d1b3SJooyung Han        "vmla.f32 q15, q3, d1[1]\n"  // Multiply 3rd Lhs cell with column 3
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Level of depth 2
*5f39d1b3SJooyung Han        "vldr d4, [%[lhs_ptr], #48]\n"  // Load 1st half of 2nd Lhs cell
*5f39d1b3SJooyung Han        "vmov d1, r2, r3\n"             // Prepare 2nd half of Rhs cell
*5f39d1b3SJooyung Han        "vmla.f32 q4, q1, d0[0]\n"      // Multiply 1st Lhs cell with column 0
*5f39d1b3SJooyung Han        "ldr r2, [%[lhs_ptr], #56]\n"   // Load 2nd half of 2nd Lhs cell, part 1
*5f39d1b3SJooyung Han        "vmla.f32 q5, q1, d0[1]\n"      // Multiply 1st Lhs cell with column 1
*5f39d1b3SJooyung Han        "ldr r3, [%[lhs_ptr], #60]\n"   // Load 2nd half of 2nd Lhs cell, part 2
*5f39d1b3SJooyung Han        "vmla.f32 q6, q1, d1[0]\n"      // Multiply 1st Lhs cell with column 2
*5f39d1b3SJooyung Han        "subs %[depth], #2\n"           // Decrement depth counter
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "vldr d6, [%[lhs_ptr], #80]\n"  // Load 1st half of 3rd Lhs cell
*5f39d1b3SJooyung Han        "vmov d5, r2, r3\n"             // Prepare 2nd half of 2nd Lhs cell
*5f39d1b3SJooyung Han        "vmla.f32 q7, q1, d1[1]\n"      // Multiply 1st Lhs cell with column 3
*5f39d1b3SJooyung Han        "ldr r2, [%[lhs_ptr], #88]\n"   // Load 2nd half of 3rd Lhs cell, part 1
*5f39d1b3SJooyung Han        "vmla.f32 q8, q2, d0[0]\n"      // Multiply 2nd Lhs cell with column 0
*5f39d1b3SJooyung Han        "ldr r3, [%[lhs_ptr], #92]\n"   // Load 2nd half of 3rd Lhs cell, part 2
*5f39d1b3SJooyung Han        "vmla.f32 q9, q2, d0[1]\n"      // Multiply 2nd Lhs cell with column 1
*5f39d1b3SJooyung Han        "add %[rhs_ptr], %[rhs_ptr], #32\n"  // Move forward by 1 Rhs cell
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "vldr d2, [%[lhs_ptr], #96]\n"  // Load 1st half of 1st Lhs cell of next
*5f39d1b3SJooyung Han        // iteration
*5f39d1b3SJooyung Han        "vmov d7, r2, r3\n"             // Prepare 2nd half of 3rd Lhs cell
*5f39d1b3SJooyung Han        "vmla.f32 q10, q2, d1[0]\n"     // Multiply 2nd Lhs cell with column 2
*5f39d1b3SJooyung Han        "ldr r2, [%[lhs_ptr], #104]\n"  // Load 2nd half of 1st Lhs cell of next
*5f39d1b3SJooyung Han        // iter, part 1
*5f39d1b3SJooyung Han        "vmla.f32 q12, q3, d0[0]\n"     // Multiply 3rd Lhs cell with column 0
*5f39d1b3SJooyung Han        "ldr r3, [%[lhs_ptr], #108]\n"  // Load 2nd half of 1st Lhs cell of next
*5f39d1b3SJooyung Han        // iter, part 2
*5f39d1b3SJooyung Han        "vmla.f32 q13, q3, d0[1]\n"  // Multiply 3rd Lhs cell with column 1
*5f39d1b3SJooyung Han        "add %[lhs_ptr], %[lhs_ptr], #96\n"  // Move forward by 3 Lhs cells
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "vldr d0, [%[rhs_ptr]]\n"  // Load 1st half of Rhs cell of next
*5f39d1b3SJooyung Han        // iteration
*5f39d1b3SJooyung Han        "vmov d3, r2, r3\n"  // Prepare 2nd half of 1st Lhs cell of next
*5f39d1b3SJooyung Han        // iteration
*5f39d1b3SJooyung Han        "vmla.f32 q11, q2, d1[1]\n"   // Multiply 2nd Lhs cell with column 3
*5f39d1b3SJooyung Han        "ldr r2, [%[rhs_ptr], #8]\n"  // Load 2nd half of Rhs cell of next
*5f39d1b3SJooyung Han        // iteration, part 1
*5f39d1b3SJooyung Han        "vmla.f32 q14, q3, d1[0]\n"    // Multiply 3rd Lhs cell with column 2
*5f39d1b3SJooyung Han        "ldr r3, [%[rhs_ptr], #12]\n"  // Load 2nd half of Rhs cell of next
*5f39d1b3SJooyung Han        // iteration, part 2
*5f39d1b3SJooyung Han        "vmla.f32 q15, q3, d1[1]\n"  // Multiply 3rd Lhs cell with column 3
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Loop branch.  This will dual issue in fmla cycle 3 of the 4th block.
*5f39d1b3SJooyung Han        //"bne loop_%=\n"
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov r0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "vst1.32 {d8, d9},   [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d24, d25}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d10, d11}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d18, d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d26, d27}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d12, d13}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d20, d21}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d28, d29}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d14, d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d22, d23}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d30, d31}, [r0]!\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "r0", "r2", "r3", "d0", "d1", "d2", "d3", "d4", "d5",
*5f39d1b3SJooyung Han        "d6", "d7", "d8", "d9", "d10", "d11", "d12", "d13", "d14", "d15", "d16",
*5f39d1b3SJooyung Han        "d17", "d18", "d19", "d20", "d21", "d22", "d23", "d24", "d25", "d26",
*5f39d1b3SJooyung Han        "d27", "d28", "d29", "d30", "d31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// This rotating variant performs well when permutations (vext) can be
*5f39d1b3SJooyung Han// dual-issued with arithmetic instructions.
*5f39d1b3SJooyung Hanstruct NEON_32bit_GEMM_Float32_MLA_Rotating {
*5f39d1b3SJooyung Han  typedef float OperandType;
*5f39d1b3SJooyung Han  typedef float AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov r0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "vld1.32 {d8, d9},   [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d24, d25}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d10, d11}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d18, d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d26, d27}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d12, d13}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d20, d21}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d28, d29}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d14, d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d22, d23}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d30, d31}, [r0]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#define NEON_32BIT_ROTATING_FLOAT_KERNEL_TRANSPOSE_ACCUMULATOR_CELLS \
*5f39d1b3SJooyung Han  "vtrn.32 q4, q5\n"                                                 \
*5f39d1b3SJooyung Han  "vtrn.32 q6, q7\n"                                                 \
*5f39d1b3SJooyung Han  "vswp d9, d12\n"                                                   \
*5f39d1b3SJooyung Han  "vswp d11, d14\n"                                                  \
*5f39d1b3SJooyung Han  "vtrn.32 q8, q9\n"                                                 \
*5f39d1b3SJooyung Han  "vtrn.32 q10, q11\n"                                               \
*5f39d1b3SJooyung Han  "vswp d17, d20\n"                                                  \
*5f39d1b3SJooyung Han  "vswp d19, d22\n"                                                  \
*5f39d1b3SJooyung Han  "vtrn.32 q12, q13\n"                                               \
*5f39d1b3SJooyung Han  "vtrn.32 q14, q15\n"                                               \
*5f39d1b3SJooyung Han  "vswp d25, d28\n"                                                  \
*5f39d1b3SJooyung Han  "vswp d27, d30\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#define NEON_32BIT_ROTATING_FLOAT_KERNEL_ROTATE_ACCUMULATOR_CELLS(a, b, c) \
*5f39d1b3SJooyung Han  NEON_32BIT_ROTATING_FLOAT_KERNEL_TRANSPOSE_ACCUMULATOR_CELLS             \
*5f39d1b3SJooyung Han  "vext.32 q5, q5, q5, #" #a                                               \
*5f39d1b3SJooyung Han  "\n"                                                                     \
*5f39d1b3SJooyung Han  "vext.32 q6, q6, q6, #" #b                                               \
*5f39d1b3SJooyung Han  "\n"                                                                     \
*5f39d1b3SJooyung Han  "vext.32 q7, q7, q7, #" #c                                               \
*5f39d1b3SJooyung Han  "\n"                                                                     \
*5f39d1b3SJooyung Han  "vext.32 q9, q9, q9, #" #a                                               \
*5f39d1b3SJooyung Han  "\n"                                                                     \
*5f39d1b3SJooyung Han  "vext.32 q10, q10, q10, #" #b                                            \
*5f39d1b3SJooyung Han  "\n"                                                                     \
*5f39d1b3SJooyung Han  "vext.32 q11, q11, q11, #" #c                                            \
*5f39d1b3SJooyung Han  "\n"                                                                     \
*5f39d1b3SJooyung Han  "vext.32 q13, q13, q13, #" #a                                            \
*5f39d1b3SJooyung Han  "\n"                                                                     \
*5f39d1b3SJooyung Han  "vext.32 q14, q14, q14, #" #b                                            \
*5f39d1b3SJooyung Han  "\n"                                                                     \
*5f39d1b3SJooyung Han  "vext.32 q15, q15, q15, #" #c                                            \
*5f39d1b3SJooyung Han  "\n" NEON_32BIT_ROTATING_FLOAT_KERNEL_TRANSPOSE_ACCUMULATOR_CELLS
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        NEON_32BIT_ROTATING_FLOAT_KERNEL_ROTATE_ACCUMULATOR_CELLS(1, 2, 3)
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        //"loop_%=:\n"
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 1 Rhs cell of size 1x4
*5f39d1b3SJooyung Han        "vld1.32 {d0, d1}, [%[rhs_ptr]]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 3 Lhs cells of size 4x1 each
*5f39d1b3SJooyung Han        "vld1.32 {d2, d3}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d4, d5}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d6, d7}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate
*5f39d1b3SJooyung Han        "vmla.f32 q4, q1, q0\n"
*5f39d1b3SJooyung Han        "vmla.f32 q8, q2, q0\n"
*5f39d1b3SJooyung Han        "vmla.f32 q12, q3, q0\n"
*5f39d1b3SJooyung Han        "vext.f32 q0, q0, q0, #1\n"
*5f39d1b3SJooyung Han        "vmla.f32 q5, q1, q0\n"
*5f39d1b3SJooyung Han        "vmla.f32 q9, q2, q0\n"
*5f39d1b3SJooyung Han        "vmla.f32 q13, q3, q0\n"
*5f39d1b3SJooyung Han        "vext.f32 q0, q0, q0, #1\n"
*5f39d1b3SJooyung Han        "vmla.f32 q6, q1, q0\n"
*5f39d1b3SJooyung Han        "vmla.f32 q10, q2, q0\n"
*5f39d1b3SJooyung Han        "vmla.f32 q14, q3, q0\n"
*5f39d1b3SJooyung Han        "vext.f32 q0, q0, q0, #1\n"
*5f39d1b3SJooyung Han        "vmla.f32 q7, q1, q0\n"
*5f39d1b3SJooyung Han        "vmla.f32 q11, q2, q0\n"
*5f39d1b3SJooyung Han        "vmla.f32 q15, q3, q0\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Loop. Decrement loop index (depth) by 1, since we just handled 1
*5f39d1b3SJooyung Han        // level of depth.
*5f39d1b3SJooyung Han        "subs %[depth], #1\n"
*5f39d1b3SJooyung Han        //"bne loop_%=\n"
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov r0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        NEON_32BIT_ROTATING_FLOAT_KERNEL_ROTATE_ACCUMULATOR_CELLS(3, 2, 1)
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han            "vst1.32 {d8, d9},   [r0]!\n"
*5f39d1b3SJooyung Han            "vst1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han            "vst1.32 {d24, d25}, [r0]!\n"
*5f39d1b3SJooyung Han            "vst1.32 {d10, d11}, [r0]!\n"
*5f39d1b3SJooyung Han            "vst1.32 {d18, d19}, [r0]!\n"
*5f39d1b3SJooyung Han            "vst1.32 {d26, d27}, [r0]!\n"
*5f39d1b3SJooyung Han            "vst1.32 {d12, d13}, [r0]!\n"
*5f39d1b3SJooyung Han            "vst1.32 {d20, d21}, [r0]!\n"
*5f39d1b3SJooyung Han            "vst1.32 {d28, d29}, [r0]!\n"
*5f39d1b3SJooyung Han            "vst1.32 {d14, d15}, [r0]!\n"
*5f39d1b3SJooyung Han            "vst1.32 {d22, d23}, [r0]!\n"
*5f39d1b3SJooyung Han            "vst1.32 {d30, d31}, [r0]!\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "r0", "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7",
*5f39d1b3SJooyung Han        "d8", "d9", "d10", "d11", "d12", "d13", "d14", "d15", "d16", "d17",
*5f39d1b3SJooyung Han        "d18", "d19", "d20", "d21", "d22", "d23", "d24", "d25", "d26", "d27",
*5f39d1b3SJooyung Han        "d28", "d29", "d30", "d31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// This rotating variant performs well when permutations (vext) can be
*5f39d1b3SJooyung Han// dual-issued with arithmetic instructions. It is relevant as the rotating
*5f39d1b3SJooyung Han// approach removes the need for multiply-with-scalar instructions, and ARMv7
*5f39d1b3SJooyung Han// FMA does not have a with-scalar variant.
*5f39d1b3SJooyung Hanstruct NEON_32bit_GEMM_Float32_FMA_Rotating {
*5f39d1b3SJooyung Han  typedef float OperandType;
*5f39d1b3SJooyung Han  typedef float AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov r0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "vld1.32 {d8, d9},   [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d24, d25}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d10, d11}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d18, d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d26, d27}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d12, d13}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d20, d21}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d28, d29}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d14, d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d22, d23}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d30, d31}, [r0]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        NEON_32BIT_ROTATING_FLOAT_KERNEL_ROTATE_ACCUMULATOR_CELLS(1, 2, 3)
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        //"loop_%=:\n"
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 1 Rhs cell of size 1x4
*5f39d1b3SJooyung Han        "vld1.32 {d0, d1}, [%[rhs_ptr]]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 3 Lhs cells of size 4x1 each
*5f39d1b3SJooyung Han        "vld1.32 {d2, d3}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d4, d5}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d6, d7}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate
*5f39d1b3SJooyung Han        "vfma.f32 q4, q1, q0\n"
*5f39d1b3SJooyung Han        "vfma.f32 q8, q2, q0\n"
*5f39d1b3SJooyung Han        "vfma.f32 q12, q3, q0\n"
*5f39d1b3SJooyung Han        "vext.f32 q0, q0, q0, #1\n"
*5f39d1b3SJooyung Han        "vfma.f32 q5, q1, q0\n"
*5f39d1b3SJooyung Han        "vfma.f32 q9, q2, q0\n"
*5f39d1b3SJooyung Han        "vfma.f32 q13, q3, q0\n"
*5f39d1b3SJooyung Han        "vext.f32 q0, q0, q0, #1\n"
*5f39d1b3SJooyung Han        "vfma.f32 q6, q1, q0\n"
*5f39d1b3SJooyung Han        "vfma.f32 q10, q2, q0\n"
*5f39d1b3SJooyung Han        "vfma.f32 q14, q3, q0\n"
*5f39d1b3SJooyung Han        "vext.f32 q0, q0, q0, #1\n"
*5f39d1b3SJooyung Han        "vfma.f32 q7, q1, q0\n"
*5f39d1b3SJooyung Han        "vfma.f32 q11, q2, q0\n"
*5f39d1b3SJooyung Han        "vfma.f32 q15, q3, q0\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Loop. Decrement loop index (depth) by 1, since we just handled 1
*5f39d1b3SJooyung Han        // level of depth.
*5f39d1b3SJooyung Han        "subs %[depth], #1\n"
*5f39d1b3SJooyung Han        //"bne loop_%=\n"
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        NEON_32BIT_ROTATING_FLOAT_KERNEL_ROTATE_ACCUMULATOR_CELLS(3, 2, 1)
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov r0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "vst1.32 {d8, d9},   [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d24, d25}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d10, d11}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d18, d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d26, d27}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d12, d13}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d20, d21}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d28, d29}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d14, d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d22, d23}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d30, d31}, [r0]!\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "r0", "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7",
*5f39d1b3SJooyung Han        "d8", "d9", "d10", "d11", "d12", "d13", "d14", "d15", "d16", "d17",
*5f39d1b3SJooyung Han        "d18", "d19", "d20", "d21", "d22", "d23", "d24", "d25", "d26", "d27",
*5f39d1b3SJooyung Han        "d28", "d29", "d30", "d31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#endif  // __arm__
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifdef __aarch64__
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// This is the current standard kernel in gemmlowp, see:
*5f39d1b3SJooyung Han// https://github.com/google/gemmlowp/blob/b1e2a29ff866680028f3080efc244e10e8dd7f46/internal/kernel_neon.h#L646
*5f39d1b3SJooyung Hanstruct NEON_64bit_GEMM_Uint8Operands_Uint32Accumulators {
*5f39d1b3SJooyung Han  typedef std::uint8_t OperandType;
*5f39d1b3SJooyung Han  typedef std::uint32_t AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 2, CellOrder::DepthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 2, CellOrder::DepthMajor>, 2> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load 1 Rhs cell of size 2x8
*5f39d1b3SJooyung Han        "ld1 {v5.8b}, [%[rhs_ptr]], #8\n"
*5f39d1b3SJooyung Han        "ld1 {v6.8b}, [%[rhs_ptr]], #8\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 3 Lhs cells of size 4x2 each
*5f39d1b3SJooyung Han        "ld1 {v2.8b}, [%[lhs_ptr]], #8\n"
*5f39d1b3SJooyung Han        "ld1 {v3.8b}, [%[lhs_ptr]], #8\n"
*5f39d1b3SJooyung Han        "ld1 {v4.8b}, [%[lhs_ptr]], #8\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "subs %w[depth], %w[depth], #2\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov x0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "ld1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v16.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v24.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v17.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v25.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v18.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v26.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v19.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v27.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v12.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v20.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v28.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v13.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v21.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v29.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v14.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v22.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v30.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v15.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v23.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v31.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "beq " GEMMLOWP_LABEL_AFTER_LOOP "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        //"loop_%=:\n"
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Overview of register layout:
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 2x8 block of 2 2x4 cells of Rhs is stored in 16bit in v0--v1.
*5f39d1b3SJooyung Han        // A 12x2 block of 3 4x2 cells Lhs is stored in 16bit in v2--v4.
*5f39d1b3SJooyung Han        // A 12x8 block of accumulators is stored in 32bit in v8--v31.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                         +--------+--------+-----+--------+--------+
*5f39d1b3SJooyung Han        //                         |v0.h[0] |v0.h[1] | ... |v1.h[2] |v1.h[3] |
*5f39d1b3SJooyung Han        //                    Rhs  +--------+--------+-----+--------+--------+
*5f39d1b3SJooyung Han        //                         |v0.h[4] |v0.h[5] | ... |v1.h[6] |v1.h[7] |
*5f39d1b3SJooyung Han        //                         +--------+--------+-----+--------+--------+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                         |        |        |     |        |        |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //    Lhs                  |        |        |     |        |        |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //  +-------+-------+ - -  +--------+--------+-----+--------+--------+
*5f39d1b3SJooyung Han        //  |v2.h[0]|v2.h[4]|      |v8.s[0] |v9.s[0] | ... |v14.s[0]|v15.s[0]|
*5f39d1b3SJooyung Han        //  |v2.h[1]|v2.h[5]|      |v8.s[1] |v9.s[1] | ... |v14.s[1]|v15.s[1]|
*5f39d1b3SJooyung Han        //  |v2.h[2]|v2.h[6]|      |v8.s[2] |v9.s[2] | ... |v14.s[2]|v15.s[2]|
*5f39d1b3SJooyung Han        //  |v2.h[3]|v2.h[7]|      |v8.s[3] |v9.s[3] | ... |v14.s[3]|v15.s[3]|
*5f39d1b3SJooyung Han        //  +-------+-------+ - -  +--------+--------+-----+--------+--------+
*5f39d1b3SJooyung Han        //  |v3.h[0]|v3.h[4]|      |v16.s[0]|v17.s[0]| ... |v22.s[0]|v23.s[0]|
*5f39d1b3SJooyung Han        //  |v3.h[1]|v3.h[5]|      |v16.s[1]|v17.s[1]| ... |v22.s[1]|v23.s[1]|
*5f39d1b3SJooyung Han        //  |v3.h[2]|v3.h[6]|      |v16.s[2]|v17.s[2]| ... |v22.s[2]|v23.s[2]|
*5f39d1b3SJooyung Han        //  |v3.h[3]|v3.h[7]|      |v16.s[3]|v17.s[3]| ... |v22.s[3]|v23.s[3]|
*5f39d1b3SJooyung Han        //  +-------+-------+ - -  +--------+--------+-----+--------+--------+
*5f39d1b3SJooyung Han        //  |v4.h[0]|v4.h[4]|      |v24.s[0]|v25.s[0]| ... |v30.s[0]|v31.s[0]|
*5f39d1b3SJooyung Han        //  |v4.h[1]|v4.h[5]|      |v24.s[1]|v25.s[1]| ... |v30.s[1]|v31.s[1]|
*5f39d1b3SJooyung Han        //  |v4.h[2]|v4.h[6]|      |v24.s[2]|v25.s[2]| ... |v30.s[2]|v31.s[2]|
*5f39d1b3SJooyung Han        //  |v4.h[3]|v4.h[7]|      |v24.s[3]|v25.s[3]| ... |v30.s[3]|v31.s[3]|
*5f39d1b3SJooyung Han        //  +-------+-------+ - -  +--------+--------+-----+--------+--------+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                            Accumulator
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Expand Lhs/Rhs cells to 16 bit.
*5f39d1b3SJooyung Han        "uxtl v0.8h, v5.8b\n"
*5f39d1b3SJooyung Han        "ld1 {v5.8b}, [%[rhs_ptr]], #8\n"
*5f39d1b3SJooyung Han        "uxtl v1.8h, v6.8b\n"
*5f39d1b3SJooyung Han        "ld1 {v6.8b}, [%[rhs_ptr]], #8\n"
*5f39d1b3SJooyung Han        "uxtl v2.8h, v2.8b\n"
*5f39d1b3SJooyung Han        "uxtl v3.8h, v3.8b\n"
*5f39d1b3SJooyung Han        "uxtl v4.8h, v4.8b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate, top third
*5f39d1b3SJooyung Han        "umlal v8.4s, v2.4h, v0.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v9.4s, v2.4h, v0.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v10.4s, v2.4h, v0.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v11.4s, v2.4h, v0.h[3]\n"
*5f39d1b3SJooyung Han        "umlal v12.4s, v2.4h, v1.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v13.4s, v2.4h, v1.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v14.4s, v2.4h, v1.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v15.4s, v2.4h, v1.h[3]\n"
*5f39d1b3SJooyung Han        "umlal2 v8.4s, v2.8h, v0.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v9.4s, v2.8h, v0.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v10.4s, v2.8h, v0.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v11.4s, v2.8h, v0.h[7]\n"
*5f39d1b3SJooyung Han        "umlal2 v12.4s, v2.8h, v1.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v13.4s, v2.8h, v1.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v14.4s, v2.8h, v1.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v15.4s, v2.8h, v1.h[7]\n"
*5f39d1b3SJooyung Han        "ld1 {v2.8b}, [%[lhs_ptr]], #8\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate, middle third
*5f39d1b3SJooyung Han        "umlal v16.4s, v3.4h, v0.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v17.4s, v3.4h, v0.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v18.4s, v3.4h, v0.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v19.4s, v3.4h, v0.h[3]\n"
*5f39d1b3SJooyung Han        "umlal v20.4s, v3.4h, v1.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v21.4s, v3.4h, v1.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v22.4s, v3.4h, v1.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v23.4s, v3.4h, v1.h[3]\n"
*5f39d1b3SJooyung Han        "umlal2 v16.4s, v3.8h, v0.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v17.4s, v3.8h, v0.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v18.4s, v3.8h, v0.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v19.4s, v3.8h, v0.h[7]\n"
*5f39d1b3SJooyung Han        "umlal2 v20.4s, v3.8h, v1.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v21.4s, v3.8h, v1.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v22.4s, v3.8h, v1.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v23.4s, v3.8h, v1.h[7]\n"
*5f39d1b3SJooyung Han        "ld1 {v3.8b}, [%[lhs_ptr]], #8\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "subs %w[depth], %w[depth], #2\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate, bottom third
*5f39d1b3SJooyung Han        "umlal v24.4s, v4.4h, v0.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v25.4s, v4.4h, v0.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v26.4s, v4.4h, v0.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v27.4s, v4.4h, v0.h[3]\n"
*5f39d1b3SJooyung Han        "umlal v28.4s, v4.4h, v1.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v29.4s, v4.4h, v1.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v30.4s, v4.4h, v1.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v31.4s, v4.4h, v1.h[3]\n"
*5f39d1b3SJooyung Han        "umlal2 v24.4s, v4.8h, v0.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v25.4s, v4.8h, v0.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v26.4s, v4.8h, v0.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v27.4s, v4.8h, v0.h[7]\n"
*5f39d1b3SJooyung Han        "umlal2 v28.4s, v4.8h, v1.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v29.4s, v4.8h, v1.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v30.4s, v4.8h, v1.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v31.4s, v4.8h, v1.h[7]\n"
*5f39d1b3SJooyung Han        "ld1 {v4.8b}, [%[lhs_ptr]], #8\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_AFTER_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Expand Lhs/Rhs cells to 16 bit.
*5f39d1b3SJooyung Han        "uxtl v0.8h, v5.8b\n"
*5f39d1b3SJooyung Han        "uxtl v1.8h, v6.8b\n"
*5f39d1b3SJooyung Han        "uxtl v2.8h, v2.8b\n"
*5f39d1b3SJooyung Han        "uxtl v3.8h, v3.8b\n"
*5f39d1b3SJooyung Han        "uxtl v4.8h, v4.8b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate, level of depth 0
*5f39d1b3SJooyung Han        "umlal v8.4s, v2.4h, v0.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v9.4s, v2.4h, v0.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v10.4s, v2.4h, v0.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v11.4s, v2.4h, v0.h[3]\n"
*5f39d1b3SJooyung Han        "umlal v12.4s, v2.4h, v1.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v13.4s, v2.4h, v1.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v14.4s, v2.4h, v1.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v15.4s, v2.4h, v1.h[3]\n"
*5f39d1b3SJooyung Han        "umlal v16.4s, v3.4h, v0.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v17.4s, v3.4h, v0.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v18.4s, v3.4h, v0.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v19.4s, v3.4h, v0.h[3]\n"
*5f39d1b3SJooyung Han        "umlal v20.4s, v3.4h, v1.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v21.4s, v3.4h, v1.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v22.4s, v3.4h, v1.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v23.4s, v3.4h, v1.h[3]\n"
*5f39d1b3SJooyung Han        "umlal v24.4s, v4.4h, v0.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v25.4s, v4.4h, v0.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v26.4s, v4.4h, v0.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v27.4s, v4.4h, v0.h[3]\n"
*5f39d1b3SJooyung Han        "umlal v28.4s, v4.4h, v1.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v29.4s, v4.4h, v1.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v30.4s, v4.4h, v1.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v31.4s, v4.4h, v1.h[3]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate, level of depth 1
*5f39d1b3SJooyung Han        "umlal2 v8.4s, v2.8h, v0.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v9.4s, v2.8h, v0.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v10.4s, v2.8h, v0.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v11.4s, v2.8h, v0.h[7]\n"
*5f39d1b3SJooyung Han        "umlal2 v12.4s, v2.8h, v1.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v13.4s, v2.8h, v1.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v14.4s, v2.8h, v1.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v15.4s, v2.8h, v1.h[7]\n"
*5f39d1b3SJooyung Han        "umlal2 v16.4s, v3.8h, v0.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v17.4s, v3.8h, v0.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v18.4s, v3.8h, v0.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v19.4s, v3.8h, v0.h[7]\n"
*5f39d1b3SJooyung Han        "umlal2 v20.4s, v3.8h, v1.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v21.4s, v3.8h, v1.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v22.4s, v3.8h, v1.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v23.4s, v3.8h, v1.h[7]\n"
*5f39d1b3SJooyung Han        "umlal2 v24.4s, v4.8h, v0.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v25.4s, v4.8h, v0.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v26.4s, v4.8h, v0.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v27.4s, v4.8h, v0.h[7]\n"
*5f39d1b3SJooyung Han        "umlal2 v28.4s, v4.8h, v1.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v29.4s, v4.8h, v1.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v30.4s, v4.8h, v1.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v31.4s, v4.8h, v1.h[7]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov x0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "st1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v16.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v24.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v17.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v25.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v18.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v26.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v19.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v27.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v12.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v20.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v28.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v13.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v21.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v29.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v14.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v22.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v30.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v15.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v23.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v31.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "x0", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
*5f39d1b3SJooyung Han        "v8", "v9", "v10", "v11", "v12", "v13", "v14", "v15", "v16", "v17",
*5f39d1b3SJooyung Han        "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26", "v27",
*5f39d1b3SJooyung Han        "v28", "v29", "v30", "v31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Faster kernel by ARM. Not expanding operands before multiplication.
*5f39d1b3SJooyung Han// Tuned for A57. Compare to
*5f39d1b3SJooyung Han// NEON_32bit_GEMM_Uint8Operands_Uint32Accumulators_noexpand
*5f39d1b3SJooyung Hanstruct NEON_64bit_GEMM_Uint8Operands_Uint32Accumulators_noexpand_A57 {
*5f39d1b3SJooyung Han  typedef std::uint8_t OperandType;
*5f39d1b3SJooyung Han  typedef std::uint32_t AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<5, 16, CellOrder::WidthMajor>, 1>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 16, CellOrder::WidthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    static const int kLhsWidth = Format::Lhs::kWidth;
*5f39d1b3SJooyung Han    static const int kRhsWidth = Format::Rhs::kWidth;
*5f39d1b3SJooyung Han    AccumulatorType rowmajor_accumulator_buffer[kLhsWidth * kRhsWidth];
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Clear aggregators
*5f39d1b3SJooyung Han        "dup v12.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v13.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v14.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v15.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v16.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v17.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v18.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v19.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v20.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v21.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v22.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v23.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v24.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v25.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v26.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v27.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v28.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v29.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v30.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v31.4s, wzr\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Overview of register layout:
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 4x16 block of Rhs is stored in 8 bit in v0--v3.
*5f39d1b3SJooyung Han        // A 5x16 block of Lhs is cycled through v4 and v5 in 8 bit.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 4x5 block of aggregators is stored in v12-v31 (as 4x32 bit
*5f39d1b3SJooyung Han        // components which would need to be added at the end)
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // The Lhs vectors are multiplied by the Rhs vectors with a widening
*5f39d1b3SJooyung Han        // multiply to produce an intermediate result which is stored in
*5f39d1b3SJooyung Han        // v6-v11.  Each intermediate result is 8x16 bits so this happens
*5f39d1b3SJooyung Han        // twice for each Lhs/Rhs combination (once with UMULL for elements
*5f39d1b3SJooyung Han        // 0-7 and once with UMULL2 for elements 8-15).
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // UADALP is used to accumulate these intermediate results into the
*5f39d1b3SJooyung Han        // result aggregators.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                               +--------+--------+--------+--------+
*5f39d1b3SJooyung Han        //                               |v0.b[0] |v1.b[0] |v2.b[0] |v3.b[0] |
*5f39d1b3SJooyung Han        //                          Rhs  +--------+--------+--------+--------+
*5f39d1b3SJooyung Han        //                               |  ...   |  ...   |  ...   |  ...   |
*5f39d1b3SJooyung Han        //                               +--------+--------+--------+--------|
*5f39d1b3SJooyung Han        //                               |v0.b[15]|v1.b[15]|v2.b[15]|v3.b[15]|
*5f39d1b3SJooyung Han        //                               +--------+--------+--------+--------+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                               |        |        |        |        |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //    Lhs                        |        |        |        |        |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //  +-------+-----+--------+ - - +--------+--------+--------+--------+
*5f39d1b3SJooyung Han        //  |v4.b[0]| ... |v4.b[15]|     | v12.4s | v13.4s | v14.4s | v15.4s |
*5f39d1b3SJooyung Han        //  |v5.b[0]| ... |v5.b[15]|     | v16.4s | v17.4s | v18.4s | v19.4s |
*5f39d1b3SJooyung Han        //  |v4.b[0]| ... |v4.b[15]|     | v20.4s | v21.4s | v22.4s | v23.4s |
*5f39d1b3SJooyung Han        //  |v5.b[0]| ... |v5.b[15]|     | v24.4s | v25.4s | v26.4s | v27.4s |
*5f39d1b3SJooyung Han        //  |v4.b[0]| ... |v4.b[15]|     | v28.4s | v29.4s | v30.4s | v31.4s |
*5f39d1b3SJooyung Han        //  +-------+--------------+ - - +--------+--------+--------+--------+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                                                Accumulator
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Further possible optimisations (not tried):
*5f39d1b3SJooyung Han        //   - Move early loads into previous iteration (see Float32_WithScalar
*5f39d1b3SJooyung Han        //   for example). - Unroll loop 2x to alternate more smoothly between
*5f39d1b3SJooyung Han        //   v4 and v5. - A different number of temporary registers might work
*5f39d1b3SJooyung Han        //   better. - Pairing umull with corresponding umull2 might allow
*5f39d1b3SJooyung Han        //   better
*5f39d1b3SJooyung Han        //     register loading (e.g. at the start of the loop)
*5f39d1b3SJooyung Han        //   - Interleaving umull{2} and uadalp even more aggressively might
*5f39d1b3SJooyung Han        //     help, (not sure about latency vs. dispatch rate).
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Start loading Rhs - further loads are interleaved amongst the
*5f39d1b3SJooyung Han        // multiplies for better dispatch on A57.
*5f39d1b3SJooyung Han        "ld1 {v0.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load first Lhs vector - further loads are interleaved amongst the
*5f39d1b3SJooyung Han        // multiplies
*5f39d1b3SJooyung Han        "ld1 {v4.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "umull    v6.8h,  v0.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "ld1 {v1.16b}, [%[rhs_ptr]], #16\n"  // 2nd RHS element
*5f39d1b3SJooyung Han        "umull    v7.8h,  v1.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "ld1 {v2.16b}, [%[rhs_ptr]], #16\n"  // 3rd RHS element
*5f39d1b3SJooyung Han        "umull    v8.8h,  v2.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "ld1 {v3.16b}, [%[rhs_ptr]], #16\n"  // 4th RHS element
*5f39d1b3SJooyung Han        "umull    v9.8h,  v3.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "umull2  v10.8h, v0.16b, v4.16b\n"
*5f39d1b3SJooyung Han        "umull2  v11.8h, v1.16b, v4.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v5.16b}, [%[lhs_ptr]], #16\n"  // 2nd LHS element
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "uadalp  v12.4s, v6.8h\n"
*5f39d1b3SJooyung Han        "umull2   v6.8h, v2.16b, v4.16b\n"
*5f39d1b3SJooyung Han        "uadalp  v13.4s, v7.8h\n"
*5f39d1b3SJooyung Han        "umull2   v7.8h, v3.16b, v4.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v4.16b}, [%[lhs_ptr]], #16\n"  // 1st LHS element done - Reuse v4
*5f39d1b3SJooyung Han        // for 3rd LHS element
*5f39d1b3SJooyung Han        "uadalp  v14.4s, v8.8h\n"
*5f39d1b3SJooyung Han        "umull    v8.8h,  v0.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "uadalp  v15.4s, v9.8h\n"
*5f39d1b3SJooyung Han        "umull    v9.8h,  v1.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "uadalp  v12.4s, v10.8h\n"
*5f39d1b3SJooyung Han        "umull   v10.8h,  v2.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "uadalp  v13.4s, v11.8h\n"
*5f39d1b3SJooyung Han        "umull   v11.8h,  v3.8b,  v5.8b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "uadalp  v14.4s, v6.8h\n"
*5f39d1b3SJooyung Han        "umull2   v6.8h, v0.16b, v5.16b\n"
*5f39d1b3SJooyung Han        "uadalp  v15.4s, v7.8h\n"
*5f39d1b3SJooyung Han        "umull2   v7.8h, v1.16b, v5.16b\n"
*5f39d1b3SJooyung Han        "uadalp  v16.4s, v8.8h\n"
*5f39d1b3SJooyung Han        "umull2   v8.8h, v2.16b, v5.16b\n"
*5f39d1b3SJooyung Han        "uadalp  v17.4s, v9.8h\n"
*5f39d1b3SJooyung Han        "umull2   v9.8h, v3.16b, v5.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v5.16b}, [%[lhs_ptr]], #16\n"  // 2nd LHS element done - Reuse v5
*5f39d1b3SJooyung Han        // for 4th LHS element
*5f39d1b3SJooyung Han        "uadalp  v18.4s, v10.8h\n"
*5f39d1b3SJooyung Han        "umull   v10.8h,  v0.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "uadalp  v19.4s, v11.8h\n"
*5f39d1b3SJooyung Han        "umull   v11.8h,  v1.8b,  v4.8b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "uadalp  v16.4s, v6.8h\n"
*5f39d1b3SJooyung Han        "umull    v6.8h,  v2.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "uadalp  v17.4s, v7.8h\n"
*5f39d1b3SJooyung Han        "umull    v7.8h,  v3.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "uadalp  v18.4s, v8.8h\n"
*5f39d1b3SJooyung Han        "umull2   v8.8h, v0.16b, v4.16b\n"
*5f39d1b3SJooyung Han        "uadalp  v19.4s, v9.8h\n"
*5f39d1b3SJooyung Han        "umull2   v9.8h, v1.16b, v4.16b\n"
*5f39d1b3SJooyung Han        "uadalp  v20.4s, v10.8h\n"
*5f39d1b3SJooyung Han        "umull2  v10.8h, v2.16b, v4.16b\n"
*5f39d1b3SJooyung Han        "uadalp  v21.4s, v11.8h\n"
*5f39d1b3SJooyung Han        "umull2  v11.8h, v3.16b, v4.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v4.16b}, [%[lhs_ptr]], #16\n"  // 3rd LHS element done - Reuse v4
*5f39d1b3SJooyung Han        // for 5th LHS element
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "uadalp v22.4s, v6.8h\n"
*5f39d1b3SJooyung Han        "umull    v6.8h,  v0.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "uadalp v23.4s, v7.8h\n"
*5f39d1b3SJooyung Han        "umull    v7.8h,  v1.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "uadalp v20.4s, v8.8h\n"
*5f39d1b3SJooyung Han        "umull    v8.8h,  v2.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "uadalp v21.4s, v9.8h\n"
*5f39d1b3SJooyung Han        "umull    v9.8h,  v3.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "uadalp v22.4s, v10.8h\n"
*5f39d1b3SJooyung Han        "umull2  v10.8h, v0.16b, v5.16b\n"
*5f39d1b3SJooyung Han        "uadalp v23.4s, v11.8h\n"
*5f39d1b3SJooyung Han        "umull2  v11.8h, v1.16b, v5.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "uadalp v24.4s, v6.8h\n"
*5f39d1b3SJooyung Han        "umull2   v6.8h,  v2.16b, v5.16b\n"
*5f39d1b3SJooyung Han        "uadalp v25.4s, v7.8h\n"
*5f39d1b3SJooyung Han        "umull2   v7.8h,  v3.16b, v5.16b\n"
*5f39d1b3SJooyung Han        "uadalp v26.4s, v8.8h\n"
*5f39d1b3SJooyung Han        "umull    v8.8h,  v0.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "uadalp v27.4s, v9.8h\n"
*5f39d1b3SJooyung Han        "umull    v9.8h,  v1.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "uadalp v24.4s, v10.8h\n"
*5f39d1b3SJooyung Han        "umull   v10.8h,  v2.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "uadalp v25.4s, v11.8h\n"
*5f39d1b3SJooyung Han        "umull   v11.8h,  v3.8b,  v4.8b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "uadalp v26.4s, v6.8h\n"
*5f39d1b3SJooyung Han        "umull2   v6.8h, v0.16b, v4.16b\n"
*5f39d1b3SJooyung Han        "uadalp v27.4s, v7.8h\n"
*5f39d1b3SJooyung Han        "umull2   v7.8h, v1.16b, v4.16b\n"
*5f39d1b3SJooyung Han        "uadalp v28.4s, v8.8h\n"
*5f39d1b3SJooyung Han        "umull2   v8.8h, v2.16b, v4.16b\n"
*5f39d1b3SJooyung Han        "uadalp v29.4s, v9.8h\n"
*5f39d1b3SJooyung Han        "umull2   v9.8h, v3.16b, v4.16b\n"
*5f39d1b3SJooyung Han        "uadalp v30.4s, v10.8h\n"
*5f39d1b3SJooyung Han        "uadalp v31.4s, v11.8h\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "uadalp v28.4s, v6.8h\n"
*5f39d1b3SJooyung Han        "uadalp v29.4s, v7.8h\n"
*5f39d1b3SJooyung Han        // Loop. Decrement loop index (depth) by 16, since we just handled
*5f39d1b3SJooyung Han        // 16 levels of depth.  Do this subs a bit before the end of the loop
*5f39d1b3SJooyung Han        // for better dispatch on A57.
*5f39d1b3SJooyung Han        "subs %w[depth], %w[depth], #16\n"
*5f39d1b3SJooyung Han        "uadalp v30.4s, v8.8h\n"
*5f39d1b3SJooyung Han        "uadalp v31.4s, v9.8h\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Reduce aggregators horizontally
*5f39d1b3SJooyung Han        "addp v0.4s, v12.4s, v13.4s\n"
*5f39d1b3SJooyung Han        "addp v1.4s, v14.4s, v15.4s\n"
*5f39d1b3SJooyung Han        "addp v2.4s, v16.4s, v17.4s\n"
*5f39d1b3SJooyung Han        "addp v3.4s, v18.4s, v19.4s\n"
*5f39d1b3SJooyung Han        "addp v4.4s, v20.4s, v21.4s\n"
*5f39d1b3SJooyung Han        "addp v5.4s, v22.4s, v23.4s\n"
*5f39d1b3SJooyung Han        "addp v6.4s, v24.4s, v25.4s\n"
*5f39d1b3SJooyung Han        "addp v7.4s, v26.4s, v27.4s\n"
*5f39d1b3SJooyung Han        "addp v8.4s, v28.4s, v29.4s\n"
*5f39d1b3SJooyung Han        "addp v9.4s, v30.4s, v31.4s\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "addp v10.4s, v0.4s, v1.4s\n"
*5f39d1b3SJooyung Han        "addp v11.4s, v2.4s, v3.4s\n"
*5f39d1b3SJooyung Han        "addp v12.4s, v4.4s, v5.4s\n"
*5f39d1b3SJooyung Han        "addp v13.4s, v6.4s, v7.4s\n"
*5f39d1b3SJooyung Han        "addp v14.4s, v8.4s, v9.4s\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "mov x0, %[rowmajor_accumulator_buffer]\n"
*5f39d1b3SJooyung Han        "st1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v12.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v13.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v14.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [rowmajor_accumulator_buffer] "r"(rowmajor_accumulator_buffer)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "x0", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
*5f39d1b3SJooyung Han        "v8", "v9", "v10", "v11", "v12", "v13", "v14", "v15", "v16", "v17",
*5f39d1b3SJooyung Han        "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26", "v27",
*5f39d1b3SJooyung Han        "v28", "v29", "v30", "v31");
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    // accumulate row-major accumulators into global (column-major) accumulators
*5f39d1b3SJooyung Han    for (int l = 0; l < kLhsWidth; l++) {
*5f39d1b3SJooyung Han      for (int r = 0; r < kRhsWidth; r++) {
*5f39d1b3SJooyung Han        accum_ptr[l + kLhsWidth * r] +=
*5f39d1b3SJooyung Han            rowmajor_accumulator_buffer[r + l * kRhsWidth];
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Fast kernel operating on int8 operands.
*5f39d1b3SJooyung Han// It is assumed that one of the two int8 operands only takes values
*5f39d1b3SJooyung Han// in [-127, 127], while the other may freely range in [-128, 127].
*5f39d1b3SJooyung Han// The issue with both operands taking the value -128 is that:
*5f39d1b3SJooyung Han// -128*-128 + -128*-128 == -32768 overflows int16.
*5f39d1b3SJooyung Han// Every other expression a*b + c*d, for any int8 a,b,c,d, fits in int16
*5f39d1b3SJooyung Han// range. That is the basic idea of this kernel.
*5f39d1b3SJooyung Hanstruct NEON_64bit_GEMM_Int8Operands_AccumTwoWithin16Bits {
*5f39d1b3SJooyung Han  typedef std::int8_t OperandType;
*5f39d1b3SJooyung Han  typedef std::int32_t AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 16, CellOrder::WidthMajor>, 1>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 16, CellOrder::WidthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    std::size_t start_depth = 123;
*5f39d1b3SJooyung Han    std::size_t run_depth = depth;
*5f39d1b3SJooyung Han    std::size_t dst_col_stride = 4;
*5f39d1b3SJooyung Han    AccumulatorType* dst_ptr = accum_ptr;
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Overview of register layout:
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 4x16 block of Rhs is stored in 8 bit in v0--v3.
*5f39d1b3SJooyung Han        // A 4x16 block of Lhs is stored in 8 bit in v4--v7.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 4x4 block of accumulators is stored in v16-v31 (as 4x32 bit
*5f39d1b3SJooyung Han        // components which need to be horizontally-added at the end)
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // The Lhs vectors are multiplied by the Rhs vectors with a widening
*5f39d1b3SJooyung Han        // multiply over the 8 first levels of depth, producing int16x8
*5f39d1b3SJooyung Han        // vectors of products for each position in the accumulator matrix.
*5f39d1b3SJooyung Han        // Here comes the special trick: since the operands are signed int8,
*5f39d1b3SJooyung Han        // their range being [ -2^7 , 2^7 ), their products are in range
*5f39d1b3SJooyung Han        // [ -2^14 , 2^14 - 1 ), meaning that we can add two such values
*5f39d1b3SJooyung Han        // without any risk of overflowing int16.
*5f39d1b3SJooyung Han        // We thus proceed with the 8 next levels of depth, multiplying
*5f39d1b3SJooyung Han        // again Lhs by Rhs, accumulating into this existing int16x8 vector.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Only then, having processed 16 levels of depth, do we need to
*5f39d1b3SJooyung Han        // horizontally add these int16x8 accumulators into the final
*5f39d1b3SJooyung Han        // int32x4 accumulators.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // As we do not have enough registers to store all 16 int16x8
*5f39d1b3SJooyung Han        // temporary-16bit-accumulators, we have them cycle through v8--v15.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Register layout (ignoring the v8--v15 temporary 16bit accumulators):
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                               +--------+--------+--------+--------+
*5f39d1b3SJooyung Han        //                               |v0.b[0] |v1.b[0] |v2.b[0] |v3.b[0] |
*5f39d1b3SJooyung Han        //                          Rhs  +--------+--------+--------+--------+
*5f39d1b3SJooyung Han        //                               |  ...   |  ...   |  ...   |  ...   |
*5f39d1b3SJooyung Han        //                               +--------+--------+--------+--------|
*5f39d1b3SJooyung Han        //                               |v0.b[15]|v1.b[15]|v2.b[15]|v3.b[15]|
*5f39d1b3SJooyung Han        //                               +--------+--------+--------+--------+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                               |        |        |        |        |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //    Lhs                        |        |        |        |        |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //  +-------+-----+--------+ - - +--------+--------+--------+--------+
*5f39d1b3SJooyung Han        //  |v4.b[0]| ... |v4.b[15]|     | v16.4s | v17.4s | v18.4s | v19.4s |
*5f39d1b3SJooyung Han        //  |v5.b[0]| ... |v5.b[15]|     | v20.4s | v21.4s | v22.4s | v23.4s |
*5f39d1b3SJooyung Han        //  |v6.b[0]| ... |v6.b[15]|     | v24.4s | v25.4s | v26.4s | v27.4s |
*5f39d1b3SJooyung Han        //  |v7.b[0]| ... |v7.b[15]|     | v28.4s | v29.4s | v30.4s | v31.4s |
*5f39d1b3SJooyung Han        //  +-------+--------------+ - - +--------+--------+--------+--------+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                                                Accumulator
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Clear accumulators
*5f39d1b3SJooyung Han        "ld1 {v0.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v16.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v1.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v17.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v4.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v18.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v5.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v19.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v6.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v20.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v7.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v21.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v2.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v22.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v3.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v23.4s, wzr\n"
*5f39d1b3SJooyung Han        "subs %[run_depth], %[run_depth], #16\n"
*5f39d1b3SJooyung Han        "dup v24.4s, wzr\n"
*5f39d1b3SJooyung Han        "mov x0, %[dst_ptr]\n"
*5f39d1b3SJooyung Han        "dup v25.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v26.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v27.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v28.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v29.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v30.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v31.4s, wzr\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "smull    v12.8h,  v0.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "smull    v13.8h,  v1.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "smull    v14.8h,  v0.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "smull    v15.8h,  v1.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "smlal2   v12.8h,  v0.16b,  v4.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v13.8h,  v1.16b,  v4.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v14.8h,  v0.16b,  v5.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v15.8h,  v1.16b,  v5.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "beq " GEMMLOWP_LABEL_AFTER_LOOP "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "subs %[run_depth], %[run_depth], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "sadalp  v16.4s, v12.8h\n"
*5f39d1b3SJooyung Han        "smull    v12.8h,  v0.8b,  v6.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v17.4s, v13.8h\n"
*5f39d1b3SJooyung Han        "smull    v13.8h,  v0.8b,  v7.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v20.4s, v14.8h\n"
*5f39d1b3SJooyung Han        "smull    v14.8h,  v1.8b,  v6.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v21.4s, v15.8h\n"
*5f39d1b3SJooyung Han        "smull    v15.8h,  v1.8b,  v7.8b\n"
*5f39d1b3SJooyung Han        "smlal2   v12.8h,  v0.16b,  v6.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v13.8h,  v0.16b,  v7.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v0.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2   v14.8h,  v1.16b,  v6.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v15.8h,  v1.16b,  v7.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v1.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "sadalp  v24.4s, v12.8h\n"
*5f39d1b3SJooyung Han        "smull    v12.8h,  v2.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v28.4s, v13.8h\n"
*5f39d1b3SJooyung Han        "smull    v13.8h,  v3.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v25.4s, v14.8h\n"
*5f39d1b3SJooyung Han        "smull    v14.8h,  v2.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v29.4s, v15.8h\n"
*5f39d1b3SJooyung Han        "smull    v15.8h,  v3.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "smlal2   v12.8h,  v2.16b,  v4.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v13.8h,  v3.16b,  v4.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v4.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2   v14.8h,  v2.16b,  v5.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v15.8h,  v3.16b,  v5.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v5.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "sadalp  v18.4s, v12.8h\n"
*5f39d1b3SJooyung Han        "smull    v12.8h,  v2.8b,  v6.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v19.4s, v13.8h\n"
*5f39d1b3SJooyung Han        "smull    v13.8h,  v2.8b,  v7.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v22.4s, v14.8h\n"
*5f39d1b3SJooyung Han        "smull    v14.8h,  v3.8b,  v6.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v23.4s, v15.8h\n"
*5f39d1b3SJooyung Han        "smull    v15.8h,  v3.8b,  v7.8b\n"
*5f39d1b3SJooyung Han        "smlal2   v12.8h,  v2.16b,  v6.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v13.8h,  v2.16b,  v7.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v2.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2   v14.8h,  v3.16b,  v6.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v6.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2   v15.8h,  v3.16b,  v7.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v7.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "sadalp  v26.4s, v12.8h\n"
*5f39d1b3SJooyung Han        "ld1 {v3.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smull    v12.8h,  v0.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v30.4s, v13.8h\n"
*5f39d1b3SJooyung Han        "smull    v13.8h,  v1.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v27.4s, v14.8h\n"
*5f39d1b3SJooyung Han        "smull    v14.8h,  v0.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v31.4s, v15.8h\n"
*5f39d1b3SJooyung Han        "smull    v15.8h,  v1.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "smlal2   v12.8h,  v0.16b,  v4.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v13.8h,  v1.16b,  v4.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v14.8h,  v0.16b,  v5.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v15.8h,  v1.16b,  v5.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_AFTER_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load accumulators from memory
*5f39d1b3SJooyung Han        "ld1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "mov x0, %[dst_ptr]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Do the remaining arithmetic for the 16 last levels of depths.
*5f39d1b3SJooyung Han        // All the operands are already loaded.
*5f39d1b3SJooyung Han        "sadalp  v16.4s, v12.8h\n"
*5f39d1b3SJooyung Han        "smull    v12.8h,  v0.8b,  v6.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v17.4s, v13.8h\n"
*5f39d1b3SJooyung Han        "smull    v13.8h,  v0.8b,  v7.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v20.4s, v14.8h\n"
*5f39d1b3SJooyung Han        "smull    v14.8h,  v1.8b,  v6.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v21.4s, v15.8h\n"
*5f39d1b3SJooyung Han        "smull    v15.8h,  v1.8b,  v7.8b\n"
*5f39d1b3SJooyung Han        "smlal2   v12.8h,  v0.16b,  v6.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v13.8h,  v0.16b,  v7.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v14.8h,  v1.16b,  v6.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v15.8h,  v1.16b,  v7.16b\n"
*5f39d1b3SJooyung Han        "sadalp  v24.4s, v12.8h\n"
*5f39d1b3SJooyung Han        "smull    v12.8h,  v2.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v28.4s, v13.8h\n"
*5f39d1b3SJooyung Han        "smull    v13.8h,  v3.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v25.4s, v14.8h\n"
*5f39d1b3SJooyung Han        "smull    v14.8h,  v2.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v29.4s, v15.8h\n"
*5f39d1b3SJooyung Han        "smull    v15.8h,  v3.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "smlal2   v12.8h,  v2.16b,  v4.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v13.8h,  v3.16b,  v4.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v14.8h,  v2.16b,  v5.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v15.8h,  v3.16b,  v5.16b\n"
*5f39d1b3SJooyung Han        "sadalp  v18.4s, v12.8h\n"
*5f39d1b3SJooyung Han        "smull    v12.8h,  v2.8b,  v6.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v19.4s, v13.8h\n"
*5f39d1b3SJooyung Han        "smull    v13.8h,  v2.8b,  v7.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v22.4s, v14.8h\n"
*5f39d1b3SJooyung Han        "smull    v14.8h,  v3.8b,  v6.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v23.4s, v15.8h\n"
*5f39d1b3SJooyung Han        "smull    v15.8h,  v3.8b,  v7.8b\n"
*5f39d1b3SJooyung Han        "smlal2   v12.8h,  v2.16b,  v6.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v13.8h,  v2.16b,  v7.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v14.8h,  v3.16b,  v6.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v15.8h,  v3.16b,  v7.16b\n"
*5f39d1b3SJooyung Han        "sadalp  v26.4s, v12.8h\n"
*5f39d1b3SJooyung Han        "sadalp  v30.4s, v13.8h\n"
*5f39d1b3SJooyung Han        "sadalp  v27.4s, v14.8h\n"
*5f39d1b3SJooyung Han        "sadalp  v31.4s, v15.8h\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Reduce aggregators horizontally
*5f39d1b3SJooyung Han        "addp v0.4s, v16.4s, v20.4s\n"
*5f39d1b3SJooyung Han        "addp v1.4s, v17.4s, v21.4s\n"
*5f39d1b3SJooyung Han        "addp v2.4s, v18.4s, v22.4s\n"
*5f39d1b3SJooyung Han        "addp v3.4s, v19.4s, v23.4s\n"
*5f39d1b3SJooyung Han        "addp v4.4s, v24.4s, v28.4s\n"
*5f39d1b3SJooyung Han        "addp v5.4s, v25.4s, v29.4s\n"
*5f39d1b3SJooyung Han        "addp v6.4s, v26.4s, v30.4s\n"
*5f39d1b3SJooyung Han        "addp v7.4s, v27.4s, v31.4s\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "addp v12.4s, v0.4s, v4.4s\n"
*5f39d1b3SJooyung Han        "addp v13.4s, v1.4s, v5.4s\n"
*5f39d1b3SJooyung Han        "addp v14.4s, v2.4s, v6.4s\n"
*5f39d1b3SJooyung Han        "addp v15.4s, v3.4s, v7.4s\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Add to the accumulators loaded from memory
*5f39d1b3SJooyung Han        "add v8.4s, v8.4s, v12.4s\n"
*5f39d1b3SJooyung Han        "add v9.4s, v9.4s, v13.4s\n"
*5f39d1b3SJooyung Han        "add v10.4s, v10.4s, v14.4s\n"
*5f39d1b3SJooyung Han        "add v11.4s, v11.4s, v15.4s\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators back to memory
*5f39d1b3SJooyung Han        "st1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [dst_ptr] "+r"(dst_ptr), [run_depth] "+r"(run_depth),
*5f39d1b3SJooyung Han        [dst_col_stride] "+r"(dst_col_stride)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [start_depth] "r"(start_depth)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "x0", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
*5f39d1b3SJooyung Han        "v8", "v9", "v10", "v11", "v12", "v13", "v14", "v15", "v16", "v17",
*5f39d1b3SJooyung Han        "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26", "v27",
*5f39d1b3SJooyung Han        "v28", "v29", "v30", "v31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanstruct NEON_64bit_GEMM_Uint8Operands_Uint32Accumulators_dotproduct_narrow {
*5f39d1b3SJooyung Han  typedef std::uint8_t OperandType;
*5f39d1b3SJooyung Han  typedef std::uint32_t AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 16, CellOrder::WidthMajor>, 1>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 16, CellOrder::WidthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    std::size_t start_depth = 123;
*5f39d1b3SJooyung Han    std::size_t run_depth = depth;
*5f39d1b3SJooyung Han    std::size_t dst_col_stride = 4;
*5f39d1b3SJooyung Han    AccumulatorType* dst_ptr = accum_ptr;
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Overview of register layout:
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 4x16 block of Rhs is stored in 8 bit in v0--v3.
*5f39d1b3SJooyung Han        // A 4x16 block of Lhs is stored in 8 bit in v4--v7.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 4x4 block of accumulators is stored in v16-v31 (as 4x32 bit
*5f39d1b3SJooyung Han        // components which need to be horizontally-added at the end)
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Register layout:
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                               +--------+--------+--------+--------+
*5f39d1b3SJooyung Han        //                               |v0.b[0] |v1.b[0] |v2.b[0] |v3.b[0] |
*5f39d1b3SJooyung Han        //                          Rhs  +--------+--------+--------+--------+
*5f39d1b3SJooyung Han        //                               |  ...   |  ...   |  ...   |  ...   |
*5f39d1b3SJooyung Han        //                               +--------+--------+--------+--------|
*5f39d1b3SJooyung Han        //                               |v0.b[15]|v1.b[15]|v2.b[15]|v3.b[15]|
*5f39d1b3SJooyung Han        //                               +--------+--------+--------+--------+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                               |        |        |        |        |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //    Lhs                        |        |        |        |        |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //  +-------+-----+--------+ - - +--------+--------+--------+--------+
*5f39d1b3SJooyung Han        //  |v4.b[0]| ... |v4.b[15]|     | v16.4s | v17.4s | v18.4s | v19.4s |
*5f39d1b3SJooyung Han        //  |v5.b[0]| ... |v5.b[15]|     | v20.4s | v21.4s | v22.4s | v23.4s |
*5f39d1b3SJooyung Han        //  |v6.b[0]| ... |v6.b[15]|     | v24.4s | v25.4s | v26.4s | v27.4s |
*5f39d1b3SJooyung Han        //  |v7.b[0]| ... |v7.b[15]|     | v28.4s | v29.4s | v30.4s | v31.4s |
*5f39d1b3SJooyung Han        //  +-------+--------------+ - - +--------+--------+--------+--------+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                                                Accumulator
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Clear accumulators
*5f39d1b3SJooyung Han        "ld1 {v0.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v16.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v1.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v17.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v4.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v18.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v5.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v19.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v6.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v20.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v7.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v21.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v2.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v22.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v3.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v23.4s, wzr\n"
*5f39d1b3SJooyung Han        "subs %w[run_depth], %w[run_depth], #16\n"
*5f39d1b3SJooyung Han        "dup v24.4s, wzr\n"
*5f39d1b3SJooyung Han        "mov x0, %[dst_ptr]\n"
*5f39d1b3SJooyung Han        "dup v25.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v26.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v27.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v28.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v29.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v30.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v31.4s, wzr\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "beq 1f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "cmp %w[run_depth], #32\n"
*5f39d1b3SJooyung Han        "blt 2f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "3:\n"
*5f39d1b3SJooyung Han        "ld1 {v12.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        ".word 0x6e809490  // udot v16.4s, v4.16b, v0.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e819491  // udot v17.4s, v4.16b, v1.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v13.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        ".word 0x6e829492  // udot v18.4s, v4.16b, v2.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e839493  // udot v19.4s, v4.16b, v3.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v8.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        ".word 0x6e8094b4  // udot v20.4s, v5.16b, v0.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8194b5  // udot v21.4s, v5.16b, v1.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v9.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        ".word 0x6e8294b6  // udot v22.4s, v5.16b, v2.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8394b7  // udot v23.4s, v5.16b, v3.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v10.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        ".word 0x6e8094d8  // udot v24.4s, v6.16b, v0.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8194d9  // udot v25.4s, v6.16b, v1.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v11.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        ".word 0x6e8294da  // udot v26.4s, v6.16b, v2.16b\n"
*5f39d1b3SJooyung Han        "prfm pldl1keep, [%[rhs_ptr], #128]\n"
*5f39d1b3SJooyung Han        ".word 0x6e8394db  // udot v27.4s, v6.16b, v3.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v14.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        ".word 0x6e8094fc  // udot v28.4s, v7.16b, v0.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8194fd  // udot v29.4s, v7.16b, v1.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v15.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        ".word 0x6e8294fe  // udot v30.4s, v7.16b, v2.16b\n"
*5f39d1b3SJooyung Han        "prfm pldl1keep, [%[lhs_ptr], #128]\n"
*5f39d1b3SJooyung Han        ".word 0x6e8394ff  // udot v31.4s, v7.16b, v3.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v4.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        ".word 0x6e889590  // udot v16.4s, v12.16b, v8.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e899591  // udot v17.4s, v12.16b, v9.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v5.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        ".word 0x6e8a9592  // udot v18.4s, v12.16b, v10.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8b9593  // udot v19.4s, v12.16b, v11.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v6.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        ".word 0x6e8895b4  // udot v20.4s, v13.16b, v8.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8995b5  // udot v21.4s, v13.16b, v9.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v0.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "sub %[run_depth], %[run_depth], #32\n"
*5f39d1b3SJooyung Han        ".word 0x6e8a95b6  // udot v22.4s, v13.16b, v10.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8b95b7  // udot v23.4s, v13.16b, v11.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v1.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        ".word 0x6e8895d8  // udot v24.4s, v14.16b, v8.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8995d9  // udot v25.4s, v14.16b, v9.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v2.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        ".word 0x6e8a95da  // udot v26.4s, v14.16b, v10.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8b95db  // udot v27.4s, v14.16b, v11.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v3.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        ".word 0x6e8895fc  // udot v28.4s, v15.16b, v8.16b\n"
*5f39d1b3SJooyung Han        "prfm pldl1keep, [%[rhs_ptr], #128]\n"
*5f39d1b3SJooyung Han        ".word 0x6e8995fd  // udot v29.4s, v15.16b, v9.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v7.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "cmp %w[run_depth], #32\n"
*5f39d1b3SJooyung Han        ".word 0x6e8a95fe  // udot v30.4s, v15.16b, v10.16b\n"
*5f39d1b3SJooyung Han        "prfm pldl1keep, [%[lhs_ptr], #128]\n"
*5f39d1b3SJooyung Han        ".word 0x6e8b95ff  // udot v31.4s, v15.16b, v11.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "bge 3b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "cmp %w[run_depth], #0\n"
*5f39d1b3SJooyung Han        "beq 1f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "2:\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "subs %w[run_depth], %w[run_depth], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        ".word 0x6e809490  // udot v16.4s, v4.16b, v0.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e819491  // udot v17.4s, v4.16b, v1.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e829492  // udot v18.4s, v4.16b, v2.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e839493  // udot v19.4s, v4.16b, v3.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v4.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        ".word 0x6e8094b4  // udot v20.4s, v5.16b, v0.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8194b5  // udot v21.4s, v5.16b, v1.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8294b6  // udot v22.4s, v5.16b, v2.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8394b7  // udot v23.4s, v5.16b, v3.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v5.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        ".word 0x6e8094d8  // udot v24.4s, v6.16b, v0.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8194d9  // udot v25.4s, v6.16b, v1.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8294da  // udot v26.4s, v6.16b, v2.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8394db  // udot v27.4s, v6.16b, v3.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v6.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        ".word 0x6e8094fc  // udot v28.4s, v7.16b, v0.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v0.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        ".word 0x6e8194fd  // udot v29.4s, v7.16b, v1.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v1.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        ".word 0x6e8294fe  // udot v30.4s, v7.16b, v2.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v2.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        ".word 0x6e8394ff  // udot v31.4s, v7.16b, v3.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v3.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v7.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "bne 2b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "1:\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        ".word 0x6e809490  // udot v16.4s, v4.16b, v0.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e819491  // udot v17.4s, v4.16b, v1.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e829492  // udot v18.4s, v4.16b, v2.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e839493  // udot v19.4s, v4.16b, v3.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8094b4  // udot v20.4s, v5.16b, v0.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8194b5  // udot v21.4s, v5.16b, v1.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8294b6  // udot v22.4s, v5.16b, v2.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8394b7  // udot v23.4s, v5.16b, v3.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8094d8  // udot v24.4s, v6.16b, v0.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8194d9  // udot v25.4s, v6.16b, v1.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8294da  // udot v26.4s, v6.16b, v2.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8394db  // udot v27.4s, v6.16b, v3.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8094fc  // udot v28.4s, v7.16b, v0.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8194fd  // udot v29.4s, v7.16b, v1.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8294fe  // udot v30.4s, v7.16b, v2.16b\n"
*5f39d1b3SJooyung Han        ".word 0x6e8394ff  // udot v31.4s, v7.16b, v3.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load accumulators from memory
*5f39d1b3SJooyung Han        "ld1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "mov x0, %[dst_ptr]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Reduce aggregators horizontally
*5f39d1b3SJooyung Han        "addp v0.4s, v16.4s, v20.4s\n"
*5f39d1b3SJooyung Han        "addp v1.4s, v17.4s, v21.4s\n"
*5f39d1b3SJooyung Han        "addp v2.4s, v18.4s, v22.4s\n"
*5f39d1b3SJooyung Han        "addp v3.4s, v19.4s, v23.4s\n"
*5f39d1b3SJooyung Han        "addp v4.4s, v24.4s, v28.4s\n"
*5f39d1b3SJooyung Han        "addp v5.4s, v25.4s, v29.4s\n"
*5f39d1b3SJooyung Han        "addp v6.4s, v26.4s, v30.4s\n"
*5f39d1b3SJooyung Han        "addp v7.4s, v27.4s, v31.4s\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "addp v12.4s, v0.4s, v4.4s\n"
*5f39d1b3SJooyung Han        "addp v13.4s, v1.4s, v5.4s\n"
*5f39d1b3SJooyung Han        "addp v14.4s, v2.4s, v6.4s\n"
*5f39d1b3SJooyung Han        "addp v15.4s, v3.4s, v7.4s\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Add to the accumulators loaded from memory
*5f39d1b3SJooyung Han        "add v8.4s, v8.4s, v12.4s\n"
*5f39d1b3SJooyung Han        "add v9.4s, v9.4s, v13.4s\n"
*5f39d1b3SJooyung Han        "add v10.4s, v10.4s, v14.4s\n"
*5f39d1b3SJooyung Han        "add v11.4s, v11.4s, v15.4s\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators back to memory
*5f39d1b3SJooyung Han        "st1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [dst_ptr] "+r"(dst_ptr), [run_depth] "+r"(run_depth),
*5f39d1b3SJooyung Han        [dst_col_stride] "+r"(dst_col_stride)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [start_depth] "r"(start_depth)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "x0", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
*5f39d1b3SJooyung Han        "v8", "v9", "v10", "v11", "v12", "v13", "v14", "v15", "v16", "v17",
*5f39d1b3SJooyung Han        "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26", "v27",
*5f39d1b3SJooyung Han        "v28", "v29", "v30", "v31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Fast kernel operating on int8 operands with 7-bit range.
*5f39d1b3SJooyung Han// It is assumed that one of the two operands only takes values in [-63, 63],
*5f39d1b3SJooyung Han// while the other take values in [-64, 63].
*5f39d1b3SJooyung Han// With this restriction, it is possible to multiply-accumulate operands into
*5f39d1b3SJooyung Han// a 16-bit integer eight times without overflow.
*5f39d1b3SJooyung Hanstruct NEON_64bit_GEMM_Int7Operands_AccumEightWithin16Bits {
*5f39d1b3SJooyung Han  typedef std::int8_t OperandType;
*5f39d1b3SJooyung Han  typedef std::int32_t AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 16, CellOrder::WidthMajor>, 1>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<2, 16, CellOrder::WidthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_64_DEPTH_LOOP "1"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_64_DEPTH_AFTER_LOOP "2"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_16_DEPTH_LOOP "3"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_16_DEPTH_AFTER_LOOP "4"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    AccumulatorType* dst_ptr = accum_ptr;
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Overview of register layout:
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 4x16 block of Lhs is stored in 8 bit in v0--v7.
*5f39d1b3SJooyung Han        // A 2x16 block of Rhs is stored in 8 bit in v8--v15.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 4x2 block of global accumulators is stored in v24-v31 (as 4x32 bit
*5f39d1b3SJooyung Han        // components which need to be horizontally-added at the end).
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 4x2 block of local accumulators is stored in v16-v23 (as 8x16 bit
*5f39d1b3SJooyung Han        // components which are added to global accumulators every 64 depth
*5f39d1b3SJooyung Han        // iteration.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // The Lhs vectors are multiplied by the Rhs vectors with a widening
*5f39d1b3SJooyung Han        // multiply over the 8 first levels of depth, producing int16x8
*5f39d1b3SJooyung Han        // vectors of products for each position in the accumulator matrix.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Like the trick used in the fast 8-bit kernel, the operands are
*5f39d1b3SJooyung Han        // restricted to 7-bit range [-2^6, 2^6) so their products are in range
*5f39d1b3SJooyung Han        // [-2^12, 2^12 -1). This enables adding eight such products without any
*5f39d1b3SJooyung Han        // risk of overflowing int16, equating to 64 levels of depth before
*5f39d1b3SJooyung Han        // horizontally adding these int16x8 accumulators into the final int32x4
*5f39d1b3SJooyung Han        // accumulators.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Register layout including both local and global accumulators.
*5f39d1b3SJooyung Han        // Since we do not have enough registers to store all Lhs values, we
*5f39d1b3SJooyung Han        // reuse the same registers v0--v7 to load the rest of the Lhs values.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                            +-----+-----+
*5f39d1b3SJooyung Han        //                            | v8  | v9  |
*5f39d1b3SJooyung Han        //                       Rhs  +-----+-----+
*5f39d1b3SJooyung Han        //                            | v10 | v11 |
*5f39d1b3SJooyung Han        //                            +-----+-----+
*5f39d1b3SJooyung Han        //                            | v12 | v13 |
*5f39d1b3SJooyung Han        //                            +-----+-----+
*5f39d1b3SJooyung Han        //                            | v14 | v15 |
*5f39d1b3SJooyung Han        //    Lhs                     +-----+-----+
*5f39d1b3SJooyung Han        //  +----+----+----+----+ - - +-----+-----+      +--------+--------+
*5f39d1b3SJooyung Han        //  | v0 | v4 | v0 | v4 |     | v16 | v20 |      | v24.4s | v28.4s |
*5f39d1b3SJooyung Han        //  | v1 | v5 | v1 | v5 |     | v17 | v21 |  ->  | v25.4s | v29.4s |
*5f39d1b3SJooyung Han        //  | v2 | v6 | v2 | v6 |     | v18 | v22 |      | v26.4s | v30.4s |
*5f39d1b3SJooyung Han        //  | v3 | v7 | v3 | v7 |     | v19 | v23 |      | v27.4s | v31.4s |
*5f39d1b3SJooyung Han        //  +----+----+----+----+ - - +-----+-----+      +--------+--------+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                           Local Accumulator    Global Accumulator
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Clear accumulators.
*5f39d1b3SJooyung Han        "dup v16.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v0.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v24.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v1.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v17.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v2.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v25.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v3.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v18.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v8.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v26.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v9.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v19.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v27.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v20.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v28.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v21.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v29.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v22.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v30.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v23.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v31.4s, wzr\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "cmp %w[depth], #64\n"
*5f39d1b3SJooyung Han        "blt " GEMMLOWP_LABEL_64_DEPTH_AFTER_LOOP "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        //"loop_%=:\n"
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_64_DEPTH_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han        "subs %w[depth], %w[depth], #64\n"
*5f39d1b3SJooyung Han        "ld1 {v4.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "sadalp v24.4s, v16.8h\n"
*5f39d1b3SJooyung Han        "smull v16.8h, v0.8b, v8.8b\n"
*5f39d1b3SJooyung Han        "ld1 {v5.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "sadalp v25.4s, v17.8h\n"
*5f39d1b3SJooyung Han        "smull v17.8h, v1.8b, v8.8b\n"
*5f39d1b3SJooyung Han        "ld1 {v6.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "sadalp v26.4s, v18.8h\n"
*5f39d1b3SJooyung Han        "smull v18.8h, v2.8b, v8.8b\n"
*5f39d1b3SJooyung Han        "ld1 {v7.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "sadalp v27.4s, v19.8h\n"
*5f39d1b3SJooyung Han        "smull v19.8h, v3.8b, v8.8b\n"
*5f39d1b3SJooyung Han        "ld1 {v10.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "sadalp v28.4s, v20.8h\n"
*5f39d1b3SJooyung Han        "smull v20.8h, v0.8b, v9.8b\n"
*5f39d1b3SJooyung Han        "ld1 {v11.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "sadalp v29.4s, v21.8h\n"
*5f39d1b3SJooyung Han        "smull v21.8h, v1.8b, v9.8b\n"
*5f39d1b3SJooyung Han        "ld1 {v12.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "sadalp v30.4s, v22.8h\n"
*5f39d1b3SJooyung Han        "smull v22.8h, v2.8b, v9.8b\n"
*5f39d1b3SJooyung Han        "ld1 {v13.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "sadalp v31.4s, v23.8h\n"
*5f39d1b3SJooyung Han        "smull v23.8h, v3.8b, v9.8b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "cmp %w[depth], #64\n"
*5f39d1b3SJooyung Han        "smlal2 v16.8h, v0.16b, v8.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v14.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2 v17.8h, v1.16b, v8.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v15.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2 v18.8h, v2.16b, v8.16b\n"
*5f39d1b3SJooyung Han        "smlal2 v19.8h, v3.16b, v8.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "smlal2 v20.8h, v0.16b, v9.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v0.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2 v21.8h, v1.16b, v9.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v1.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2 v22.8h, v2.16b, v9.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v2.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2 v23.8h, v3.16b, v9.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v3.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "smlal v16.8h, v4.8b, v10.8b\n"
*5f39d1b3SJooyung Han        "smlal v17.8h, v5.8b, v10.8b\n"
*5f39d1b3SJooyung Han        "smlal v18.8h, v6.8b, v10.8b\n"
*5f39d1b3SJooyung Han        "smlal v19.8h, v7.8b, v10.8b\n"
*5f39d1b3SJooyung Han        "smlal v20.8h, v4.8b, v11.8b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "smlal v21.8h, v5.8b, v11.8b\n"
*5f39d1b3SJooyung Han        "smlal v22.8h, v6.8b, v11.8b\n"
*5f39d1b3SJooyung Han        "smlal v23.8h, v7.8b, v11.8b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "smlal2 v16.8h, v4.16b, v10.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v8.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2 v17.8h, v5.16b, v10.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v9.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2 v18.8h, v6.16b, v10.16b\n"
*5f39d1b3SJooyung Han        "smlal2 v19.8h, v7.16b, v10.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "smlal2 v20.8h, v4.16b, v11.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v4.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2 v21.8h, v5.16b, v11.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v5.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2 v22.8h, v6.16b, v11.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v6.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2 v23.8h, v7.16b, v11.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v7.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "smlal v16.8h, v0.8b, v12.8b\n"
*5f39d1b3SJooyung Han        "smlal v17.8h, v1.8b, v12.8b\n"
*5f39d1b3SJooyung Han        "smlal v18.8h, v2.8b, v12.8b\n"
*5f39d1b3SJooyung Han        "smlal v19.8h, v3.8b, v12.8b\n"
*5f39d1b3SJooyung Han        "smlal v20.8h, v0.8b, v13.8b\n"
*5f39d1b3SJooyung Han        "smlal v21.8h, v1.8b, v13.8b\n"
*5f39d1b3SJooyung Han        "smlal v22.8h, v2.8b, v13.8b\n"
*5f39d1b3SJooyung Han        "smlal v23.8h, v3.8b, v13.8b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "smlal2 v16.8h, v0.16b, v12.16b\n"
*5f39d1b3SJooyung Han        "smlal2 v17.8h, v1.16b, v12.16b\n"
*5f39d1b3SJooyung Han        "smlal2 v18.8h, v2.16b, v12.16b\n"
*5f39d1b3SJooyung Han        "smlal2 v19.8h, v3.16b, v12.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "smlal2 v20.8h, v0.16b, v13.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v0.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2 v21.8h, v1.16b, v13.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v1.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2 v22.8h, v2.16b, v13.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v2.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2 v23.8h, v3.16b, v13.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v3.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "smlal v16.8h, v4.8b, v14.8b\n"
*5f39d1b3SJooyung Han        "smlal v17.8h, v5.8b, v14.8b\n"
*5f39d1b3SJooyung Han        "smlal v18.8h, v6.8b, v14.8b\n"
*5f39d1b3SJooyung Han        "smlal v19.8h, v7.8b, v14.8b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "smlal v20.8h, v4.8b, v15.8b\n"
*5f39d1b3SJooyung Han        "smlal v21.8h, v5.8b, v15.8b\n"
*5f39d1b3SJooyung Han        "smlal v22.8h, v6.8b, v15.8b\n"
*5f39d1b3SJooyung Han        "smlal v23.8h, v7.8b, v15.8b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "smlal2 v16.8h, v4.16b, v14.16b\n"
*5f39d1b3SJooyung Han        "smlal2 v17.8h, v5.16b, v14.16b\n"
*5f39d1b3SJooyung Han        "smlal2 v18.8h, v6.16b, v14.16b\n"
*5f39d1b3SJooyung Han        "smlal2 v19.8h, v7.16b, v14.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "smlal2 v20.8h, v4.16b, v15.16b\n"
*5f39d1b3SJooyung Han        "smlal2 v21.8h, v5.16b, v15.16b\n"
*5f39d1b3SJooyung Han        "smlal2 v22.8h, v6.16b, v15.16b\n"
*5f39d1b3SJooyung Han        "smlal2 v23.8h, v7.16b, v15.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "bge " GEMMLOWP_LABEL_64_DEPTH_LOOP "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_64_DEPTH_AFTER_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "cmp %w[depth], #16\n"
*5f39d1b3SJooyung Han        "blt " GEMMLOWP_LABEL_16_DEPTH_AFTER_LOOP "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        //"loop_%=:\n"
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_16_DEPTH_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han        "sadalp v24.4s, v16.8h\n"
*5f39d1b3SJooyung Han        "smull v16.8h, v0.8b, v8.8b\n"
*5f39d1b3SJooyung Han        "subs %w[depth], %w[depth], #16\n"
*5f39d1b3SJooyung Han        "sadalp v25.4s, v17.8h\n"
*5f39d1b3SJooyung Han        "smull v17.8h, v1.8b, v8.8b\n"
*5f39d1b3SJooyung Han        "sadalp v26.4s, v18.8h\n"
*5f39d1b3SJooyung Han        "smull v18.8h, v2.8b, v8.8b\n"
*5f39d1b3SJooyung Han        "sadalp v27.4s, v19.8h\n"
*5f39d1b3SJooyung Han        "smull v19.8h, v3.8b, v8.8b\n"
*5f39d1b3SJooyung Han        "sadalp v28.4s, v20.8h\n"
*5f39d1b3SJooyung Han        "smull v20.8h, v0.8b, v9.8b\n"
*5f39d1b3SJooyung Han        "sadalp v29.4s, v21.8h\n"
*5f39d1b3SJooyung Han        "smull v21.8h, v1.8b, v9.8b\n"
*5f39d1b3SJooyung Han        "sadalp v30.4s, v22.8h\n"
*5f39d1b3SJooyung Han        "smull v22.8h, v2.8b, v9.8b\n"
*5f39d1b3SJooyung Han        "sadalp v31.4s, v23.8h\n"
*5f39d1b3SJooyung Han        "smull v23.8h, v3.8b, v9.8b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "cmp %w[depth], #16\n"
*5f39d1b3SJooyung Han        "smlal2 v16.8h, v0.16b, v8.16b\n"
*5f39d1b3SJooyung Han        "smlal2 v17.8h, v1.16b, v8.16b\n"
*5f39d1b3SJooyung Han        "smlal2 v18.8h, v2.16b, v8.16b\n"
*5f39d1b3SJooyung Han        "smlal2 v19.8h, v3.16b, v8.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v8.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "smlal2 v20.8h, v0.16b, v9.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v0.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2 v21.8h, v1.16b, v9.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v1.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2 v22.8h, v2.16b, v9.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v2.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2 v23.8h, v3.16b, v9.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v3.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v9.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "bge " GEMMLOWP_LABEL_16_DEPTH_LOOP "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_16_DEPTH_AFTER_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "sadalp v24.4s, v16.8h\n"
*5f39d1b3SJooyung Han        "sadalp v25.4s, v17.8h\n"
*5f39d1b3SJooyung Han        "sadalp v26.4s, v18.8h\n"
*5f39d1b3SJooyung Han        "sadalp v27.4s, v19.8h\n"
*5f39d1b3SJooyung Han        "sadalp v28.4s, v20.8h\n"
*5f39d1b3SJooyung Han        "sadalp v29.4s, v21.8h\n"
*5f39d1b3SJooyung Han        "sadalp v30.4s, v22.8h\n"
*5f39d1b3SJooyung Han        "sadalp v31.4s, v23.8h\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Reduce aggregators horizontally.
*5f39d1b3SJooyung Han        "addp v0.4s, v24.4s, v25.4s\n"
*5f39d1b3SJooyung Han        "addp v1.4s, v26.4s, v27.4s\n"
*5f39d1b3SJooyung Han        "addp v2.4s, v28.4s, v29.4s\n"
*5f39d1b3SJooyung Han        "addp v3.4s, v30.4s, v31.4s\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "addp v4.4s, v0.4s, v1.4s\n"
*5f39d1b3SJooyung Han        "addp v5.4s, v2.4s, v3.4s\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load accumulators from memory.
*5f39d1b3SJooyung Han        "mov x0, %[dst_ptr]\n"
*5f39d1b3SJooyung Han        "ld1 {v6.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v7.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Add to the accumulators loaded from memory.
*5f39d1b3SJooyung Han        "add v6.4s, v6.4s, v4.4s\n"
*5f39d1b3SJooyung Han        "add v7.4s, v7.4s, v5.4s\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators back to memory.
*5f39d1b3SJooyung Han        "mov x0, %[dst_ptr]\n"
*5f39d1b3SJooyung Han        "st1 {v6.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v7.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        :
*5f39d1b3SJooyung Han        // Outputs.
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [dst_ptr] "+r"(dst_ptr), [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :
*5f39d1b3SJooyung Han        // Inputs.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        :
*5f39d1b3SJooyung Han        // Clobbers.
*5f39d1b3SJooyung Han        "cc", "memory",
*5f39d1b3SJooyung Han        // We use these NEON registers
*5f39d1b3SJooyung Han        "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7", "v8", "v9", "v10",
*5f39d1b3SJooyung Han        "v11", "v12", "v13", "v14", "v15", "v16", "v17", "v18", "v19", "v20",
*5f39d1b3SJooyung Han        "v21", "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
*5f39d1b3SJooyung Han        "v31", "x0");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung HanSET_7BIT_RANGES(NEON_64bit_GEMM_Int7Operands_AccumEightWithin16Bits);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Kernel operating on int8 operands with 4.25-bit range.
*5f39d1b3SJooyung Han// It is assumed that one of the two operands only takes values in [-7, 7],
*5f39d1b3SJooyung Han// while the other take values in [-9, 9].
*5f39d1b3SJooyung Han// With this restriction, it is possible to multiply-accumulate operands into
*5f39d1b3SJooyung Han// a 16-bit integer thirty-two times without overflow.
*5f39d1b3SJooyung Hanstruct NEON_64bit_GEMM_Int425Operands {
*5f39d1b3SJooyung Han  typedef std::int8_t OperandType;
*5f39d1b3SJooyung Han  typedef std::int32_t AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 32, CellOrder::WidthMajor>, 1>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<2, 32, CellOrder::WidthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_512_DEPTH_LOOP "1"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_32_DEPTH_LOOP "2"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_32_DEPTH_AFTER_LOOP "3"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    AccumulatorType* dst_ptr = accum_ptr;
*5f39d1b3SJooyung Han    int outer_depth = depth / 512 + 1;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Overview of register layout:
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 4x32 block of Lhs is stored in 8 bit in v0--v7.
*5f39d1b3SJooyung Han        // A 2x32 block of Rhs is stored in 8 bit in v8--v11.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 4x2 block of global accumulators is stored in v24-v31 (as 4x32 bit
*5f39d1b3SJooyung Han        // components which need to be horizontally-added at the end).
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 4x2 block of local accumulators is stored in v16-v23 (as 8x16 bit
*5f39d1b3SJooyung Han        // components which are horizontally-added to global accumulators every
*5f39d1b3SJooyung Han        // 512 depth iteration.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // The Lhs vectors are multiplied by the Rhs vectors with a multiply
*5f39d1b3SJooyung Han        // over the 16 first levels of depth, producing int8x16 vectors of
*5f39d1b3SJooyung Han        // products for each position in the accumulator matrix.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Like the trick used in the fast 8-bit and 7-bit kernels, the operands
*5f39d1b3SJooyung Han        // are restricted to 4.25-bit range, [-7, 7] for one operand and [-9, 9]
*5f39d1b3SJooyung Han        // for the other operand. This enables adding two such products without
*5f39d1b3SJooyung Han        // any risk of overflowing int8, and thiry-two such products without
*5f39d1b3SJooyung Han        // overflowing int16. This equates to 512 levels of depth before
*5f39d1b3SJooyung Han        // horizontally adding these int16x8 accumulators into the final int32x4
*5f39d1b3SJooyung Han        // accumulators.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Register layout (ignoring the v12--v15 temporary 8-bit accumulators).
*5f39d1b3SJooyung Han        // Since we do not have enough registers to store all Lhs values and Rhs
*5f39d1b3SJooyung Han        // values, we reuse the same registers v0--v7 to load subsequent Lhs
*5f39d1b3SJooyung Han        // values and v8-v11 to subsequent Rhs values.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                            +-----+-----+
*5f39d1b3SJooyung Han        //                            | v8  | v9  |
*5f39d1b3SJooyung Han        //                       Rhs  +-----+-----+
*5f39d1b3SJooyung Han        //                            | v10 | v11 |
*5f39d1b3SJooyung Han        //                            +-----+-----+
*5f39d1b3SJooyung Han        //                            | v8  | v9  |
*5f39d1b3SJooyung Han        //                            +-----+-----+
*5f39d1b3SJooyung Han        //                            | v10 | v11 |
*5f39d1b3SJooyung Han        //    Lhs                     +-----+-----+
*5f39d1b3SJooyung Han        //  +----+----+----+----+ - - +-----+-----+      +--------+--------+
*5f39d1b3SJooyung Han        //  | v0 | v4 | v0 | v4 |     | v16 | v17 |      | v24.4s | v25.4s |
*5f39d1b3SJooyung Han        //  | v1 | v5 | v1 | v5 |     | v18 | v19 |  ->  | v26.4s | v27.4s |
*5f39d1b3SJooyung Han        //  | v2 | v6 | v2 | v6 |     | v20 | v21 |      | v28.4s | v29.4s |
*5f39d1b3SJooyung Han        //  | v3 | v7 | v3 | v7 |     | v22 | v23 |      | v30.4s | v31.4s |
*5f39d1b3SJooyung Han        //  +----+----+----+----+ - - +-----+-----+      +--------+--------+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                           Local Accumulator    Global Accumulator
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Clear global accumulators.
*5f39d1b3SJooyung Han        "dup v24.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v8.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v25.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v9.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v26.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v10.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v27.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v11.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v28.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v0.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v29.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v1.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v30.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v2.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v31.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v3.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "ld1 {v4.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v5.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v6.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v7.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        //"loop_%=:\n"
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_512_DEPTH_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han        // Clear local accumulators.
*5f39d1b3SJooyung Han        "dup v16.8h, wzr\n"
*5f39d1b3SJooyung Han        "dup v17.8h, wzr\n"
*5f39d1b3SJooyung Han        "dup v18.8h, wzr\n"
*5f39d1b3SJooyung Han        "mov x1, #512\n"
*5f39d1b3SJooyung Han        "dup v19.8h, wzr\n"
*5f39d1b3SJooyung Han        "dup v20.8h, wzr\n"
*5f39d1b3SJooyung Han        "dup v21.8h, wzr\n"
*5f39d1b3SJooyung Han        "dup v22.8h, wzr\n"
*5f39d1b3SJooyung Han        "dup v23.8h, wzr\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        //"loop_%=:\n"
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_32_DEPTH_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han        "mul v12.16b, v0.16b, v8.16b\n"
*5f39d1b3SJooyung Han        "mul v13.16b, v0.16b, v10.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v0.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "mul v14.16b, v2.16b, v8.16b\n"
*5f39d1b3SJooyung Han        "mul v15.16b, v2.16b, v10.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "mla v12.16b, v1.16b, v9.16b\n"
*5f39d1b3SJooyung Han        "mla v13.16b, v1.16b, v11.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v1.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "mla v14.16b, v3.16b, v9.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v2.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "mla v15.16b, v3.16b, v11.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v3.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "sadalp v16.8h, v12.16b\n"
*5f39d1b3SJooyung Han        "sadalp v17.8h, v13.16b\n"
*5f39d1b3SJooyung Han        "subs %w[depth], %w[depth], #32\n"
*5f39d1b3SJooyung Han        "sadalp v18.8h, v14.16b\n"
*5f39d1b3SJooyung Han        "sadalp v19.8h, v15.16b\n"
*5f39d1b3SJooyung Han        "subs x1, x1, #32\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "mul v12.16b, v4.16b, v8.16b\n"
*5f39d1b3SJooyung Han        "mul v13.16b, v4.16b, v10.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v4.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "mul v14.16b, v6.16b, v8.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v8.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "mul v15.16b, v6.16b, v10.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "mla v12.16b, v5.16b, v9.16b\n"
*5f39d1b3SJooyung Han        "mla v13.16b, v5.16b, v11.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v5.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "mla v14.16b, v7.16b, v9.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v9.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "mla v15.16b, v7.16b, v11.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v10.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "sadalp v20.8h, v12.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v11.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "sadalp v21.8h, v13.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v6.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "sadalp v22.8h, v14.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v7.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "sadalp v23.8h, v15.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "mul v12.16b, v0.16b, v8.16b\n"
*5f39d1b3SJooyung Han        "mul v13.16b, v0.16b, v10.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v0.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "mul v14.16b, v2.16b, v8.16b\n"
*5f39d1b3SJooyung Han        "mul v15.16b, v2.16b, v10.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "mla v12.16b, v1.16b, v9.16b\n"
*5f39d1b3SJooyung Han        "mla v13.16b, v1.16b, v11.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v1.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "mla v14.16b, v3.16b, v9.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v2.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "mla v15.16b, v3.16b, v11.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v3.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "sadalp v16.8h, v12.16b\n"
*5f39d1b3SJooyung Han        "sadalp v17.8h, v13.16b\n"
*5f39d1b3SJooyung Han        "sadalp v18.8h, v14.16b\n"
*5f39d1b3SJooyung Han        "sadalp v19.8h, v15.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "mul v12.16b, v4.16b, v8.16b\n"
*5f39d1b3SJooyung Han        "mul v13.16b, v4.16b, v10.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v4.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "mul v14.16b, v6.16b, v8.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v8.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "mul v15.16b, v6.16b, v10.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "mla v12.16b, v5.16b, v9.16b\n"
*5f39d1b3SJooyung Han        "mla v13.16b, v5.16b, v11.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v5.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "mla v14.16b, v7.16b, v9.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v9.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "mla v15.16b, v7.16b, v11.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v10.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "sadalp v20.8h, v12.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v11.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "sadalp v21.8h, v13.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v6.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "sadalp v22.8h, v14.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v7.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "sadalp v23.8h, v15.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "beq " GEMMLOWP_LABEL_32_DEPTH_AFTER_LOOP
*5f39d1b3SJooyung Han        "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "cmp %w[depth], #0\n"
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_32_DEPTH_LOOP "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_32_DEPTH_AFTER_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Pairwise add 16-bit local accums to 32-bit global accums.
*5f39d1b3SJooyung Han        "sadalp v24.4s, v16.8h\n"
*5f39d1b3SJooyung Han        "sadalp v25.4s, v17.8h\n"
*5f39d1b3SJooyung Han        "sadalp v26.4s, v18.8h\n"
*5f39d1b3SJooyung Han        "sadalp v27.4s, v19.8h\n"
*5f39d1b3SJooyung Han        "sadalp v28.4s, v20.8h\n"
*5f39d1b3SJooyung Han        "sadalp v29.4s, v21.8h\n"
*5f39d1b3SJooyung Han        "sadalp v30.4s, v22.8h\n"
*5f39d1b3SJooyung Han        "sadalp v31.4s, v23.8h\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_512_DEPTH_LOOP
*5f39d1b3SJooyung Han        "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Reduce aggregators horizontally.
*5f39d1b3SJooyung Han        "addp v0.4s, v24.4s, v26.4s\n"
*5f39d1b3SJooyung Han        "addp v1.4s, v28.4s, v30.4s\n"
*5f39d1b3SJooyung Han        "addp v2.4s, v25.4s, v27.4s\n"
*5f39d1b3SJooyung Han        "addp v3.4s, v29.4s, v31.4s\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "addp v4.4s, v0.4s, v1.4s\n"
*5f39d1b3SJooyung Han        "addp v5.4s, v2.4s, v3.4s\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load accumulators from memory.
*5f39d1b3SJooyung Han        "mov x0, %[dst_ptr]\n"
*5f39d1b3SJooyung Han        "ld1 {v6.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v7.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Add to the accumulators loaded from memory.
*5f39d1b3SJooyung Han        "add v6.4s, v6.4s, v4.4s\n"
*5f39d1b3SJooyung Han        "add v7.4s, v7.4s, v5.4s\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators back to memory.
*5f39d1b3SJooyung Han        "mov x0, %[dst_ptr]\n"
*5f39d1b3SJooyung Han        "st1 {v6.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v7.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        :
*5f39d1b3SJooyung Han        // Outputs.
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [dst_ptr] "+r"(dst_ptr), [depth] "+r"(depth),
*5f39d1b3SJooyung Han        [outer_depth] "+r"(outer_depth)
*5f39d1b3SJooyung Han        :
*5f39d1b3SJooyung Han        // Inputs.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        :
*5f39d1b3SJooyung Han        // Clobbers.
*5f39d1b3SJooyung Han        "cc", "memory",
*5f39d1b3SJooyung Han        // We use these NEON registers
*5f39d1b3SJooyung Han        "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7", "v8", "v9", "v10",
*5f39d1b3SJooyung Han        "v11", "v12", "v13", "v14", "v15", "v16", "v17", "v18", "v19", "v20",
*5f39d1b3SJooyung Han        "v21", "v22", "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30",
*5f39d1b3SJooyung Han        "v31", "x0", "x1");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung HanSET_425BIT_RANGES(NEON_64bit_GEMM_Int425Operands);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifdef __ARM_FEATURE_DOTPROD
*5f39d1b3SJooyung Han// Kernels utilizing the Armv8.2 Dot Product extension.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// The dot product instructions work by taking 4 consecutive 8-bit depth
*5f39d1b3SJooyung Han// values from each operand, multiplying the 4 pairs together and
*5f39d1b3SJooyung Han// accumulating all the results into the corresponding 32-bit accumulator
*5f39d1b3SJooyung Han// lane.  As such, the operation is identical to a 32-bit instruction (like
*5f39d1b3SJooyung Han// FMLA used in SGEMM), except that 4 depth values are processed at a time
*5f39d1b3SJooyung Han// instead of 1.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Thus, this first kernel is a carbon copy of
*5f39d1b3SJooyung Han// "NEON_64bit_GEMM_Float32_WithScalar_A57" (which should provide good
*5f39d1b3SJooyung Han// performance for most processors) below with the opcode (fmla -> udot) and
*5f39d1b3SJooyung Han// types (float32 -> uint8/uint32) changed.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// A signed version of this kernel could be produced by replacing "udot"
*5f39d1b3SJooyung Han// with "sdot" - performance should be identical to this udot kernel.
*5f39d1b3SJooyung Hanstruct NEON_64bit_GEMM_Uint8Operands_Uint32Accumulators_dotproduct {
*5f39d1b3SJooyung Han  typedef std::uint8_t OperandType;
*5f39d1b3SJooyung Han  typedef std::uint32_t AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 4, CellOrder::WidthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 4, CellOrder::WidthMajor>, 2> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov x0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "ld1 {v8.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v16.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v24.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v9.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v17.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v25.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v10.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v18.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v26.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v11.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v19.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v27.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v12.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v20.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v28.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v13.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v21.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v29.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v14.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v22.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v30.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v15.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v23.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v31.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // The start of the loop assumes first Rhs cell is already loaded, so
*5f39d1b3SJooyung Han        // do it here for first iteration.
*5f39d1b3SJooyung Han        "ld1 {v0.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // And the same for the first Lhs cell.
*5f39d1b3SJooyung Han        "ld1 {v2.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Start the MACs at the head of the loop - 1st cell from each side
*5f39d1b3SJooyung Han        // already loaded.
*5f39d1b3SJooyung Han        ".word 0x6f80e048  // udot v8.4s, v2.16b, v0.4b[0]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa0e049  // udot v9.4s, v2.16b, v0.4b[1]\n"
*5f39d1b3SJooyung Han        "ld1 {v1.16b}, [%[rhs_ptr]], #16\n"  // Load second Rhs cell.
*5f39d1b3SJooyung Han        ".word 0x6f80e84a  // udot v10.4s, v2.16b, v0.4b[2]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa0e84b  // udot v11.4s, v2.16b, v0.4b[3]\n"
*5f39d1b3SJooyung Han        "ld1 {v3.16b}, [%[lhs_ptr]], #16\n"  // Load second Lhs cell.
*5f39d1b3SJooyung Han        ".word 0x6f81e04c  // udot v12.4s, v2.16b, v1.4b[0]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa1e04d  // udot v13.4s, v2.16b, v1.4b[1]\n"
*5f39d1b3SJooyung Han        "ld1 {v4.16b}, [%[lhs_ptr]], #16\n"  // Load third Lhs cell.
*5f39d1b3SJooyung Han        ".word 0x6f81e84e  // udot v14.4s, v2.16b, v1.4b[2]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa1e84f  // udot v15.4s, v2.16b, v1.4b[3]\n"
*5f39d1b3SJooyung Han        "ld1 {v2.16b}, [%[lhs_ptr]], #16\n"  // Done with first Lhs cell - load
*5f39d1b3SJooyung Han        // for the next iteration early.
*5f39d1b3SJooyung Han        ".word 0x6f80e070  // udot v16.4s, v3.16b, v0.4b[0]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa0e071  // udot v17.4s, v3.16b, v0.4b[1]\n"
*5f39d1b3SJooyung Han        ".word 0x6f80e872  // udot v18.4s, v3.16b, v0.4b[2]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa0e873  // udot v19.4s, v3.16b, v0.4b[3]\n"
*5f39d1b3SJooyung Han        ".word 0x6f81e074  // udot v20.4s, v3.16b, v1.4b[0]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa1e075  // udot v21.4s, v3.16b, v1.4b[1]\n"
*5f39d1b3SJooyung Han        ".word 0x6f81e876  // udot v22.4s, v3.16b, v1.4b[2]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa1e877  // udot v23.4s, v3.16b, v1.4b[3]\n"
*5f39d1b3SJooyung Han        ".word 0x6f80e098  // udot v24.4s, v4.16b, v0.4b[0]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa0e099  // udot v25.4s, v4.16b, v0.4b[1]\n"
*5f39d1b3SJooyung Han        ".word 0x6f80e89a  // udot v26.4s, v4.16b, v0.4b[2]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa0e89b  // udot v27.4s, v4.16b, v0.4b[3]\n"
*5f39d1b3SJooyung Han        "ld1 {v0.16b}, [%[rhs_ptr]], #16\n"  // Done with the first Rhs cell -
*5f39d1b3SJooyung Han        // load for the next iteration early.
*5f39d1b3SJooyung Han        ".word 0x6f81e09c  // udot v28.4s, v4.16b, v1.4b[0]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa1e09d  // udot v29.4s, v4.16b, v1.4b[1]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Loop.  Decrement loop index (depth) by 4 as udot processes 4
*5f39d1b3SJooyung Han        // depth values.
*5f39d1b3SJooyung Han        "subs %w[depth], %w[depth], #4\n"
*5f39d1b3SJooyung Han        ".word 0x6f81e89e  // udot v30.4s, v4.16b, v1.4b[2]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa1e89f  // udot v31.4s, v4.16b, v1.4b[3]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov x0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "st1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v16.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v24.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v17.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v25.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v18.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v26.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v19.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v27.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v12.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v20.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v28.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v13.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v21.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v29.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v14.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v22.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v30.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v15.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v23.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v31.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "x0", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
*5f39d1b3SJooyung Han        "v8", "v9", "v10", "v11", "v12", "v13", "v14", "v15", "v16", "v17",
*5f39d1b3SJooyung Han        "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26", "v27",
*5f39d1b3SJooyung Han        "v28", "v29", "v30", "v31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// As above, except tuned for Cortex-A55r1.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Similarly, this is a clone of NEON_64bit_GEMM_Float32_WithScalar_A55r1
*5f39d1b3SJooyung Han// with the names changed.
*5f39d1b3SJooyung Hanstruct NEON_64bit_GEMM_Uint8Operands_Uint32Accumulators_dotproduct_A55r1 {
*5f39d1b3SJooyung Han  typedef std::uint8_t OperandType;
*5f39d1b3SJooyung Han  typedef std::uint32_t AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 4, CellOrder::WidthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 4, CellOrder::WidthMajor>, 2> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov x0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "ld1 {v8.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v16.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v24.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v9.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v17.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v25.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v10.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v18.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v26.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v11.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v19.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v27.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v12.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v20.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v28.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v13.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v21.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v29.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v14.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v22.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v30.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v15.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v23.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v31.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // For details on how this kernel works, see the Float32 kernel below.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "ldr d0, [%[rhs_ptr]]\n"
*5f39d1b3SJooyung Han        "ldr x18, [%[rhs_ptr], #8]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "ldr q2, [%[lhs_ptr]]\n"
*5f39d1b3SJooyung Han        "ldr q3, [%[lhs_ptr], #16]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        ".word 0x6f80e048  // udot v8.4s, v2.16b, v0.4b[0]\n"
*5f39d1b3SJooyung Han        "ldr d1, [%[rhs_ptr], #16]\n"  // Bottom half of v1
*5f39d1b3SJooyung Han        ".word 0x6fa0e049  // udot v9.4s, v2.16b, v0.4b[1]\n"
*5f39d1b3SJooyung Han        "ins v0.d[1], x18\n"  // Finish loading v0
*5f39d1b3SJooyung Han        ".word 0x6f80e070  // udot v16.4s, v3.16b, v0.4b[0]\n"  // out of
*5f39d1b3SJooyung Han                                                                // sequence -
*5f39d1b3SJooyung Han                                                                // used to
*5f39d1b3SJooyung Han                                                                // reduce
*5f39d1b3SJooyung Han                                                                // load/use
*5f39d1b3SJooyung Han                                                                // pressure.
*5f39d1b3SJooyung Han        "ldr x18, [%[rhs_ptr], #24]\n"  // Top half of v1 to X register
*5f39d1b3SJooyung Han        ".word 0x6fa0e071  // udot v17.4s, v3.16b, v0.4b[1]\n"  // out of
*5f39d1b3SJooyung Han                                                                // sequence -
*5f39d1b3SJooyung Han                                                                // used to
*5f39d1b3SJooyung Han                                                                // reduce
*5f39d1b3SJooyung Han                                                                // load/use
*5f39d1b3SJooyung Han                                                                // pressure.
*5f39d1b3SJooyung Han        "add %[rhs_ptr], %[rhs_ptr], #32\n"  // RHS loads complete - increment
*5f39d1b3SJooyung Han                                             // pointer.
*5f39d1b3SJooyung Han        ".word 0x6f80e84a  // udot v10.4s, v2.16b, v0.4b[2]\n"
*5f39d1b3SJooyung Han        "ldr d4, [%[lhs_ptr], #32]\n"  // Bottom half of v4
*5f39d1b3SJooyung Han        ".word 0x6fa0e84b  // udot v11.4s, v2.16b, v0.4b[3]\n"
*5f39d1b3SJooyung Han        "ins v1.d[1], x18\n"  // Finish loading v1
*5f39d1b3SJooyung Han        ".word 0x6f81e04c  // udot v12.4s, v2.16b, v1.4b[0]\n"
*5f39d1b3SJooyung Han        "ldr x18, [%[lhs_ptr], #40]\n"  // Top half of v4 to X register
*5f39d1b3SJooyung Han        ".word 0x6fa1e04d  // udot v13.4s, v2.16b, v1.4b[1]\n"
*5f39d1b3SJooyung Han        "add %[lhs_ptr], %[lhs_ptr], #48\n"  // LHS loads complete - increment
*5f39d1b3SJooyung Han                                             // pointer.
*5f39d1b3SJooyung Han        ".word 0x6f81e84e  // udot v14.4s, v2.16b, v1.4b[2]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        ".word 0x6fa1e84f  // udot v15.4s, v2.16b, v1.4b[3]\n"
*5f39d1b3SJooyung Han        "ldr d2, [%[lhs_ptr]]\n"  // Bottom half of v2 (for next time)
*5f39d1b3SJooyung Han        ".word 0x6f80e872  // udot v18.4s, v3.16b, v0.4b[2]\n"
*5f39d1b3SJooyung Han        "ins v4.d[1], x18\n"  // Finish loading v4
*5f39d1b3SJooyung Han        ".word 0x6fa0e873  // udot v19.4s, v3.16b, v0.4b[3]\n"
*5f39d1b3SJooyung Han        "ldr x18, [%[lhs_ptr], #8]\n"  // Top half of next v2 to X register
*5f39d1b3SJooyung Han        ".word 0x6f81e074  // udot v20.4s, v3.16b, v1.4b[0]\n"
*5f39d1b3SJooyung Han        "subs %w[depth], %w[depth], #4\n"
*5f39d1b3SJooyung Han        ".word 0x6fa1e075  // udot v21.4s, v3.16b, v1.4b[1]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        ".word 0x6f81e876  // udot v22.4s, v3.16b, v1.4b[2]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        ".word 0x6fa1e877  // udot v23.4s, v3.16b, v1.4b[3]\n"
*5f39d1b3SJooyung Han        "ldr d3, [%[lhs_ptr], #16]\n"  // Bottom half of v3 (for next time)
*5f39d1b3SJooyung Han        ".word 0x6f80e098  // udot v24.4s, v4.16b, v0.4b[0]\n"
*5f39d1b3SJooyung Han        "ins v2.d[1], x18\n"  // Finish loading next v2
*5f39d1b3SJooyung Han        ".word 0x6fa0e099  // udot v25.4s, v4.16b, v0.4b[1]\n"
*5f39d1b3SJooyung Han        "ldr x18, [%[lhs_ptr], #24]\n"  // Top half of next v3 to X register
*5f39d1b3SJooyung Han        ".word 0x6f80e89a  // udot v26.4s, v4.16b, v0.4b[2]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        ".word 0x6fa0e89b  // udot v27.4s, v4.16b, v0.4b[3]\n"
*5f39d1b3SJooyung Han        "ldr d0, [%[rhs_ptr]]\n"  // Bottom half of v0 (for next time)
*5f39d1b3SJooyung Han        ".word 0x6f81e09c  // udot v28.4s, v4.16b, v1.4b[0]\n"
*5f39d1b3SJooyung Han        "ins v3.d[1], x18\n"  // Finish loading next v3
*5f39d1b3SJooyung Han        ".word 0x6fa1e09d  // udot v29.4s, v4.16b, v1.4b[1]\n"
*5f39d1b3SJooyung Han        "ldr x18, [%[rhs_ptr], #8]\n"  // Top half of next v0 to X register
*5f39d1b3SJooyung Han        ".word 0x6f81e89e  // udot v30.4s, v4.16b, v1.4b[2]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        ".word 0x6fa1e89f  // udot v31.4s, v4.16b, v1.4b[3]\n"
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov x0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "st1 {v8.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v16.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v24.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v9.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v17.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v25.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v10.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v18.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v26.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v11.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v19.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v27.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v12.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v20.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v28.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v13.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v21.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v29.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v14.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v22.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v30.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v15.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v23.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v31.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "x0", "x18", "v0", "v1", "v2", "v3", "v4", "v5", "v6",
*5f39d1b3SJooyung Han        "v7", "v8", "v9", "v10", "v11", "v12", "v13", "v14", "v15", "v16",
*5f39d1b3SJooyung Han        "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26",
*5f39d1b3SJooyung Han        "v27", "v28", "v29", "v30", "v31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han#endif  // __ARM_FEATURE_DOTPROD
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// We don't actually use int32*int32 in production. This is just an
*5f39d1b3SJooyung Han// experiment to help dissociate the effect of integer-vs-float, from the
*5f39d1b3SJooyung Han// effect of operands width.
*5f39d1b3SJooyung Hanstruct NEON_64bit_GEMM_Int32_WithScalar {
*5f39d1b3SJooyung Han  typedef std::int32_t OperandType;
*5f39d1b3SJooyung Han  typedef std::int32_t AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 2> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov x0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "ld1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v16.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v24.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v17.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v25.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v18.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v26.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v19.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v27.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v12.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v20.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v28.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v13.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v21.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v29.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v14.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v22.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v30.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v15.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v23.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v31.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 2 Rhs cell of size 1x4 each
*5f39d1b3SJooyung Han        "ld1 {v0.4s}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v1.4s}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 3 Lhs cells of size 4x1 each
*5f39d1b3SJooyung Han        "ld1 {v2.4s}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v3.4s}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v4.4s}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate
*5f39d1b3SJooyung Han        "mla v8.4s, v2.4s, v0.s[0]\n"
*5f39d1b3SJooyung Han        "mla v9.4s, v2.4s, v0.s[1]\n"
*5f39d1b3SJooyung Han        "mla v10.4s, v2.4s, v0.s[2]\n"
*5f39d1b3SJooyung Han        "mla v11.4s, v2.4s, v0.s[3]\n"
*5f39d1b3SJooyung Han        "mla v12.4s, v2.4s, v1.s[0]\n"
*5f39d1b3SJooyung Han        "mla v13.4s, v2.4s, v1.s[1]\n"
*5f39d1b3SJooyung Han        "mla v14.4s, v2.4s, v1.s[2]\n"
*5f39d1b3SJooyung Han        "mla v15.4s, v2.4s, v1.s[3]\n"
*5f39d1b3SJooyung Han        "mla v16.4s, v3.4s, v0.s[0]\n"
*5f39d1b3SJooyung Han        "mla v17.4s, v3.4s, v0.s[1]\n"
*5f39d1b3SJooyung Han        "mla v18.4s, v3.4s, v0.s[2]\n"
*5f39d1b3SJooyung Han        "mla v19.4s, v3.4s, v0.s[3]\n"
*5f39d1b3SJooyung Han        "mla v20.4s, v3.4s, v1.s[0]\n"
*5f39d1b3SJooyung Han        "mla v21.4s, v3.4s, v1.s[1]\n"
*5f39d1b3SJooyung Han        "mla v22.4s, v3.4s, v1.s[2]\n"
*5f39d1b3SJooyung Han        "mla v23.4s, v3.4s, v1.s[3]\n"
*5f39d1b3SJooyung Han        "mla v24.4s, v4.4s, v0.s[0]\n"
*5f39d1b3SJooyung Han        "mla v25.4s, v4.4s, v0.s[1]\n"
*5f39d1b3SJooyung Han        "mla v26.4s, v4.4s, v0.s[2]\n"
*5f39d1b3SJooyung Han        "mla v27.4s, v4.4s, v0.s[3]\n"
*5f39d1b3SJooyung Han        "mla v28.4s, v4.4s, v1.s[0]\n"
*5f39d1b3SJooyung Han        "mla v29.4s, v4.4s, v1.s[1]\n"
*5f39d1b3SJooyung Han        "mla v30.4s, v4.4s, v1.s[2]\n"
*5f39d1b3SJooyung Han        "mla v31.4s, v4.4s, v1.s[3]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Loop. Decrement loop index (depth) by 1, since we just handled 1
*5f39d1b3SJooyung Han        // level of depth.
*5f39d1b3SJooyung Han        "subs %w[depth], %w[depth], #1\n"
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov x0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "st1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v16.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v24.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v17.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v25.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v18.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v26.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v19.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v27.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v12.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v20.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v28.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v13.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v21.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v29.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v14.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v22.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v30.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v15.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v23.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v31.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "x0", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
*5f39d1b3SJooyung Han        "v8", "v9", "v10", "v11", "v12", "v13", "v14", "v15", "v16", "v17",
*5f39d1b3SJooyung Han        "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26", "v27",
*5f39d1b3SJooyung Han        "v28", "v29", "v30", "v31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Not very efficient kernel, just an experiment to see what we can do
*5f39d1b3SJooyung Han// without using NEON multiply-with-scalar instructions.
*5f39d1b3SJooyung Hanstruct NEON_64bit_GEMM_Float32_WithVectorDuplicatingScalar {
*5f39d1b3SJooyung Han  typedef float OperandType;
*5f39d1b3SJooyung Han  typedef float AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 2> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov x0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "ld1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v16.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v24.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v17.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v25.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v18.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v26.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v19.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v27.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v12.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v20.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v28.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v13.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v21.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v29.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v14.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v22.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v30.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v15.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v23.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v31.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 2 Rhs cell of size 1x4 each
*5f39d1b3SJooyung Han        "ld1 {v5.4s}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v6.4s}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 3 Lhs cells of size 4x1 each
*5f39d1b3SJooyung Han        "ld1 {v2.4s}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v3.4s}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v4.4s}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate
*5f39d1b3SJooyung Han        "dup v0.4s, v5.s[0]\n"
*5f39d1b3SJooyung Han        "dup v1.4s, v5.s[1]\n"
*5f39d1b3SJooyung Han        "fmla v8.4s, v2.4s, v0.4s\n"
*5f39d1b3SJooyung Han        "fmla v16.4s, v3.4s, v0.4s\n"
*5f39d1b3SJooyung Han        "fmla v24.4s, v4.4s, v0.4s\n"
*5f39d1b3SJooyung Han        "fmla v9.4s, v2.4s, v1.4s\n"
*5f39d1b3SJooyung Han        "fmla v17.4s, v3.4s, v1.4s\n"
*5f39d1b3SJooyung Han        "fmla v25.4s, v4.4s, v1.4s\n"
*5f39d1b3SJooyung Han        "dup v0.4s, v5.s[2]\n"
*5f39d1b3SJooyung Han        "dup v1.4s, v5.s[3]\n"
*5f39d1b3SJooyung Han        "fmla v10.4s, v2.4s, v0.4s\n"
*5f39d1b3SJooyung Han        "fmla v18.4s, v3.4s, v0.4s\n"
*5f39d1b3SJooyung Han        "fmla v26.4s, v4.4s, v0.4s\n"
*5f39d1b3SJooyung Han        "fmla v11.4s, v2.4s, v1.4s\n"
*5f39d1b3SJooyung Han        "fmla v19.4s, v3.4s, v1.4s\n"
*5f39d1b3SJooyung Han        "fmla v27.4s, v4.4s, v1.4s\n"
*5f39d1b3SJooyung Han        "dup v0.4s, v6.s[0]\n"
*5f39d1b3SJooyung Han        "dup v1.4s, v6.s[1]\n"
*5f39d1b3SJooyung Han        "fmla v12.4s, v2.4s, v0.4s\n"
*5f39d1b3SJooyung Han        "fmla v20.4s, v3.4s, v0.4s\n"
*5f39d1b3SJooyung Han        "fmla v28.4s, v4.4s, v0.4s\n"
*5f39d1b3SJooyung Han        "fmla v13.4s, v2.4s, v1.4s\n"
*5f39d1b3SJooyung Han        "fmla v21.4s, v3.4s, v1.4s\n"
*5f39d1b3SJooyung Han        "fmla v29.4s, v4.4s, v1.4s\n"
*5f39d1b3SJooyung Han        "dup v0.4s, v6.s[2]\n"
*5f39d1b3SJooyung Han        "dup v1.4s, v6.s[3]\n"
*5f39d1b3SJooyung Han        "fmla v14.4s, v2.4s, v0.4s\n"
*5f39d1b3SJooyung Han        "fmla v22.4s, v3.4s, v0.4s\n"
*5f39d1b3SJooyung Han        "fmla v30.4s, v4.4s, v0.4s\n"
*5f39d1b3SJooyung Han        "fmla v15.4s, v2.4s, v1.4s\n"
*5f39d1b3SJooyung Han        "fmla v23.4s, v3.4s, v1.4s\n"
*5f39d1b3SJooyung Han        "fmla v31.4s, v4.4s, v1.4s\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Loop. Decrement loop index (depth) by 1, since we just handled 1
*5f39d1b3SJooyung Han        // level of depth.
*5f39d1b3SJooyung Han        "subs %w[depth], %w[depth], #1\n"
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov x0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "st1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v16.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v24.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v17.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v25.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v18.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v26.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v19.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v27.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v12.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v20.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v28.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v13.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v21.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v29.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v14.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v22.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v30.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v15.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v23.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v31.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "x0", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
*5f39d1b3SJooyung Han        "v8", "v9", "v10", "v11", "v12", "v13", "v14", "v15", "v16", "v17",
*5f39d1b3SJooyung Han        "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26", "v27",
*5f39d1b3SJooyung Han        "v28", "v29", "v30", "v31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// This is the "most natural" kernel, using NEON multiply-with-scalar
*5f39d1b3SJooyung Han// instructions.
*5f39d1b3SJooyung Hanstruct NEON_64bit_GEMM_Float32_WithScalar {
*5f39d1b3SJooyung Han  typedef float OperandType;
*5f39d1b3SJooyung Han  typedef float AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 2> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov x0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "ld1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v16.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v24.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v17.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v25.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v18.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v26.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v19.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v27.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v12.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v20.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v28.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v13.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v21.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v29.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v14.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v22.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v30.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v15.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v23.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v31.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 2 Rhs cell of size 1x4 each
*5f39d1b3SJooyung Han        "ld1 {v0.4s}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v1.4s}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 3 Lhs cells of size 4x1 each
*5f39d1b3SJooyung Han        "ld1 {v2.4s}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v3.4s}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v4.4s}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate
*5f39d1b3SJooyung Han        "fmla v8.4s, v2.4s, v0.s[0]\n"
*5f39d1b3SJooyung Han        "fmla v9.4s, v2.4s, v0.s[1]\n"
*5f39d1b3SJooyung Han        "fmla v10.4s, v2.4s, v0.s[2]\n"
*5f39d1b3SJooyung Han        "fmla v11.4s, v2.4s, v0.s[3]\n"
*5f39d1b3SJooyung Han        "fmla v12.4s, v2.4s, v1.s[0]\n"
*5f39d1b3SJooyung Han        "fmla v13.4s, v2.4s, v1.s[1]\n"
*5f39d1b3SJooyung Han        "fmla v14.4s, v2.4s, v1.s[2]\n"
*5f39d1b3SJooyung Han        "fmla v15.4s, v2.4s, v1.s[3]\n"
*5f39d1b3SJooyung Han        "fmla v16.4s, v3.4s, v0.s[0]\n"
*5f39d1b3SJooyung Han        "fmla v17.4s, v3.4s, v0.s[1]\n"
*5f39d1b3SJooyung Han        "fmla v18.4s, v3.4s, v0.s[2]\n"
*5f39d1b3SJooyung Han        "fmla v19.4s, v3.4s, v0.s[3]\n"
*5f39d1b3SJooyung Han        "fmla v20.4s, v3.4s, v1.s[0]\n"
*5f39d1b3SJooyung Han        "fmla v21.4s, v3.4s, v1.s[1]\n"
*5f39d1b3SJooyung Han        "fmla v22.4s, v3.4s, v1.s[2]\n"
*5f39d1b3SJooyung Han        "fmla v23.4s, v3.4s, v1.s[3]\n"
*5f39d1b3SJooyung Han        "fmla v24.4s, v4.4s, v0.s[0]\n"
*5f39d1b3SJooyung Han        "fmla v25.4s, v4.4s, v0.s[1]\n"
*5f39d1b3SJooyung Han        "fmla v26.4s, v4.4s, v0.s[2]\n"
*5f39d1b3SJooyung Han        "fmla v27.4s, v4.4s, v0.s[3]\n"
*5f39d1b3SJooyung Han        "fmla v28.4s, v4.4s, v1.s[0]\n"
*5f39d1b3SJooyung Han        "fmla v29.4s, v4.4s, v1.s[1]\n"
*5f39d1b3SJooyung Han        "fmla v30.4s, v4.4s, v1.s[2]\n"
*5f39d1b3SJooyung Han        "fmla v31.4s, v4.4s, v1.s[3]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Loop. Decrement loop index (depth) by 1, since we just handled 1
*5f39d1b3SJooyung Han        // level of depth.
*5f39d1b3SJooyung Han        "subs %w[depth], %w[depth], #1\n"
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov x0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "st1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v16.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v24.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v17.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v25.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v18.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v26.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v19.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v27.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v12.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v20.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v28.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v13.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v21.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v29.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v14.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v22.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v30.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v15.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v23.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v31.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "x0", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
*5f39d1b3SJooyung Han        "v8", "v9", "v10", "v11", "v12", "v13", "v14", "v15", "v16", "v17",
*5f39d1b3SJooyung Han        "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26", "v27",
*5f39d1b3SJooyung Han        "v28", "v29", "v30", "v31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Faster kernel contributed by ARM. Tuned for A57.
*5f39d1b3SJooyung Hanstruct NEON_64bit_GEMM_Float32_WithScalar_A57 {
*5f39d1b3SJooyung Han  typedef float OperandType;
*5f39d1b3SJooyung Han  typedef float AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 2> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov x0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "ld1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v16.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v24.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v17.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v25.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v18.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v26.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v19.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v27.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v12.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v20.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v28.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v13.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v21.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v29.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v14.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v22.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v30.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v15.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v23.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v31.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // The start of the loop assumes first Rhs cell is already loaded, so
*5f39d1b3SJooyung Han        // do it here for first iteration.
*5f39d1b3SJooyung Han        "ld1 {v0.4s}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // And the same for the first Lhs cell.
*5f39d1b3SJooyung Han        "ld1 {v2.4s}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Start the MACs at the head of the loop - 1st cell from each side
*5f39d1b3SJooyung Han        // already loaded.
*5f39d1b3SJooyung Han        "fmla v8.4s, v2.4s, v0.s[0]\n"
*5f39d1b3SJooyung Han        "fmla v9.4s, v2.4s, v0.s[1]\n"
*5f39d1b3SJooyung Han        "ld1 {v1.4s}, [%[rhs_ptr]], #16\n"  // Load second Rhs cell.
*5f39d1b3SJooyung Han        "fmla v10.4s, v2.4s, v0.s[2]\n"
*5f39d1b3SJooyung Han        "fmla v11.4s, v2.4s, v0.s[3]\n"
*5f39d1b3SJooyung Han        "ld1 {v3.4s}, [%[lhs_ptr]], #16\n"  // Load second Lhs cell.
*5f39d1b3SJooyung Han        "fmla v12.4s, v2.4s, v1.s[0]\n"
*5f39d1b3SJooyung Han        "fmla v13.4s, v2.4s, v1.s[1]\n"
*5f39d1b3SJooyung Han        "ld1 {v4.4s}, [%[lhs_ptr]], #16\n"  // Load third Lhs cell.
*5f39d1b3SJooyung Han        "fmla v14.4s, v2.4s, v1.s[2]\n"
*5f39d1b3SJooyung Han        "fmla v15.4s, v2.4s, v1.s[3]\n"
*5f39d1b3SJooyung Han        "ld1 {v2.4s}, [%[lhs_ptr]], #16\n"  // Done with first Lhs cell - load
*5f39d1b3SJooyung Han        // for the next iteration early.
*5f39d1b3SJooyung Han        "fmla v16.4s, v3.4s, v0.s[0]\n"
*5f39d1b3SJooyung Han        "fmla v17.4s, v3.4s, v0.s[1]\n"
*5f39d1b3SJooyung Han        "fmla v18.4s, v3.4s, v0.s[2]\n"
*5f39d1b3SJooyung Han        "fmla v19.4s, v3.4s, v0.s[3]\n"
*5f39d1b3SJooyung Han        "fmla v20.4s, v3.4s, v1.s[0]\n"
*5f39d1b3SJooyung Han        "fmla v21.4s, v3.4s, v1.s[1]\n"
*5f39d1b3SJooyung Han        "fmla v22.4s, v3.4s, v1.s[2]\n"
*5f39d1b3SJooyung Han        "fmla v23.4s, v3.4s, v1.s[3]\n"
*5f39d1b3SJooyung Han        "fmla v24.4s, v4.4s, v0.s[0]\n"
*5f39d1b3SJooyung Han        "fmla v25.4s, v4.4s, v0.s[1]\n"
*5f39d1b3SJooyung Han        "fmla v26.4s, v4.4s, v0.s[2]\n"
*5f39d1b3SJooyung Han        "fmla v27.4s, v4.4s, v0.s[3]\n"
*5f39d1b3SJooyung Han        "ld1 {v0.4s}, [%[rhs_ptr]], #16\n"  // Done with the first Rhs cell -
*5f39d1b3SJooyung Han        // load for the next iteration
*5f39d1b3SJooyung Han        // early.
*5f39d1b3SJooyung Han        "fmla v28.4s, v4.4s, v1.s[0]\n"
*5f39d1b3SJooyung Han        "fmla v29.4s, v4.4s, v1.s[1]\n"
*5f39d1b3SJooyung Han        // Loop. Decrement loop index (depth) by 1, since we just handled
*5f39d1b3SJooyung Han        // 1 level of depth.  Do this a bit before the end of the loop for
*5f39d1b3SJooyung Han        // better dispatch on A57.
*5f39d1b3SJooyung Han        "subs %w[depth], %w[depth], #1\n"
*5f39d1b3SJooyung Han        "fmla v30.4s, v4.4s, v1.s[2]\n"
*5f39d1b3SJooyung Han        "fmla v31.4s, v4.4s, v1.s[3]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov x0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "st1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v16.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v24.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v17.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v25.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v18.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v26.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v19.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v27.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v12.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v20.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v28.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v13.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v21.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v29.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v14.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v22.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v30.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v15.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v23.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v31.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "x0", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
*5f39d1b3SJooyung Han        "v8", "v9", "v10", "v11", "v12", "v13", "v14", "v15", "v16", "v17",
*5f39d1b3SJooyung Han        "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26", "v27",
*5f39d1b3SJooyung Han        "v28", "v29", "v30", "v31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifndef __APPLE__
*5f39d1b3SJooyung Han// Faster kernel contributed by ARM. Tuned for A53.
*5f39d1b3SJooyung Hanstruct NEON_64bit_GEMM_Float32_WithScalar_A53 {
*5f39d1b3SJooyung Han  typedef float OperandType;
*5f39d1b3SJooyung Han  typedef float AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 2> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov x0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "ld1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v16.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v24.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v17.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v25.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v18.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v26.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v19.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v27.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v12.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v20.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v28.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v13.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v21.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v29.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v14.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v22.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v30.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v15.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v23.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v31.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // For A53, a very different-looking loop is needed.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // The main reason for this is that on A53 128-bit loads take two
*5f39d1b3SJooyung Han        // cycles during which no dual issue can occur.  Doing two separate
*5f39d1b3SJooyung Han        // 64-bit loads avoids this issue - they each take one cycle and are
*5f39d1b3SJooyung Han        // able to dual issue.  Since vector register loads don't dual issue
*5f39d1b3SJooyung Han        // with FMLA, we load half the register as normal and the other half
*5f39d1b3SJooyung Han        // into an integer register.  This second half can then be moved into
*5f39d1b3SJooyung Han        // place later with an INS instruction - which will dual issue with a
*5f39d1b3SJooyung Han        // later FP load.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // For this kernel there are approximately 3 times as many multiplies
*5f39d1b3SJooyung Han        // as loads, so it makes sense to structure the loop into blocks of 4
*5f39d1b3SJooyung Han        // cycles, with 1 dedicated "load cycle" and 3 "multiply cycles" per
*5f39d1b3SJooyung Han        // block.  Strictly preserving this structure with NOPs where no load
*5f39d1b3SJooyung Han        // is needed seems to result in higher performance.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Choice of x18 to store the upper halves on their way into the
*5f39d1b3SJooyung Han        // vector registers is arbitrary.  Added to the clobber list so that
*5f39d1b3SJooyung Han        // the compiler will make it available.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // At the start of the loop, it is assumed that v0 is "half loaded" -
*5f39d1b3SJooyung Han        // bottom half in place in d0 and the upper half in x18 ready to
*5f39d1b3SJooyung Han        // insert.  So set that up here for the first iteration:
*5f39d1b3SJooyung Han        "ldr d0, [%[rhs_ptr]]\n"             // Bottom half of first Rhs cell
*5f39d1b3SJooyung Han        "ldr x18, [%[rhs_ptr], #8]\n"        // Upper half
*5f39d1b3SJooyung Han        "add %[rhs_ptr], %[rhs_ptr], #16\n"  // Separate increment (needed as
*5f39d1b3SJooyung Han        // there is no operation to load at
*5f39d1b3SJooyung Han        // reg + 8 but then increment reg
*5f39d1b3SJooyung Han        // by 16).
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // v2 should be fully loaded - as it's outside the loop proper it's fine
*5f39d1b3SJooyung Han        // to use a 128-bit load here.
*5f39d1b3SJooyung Han        "ld1 {v2.4s}, [%[lhs_ptr]], #16\n"  // first Lhs cell
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // First block of four cycles.  Multplies all require v2 and v0; v2 is
*5f39d1b3SJooyung Han        // loaded earlier and v0 is half loaded and completed in the load
*5f39d1b3SJooyung Han        // cycle at the start.
*5f39d1b3SJooyung Han        "ldr d1, [%[rhs_ptr]]\n"  // "load" cycle - loading bottom half of v1
*5f39d1b3SJooyung Han        // (second Rhs cell).
*5f39d1b3SJooyung Han        "ins v0.d[1], x18\n"  // "load" cycle - moving the upper half of v0 into
*5f39d1b3SJooyung Han        // place.
*5f39d1b3SJooyung Han        "fmla v8.4s, v2.4s, v0.s[0]\n"  // "fmla" cycle 1 - first multiply.
*5f39d1b3SJooyung Han        "ldr x18, [%[rhs_ptr], #8]\n"  // "fmla" cycle 1 - load upper half of v1
*5f39d1b3SJooyung Han        // into x18.
*5f39d1b3SJooyung Han        "fmla v9.4s, v2.4s, v0.s[1]\n"       // "fmla" cycle 2 - second multiply
*5f39d1b3SJooyung Han        "add %[rhs_ptr], %[rhs_ptr], #16\n"  // "fmla" cycle 2 - increment Rhs
*5f39d1b3SJooyung Han        // pointer (if needed)
*5f39d1b3SJooyung Han        "fmla v10.4s, v2.4s, v0.s[2]\n"  // "fmla" cycle 3 - third multiply.  No
*5f39d1b3SJooyung Han        // more work to dual issue.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Second block.  Start loading v3 (second Lhs cell), finish loading v1.
*5f39d1b3SJooyung Han        "ldr d3, [%[lhs_ptr]]\n"
*5f39d1b3SJooyung Han        "ins v1.d[1], x18\n"  // v1 ready here.
*5f39d1b3SJooyung Han        "fmla v11.4s, v2.4s, v0.s[3]\n"
*5f39d1b3SJooyung Han        "ldr x18, [%[lhs_ptr], #8]\n"
*5f39d1b3SJooyung Han        "fmla v12.4s, v2.4s, v1.s[0]\n"  // First use of v1.
*5f39d1b3SJooyung Han        "add %[lhs_ptr], %[lhs_ptr], #16\n"
*5f39d1b3SJooyung Han        "fmla v13.4s, v2.4s, v1.s[1]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Third block.  Start loading v4 (third Lhs cell), finish loading v3.
*5f39d1b3SJooyung Han        "ldr d4, [%[lhs_ptr]]\n"
*5f39d1b3SJooyung Han        "ins v3.d[1], x18\n"  // v3 ready here.
*5f39d1b3SJooyung Han        "fmla v14.4s, v2.4s, v1.s[2]\n"
*5f39d1b3SJooyung Han        "ldr x18, [%[lhs_ptr], #8]\n"
*5f39d1b3SJooyung Han        "fmla v15.4s, v2.4s, v1.s[3]\n"
*5f39d1b3SJooyung Han        "add %[lhs_ptr], %[lhs_ptr], #16\n"
*5f39d1b3SJooyung Han        "fmla v16.4s, v3.4s, v0.s[0]\n"  // First use of v3.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Fourth block.  v2 (first Lhs cell) is now finished with, so start
*5f39d1b3SJooyung Han        // loading value for next iteration.  Finish loading v4.
*5f39d1b3SJooyung Han        "ldr d2, [%[lhs_ptr]]\n"
*5f39d1b3SJooyung Han        "ins v4.d[1], x18\n"  // v4 ready here.
*5f39d1b3SJooyung Han        "fmla v17.4s, v3.4s, v0.s[1]\n"
*5f39d1b3SJooyung Han        "ldr x18, [%[lhs_ptr], #8]\n"
*5f39d1b3SJooyung Han        "fmla v18.4s, v3.4s, v0.s[2]\n"
*5f39d1b3SJooyung Han        "add %[lhs_ptr], %[lhs_ptr], #16\n"
*5f39d1b3SJooyung Han        "fmla v19.4s, v3.4s, v0.s[3]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Fifth block, finish loading v2.  No new load to start as the other
*5f39d1b3SJooyung Han        // registers are all still live.
*5f39d1b3SJooyung Han        "ins v2.d[1], x18\n"
*5f39d1b3SJooyung Han        "fmla v20.4s, v3.4s, v1.s[0]\n"
*5f39d1b3SJooyung Han        "fmla v21.4s, v3.4s, v1.s[1]\n"
*5f39d1b3SJooyung Han        "fmla v22.4s, v3.4s, v1.s[2]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Sixth block, nothing to load.  2 nops needed as a single nop would
*5f39d1b3SJooyung Han        // dual issue with the FMLA and break the timing.
*5f39d1b3SJooyung Han        "nop\n"
*5f39d1b3SJooyung Han        "nop\n"
*5f39d1b3SJooyung Han        "fmla v23.4s, v3.4s, v1.s[3]\n"
*5f39d1b3SJooyung Han        "fmla v24.4s, v4.4s, v0.s[0]\n"  // First use of v4.
*5f39d1b3SJooyung Han        "fmla v25.4s, v4.4s, v0.s[1]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Seventh block, nothing to load.  Decrement the loop counter in this
*5f39d1b3SJooyung Han        // block as the last block is very full.
*5f39d1b3SJooyung Han        "nop\n"
*5f39d1b3SJooyung Han        "nop\n"
*5f39d1b3SJooyung Han        "fmla v26.4s, v4.4s, v0.s[2]\n"
*5f39d1b3SJooyung Han        "subs %w[depth], %w[depth], #1\n"
*5f39d1b3SJooyung Han        "fmla v27.4s, v4.4s, v0.s[3]\n"
*5f39d1b3SJooyung Han        "fmla v28.4s, v4.4s, v1.s[0]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Eighth block - start loading v0 for next iteration.
*5f39d1b3SJooyung Han        "ldr d0, [%[rhs_ptr]]\n"
*5f39d1b3SJooyung Han        "fmla v29.4s, v4.4s, v1.s[1]\n"
*5f39d1b3SJooyung Han        "ldr x18, [%[rhs_ptr], #8]\n"
*5f39d1b3SJooyung Han        "fmla v30.4s, v4.4s, v1.s[2]\n"
*5f39d1b3SJooyung Han        "add %[rhs_ptr], %[rhs_ptr], #16\n"
*5f39d1b3SJooyung Han        "fmla v31.4s, v4.4s, v1.s[3]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Loop branch.  This will dual issue in fmla cycle 3 of the 8th block.
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov x0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "st1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v16.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v24.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v17.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v25.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v18.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v26.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v19.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v27.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v12.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v20.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v28.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v13.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v21.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v29.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v14.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v22.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v30.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v15.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v23.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v31.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "x0", "x18", "v0", "v1", "v2", "v3", "v4", "v5", "v6",
*5f39d1b3SJooyung Han        "v7", "v8", "v9", "v10", "v11", "v12", "v13", "v14", "v15", "v16",
*5f39d1b3SJooyung Han        "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26",
*5f39d1b3SJooyung Han        "v27", "v28", "v29", "v30", "v31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Faster kernel contributed by ARM. Tuned for A55r1.
*5f39d1b3SJooyung Hanstruct NEON_64bit_GEMM_Float32_WithScalar_A55r1 {
*5f39d1b3SJooyung Han  typedef float OperandType;
*5f39d1b3SJooyung Han  typedef float AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 2> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov x0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "ld1 {v8.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v16.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v24.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v9.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v17.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v25.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v10.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v18.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v26.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v11.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v19.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v27.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v12.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v20.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v28.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v13.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v21.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v29.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v14.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v22.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v30.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v15.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v23.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v31.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // A55r1 requires a hybrid of the A53 and standard approaches.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Like A53, this processor prefers 64-bit loads.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Unlike A53, it is capable of dual-issuing a 64-bit vector load
*5f39d1b3SJooyung Han        // (or INS) with a FMLA instruction.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Therefore we aim to issue an FMLA instruction every cycle.
*5f39d1b3SJooyung Han        // Alongside three FMLAs we can dual issue a (vector) 64-bit load, a
*5f39d1b3SJooyung Han        // scalar 64-bit load and finally an INS to replicate the effect of
*5f39d1b3SJooyung Han        // a single 128-bit load.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // The loop contains 24 FMLA instructions, and 5 vector registers
*5f39d1b3SJooyung Han        // need to be loaded, consuming 15 dual issue slots.  This leaves 9
*5f39d1b3SJooyung Han        // dual issue slots.  Four of these are used for loop housekeeping
*5f39d1b3SJooyung Han        // (2 pointer adds, 1 counter update and 1 branch), leaving 5 left
*5f39d1b3SJooyung Han        // over (marked by blank lines).
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Choice of x18 to store the upper halves on their way into the
*5f39d1b3SJooyung Han        // vector registers is arbitrary.  Added to the clobber list so that
*5f39d1b3SJooyung Han        // the compiler will make it available.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // At the start of the loop, it is assumed that v0 is "half loaded" -
*5f39d1b3SJooyung Han        // bottom half in place in d0 and the upper half in x18 ready to
*5f39d1b3SJooyung Han        // insert.  So set that up here for the first iteration:
*5f39d1b3SJooyung Han        "ldr d0, [%[rhs_ptr]]\n"             // Bottom half of first Rhs cell
*5f39d1b3SJooyung Han        "ldr x18, [%[rhs_ptr], #8]\n"        // Upper half
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // v2-v3 should be fully loaded - as it's outside the loop proper it's fine
*5f39d1b3SJooyung Han        // to use a 128-bit load here.
*5f39d1b3SJooyung Han        "ldr q2, [%[lhs_ptr]]\n"      // first Lhs cell
*5f39d1b3SJooyung Han        "ldr q3, [%[lhs_ptr], #16]\n" // second Lhs cell
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "fmla v8.4s, v2.4s, v0.s[0]\n"
*5f39d1b3SJooyung Han        "ldr d1, [%[rhs_ptr], #16]\n"         // Bottom half of v1
*5f39d1b3SJooyung Han        "fmla v9.4s, v2.4s, v0.s[1]\n"
*5f39d1b3SJooyung Han        "ins v0.d[1], x18\n"                  // Finish loading v0
*5f39d1b3SJooyung Han        "fmla v16.4s, v3.4s, v0.s[0]\n"       // out of sequence - used to reduce load/use pressure.
*5f39d1b3SJooyung Han        "ldr x18, [%[rhs_ptr], #24]\n"        // Top half of v1 to X register
*5f39d1b3SJooyung Han        "fmla v17.4s, v3.4s, v0.s[1]\n"       // out of sequence - used to reduce load/use pressure.
*5f39d1b3SJooyung Han        "add %[rhs_ptr], %[rhs_ptr], #32\n"   // RHS loads complete - increment pointer.
*5f39d1b3SJooyung Han        "fmla v10.4s, v2.4s, v0.s[2]\n"
*5f39d1b3SJooyung Han        "ldr d4, [%[lhs_ptr], #32]\n"         // Bottom half of v4
*5f39d1b3SJooyung Han        "fmla v11.4s, v2.4s, v0.s[3]\n"
*5f39d1b3SJooyung Han        "ins v1.d[1], x18\n"                  // Finish loading v1
*5f39d1b3SJooyung Han        "fmla v12.4s, v2.4s, v1.s[0]\n"
*5f39d1b3SJooyung Han        "ldr x18, [%[lhs_ptr], #40]\n"        // Top half of v4 to X register
*5f39d1b3SJooyung Han        "fmla v13.4s, v2.4s, v1.s[1]\n"
*5f39d1b3SJooyung Han        "add %[lhs_ptr], %[lhs_ptr], #48\n"   // LHS loads complete - increment pointer.
*5f39d1b3SJooyung Han        "fmla v14.4s, v2.4s, v1.s[2]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "fmla v15.4s, v2.4s, v1.s[3]\n"
*5f39d1b3SJooyung Han        "ldr d2, [%[lhs_ptr]]\n"              // Bottom half of v2 (for next time)
*5f39d1b3SJooyung Han        "fmla v18.4s, v3.4s, v0.s[2]\n"
*5f39d1b3SJooyung Han        "ins v4.d[1], x18\n"                  // Finish loading v4
*5f39d1b3SJooyung Han        "fmla v19.4s, v3.4s, v0.s[3]\n"
*5f39d1b3SJooyung Han        "ldr x18, [%[lhs_ptr], #8]\n"         // Top half of next v2 to X register
*5f39d1b3SJooyung Han        "fmla v20.4s, v3.4s, v1.s[0]\n"
*5f39d1b3SJooyung Han        "subs %w[depth], %w[depth], #1\n"
*5f39d1b3SJooyung Han        "fmla v21.4s, v3.4s, v1.s[1]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "fmla v22.4s, v3.4s, v1.s[2]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "fmla v23.4s, v3.4s, v1.s[3]\n"
*5f39d1b3SJooyung Han        "ldr d3, [%[lhs_ptr], #16]\n"         // Bottom half of v3 (for next time)
*5f39d1b3SJooyung Han        "fmla v24.4s, v4.4s, v0.s[0]\n"
*5f39d1b3SJooyung Han        "ins v2.d[1], x18\n"                  // Finish loading next v2
*5f39d1b3SJooyung Han        "fmla v25.4s, v4.4s, v0.s[1]\n"
*5f39d1b3SJooyung Han        "ldr x18, [%[lhs_ptr], #24]\n"        // Top half of next v3 to X register
*5f39d1b3SJooyung Han        "fmla v26.4s, v4.4s, v0.s[2]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "fmla v27.4s, v4.4s, v0.s[3]\n"
*5f39d1b3SJooyung Han        "ldr d0, [%[rhs_ptr]]\n"              // Bottom half of v0 (for next time)
*5f39d1b3SJooyung Han        "fmla v28.4s, v4.4s, v1.s[0]\n"
*5f39d1b3SJooyung Han        "ins v3.d[1], x18\n"                  // Finish loading next v3
*5f39d1b3SJooyung Han        "fmla v29.4s, v4.4s, v1.s[1]\n"
*5f39d1b3SJooyung Han        "ldr x18, [%[rhs_ptr], #8]\n"         // Top half of next v0 to X register
*5f39d1b3SJooyung Han        "fmla v30.4s, v4.4s, v1.s[2]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "fmla v31.4s, v4.4s, v1.s[3]\n"
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov x0, %[accum_ptr]\n"
*5f39d1b3SJooyung Han        "st1 {v8.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v16.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v24.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v9.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v17.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v25.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v10.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v18.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v26.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v11.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v19.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v27.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v12.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v20.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v28.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v13.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v21.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v29.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v14.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v22.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v30.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v15.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v23.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v31.4s}, [x0], #16\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "x0", "x18", "v0", "v1", "v2", "v3", "v4", "v5", "v6",
*5f39d1b3SJooyung Han        "v7", "v8", "v9", "v10", "v11", "v12", "v13", "v14", "v15", "v16",
*5f39d1b3SJooyung Han        "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26",
*5f39d1b3SJooyung Han        "v27", "v28", "v29", "v30", "v31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#endif  // __aarch64__
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#if defined(__arm__) || defined(__aarch64__)
*5f39d1b3SJooyung Han#ifndef __aarch64__
*5f39d1b3SJooyung Haninline int32x4_t vpaddq_s32(int32x4_t a, int32x4_t b) {
*5f39d1b3SJooyung Han  const int32x2_t c = vpadd_s32(vget_low_s32(a), vget_high_s32(a));
*5f39d1b3SJooyung Han  const int32x2_t d = vpadd_s32(vget_low_s32(b), vget_high_s32(b));
*5f39d1b3SJooyung Han  return vcombine_s32(c, d);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// C++ intrinsics-based variant of the deep, int8, fast kernel
*5f39d1b3SJooyung Hantemplate <int Cols>
*5f39d1b3SJooyung Hanstruct NEON_GEMM_Int8Operands_AccumTwoWithin16Bits_intrinsics {
*5f39d1b3SJooyung Han  typedef std::int8_t OperandType;
*5f39d1b3SJooyung Han  typedef std::int32_t AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 16, CellOrder::WidthMajor>, 1>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<Cols, 16, CellOrder::WidthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    int32x4_t acc[4][Cols];
*5f39d1b3SJooyung Han    for (int i = 0; i < 4; i++) {
*5f39d1b3SJooyung Han      for (int j = 0; j < Cols; j++) {
*5f39d1b3SJooyung Han        acc[i][j] = vdupq_n_s32(0);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    for (int d = 0; d < depth; d += 16) {
*5f39d1b3SJooyung Han      int8x16_t lhs[4];
*5f39d1b3SJooyung Han      for (int i = 0; i < 4; i++) {
*5f39d1b3SJooyung Han        lhs[i] = vld1q_s8(lhs_ptr + 16 * i);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han      int8x16_t rhs[Cols];
*5f39d1b3SJooyung Han      for (int i = 0; i < Cols; i++) {
*5f39d1b3SJooyung Han        rhs[i] = vld1q_s8(rhs_ptr + 16 * i);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han      for (int i = 0; i < 4; i++) {
*5f39d1b3SJooyung Han        for (int j = 0; j < Cols; j++) {
*5f39d1b3SJooyung Han          int16x8_t local_acc =
*5f39d1b3SJooyung Han              vmull_s8(vget_low_s8(lhs[i]), vget_low_s8(rhs[j]));
*5f39d1b3SJooyung Han          local_acc =
*5f39d1b3SJooyung Han              vmlal_s8(local_acc, vget_high_s8(lhs[i]), vget_high_s8(rhs[j]));
*5f39d1b3SJooyung Han          acc[i][j] = vpadalq_s16(acc[i][j], local_acc);
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han      lhs_ptr += 64;
*5f39d1b3SJooyung Han      rhs_ptr += 16 * Cols;
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    for (int i = 0; i < Cols; i++) {
*5f39d1b3SJooyung Han      int32x4_t acc_2x_0 = vpaddq_s32(acc[0][i], acc[1][i]);
*5f39d1b3SJooyung Han      int32x4_t acc_2x_1 = vpaddq_s32(acc[2][i], acc[3][i]);
*5f39d1b3SJooyung Han      int32x4_t acc_4x = vpaddq_s32(acc_2x_0, acc_2x_1);
*5f39d1b3SJooyung Han      int32x4_t dst_val = vld1q_s32(accum_ptr + 4 * i);
*5f39d1b3SJooyung Han      dst_val = vaddq_s32(dst_val, acc_4x);
*5f39d1b3SJooyung Han      vst1q_s32(accum_ptr + 4 * i, dst_val);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanusing NEON_64bit_GEMM_Int8Operands_AccumTwoWithin16Bits_intrinsics =
*5f39d1b3SJooyung Han    NEON_GEMM_Int8Operands_AccumTwoWithin16Bits_intrinsics<4>;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanusing NEON_32bit_GEMM_Int8Operands_AccumTwoWithin16Bits_intrinsics =
*5f39d1b3SJooyung Han    NEON_GEMM_Int8Operands_AccumTwoWithin16Bits_intrinsics<2>;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// C++ intrinsics-based variant of the wide, uint8, general kernel
*5f39d1b3SJooyung Hantemplate <int RhsCells>
*5f39d1b3SJooyung Hanstruct NEON_GEMM_Uint8Operands_Uint32Accumulators_intrinsics {
*5f39d1b3SJooyung Han  typedef std::uint8_t OperandType;
*5f39d1b3SJooyung Han  typedef std::int32_t AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 2, CellOrder::DepthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 2, CellOrder::DepthMajor>, RhsCells> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    int32x4_t acc[3][4 * RhsCells];
*5f39d1b3SJooyung Han    for (int i = 0; i < 3; i++) {
*5f39d1b3SJooyung Han      for (int j = 0; j < 4 * RhsCells; j++) {
*5f39d1b3SJooyung Han        acc[i][j] = vld1q_s32(accum_ptr + 4 * (i + 3 * j));
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    for (int d = 0; d < depth; d += 2) {
*5f39d1b3SJooyung Han      int16x8_t lhs[3];
*5f39d1b3SJooyung Han      for (int i = 0; i < 3; i++) {
*5f39d1b3SJooyung Han        lhs[i] = vreinterpretq_s16_u16(vmovl_u8(vld1_u8(lhs_ptr + 8 * i)));
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han      int16x8_t rhs[RhsCells];
*5f39d1b3SJooyung Han      for (int i = 0; i < RhsCells; i++) {
*5f39d1b3SJooyung Han        rhs[i] = vreinterpretq_s16_u16(vmovl_u8(vld1_u8(rhs_ptr + 8 * i)));
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han      for (int i = 0; i < 3; i++) {
*5f39d1b3SJooyung Han        for (int j = 0; j < RhsCells; j++) {
*5f39d1b3SJooyung Han          acc[i][4 * j + 0] = vmlal_lane_s16(
*5f39d1b3SJooyung Han              acc[i][4 * j + 0], vget_low_s16(lhs[i]), vget_low_s16(rhs[j]), 0);
*5f39d1b3SJooyung Han          acc[i][4 * j + 1] = vmlal_lane_s16(
*5f39d1b3SJooyung Han              acc[i][4 * j + 1], vget_low_s16(lhs[i]), vget_low_s16(rhs[j]), 1);
*5f39d1b3SJooyung Han          acc[i][4 * j + 2] = vmlal_lane_s16(
*5f39d1b3SJooyung Han              acc[i][4 * j + 2], vget_low_s16(lhs[i]), vget_low_s16(rhs[j]), 2);
*5f39d1b3SJooyung Han          acc[i][4 * j + 3] = vmlal_lane_s16(
*5f39d1b3SJooyung Han              acc[i][4 * j + 3], vget_low_s16(lhs[i]), vget_low_s16(rhs[j]), 3);
*5f39d1b3SJooyung Han          acc[i][4 * j + 0] =
*5f39d1b3SJooyung Han              vmlal_lane_s16(acc[i][4 * j + 0], vget_high_s16(lhs[i]),
*5f39d1b3SJooyung Han                             vget_high_s16(rhs[j]), 0);
*5f39d1b3SJooyung Han          acc[i][4 * j + 1] =
*5f39d1b3SJooyung Han              vmlal_lane_s16(acc[i][4 * j + 1], vget_high_s16(lhs[i]),
*5f39d1b3SJooyung Han                             vget_high_s16(rhs[j]), 1);
*5f39d1b3SJooyung Han          acc[i][4 * j + 2] =
*5f39d1b3SJooyung Han              vmlal_lane_s16(acc[i][4 * j + 2], vget_high_s16(lhs[i]),
*5f39d1b3SJooyung Han                             vget_high_s16(rhs[j]), 2);
*5f39d1b3SJooyung Han          acc[i][4 * j + 3] =
*5f39d1b3SJooyung Han              vmlal_lane_s16(acc[i][4 * j + 3], vget_high_s16(lhs[i]),
*5f39d1b3SJooyung Han                             vget_high_s16(rhs[j]), 3);
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han      lhs_ptr += 24;
*5f39d1b3SJooyung Han      rhs_ptr += 8 * RhsCells;
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    for (int i = 0; i < 3; i++) {
*5f39d1b3SJooyung Han      for (int j = 0; j < 4 * RhsCells; j++) {
*5f39d1b3SJooyung Han        vst1q_s32(accum_ptr + 4 * (i + 3 * j), acc[i][j]);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanusing NEON_32bit_GEMM_Uint8Operands_Uint32Accumulators_intrinsics =
*5f39d1b3SJooyung Han    NEON_GEMM_Uint8Operands_Uint32Accumulators_intrinsics<1>;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanusing NEON_64bit_GEMM_Uint8Operands_Uint32Accumulators_intrinsics =
*5f39d1b3SJooyung Han    NEON_GEMM_Uint8Operands_Uint32Accumulators_intrinsics<2>;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <int RhsCells>
*5f39d1b3SJooyung Hanstruct NEON_GEMM_Float32_WithScalar_intrinsics {
*5f39d1b3SJooyung Han  typedef float OperandType;
*5f39d1b3SJooyung Han  typedef float AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 1, CellOrder::DepthMajor>, RhsCells> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    float32x4_t acc[3][4 * RhsCells];
*5f39d1b3SJooyung Han    for (int i = 0; i < 3; i++) {
*5f39d1b3SJooyung Han      for (int j = 0; j < 4 * RhsCells; j++) {
*5f39d1b3SJooyung Han        acc[i][j] = vld1q_f32(accum_ptr + 4 * (i + 3 * j));
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    for (int d = 0; d < depth; d++) {
*5f39d1b3SJooyung Han      float32x4_t lhs[3];
*5f39d1b3SJooyung Han      for (int i = 0; i < 3; i++) {
*5f39d1b3SJooyung Han        lhs[i] = vld1q_f32(lhs_ptr + 4 * i);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han      float32x4_t rhs[RhsCells];
*5f39d1b3SJooyung Han      for (int i = 0; i < RhsCells; i++) {
*5f39d1b3SJooyung Han        rhs[i] = vld1q_f32(rhs_ptr + 4 * i);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han      for (int i = 0; i < 3; i++) {
*5f39d1b3SJooyung Han        for (int j = 0; j < RhsCells; j++) {
*5f39d1b3SJooyung Han          acc[i][4 * j + 0] = vmlaq_lane_f32(acc[i][4 * j + 0], lhs[i],
*5f39d1b3SJooyung Han                                             vget_low_f32(rhs[j]), 0);
*5f39d1b3SJooyung Han          acc[i][4 * j + 1] = vmlaq_lane_f32(acc[i][4 * j + 1], lhs[i],
*5f39d1b3SJooyung Han                                             vget_low_f32(rhs[j]), 1);
*5f39d1b3SJooyung Han          acc[i][4 * j + 2] = vmlaq_lane_f32(acc[i][4 * j + 2], lhs[i],
*5f39d1b3SJooyung Han                                             vget_high_f32(rhs[j]), 0);
*5f39d1b3SJooyung Han          acc[i][4 * j + 3] = vmlaq_lane_f32(acc[i][4 * j + 3], lhs[i],
*5f39d1b3SJooyung Han                                             vget_high_f32(rhs[j]), 1);
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han      lhs_ptr += 12;
*5f39d1b3SJooyung Han      rhs_ptr += 4 * RhsCells;
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    for (int i = 0; i < 3; i++) {
*5f39d1b3SJooyung Han      for (int j = 0; j < 4 * RhsCells; j++) {
*5f39d1b3SJooyung Han        vst1q_f32(accum_ptr + 4 * (i + 3 * j), acc[i][j]);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanusing NEON_32bit_GEMM_Float32_WithScalar_intrinsics =
*5f39d1b3SJooyung Han    NEON_GEMM_Float32_WithScalar_intrinsics<1>;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanusing NEON_64bit_GEMM_Float32_WithScalar_intrinsics =
*5f39d1b3SJooyung Han    NEON_GEMM_Float32_WithScalar_intrinsics<2>;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// C++ intrinsics-based variant of the deep, 7-bit, fast kernel
*5f39d1b3SJooyung Hanstruct NEON_64bit_GEMM_Int7Operands_AccumEightWithin16Bits_intrinsics {
*5f39d1b3SJooyung Han  typedef std::int8_t OperandType;
*5f39d1b3SJooyung Han  typedef std::int32_t AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 16, CellOrder::WidthMajor>, 1>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<2, 16, CellOrder::WidthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    int32x4_t acc[4][2];
*5f39d1b3SJooyung Han    for (int i = 0; i < 4; i++) {
*5f39d1b3SJooyung Han      for (int j = 0; j < 2; j++) {
*5f39d1b3SJooyung Han        acc[i][j] = vdupq_n_s32(0);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    int d = 0;
*5f39d1b3SJooyung Han    for (; d <= depth - 64; d += 64) {
*5f39d1b3SJooyung Han      int16x8_t local_acc[4][2];
*5f39d1b3SJooyung Han      for (int i = 0; i < 4; i++) {
*5f39d1b3SJooyung Han        for (int j = 0; j < 2; j++) {
*5f39d1b3SJooyung Han          local_acc[i][j] = vdupq_n_s16(0);
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han      // There are not enough registers to fit all lhs and rhs values for 64
*5f39d1b3SJooyung Han      // depth. Instead, load values for 32 depth at a time.
*5f39d1b3SJooyung Han      for (int k = 0; k < 2; k++) {
*5f39d1b3SJooyung Han        int8x16_t lhs[4][2];
*5f39d1b3SJooyung Han        for (int i = 0; i < 4; i++) {
*5f39d1b3SJooyung Han          lhs[i][0] = vld1q_s8(lhs_ptr + 16 * i + 128 * k);
*5f39d1b3SJooyung Han          lhs[i][1] = vld1q_s8(lhs_ptr + 64 + 16 * i + 128 * k);
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        int8x16_t rhs[4];
*5f39d1b3SJooyung Han        for (int i = 0; i < 4; i++) {
*5f39d1b3SJooyung Han          rhs[i] = vld1q_s8(rhs_ptr + 16 * i + 64 * k);
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        for (int i = 0; i < 4; i++) {
*5f39d1b3SJooyung Han          if (k == 0) {
*5f39d1b3SJooyung Han            local_acc[i][0] = vmull_s8(vget_low_s8(lhs[i][0]),
*5f39d1b3SJooyung Han                                       vget_low_s8(rhs[0]));
*5f39d1b3SJooyung Han            local_acc[i][0] = vmlal_s8(local_acc[i][0], vget_low_s8(lhs[i][1]),
*5f39d1b3SJooyung Han                                       vget_low_s8(rhs[2]));
*5f39d1b3SJooyung Han            local_acc[i][1] = vmull_s8(vget_low_s8(lhs[i][0]),
*5f39d1b3SJooyung Han                                       vget_low_s8(rhs[1]));
*5f39d1b3SJooyung Han            local_acc[i][1] = vmlal_s8(local_acc[i][1],
*5f39d1b3SJooyung Han                                       vget_low_s8(lhs[i][1]),
*5f39d1b3SJooyung Han                                       vget_low_s8(rhs[3]));
*5f39d1b3SJooyung Han          } else {
*5f39d1b3SJooyung Han            local_acc[i][0] = vmlal_s8(local_acc[i][0], vget_low_s8(lhs[i][0]),
*5f39d1b3SJooyung Han                                       vget_low_s8(rhs[0]));
*5f39d1b3SJooyung Han            local_acc[i][0] = vmlal_s8(local_acc[i][0], vget_low_s8(lhs[i][1]),
*5f39d1b3SJooyung Han                                       vget_low_s8(rhs[2]));
*5f39d1b3SJooyung Han            local_acc[i][1] = vmlal_s8(local_acc[i][1], vget_low_s8(lhs[i][0]),
*5f39d1b3SJooyung Han                                       vget_low_s8(rhs[1]));
*5f39d1b3SJooyung Han            local_acc[i][1] = vmlal_s8(local_acc[i][1], vget_low_s8(lhs[i][1]),
*5f39d1b3SJooyung Han                                       vget_low_s8(rhs[3]));
*5f39d1b3SJooyung Han          }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han          local_acc[i][0] = vmlal_s8(local_acc[i][0], vget_high_s8(lhs[i][0]),
*5f39d1b3SJooyung Han                                     vget_high_s8(rhs[0]));
*5f39d1b3SJooyung Han          local_acc[i][0] = vmlal_s8(local_acc[i][0], vget_high_s8(lhs[i][1]),
*5f39d1b3SJooyung Han                                     vget_high_s8(rhs[2]));
*5f39d1b3SJooyung Han          local_acc[i][1] = vmlal_s8(local_acc[i][1], vget_high_s8(lhs[i][0]),
*5f39d1b3SJooyung Han                                     vget_high_s8(rhs[1]));
*5f39d1b3SJooyung Han          local_acc[i][1] = vmlal_s8(local_acc[i][1], vget_high_s8(lhs[i][1]),
*5f39d1b3SJooyung Han                                     vget_high_s8(rhs[3]));
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han      for (int i = 0; i < 4; i++) {
*5f39d1b3SJooyung Han        acc[i][0] = vpadalq_s16(acc[i][0], local_acc[i][0]);
*5f39d1b3SJooyung Han        acc[i][1] = vpadalq_s16(acc[i][1], local_acc[i][1]);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han      lhs_ptr += 64 * 4;
*5f39d1b3SJooyung Han      rhs_ptr += 64 * 2;
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    for (; d <= depth - 16; d += 16) {
*5f39d1b3SJooyung Han      int8x16_t lhs[4];
*5f39d1b3SJooyung Han      for (int i = 0; i < 4; i++) {
*5f39d1b3SJooyung Han        lhs[i] = vld1q_s8(lhs_ptr + 16 * i);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han      int8x16_t rhs[2];
*5f39d1b3SJooyung Han      for (int i = 0; i < 2; i++) {
*5f39d1b3SJooyung Han        rhs[i] = vld1q_s8(rhs_ptr + 16 * i);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han      for (int i = 0; i < 4; i++) {
*5f39d1b3SJooyung Han        for (int j = 0; j < 2; j++) {
*5f39d1b3SJooyung Han          int16x8_t local_acc =
*5f39d1b3SJooyung Han              vmull_s8(vget_low_s8(lhs[i]), vget_low_s8(rhs[j]));
*5f39d1b3SJooyung Han          local_acc =
*5f39d1b3SJooyung Han              vmlal_s8(local_acc, vget_high_s8(lhs[i]), vget_high_s8(rhs[j]));
*5f39d1b3SJooyung Han          acc[i][j] = vpadalq_s16(acc[i][j], local_acc);
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han      lhs_ptr += 16 * 4;
*5f39d1b3SJooyung Han      rhs_ptr += 16 * 2;
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    for (int i = 0; i < 2; i++) {
*5f39d1b3SJooyung Han      int32x4_t acc_2x_0 = vpaddq_s32(acc[0][i], acc[1][i]);
*5f39d1b3SJooyung Han      int32x4_t acc_2x_1 = vpaddq_s32(acc[2][i], acc[3][i]);
*5f39d1b3SJooyung Han      int32x4_t acc_4x = vpaddq_s32(acc_2x_0, acc_2x_1);
*5f39d1b3SJooyung Han      int32x4_t dst_val = vld1q_s32(accum_ptr + 4 * i);
*5f39d1b3SJooyung Han      dst_val = vaddq_s32(dst_val, acc_4x);
*5f39d1b3SJooyung Han      vst1q_s32(accum_ptr + 4 * i, dst_val);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung HanSET_7BIT_RANGES(NEON_64bit_GEMM_Int7Operands_AccumEightWithin16Bits_intrinsics);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// C++ intrinsics-based variant of the deep, 4.25-bit, fast kernel.
*5f39d1b3SJooyung Hanstruct NEON_64bit_GEMM_Int425Operands_intrinsics {
*5f39d1b3SJooyung Han  typedef std::int8_t OperandType;
*5f39d1b3SJooyung Han  typedef std::int32_t AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 32, CellOrder::WidthMajor>, 1>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<2, 32, CellOrder::WidthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    int32x4_t acc[4][2];
*5f39d1b3SJooyung Han    for (int i = 0; i < 4; i++) {
*5f39d1b3SJooyung Han      for (int j = 0; j < 2; j++) {
*5f39d1b3SJooyung Han        acc[i][j] = vdupq_n_s32(0);
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    const int num_outer_depth_loop = depth / 512 + 1;
*5f39d1b3SJooyung Han    int d = 0;
*5f39d1b3SJooyung Han    for (int od = 0; od < num_outer_depth_loop; od++) {
*5f39d1b3SJooyung Han      int16x8_t local_acc[4][2];
*5f39d1b3SJooyung Han      for (int i = 0; i < 4; i++) {
*5f39d1b3SJooyung Han        for (int j = 0; j < 2; j++) {
*5f39d1b3SJooyung Han          local_acc[i][j] = vdupq_n_s16(0);
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han      for (int k = 0; k < 16 && d <= depth - 32; k++, d += 32) {
*5f39d1b3SJooyung Han        int8x16_t lhs[8];
*5f39d1b3SJooyung Han        for (int i = 0; i < 8; i++) {
*5f39d1b3SJooyung Han          lhs[i] = vld1q_s8(lhs_ptr + 16 * i);
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han        int8x16_t rhs[4];
*5f39d1b3SJooyung Han        for (int i = 0; i < 4; i++) {
*5f39d1b3SJooyung Han          rhs[i] = vld1q_s8(rhs_ptr + 16 * i);
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han        for (int i = 0; i < 4; i++) {
*5f39d1b3SJooyung Han          for (int j = 0; j < 2; j++) {
*5f39d1b3SJooyung Han            int8x16_t temp_acc = vmulq_s8(lhs[i * 2], rhs[j * 2]);
*5f39d1b3SJooyung Han            temp_acc = vmlaq_s8(temp_acc, lhs[i * 2 + 1], rhs[j * 2 + 1]);
*5f39d1b3SJooyung Han            local_acc[i][j] = vpadalq_s8(local_acc[i][j], temp_acc);
*5f39d1b3SJooyung Han          }
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han        lhs_ptr += 128;
*5f39d1b3SJooyung Han        rhs_ptr += 64;
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han      for (int i = 0; i < 4; i++) {
*5f39d1b3SJooyung Han        for (int j = 0; j < 2; j++) {
*5f39d1b3SJooyung Han          acc[i][j] = vpadalq_s16(acc[i][j], local_acc[i][j]);
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    for (int i = 0; i < 2; i++) {
*5f39d1b3SJooyung Han      int32x4_t acc_2x_0 = vpaddq_s32(acc[0][i], acc[1][i]);
*5f39d1b3SJooyung Han      int32x4_t acc_2x_1 = vpaddq_s32(acc[2][i], acc[3][i]);
*5f39d1b3SJooyung Han      int32x4_t acc_4x = vpaddq_s32(acc_2x_0, acc_2x_1);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han      int32x4_t dst_val = vld1q_s32(accum_ptr + 4 * i);
*5f39d1b3SJooyung Han      dst_val = vaddq_s32(dst_val, acc_4x);
*5f39d1b3SJooyung Han      vst1q_s32(accum_ptr + 4 * i, dst_val);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung HanSET_425BIT_RANGES(NEON_64bit_GEMM_Int425Operands_intrinsics);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#endif  // __arm__ || __aarch64__
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifdef __mips
*5f39d1b3SJooyung Han// 12x8 depth 2 depth-major kernel.
*5f39d1b3SJooyung Hanstruct MSA_GEMM_12x8_Uint8Operands_Uint32Accumulators1 {
*5f39d1b3SJooyung Han  typedef std::uint8_t OperandType;
*5f39d1b3SJooyung Han  typedef std::uint32_t AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 2, CellOrder::DepthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 2, CellOrder::DepthMajor>, 2> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(OperandType* lhs_ptr, OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "ld.w   $w0,   (0*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w4,   (1*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w8,   (2*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w1,   (3*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w5,   (4*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w9,   (5*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w2,   (6*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w6,   (7*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w10,  (8*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w3,   (9*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w7,  (10*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w11, (11*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w12, (12*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w16, (13*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w20, (14*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w13, (15*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w17, (16*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w21, (17*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w14, (18*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w18, (19*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w22, (20*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w15, (21*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w19, (22*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w23, (23*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        // Set a temp to all zeroes.
*5f39d1b3SJooyung Han        "ldi.b  $w31, 0\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP ":\n"
*5f39d1b3SJooyung Han        // Overview of register layout:
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A half of the 2 2x4 cells of Rhs is stored in 16bit in w27-w30
*5f39d1b3SJooyung Han        // (each register contains 4 replicas of a pair of elements).
*5f39d1b3SJooyung Han        // A 12x2 block of 3 4x2 cells Lhs is stored in 16bit in w24-w26.
*5f39d1b3SJooyung Han        // A 12x8 block of accumulators is stored in 32bit in w0-w23.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                    +------+------+------+------+
*5f39d1b3SJooyung Han        //               Rhs  |w27   |w28   |w29   |w30   |
*5f39d1b3SJooyung Han        //                    +------+------+------+------+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                    |      |      |      |      |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //       Lhs          |      |      |      |      |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //      +---+ - - - - +------+------+------+------+
*5f39d1b3SJooyung Han        //      |w24|         |w0/12 |w1/13 |w2/14 |w3/15 |
*5f39d1b3SJooyung Han        //      |w24|         |w0/12 |w1/13 |w2/14 |w3/15 |
*5f39d1b3SJooyung Han        //      |w24|         |w0/12 |w1/13 |w2/14 |w3/15 |
*5f39d1b3SJooyung Han        //      |w24|         |w0/12 |w1/13 |w2/14 |w3/15 |
*5f39d1b3SJooyung Han        //      +---+ - - - - +------+------+------+------+
*5f39d1b3SJooyung Han        //      |w25|         |w4/16 |w5/17 |w6/18 |w7/19 |
*5f39d1b3SJooyung Han        //      |w25|         |w4/16 |w5/17 |w6/18 |w7/19 |
*5f39d1b3SJooyung Han        //      |w25|         |w4/16 |w5/17 |w6/18 |w7/19 |
*5f39d1b3SJooyung Han        //      |w25|         |w4/16 |w5/17 |w6/18 |w7/19 |
*5f39d1b3SJooyung Han        //      +---+ - - - - +------+------+------+------+
*5f39d1b3SJooyung Han        //      |w26|         |w8/20 |w9/21 |w10/22|w11/23|
*5f39d1b3SJooyung Han        //      |w26|         |w8/20 |w9/21 |w10/22|w11/23|
*5f39d1b3SJooyung Han        //      |w26|         |w8/20 |w9/21 |w10/22|w11/23|
*5f39d1b3SJooyung Han        //      |w26|         |w8/20 |w9/21 |w10/22|w11/23|
*5f39d1b3SJooyung Han        //      +---+ - - - - +------+------+------+------+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                             Accumulators
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 3 x 8 bytes of lhs[] with 2 16-byte overlapped loads.
*5f39d1b3SJooyung Han        "ld.b   $w24, 0(%[lhs_ptr])\n"
*5f39d1b3SJooyung Han        "ld.b   $w25, 8(%[lhs_ptr])\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 4 bytes of rhs[] for the first half of depth 0.
*5f39d1b3SJooyung Han        "lbu    $a0, 0(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        "lbu    $a1, 1(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        "lbu    $a2, 2(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        "lbu    $a3, 3(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        // Load 4 bytes of rhs[] for the first half of depth 1.
*5f39d1b3SJooyung Han        "lbu    $v0, 4(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        "lbu    $v1, 5(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        "lbu    $t8, 6(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        "lbu    $t9, 7(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Zero-extend 8-bit elements of lhs[] to 16 bits.
*5f39d1b3SJooyung Han        "ilvr.b $w24, $w31, $w24\n"
*5f39d1b3SJooyung Han        "ilvl.b $w26, $w31, $w25\n"
*5f39d1b3SJooyung Han        "ilvr.b $w25, $w31, $w25\n"
*5f39d1b3SJooyung Han        // Interleave depth 0 and depth 1 elements of lhs[] for dpadd_u.w.
*5f39d1b3SJooyung Han        "ilvl.d $w27, $w31, $w24\n"
*5f39d1b3SJooyung Han        "ilvl.d $w28, $w31, $w25\n"
*5f39d1b3SJooyung Han        "ilvl.d $w29, $w31, $w26\n"
*5f39d1b3SJooyung Han        "ilvr.h $w24, $w27, $w24\n"
*5f39d1b3SJooyung Han        "ilvr.h $w25, $w28, $w25\n"
*5f39d1b3SJooyung Han        "ilvr.h $w26, $w29, $w26\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Combine and interleave depth 0 and depth 1 elements of rhs[] for dpadd_u.w
*5f39d1b3SJooyung Han        // (for the first half).
*5f39d1b3SJooyung Han        "ins    $a0, $v0, 16, 8\n"
*5f39d1b3SJooyung Han        "ins    $a1, $v1, 16, 8\n"
*5f39d1b3SJooyung Han        "ins    $a2, $t8, 16, 8\n"
*5f39d1b3SJooyung Han        "ins    $a3, $t9, 16, 8\n"
*5f39d1b3SJooyung Han        // Make 4 replicas of every pair of rhs[] elements.
*5f39d1b3SJooyung Han        "fill.w $w27, $a0\n"
*5f39d1b3SJooyung Han        "fill.w $w28, $a1\n"
*5f39d1b3SJooyung Han        "fill.w $w29, $a2\n"
*5f39d1b3SJooyung Han        "fill.w $w30, $a3\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 4 bytes of rhs[] for the second half of depth 0.
*5f39d1b3SJooyung Han        "lbu    $a0, 8(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        "lbu    $a1, 9(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        "lbu    $a2, 10(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        "lbu    $a3, 11(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        // Load 4 bytes of rhs[] for the second half of depth 1.
*5f39d1b3SJooyung Han        "lbu    $v0, 12(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        "lbu    $v1, 13(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        "lbu    $t8, 14(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        "lbu    $t9, 15(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // First half of depths 0 and 1.
*5f39d1b3SJooyung Han        // Dot-product-(and)-add doubles multiplicand width.
*5f39d1b3SJooyung Han        "dpadd_u.w $w0, $w24, $w27\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w4, $w25, $w27\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w8, $w26, $w27\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w1, $w24, $w28\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w5, $w25, $w28\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w9, $w26, $w28\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w2, $w24, $w29\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w6, $w25, $w29\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w10, $w26, $w29\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w3, $w24, $w30\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w7, $w25, $w30\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w11, $w26, $w30\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Combine and interleave depth 0 and depth 1 elements of rhs[] for dpadd_u.w
*5f39d1b3SJooyung Han        // (for the second half).
*5f39d1b3SJooyung Han        "ins    $a0, $v0, 16, 8\n"
*5f39d1b3SJooyung Han        "ins    $a1, $v1, 16, 8\n"
*5f39d1b3SJooyung Han        "ins    $a2, $t8, 16, 8\n"
*5f39d1b3SJooyung Han        "ins    $a3, $t9, 16, 8\n"
*5f39d1b3SJooyung Han        // Make 4 replicas of every pair of rhs[] elements.
*5f39d1b3SJooyung Han        "fill.w $w27, $a0\n"
*5f39d1b3SJooyung Han        "fill.w $w28, $a1\n"
*5f39d1b3SJooyung Han        "fill.w $w29, $a2\n"
*5f39d1b3SJooyung Han        "fill.w $w30, $a3\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Second half of depths 0 and 1.
*5f39d1b3SJooyung Han        // Dot-product-(and)-add doubles multiplicand width.
*5f39d1b3SJooyung Han        "dpadd_u.w $w12, $w24, $w27\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w16, $w25, $w27\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w20, $w26, $w27\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w13, $w24, $w28\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w17, $w25, $w28\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w21, $w26, $w28\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w14, $w24, $w29\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w18, $w25, $w29\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w22, $w26, $w29\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w15, $w24, $w30\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w19, $w25, $w30\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w23, $w26, $w30\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "addiu  %[depth], -2\n"
*5f39d1b3SJooyung Han        GEMMLOWP_MIPS_XADDIU " %[lhs_ptr], 24\n"
*5f39d1b3SJooyung Han        GEMMLOWP_MIPS_XADDIU " %[rhs_ptr], 16\n"
*5f39d1b3SJooyung Han        "bnez   %[depth]," GEMMLOWP_LABEL_LOOP "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators.
*5f39d1b3SJooyung Han        "st.w   $w0,   (0*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w4,   (1*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w8,   (2*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w1,   (3*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w5,   (4*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w9,   (5*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w2,   (6*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w6,   (7*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w10,  (8*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w3,   (9*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w7,  (10*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w11, (11*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w12, (12*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w16, (13*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w20, (14*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w13, (15*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w17, (16*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w21, (17*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w14, (18*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w18, (19*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w22, (20*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w15, (21*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w19, (22*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w23, (23*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "memory",
*5f39d1b3SJooyung Han        "v0", "v1",
*5f39d1b3SJooyung Han        "a0", "a1", "a2", "a3",
*5f39d1b3SJooyung Han        "t8", "t9",
*5f39d1b3SJooyung Han        "$f0", "$f1", "$f2", "$f3", "$f4", "$f5", "$f6", "$f7",
*5f39d1b3SJooyung Han        "$f8", "$f9", "$f10", "$f11", "$f12", "$f13", "$f14", "$f15",
*5f39d1b3SJooyung Han        "$f16", "$f17", "$f18", "$f19", "$f20", "$f21", "$f22", "$f23",
*5f39d1b3SJooyung Han        "$f24", "$f25", "$f26", "$f27", "$f28", "$f29", "$f30", "$f31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// 12x8 depth 2 width-major kernel.
*5f39d1b3SJooyung Han// Does less shuffling and replication than the kernel above.
*5f39d1b3SJooyung Hanstruct MSA_GEMM_12x8_Uint8Operands_Uint32Accumulators2 {
*5f39d1b3SJooyung Han  typedef std::uint8_t OperandType;
*5f39d1b3SJooyung Han  typedef std::uint32_t AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 2, CellOrder::WidthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 2, CellOrder::WidthMajor>, 2> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(OperandType* lhs_ptr, OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "ld.w   $w0,   (0*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w4,   (1*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w8,   (2*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w1,   (3*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w5,   (4*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w9,   (5*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w2,   (6*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w6,   (7*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w10,  (8*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w3,   (9*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w7,  (10*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w11, (11*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w12, (12*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w16, (13*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w20, (14*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w13, (15*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w17, (16*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w21, (17*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w14, (18*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w18, (19*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w22, (20*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w15, (21*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w19, (22*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "ld.w   $w23, (23*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han        // Overview of register layout:
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A half of the 2 2x4 cells of Rhs is stored in 16bit in w28-w31
*5f39d1b3SJooyung Han        // (each register contains 4 replicas of a pair of elements).
*5f39d1b3SJooyung Han        // A 12x2 block of 3 4x2 cells Lhs is stored in 16bit in w24-w26.
*5f39d1b3SJooyung Han        // A 12x8 block of accumulators is stored in 32bit in w0-w23.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                    +------+------+------+------+
*5f39d1b3SJooyung Han        //               Rhs  |w28   |w29   |w30   |w31   |
*5f39d1b3SJooyung Han        //                    +------+------+------+------+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                    |      |      |      |      |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //       Lhs          |      |      |      |      |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //      +---+ - - - - +------+------+------+------+
*5f39d1b3SJooyung Han        //      |w24|         |w0/12 |w1/13 |w2/14 |w3/15 |
*5f39d1b3SJooyung Han        //      |w24|         |w0/12 |w1/13 |w2/14 |w3/15 |
*5f39d1b3SJooyung Han        //      |w24|         |w0/12 |w1/13 |w2/14 |w3/15 |
*5f39d1b3SJooyung Han        //      |w24|         |w0/12 |w1/13 |w2/14 |w3/15 |
*5f39d1b3SJooyung Han        //      +---+ - - - - +------+------+------+------+
*5f39d1b3SJooyung Han        //      |w25|         |w4/16 |w5/17 |w6/18 |w7/19 |
*5f39d1b3SJooyung Han        //      |w25|         |w4/16 |w5/17 |w6/18 |w7/19 |
*5f39d1b3SJooyung Han        //      |w25|         |w4/16 |w5/17 |w6/18 |w7/19 |
*5f39d1b3SJooyung Han        //      |w25|         |w4/16 |w5/17 |w6/18 |w7/19 |
*5f39d1b3SJooyung Han        //      +---+ - - - - +------+------+------+------+
*5f39d1b3SJooyung Han        //      |w26|         |w8/20 |w9/21 |w10/22|w11/23|
*5f39d1b3SJooyung Han        //      |w26|         |w8/20 |w9/21 |w10/22|w11/23|
*5f39d1b3SJooyung Han        //      |w26|         |w8/20 |w9/21 |w10/22|w11/23|
*5f39d1b3SJooyung Han        //      |w26|         |w8/20 |w9/21 |w10/22|w11/23|
*5f39d1b3SJooyung Han        //      +---+ - - - - +------+------+------+------+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                             Accumulators
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 3 x 8 bytes of lhs[] with 2 16-byte overlapped loads.
*5f39d1b3SJooyung Han        "ld.b   $w24, 0(%[lhs_ptr])\n"
*5f39d1b3SJooyung Han        "ld.b   $w25, 8(%[lhs_ptr])\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 2 x 8 bytes of rhs[].
*5f39d1b3SJooyung Han        "ld.b   $w27, 0(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Zero-extend 8-bit elements of lhs[] to 16 bits.
*5f39d1b3SJooyung Han        "ldi.b  $w31, 0\n"
*5f39d1b3SJooyung Han        "ilvr.b $w24, $w31, $w24\n"
*5f39d1b3SJooyung Han        "ilvl.b $w26, $w31, $w25\n"
*5f39d1b3SJooyung Han        "ilvr.b $w25, $w31, $w25\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // First half of depths 0 and 1.
*5f39d1b3SJooyung Han        // Zero-extend 8-bit elements of rhs[] to 16 bits.
*5f39d1b3SJooyung Han        "ilvr.b    $w31, $w31, $w27\n"
*5f39d1b3SJooyung Han        // Make 4 replicas of every pair of rhs[] elements.
*5f39d1b3SJooyung Han        "splati.w  $w28, $w31[0]\n"
*5f39d1b3SJooyung Han        "splati.w  $w29, $w31[1]\n"
*5f39d1b3SJooyung Han        "splati.w  $w30, $w31[2]\n"
*5f39d1b3SJooyung Han        "splati.w  $w31, $w31[3]\n"
*5f39d1b3SJooyung Han        // Dot-product-(and)-add doubles multiplicand width.
*5f39d1b3SJooyung Han        "dpadd_u.w  $w0, $w24, $w28\n"
*5f39d1b3SJooyung Han        "dpadd_u.w  $w4, $w25, $w28\n"
*5f39d1b3SJooyung Han        "dpadd_u.w  $w8, $w26, $w28\n"
*5f39d1b3SJooyung Han        "dpadd_u.w  $w1, $w24, $w29\n"
*5f39d1b3SJooyung Han        "dpadd_u.w  $w5, $w25, $w29\n"
*5f39d1b3SJooyung Han        "dpadd_u.w  $w9, $w26, $w29\n"
*5f39d1b3SJooyung Han        "dpadd_u.w  $w2, $w24, $w30\n"
*5f39d1b3SJooyung Han        "dpadd_u.w  $w6, $w25, $w30\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w10, $w26, $w30\n"
*5f39d1b3SJooyung Han        "dpadd_u.w  $w3, $w24, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_u.w  $w7, $w25, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w11, $w26, $w31\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Second half of depths 0 and 1.
*5f39d1b3SJooyung Han        // Zero-extend 8-bit elements of rhs[] to 16 bits.
*5f39d1b3SJooyung Han        "ldi.b     $w31, 0\n"
*5f39d1b3SJooyung Han        "ilvl.b    $w31, $w31, $w27\n"
*5f39d1b3SJooyung Han        // Make 4 replicas of every pair of rhs[] elements.
*5f39d1b3SJooyung Han        "splati.w  $w28, $w31[0]\n"
*5f39d1b3SJooyung Han        "splati.w  $w29, $w31[1]\n"
*5f39d1b3SJooyung Han        "splati.w  $w30, $w31[2]\n"
*5f39d1b3SJooyung Han        "splati.w  $w31, $w31[3]\n"
*5f39d1b3SJooyung Han        // Dot-product-(and)-add doubles multiplicand width.
*5f39d1b3SJooyung Han        "dpadd_u.w $w12, $w24, $w28\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w16, $w25, $w28\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w20, $w26, $w28\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w13, $w24, $w29\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w17, $w25, $w29\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w21, $w26, $w29\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w14, $w24, $w30\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w18, $w25, $w30\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w22, $w26, $w30\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w15, $w24, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w19, $w25, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_u.w $w23, $w26, $w31\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "addiu  %[depth], -2\n" GEMMLOWP_MIPS_XADDIU
*5f39d1b3SJooyung Han        " %[lhs_ptr], 24\n" GEMMLOWP_MIPS_XADDIU
*5f39d1b3SJooyung Han        " %[rhs_ptr], 16\n"
*5f39d1b3SJooyung Han        "bnez   %[depth]," GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators.
*5f39d1b3SJooyung Han        "st.w   $w0,   (0*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w4,   (1*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w8,   (2*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w1,   (3*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w5,   (4*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w9,   (5*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w2,   (6*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w6,   (7*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w10,  (8*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w3,   (9*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w7,  (10*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w11, (11*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w12, (12*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w16, (13*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w20, (14*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w13, (15*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w17, (16*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w21, (17*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w14, (18*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w18, (19*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w22, (20*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w15, (21*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w19, (22*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        "st.w   $w23, (23*16)(%[accum_ptr])\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [accum_ptr] "r"(accum_ptr)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "memory", "$f0", "$f1", "$f2", "$f3", "$f4", "$f5", "$f6", "$f7", "$f8",
*5f39d1b3SJooyung Han        "$f9", "$f10", "$f11", "$f12", "$f13", "$f14", "$f15", "$f16", "$f17",
*5f39d1b3SJooyung Han        "$f18", "$f19", "$f20", "$f21", "$f22", "$f23", "$f24", "$f25", "$f26",
*5f39d1b3SJooyung Han        "$f27", "$f28", "$f29", "$f30", "$f31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// 4x4 depth 16 width-major kernel operating on int8 operands.
*5f39d1b3SJooyung Han// It is assumed that one of the two int8 operands only takes values
*5f39d1b3SJooyung Han// in [-127, 127], while the other may freely range in [-128, 127].
*5f39d1b3SJooyung Han// The issue with both operands taking the value -128 is that:
*5f39d1b3SJooyung Han// -128*-128 + -128*-128 == -32768 overflows int16.
*5f39d1b3SJooyung Han// Every other expression a*b + c*d, for any int8 a,b,c,d, fits in int16
*5f39d1b3SJooyung Han// range. That is the basic idea of this kernel.
*5f39d1b3SJooyung Hanstruct MSA_GEMM_Int8Operands_AccumTwoWithin16Bits {
*5f39d1b3SJooyung Han  typedef std::int8_t OperandType;
*5f39d1b3SJooyung Han  typedef std::int32_t AccumulatorType;
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 16, CellOrder::WidthMajor>, 1>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 16, CellOrder::WidthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    std::size_t start_depth = 123;
*5f39d1b3SJooyung Han    std::size_t run_depth = depth;
*5f39d1b3SJooyung Han    std::size_t dst_col_stride = 4;
*5f39d1b3SJooyung Han    AccumulatorType* dst_ptr = accum_ptr;
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_AFTER_LOOP_LAST16 "1"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_LOOP "2"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_ACCUMULATE_EXISTING_DST_VALUES "3"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_STORE "4"
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        GEMMLOWP_MIPS_XADDIU " %[run_depth], -16\n"
*5f39d1b3SJooyung Han        // Load lhs[] and rhs[], zero out internal accumulators.
*5f39d1b3SJooyung Han        "ld.b       $w16, 0(%[lhs_ptr])\n"
*5f39d1b3SJooyung Han        "ldi.b      $w0, 0\n"
*5f39d1b3SJooyung Han        "ld.b       $w20, 0(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        "ldi.b      $w1, 0\n"
*5f39d1b3SJooyung Han        "ld.b       $w17, 16(%[lhs_ptr])\n"
*5f39d1b3SJooyung Han        "ldi.b      $w2, 0\n"
*5f39d1b3SJooyung Han        "ld.b       $w21, 16(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        "ldi.b      $w3, 0\n"
*5f39d1b3SJooyung Han        "ld.b       $w18, 32(%[lhs_ptr])\n"
*5f39d1b3SJooyung Han        "ldi.b      $w4, 0\n"
*5f39d1b3SJooyung Han        "ld.b       $w19, 48(%[lhs_ptr])\n"
*5f39d1b3SJooyung Han        "ldi.b      $w5, 0\n"
*5f39d1b3SJooyung Han        "ld.b       $w22, 32(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        "ldi.b      $w6, 0\n"
*5f39d1b3SJooyung Han        "ld.b       $w23, 48(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        "ldi.b      $w7, 0\n"
*5f39d1b3SJooyung Han        "ldi.b      $w8, 0\n"
*5f39d1b3SJooyung Han        "ldi.b      $w9, 0\n"
*5f39d1b3SJooyung Han        "ldi.b      $w10, 0\n"
*5f39d1b3SJooyung Han        "ldi.b      $w11, 0\n"
*5f39d1b3SJooyung Han        "ldi.b      $w12, 0\n"
*5f39d1b3SJooyung Han        "ldi.b      $w13, 0\n"
*5f39d1b3SJooyung Han        "ldi.b      $w14, 0\n"
*5f39d1b3SJooyung Han        "ldi.b      $w15, 0\n"
*5f39d1b3SJooyung Han        "ldi.h      $w31, 1\n"
*5f39d1b3SJooyung Han        // If the loop depth is only 16, then we can skip the general loop
*5f39d1b3SJooyung Han        // and go straight to the final part of the code.
*5f39d1b3SJooyung Han        "beqz %[run_depth], " GEMMLOWP_LABEL_AFTER_LOOP_LAST16 "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP ":\n"
*5f39d1b3SJooyung Han        // Overview of register layout:
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 4x16 block of Rhs is stored in 8 bit in w16-w19.
*5f39d1b3SJooyung Han        // A 4x16 block of Lhs is stored in 8 bit in w20-w23.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 4x4 block of accumulators is stored in w0-w15 (as 4x32 bit
*5f39d1b3SJooyung Han        // components which need to be horizontally added at the end).
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Dot products of Lhs and Rhs are 16-bit values, which can't
*5f39d1b3SJooyung Han        // immediately be accumulated in 32-bit accumulators by that
*5f39d1b3SJooyung Han        // same instruction that calculates them.
*5f39d1b3SJooyung Han        // For example, "dotp_s.h $w25, $w16, $w20" produces 8 16-bit
*5f39d1b3SJooyung Han        // sums in w25 (note, the 16 sums have already been reduced to 8
*5f39d1b3SJooyung Han        // by the horizontal addition of the dotp instruction).
*5f39d1b3SJooyung Han        // They are then sign-extended to 32 bits, horizontally added
*5f39d1b3SJooyung Han        // (again) to form 4 32-bit sums and then they are finally added
*5f39d1b3SJooyung Han        // to the 32-bit accumulators, all by "dpadd_s.w $w0, $w25, $w31".
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                    +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //               Rhs  | w20 | w21 | w22 | w23 |
*5f39d1b3SJooyung Han        //                    +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                    |     |     |     |     |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //       Lhs          |     |     |     |     |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //      +---+ - - - - +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //      |w16|         | w0  | w4  | w8  | w12 |
*5f39d1b3SJooyung Han        //      |w17|         | w1  | w5  | w9  | w13 |
*5f39d1b3SJooyung Han        //      |w18|         | w2  | w6  | w10 | w14 |
*5f39d1b3SJooyung Han        //      |w19|         | w3  | w7  | w11 | w15 |
*5f39d1b3SJooyung Han        //      +---+ - - - - +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                           Accumulators
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Calculate the results for 16 depths and load
*5f39d1b3SJooyung Han        // lhs[] and rhs[] for the next iteration.
*5f39d1b3SJooyung Han        GEMMLOWP_MIPS_XADDIU " %[lhs_ptr], 64\n"
*5f39d1b3SJooyung Han        GEMMLOWP_MIPS_XADDIU " %[rhs_ptr], 64\n"
*5f39d1b3SJooyung Han        GEMMLOWP_MIPS_XADDIU " %[run_depth], -16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Dot product: multiply-add pairs of adjacent int8 elements.
*5f39d1b3SJooyung Han        // Each dot product takes 16*2 int8 values in and produces 8 int16 sums.
*5f39d1b3SJooyung Han        "dotp_s.h   $w25, $w16, $w20\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w26, $w17, $w20\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w27, $w16, $w21\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w28, $w17, $w21\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w29, $w18, $w20\n"
*5f39d1b3SJooyung Han        // Horizontal add of pairs of adjacent int16 sums into internal int32
*5f39d1b3SJooyung Han        // accumulators.
*5f39d1b3SJooyung Han        "dpadd_s.w  $w0, $w25, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w1, $w26, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w4, $w27, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w5, $w28, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w2, $w29, $w31\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Dot product: multiply-add pairs of adjacent int8 elements.
*5f39d1b3SJooyung Han        // Each dot product takes 16*2 int8 values in and produces 8 int16 sums.
*5f39d1b3SJooyung Han        "dotp_s.h   $w24, $w16, $w22\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w25, $w19, $w20\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w26, $w16, $w23\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w27, $w17, $w22\n"
*5f39d1b3SJooyung Han        "ld.b       $w20, 0(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w28, $w17, $w23\n"
*5f39d1b3SJooyung Han        "ld.b       $w16, 0(%[lhs_ptr])\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w29, $w18, $w21\n"
*5f39d1b3SJooyung Han        "ld.b       $w17, 16(%[lhs_ptr])\n"
*5f39d1b3SJooyung Han        // Horizontal add of pairs of adjacent int16 sums into internal int32
*5f39d1b3SJooyung Han        // accumulators.
*5f39d1b3SJooyung Han        "dpadd_s.w  $w8, $w24, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w3, $w25, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w12, $w26, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w9, $w27, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w13, $w28, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w6, $w29, $w31\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Dot product: multiply-add pairs of adjacent int8 elements.
*5f39d1b3SJooyung Han        // Each dot product takes 16*2 int8 values in and produces 8 int16 sums.
*5f39d1b3SJooyung Han        "dotp_s.h   $w25, $w19, $w21\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w26, $w18, $w22\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w27, $w18, $w23\n"
*5f39d1b3SJooyung Han        "ld.b       $w21, 16(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w28, $w19, $w22\n"
*5f39d1b3SJooyung Han        "ld.b       $w18, 32(%[lhs_ptr])\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w29, $w19, $w23\n"
*5f39d1b3SJooyung Han        "ld.b       $w22, 32(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        // Horizontal add of pairs of adjacent int16 sums into internal int32
*5f39d1b3SJooyung Han        // accumulators.
*5f39d1b3SJooyung Han        "dpadd_s.w  $w7, $w25, $w31\n"
*5f39d1b3SJooyung Han        "ld.b       $w19, 48(%[lhs_ptr])\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w10, $w26, $w31\n"
*5f39d1b3SJooyung Han        "ld.b       $w23, 48(%[rhs_ptr])\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w14, $w27, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w11, $w28, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w15, $w29, $w31\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "bnez %[run_depth], " GEMMLOWP_LABEL_LOOP "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_AFTER_LOOP_LAST16 ":\n"
*5f39d1b3SJooyung Han        // Calculate the results for the last 16 depths.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Dot product: multiply-add pairs of adjacent int8 elements.
*5f39d1b3SJooyung Han        // Each dot product takes 16*2 int8 values in and produces 8 int16 sums.
*5f39d1b3SJooyung Han        "dotp_s.h   $w25, $w16, $w20\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w26, $w17, $w20\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w27, $w16, $w21\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w28, $w17, $w21\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w29, $w18, $w20\n"
*5f39d1b3SJooyung Han        // Horizontal add of pairs of adjacent int16 sums into internal int32
*5f39d1b3SJooyung Han        // accumulators.
*5f39d1b3SJooyung Han        "dpadd_s.w  $w0, $w25, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w1, $w26, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w4, $w27, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w5, $w28, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w2, $w29, $w31\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Dot product: multiply-add pairs of adjacent int8 elements.
*5f39d1b3SJooyung Han        // Each dot product takes 16*2 int8 values in and produces 8 int16 sums.
*5f39d1b3SJooyung Han        "dotp_s.h   $w24, $w16, $w22\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w25, $w19, $w20\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w26, $w16, $w23\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w27, $w17, $w22\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w28, $w17, $w23\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w29, $w18, $w21\n"
*5f39d1b3SJooyung Han        // Horizontal add of pairs of adjacent int16 sums into internal int32
*5f39d1b3SJooyung Han        // accumulators.
*5f39d1b3SJooyung Han        "dpadd_s.w  $w8, $w24, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w3, $w25, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w12, $w26, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w9, $w27, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w13, $w28, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w6, $w29, $w31\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Dot product: multiply-add pairs of adjacent int8 elements.
*5f39d1b3SJooyung Han        // Each dot product takes 16*2 int8 values in and produces 8 int16 sums.
*5f39d1b3SJooyung Han        "dotp_s.h   $w25, $w19, $w21\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w26, $w18, $w22\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w27, $w18, $w23\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w28, $w19, $w22\n"
*5f39d1b3SJooyung Han        "dotp_s.h   $w29, $w19, $w23\n"
*5f39d1b3SJooyung Han        // Horizontal add of pairs of adjacent int16 sums into internal int32
*5f39d1b3SJooyung Han        // accumulators.
*5f39d1b3SJooyung Han        "dpadd_s.w  $w7, $w25, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w10, $w26, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w14, $w27, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w11, $w28, $w31\n"
*5f39d1b3SJooyung Han        "dpadd_s.w  $w15, $w29, $w31\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Horizontal-add internal accumulators.
*5f39d1b3SJooyung Han        "hadd_s.d   $w0, $w0, $w0\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w1, $w1, $w1\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w2, $w2, $w2\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w3, $w3, $w3\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w4, $w4, $w4\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w5, $w5, $w5\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w6, $w6, $w6\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w7, $w7, $w7\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w8, $w8, $w8\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w9, $w9, $w9\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w10, $w10, $w10\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w11, $w11, $w11\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w12, $w12, $w12\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w13, $w13, $w13\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w14, $w14, $w14\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w15, $w15, $w15\n"
*5f39d1b3SJooyung Han        "pckev.w    $w0, $w1, $w0\n"
*5f39d1b3SJooyung Han        "pckev.w    $w2, $w3, $w2\n"
*5f39d1b3SJooyung Han        "pckev.w    $w4, $w5, $w4\n"
*5f39d1b3SJooyung Han        "pckev.w    $w6, $w7, $w6\n"
*5f39d1b3SJooyung Han        "pckev.w    $w8, $w9, $w8\n"
*5f39d1b3SJooyung Han        "pckev.w    $w10, $w11, $w10\n"
*5f39d1b3SJooyung Han        "pckev.w    $w12, $w13, $w12\n"
*5f39d1b3SJooyung Han        "pckev.w    $w14, $w15, $w14\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w0, $w0, $w0\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w2, $w2, $w2\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w4, $w4, $w4\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w6, $w6, $w6\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w8, $w8, $w8\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w10, $w10, $w10\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w12, $w12, $w12\n"
*5f39d1b3SJooyung Han        "hadd_s.d   $w14, $w14, $w14\n"
*5f39d1b3SJooyung Han        // 4 more pckev instructions follow in both paths below.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Check if start_depth==0 to decide whether we will load
*5f39d1b3SJooyung Han        // existing accumulators from memory.
*5f39d1b3SJooyung Han        "bnez %[start_depth], " GEMMLOWP_LABEL_ACCUMULATE_EXISTING_DST_VALUES "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "pckev.w    $w0, $w2, $w0\n"
*5f39d1b3SJooyung Han        "pckev.w    $w1, $w6, $w4\n"
*5f39d1b3SJooyung Han        "pckev.w    $w2, $w10, $w8\n"
*5f39d1b3SJooyung Han        "pckev.w    $w3, $w14, $w12\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "b " GEMMLOWP_LABEL_STORE "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_ACCUMULATE_EXISTING_DST_VALUES ":\n"
*5f39d1b3SJooyung Han        // Load accumulators from memory.
*5f39d1b3SJooyung Han        "ld.w       $w16, 0(%[dst_ptr0])\n"
*5f39d1b3SJooyung Han        "pckev.w    $w0, $w2, $w0\n"
*5f39d1b3SJooyung Han        "ld.w       $w17, 0(%[dst_ptr1])\n"
*5f39d1b3SJooyung Han        "pckev.w    $w1, $w6, $w4\n"
*5f39d1b3SJooyung Han        "ld.w       $w18, 0(%[dst_ptr2])\n"
*5f39d1b3SJooyung Han        "pckev.w    $w2, $w10, $w8\n"
*5f39d1b3SJooyung Han        "ld.w       $w19, 0(%[dst_ptr3])\n"
*5f39d1b3SJooyung Han        "pckev.w    $w3, $w14, $w12\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Add them to internal accumulators.
*5f39d1b3SJooyung Han        "addv.w     $w0, $w0, $w16\n"
*5f39d1b3SJooyung Han        "addv.w     $w1, $w1, $w17\n"
*5f39d1b3SJooyung Han        "addv.w     $w2, $w2, $w18\n"
*5f39d1b3SJooyung Han        "addv.w     $w3, $w3, $w19\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_STORE ":\n"
*5f39d1b3SJooyung Han        // Store accumulators.
*5f39d1b3SJooyung Han        "st.w       $w0, 0(%[dst_ptr0])\n"
*5f39d1b3SJooyung Han        "st.w       $w1, 0(%[dst_ptr1])\n"
*5f39d1b3SJooyung Han        "st.w       $w2, 0(%[dst_ptr2])\n"
*5f39d1b3SJooyung Han        "st.w       $w3, 0(%[dst_ptr3])\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [run_depth] "+r"(run_depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [dst_ptr0] "r"(dst_ptr), [dst_ptr1] "r"(dst_ptr + dst_col_stride),
*5f39d1b3SJooyung Han        [dst_ptr2] "r"(dst_ptr + dst_col_stride * 2),
*5f39d1b3SJooyung Han        [dst_ptr3] "r"(dst_ptr + dst_col_stride * 3),
*5f39d1b3SJooyung Han        [start_depth] "r"(start_depth)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "memory", "$f0", "$f1", "$f2", "$f3", "$f4", "$f5", "$f6", "$f7", "$f8",
*5f39d1b3SJooyung Han        "$f9", "$f10", "$f11", "$f12", "$f13", "$f14", "$f15", "$f16", "$f17",
*5f39d1b3SJooyung Han        "$f18", "$f19", "$f20", "$f21", "$f22", "$f23", "$f24", "$f25", "$f26",
*5f39d1b3SJooyung Han        "$f27", "$f28", "$f29", "$f30", "$f31");
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_AFTER_LOOP_LAST16
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_ACCUMULATE_EXISTING_DST_VALUES
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_STORE
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han#endif  // __mips
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// BEGIN code copied from gemmlowp/internal/kernel_reference.h
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// This kernel is templatized in an arbitrary Format template parameter,
*5f39d1b3SJooyung Han// allowing it to have any arbitrary format.
*5f39d1b3SJooyung Hantemplate <typename tOperandType, typename tAccumulatorType, typename tFormat>
*5f39d1b3SJooyung Hanstruct ReferenceKernel {
*5f39d1b3SJooyung Han  typedef tOperandType OperandType;
*5f39d1b3SJooyung Han  typedef tAccumulatorType AccumulatorType;
*5f39d1b3SJooyung Han  typedef tFormat Format;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  static void Run(const OperandType* lhs_ptr, const OperandType* rhs_ptr,
*5f39d1b3SJooyung Han                  AccumulatorType* accum_ptr, int depth) {
*5f39d1b3SJooyung Han    const int depth_cells = static_cast<int>(depth / Format::kDepth);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    // The outer loop is over the depth dimension.
*5f39d1b3SJooyung Han    for (int dc = 0; dc < depth_cells; dc++) {
*5f39d1b3SJooyung Han      // The next two loops are over cells of the Lhs (stacked vertically),
*5f39d1b3SJooyung Han      // and over cells of the Rhs (stacked horizontally).
*5f39d1b3SJooyung Han      for (int rc = 0; rc < Format::Lhs::kCells; rc++) {
*5f39d1b3SJooyung Han        const OperandType* lhs_cell_ptr =
*5f39d1b3SJooyung Han            lhs_ptr + (dc * Format::Lhs::kCells + rc) *
*5f39d1b3SJooyung Han                          Format::Lhs::Cell::kWidth * Format::kDepth;
*5f39d1b3SJooyung Han        for (int cc = 0; cc < Format::Rhs::kCells; cc++) {
*5f39d1b3SJooyung Han          const OperandType* rhs_cell_ptr =
*5f39d1b3SJooyung Han              rhs_ptr + (dc * Format::Rhs::kCells + cc) *
*5f39d1b3SJooyung Han                            Format::Rhs::Cell::kWidth * Format::kDepth;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han          // Now we are inside one cell of the Lhs and inside one cell
*5f39d1b3SJooyung Han          // of the Rhs, so the remaining inner loops are just
*5f39d1b3SJooyung Han          // traditional three loops of matrix multiplication.
*5f39d1b3SJooyung Han          for (int di = 0; di < Format::kDepth; di++) {
*5f39d1b3SJooyung Han            for (int ri = 0; ri < Format::Lhs::Cell::kWidth; ri++) {
*5f39d1b3SJooyung Han              for (int ci = 0; ci < Format::Rhs::Cell::kWidth; ci++) {
*5f39d1b3SJooyung Han                const OperandType* lhs_coeff_ptr =
*5f39d1b3SJooyung Han                    lhs_cell_ptr +
*5f39d1b3SJooyung Han                    OffsetIntoCell<typename Format::Lhs::Cell>(ri, di);
*5f39d1b3SJooyung Han                const OperandType* rhs_coeff_ptr =
*5f39d1b3SJooyung Han                    rhs_cell_ptr +
*5f39d1b3SJooyung Han                    OffsetIntoCell<typename Format::Rhs::Cell>(ci, di);
*5f39d1b3SJooyung Han                AccumulatorType* accumulator_coeff_ptr =
*5f39d1b3SJooyung Han                    accum_ptr + (ri + rc * Format::Lhs::Cell::kWidth) +
*5f39d1b3SJooyung Han                    (ci + cc * Format::Rhs::Cell::kWidth) * Format::kRows;
*5f39d1b3SJooyung Han                *accumulator_coeff_ptr += AccumulatorType(*lhs_coeff_ptr) *
*5f39d1b3SJooyung Han                                          AccumulatorType(*rhs_coeff_ptr);
*5f39d1b3SJooyung Han              }
*5f39d1b3SJooyung Han            }
*5f39d1b3SJooyung Han          }
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// END code copied from gemmlowp/internal/kernel_reference.h
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename DataType>
*5f39d1b3SJooyung Hanclass CacheLineAlignedBuffer {
*5f39d1b3SJooyung Han public:
*5f39d1b3SJooyung Han  CacheLineAlignedBuffer(std::size_t size) : size_(size) {
*5f39d1b3SJooyung Han    data_ = nullptr;
*5f39d1b3SJooyung Han    // Adds a few bytes of padding here, because the 64-bit 'A57' kernel
*5f39d1b3SJooyung Han    // reads one iteration past the end the buffer, causing a crash on iOS.
*5f39d1b3SJooyung Han    int res = posix_memalign(reinterpret_cast<void**>(&data_), kCacheLineSize,
*5f39d1b3SJooyung Han                             size_ * sizeof(DataType) + 16);
*5f39d1b3SJooyung Han    (void)res;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  ~CacheLineAlignedBuffer() { free(data_); }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const DataType* data() const { return data_; }
*5f39d1b3SJooyung Han  DataType* data() { return data_; }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  std::size_t size() const { return size_; }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han private:
*5f39d1b3SJooyung Han  const std::size_t size_;
*5f39d1b3SJooyung Han  DataType* data_;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename DataType>
*5f39d1b3SJooyung Hanvoid FillRandom(CacheLineAlignedBuffer<DataType>* buffer, DataType min,
*5f39d1b3SJooyung Han                DataType max) {
*5f39d1b3SJooyung Han  static std::mt19937 generator(0);
*5f39d1b3SJooyung Han  std::uniform_real_distribution<float> dist(min, max);
*5f39d1b3SJooyung Han  for (std::size_t i = 0; i < buffer->size(); i++) {
*5f39d1b3SJooyung Han    buffer->data()[i] = DataType(dist(generator));
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename DataType>
*5f39d1b3SJooyung Hanvoid FillZero(CacheLineAlignedBuffer<DataType>* buffer) {
*5f39d1b3SJooyung Han  for (std::size_t i = 0; i < buffer->size(); i++) {
*5f39d1b3SJooyung Han    buffer->data()[i] = DataType(0);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename DataType>
*5f39d1b3SJooyung Hanvoid Copy(CacheLineAlignedBuffer<DataType>* dst,
*5f39d1b3SJooyung Han          const CacheLineAlignedBuffer<DataType>& src) {
*5f39d1b3SJooyung Han  assert(dst->size() == src.size());
*5f39d1b3SJooyung Han  memcpy(dst->data(), src.data(), src.size() * sizeof(DataType));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename DataType>
*5f39d1b3SJooyung Hanvoid PrintMatrix(int rows, int cols, int rowstride, int colstride,
*5f39d1b3SJooyung Han                 const DataType* data) {
*5f39d1b3SJooyung Han  for (int r = 0; r < rows; r++) {
*5f39d1b3SJooyung Han    for (int c = 0; c < cols; c++) {
*5f39d1b3SJooyung Han      std::cerr << double(data[r * rowstride + c * colstride]) << " ";
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    std::cerr << std::endl;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han  std::cerr << std::endl;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename DataType>
*5f39d1b3SJooyung Hanbool approx_equals(DataType a, DataType b) {
*5f39d1b3SJooyung Han  return a == b;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <>
*5f39d1b3SJooyung Hanbool approx_equals(float a, float b) {
*5f39d1b3SJooyung Han  if (!a && !b) {
*5f39d1b3SJooyung Han    return true;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han  // 1e-1 is very coarse accuracy, we should switch to an overall L2 metric
*5f39d1b3SJooyung Han  // and tighten the tolerance on that metric.
*5f39d1b3SJooyung Han  return std::abs(a - b) < 1e-1f * std::min(std::abs(a), std::abs(b));
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename Kernel>
*5f39d1b3SJooyung Hanvoid test_kernel(int depth, const char* kernel_name) {
*5f39d1b3SJooyung Han  typedef typename Kernel::OperandType OperandType;
*5f39d1b3SJooyung Han  typedef typename Kernel::AccumulatorType AccumulatorType;
*5f39d1b3SJooyung Han  typedef typename Kernel::Format Format;
*5f39d1b3SJooyung Han  static const int kLhsWidth = Format::Lhs::kWidth;
*5f39d1b3SJooyung Han  static const int kRhsWidth = Format::Rhs::kWidth;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  typedef ReferenceKernel<OperandType, AccumulatorType, Format> ReferenceKernel;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  CacheLineAlignedBuffer<OperandType> lhs(kLhsWidth * depth);
*5f39d1b3SJooyung Han  CacheLineAlignedBuffer<OperandType> rhs(kRhsWidth * depth);
*5f39d1b3SJooyung Han  CacheLineAlignedBuffer<AccumulatorType> accum_initial(kLhsWidth * kRhsWidth);
*5f39d1b3SJooyung Han  CacheLineAlignedBuffer<AccumulatorType> accum(kLhsWidth * kRhsWidth);
*5f39d1b3SJooyung Han  CacheLineAlignedBuffer<AccumulatorType> accum_reference(kLhsWidth *
*5f39d1b3SJooyung Han                                                          kRhsWidth);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  FillRandom(&lhs, KernelOperandRanges<Kernel>::LhsMin(),
*5f39d1b3SJooyung Han             KernelOperandRanges<Kernel>::LhsMax());
*5f39d1b3SJooyung Han  FillRandom(&rhs, KernelOperandRanges<Kernel>::RhsMin(),
*5f39d1b3SJooyung Han             KernelOperandRanges<Kernel>::RhsMax());
*5f39d1b3SJooyung Han  FillRandom(&accum_initial,
*5f39d1b3SJooyung Han             std::is_signed<AccumulatorType>::value
*5f39d1b3SJooyung Han                 ? AccumulatorType(-100)
*5f39d1b3SJooyung Han                 : AccumulatorType(0),
*5f39d1b3SJooyung Han              AccumulatorType(100));
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  Copy(&accum, accum_initial);
*5f39d1b3SJooyung Han  Copy(&accum_reference, accum_initial);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  ReferenceKernel::Run(lhs.data(), rhs.data(), accum_reference.data(), depth);
*5f39d1b3SJooyung Han  Kernel::Run(lhs.data(), rhs.data(), accum.data(), depth);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  for (int l = 0; l < kLhsWidth; l++) {
*5f39d1b3SJooyung Han    for (int r = 0; r < kRhsWidth; r++) {
*5f39d1b3SJooyung Han      const int index = l + kLhsWidth * r;
*5f39d1b3SJooyung Han      if (!approx_equals(accum.data()[index], accum_reference.data()[index])) {
*5f39d1b3SJooyung Han        std::cerr << "Arithmetic error in kernel:" << std::endl
*5f39d1b3SJooyung Han                  << "    " << kernel_name << std::endl
*5f39d1b3SJooyung Han                  << "Wrong accumulator for depth=" << depth << ", "
*5f39d1b3SJooyung Han                  << "at l = " << l << ", r = " << r << std::endl;
*5f39d1b3SJooyung Han        std::cerr << "reference value: " << accum_reference.data()[index]
*5f39d1b3SJooyung Han                  << std::endl;
*5f39d1b3SJooyung Han        std::cerr << "actual value:    " << accum.data()[index] << std::endl;
*5f39d1b3SJooyung Han        if (depth <= 16) {
*5f39d1b3SJooyung Han          std::cerr << "LHS matrix:" << std::endl;
*5f39d1b3SJooyung Han          PrintMatrix(kLhsWidth, depth, 1, kLhsWidth, lhs.data());
*5f39d1b3SJooyung Han          std::cerr << "RHS matrix:" << std::endl;
*5f39d1b3SJooyung Han          PrintMatrix(depth, kRhsWidth, kRhsWidth, 1, rhs.data());
*5f39d1b3SJooyung Han          std::cerr << "Initial Accumulator matrix:" << std::endl;
*5f39d1b3SJooyung Han          PrintMatrix(kLhsWidth, kRhsWidth, 1, kLhsWidth, accum_initial.data());
*5f39d1b3SJooyung Han          std::cerr << "Reference Accumulator matrix:" << std::endl;
*5f39d1b3SJooyung Han          PrintMatrix(kLhsWidth, kRhsWidth, 1, kLhsWidth,
*5f39d1b3SJooyung Han                      accum_reference.data());
*5f39d1b3SJooyung Han          std::cerr << "Actual Accumulator matrix:" << std::endl;
*5f39d1b3SJooyung Han          PrintMatrix(kLhsWidth, kRhsWidth, 1, kLhsWidth, accum.data());
*5f39d1b3SJooyung Han        }
*5f39d1b3SJooyung Han        abort();
*5f39d1b3SJooyung Han      }
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename Kernel>
*5f39d1b3SJooyung Hanint ops(int depth) {
*5f39d1b3SJooyung Han  // 2x the number of multiply-accumulate scalar ops.
*5f39d1b3SJooyung Han  return 2 * Kernel::Format::Lhs::kWidth * Kernel::Format::Rhs::kWidth * depth;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <unsigned Modulus, typename Integer>
*5f39d1b3SJooyung HanInteger RoundDown(Integer i) {
*5f39d1b3SJooyung Han  return i - (i % Modulus);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanint CacheSizeInKB() {
*5f39d1b3SJooyung Han  static const char* cache_size_k_env = getenv("CACHE_SIZE_KB");
*5f39d1b3SJooyung Han  static const int cache_size_k =
*5f39d1b3SJooyung Han      cache_size_k_env ? atoi(cache_size_k_env) : kDefaultCacheSizeK;
*5f39d1b3SJooyung Han  return cache_size_k;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename Kernel>
*5f39d1b3SJooyung Hanint BenchmarkDepthToFitInCache() {
*5f39d1b3SJooyung Han  const int cache_size_bytes = 1024 * CacheSizeInKB();
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Subtract the typical size of a few cache lines, so
*5f39d1b3SJooyung Han  // we don't need to worry too hard about e.g. some stack data.
*5f39d1b3SJooyung Han  const int conservative_cache_size_bytes =
*5f39d1b3SJooyung Han      cache_size_bytes - 2 * kCacheLineSize;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // We will subtract the memory occupied by accumulators.
*5f39d1b3SJooyung Han  typedef typename Kernel::AccumulatorType AccumulatorType;
*5f39d1b3SJooyung Han  const int kAccumulatorBytes = sizeof(AccumulatorType) *
*5f39d1b3SJooyung Han                                Kernel::Format::Lhs::kWidth *
*5f39d1b3SJooyung Han                                Kernel::Format::Rhs::kWidth;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Compute the depth.
*5f39d1b3SJooyung Han  typedef typename Kernel::OperandType OperandType;
*5f39d1b3SJooyung Han  const int kBytesPerUnitOfDepth =
*5f39d1b3SJooyung Han      sizeof(OperandType) *
*5f39d1b3SJooyung Han      (Kernel::Format::Lhs::kWidth + Kernel::Format::Rhs::kWidth);
*5f39d1b3SJooyung Han  const int unrounded_depth =
*5f39d1b3SJooyung Han      (conservative_cache_size_bytes - kAccumulatorBytes) /
*5f39d1b3SJooyung Han      kBytesPerUnitOfDepth;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Cap depth, to avoid unfairly favoring narrower kernels
*5f39d1b3SJooyung Han  const int kMaxDepth = 1024;
*5f39d1b3SJooyung Han  const int clamped_unrounded_depth = std::min(kMaxDepth, unrounded_depth);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // Round depth down to a multiple of cache line size, which helps because
*5f39d1b3SJooyung Han  // our kernels may crash if depth is not a multiple of the number of
*5f39d1b3SJooyung Han  // depth level that they want to
*5f39d1b3SJooyung Han  // handle at each loop iteration, and we don't want to require kernels
*5f39d1b3SJooyung Han  // to be more complex. Currently all kernels process 1, 2 or 8 levels of
*5f39d1b3SJooyung Han  // depth at a time. The main reason why that might increase in the future
*5f39d1b3SJooyung Han  // is if registers get wider, but I don't suppose that register could
*5f39d1b3SJooyung Han  // ever get wider than cache lines.
*5f39d1b3SJooyung Han  return RoundDown<kCacheLineSize>(clamped_unrounded_depth);
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Handouble current_time_in_seconds() {
*5f39d1b3SJooyung Han  timespec t;
*5f39d1b3SJooyung Han  clock_gettime(CLOCK_REALTIME, &t);
*5f39d1b3SJooyung Han  return t.tv_sec + 1e-9 * t.tv_nsec;
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename Kernel>
*5f39d1b3SJooyung Handouble benchmark(int depth) {
*5f39d1b3SJooyung Han  // Minimum duration for this benchmark to run. If the workload finishes
*5f39d1b3SJooyung Han  // sooner, we retry with double the number of iterations.
*5f39d1b3SJooyung Han  static const double min_benchmark_time_in_seconds = 1.0;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  typedef typename Kernel::OperandType OperandType;
*5f39d1b3SJooyung Han  typedef typename Kernel::AccumulatorType AccumulatorType;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  CacheLineAlignedBuffer<OperandType> lhs(Kernel::Format::Lhs::kWidth * depth);
*5f39d1b3SJooyung Han  CacheLineAlignedBuffer<OperandType> rhs(Kernel::Format::Rhs::kWidth * depth);
*5f39d1b3SJooyung Han  CacheLineAlignedBuffer<AccumulatorType> accum(Kernel::Format::Lhs::kWidth *
*5f39d1b3SJooyung Han                                                Kernel::Format::Rhs::kWidth);
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  for (std::uint64_t iters_at_a_time = 1;; iters_at_a_time *= 2) {
*5f39d1b3SJooyung Han    const double t_start = current_time_in_seconds();
*5f39d1b3SJooyung Han    for (std::uint64_t i = 0; i < iters_at_a_time; i++) {
*5f39d1b3SJooyung Han      Kernel::Run(lhs.data(), rhs.data(), accum.data(), depth);
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han    const double t_end = current_time_in_seconds();
*5f39d1b3SJooyung Han    const double elapsed = t_end - t_start;
*5f39d1b3SJooyung Han    if (elapsed > min_benchmark_time_in_seconds) {
*5f39d1b3SJooyung Han      return iters_at_a_time * ops<Kernel>(depth) / elapsed;
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hantemplate <typename Kernel>
*5f39d1b3SJooyung Hanvoid benchmark_and_print_results(const char* kernel_name) {
*5f39d1b3SJooyung Han  if (getenv("BENCHMARK_KERNEL")) {
*5f39d1b3SJooyung Han    if (strcmp(getenv("BENCHMARK_KERNEL"), kernel_name)) {
*5f39d1b3SJooyung Han      return;
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han  const int kKernelDepth = Kernel::Format::kDepth;
*5f39d1b3SJooyung Han  for (int depth = kKernelDepth; depth <= 1024; depth += kKernelDepth) {
*5f39d1b3SJooyung Han    test_kernel<Kernel>(depth, kernel_name);
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  if (getenv("BENCHMARK_ALL_DEPTHS")) {
*5f39d1b3SJooyung Han    for (int depth = kKernelDepth;
*5f39d1b3SJooyung Han         depth <= BenchmarkDepthToFitInCache<Kernel>(); depth *= 2) {
*5f39d1b3SJooyung Han      std::cout << kernel_name << "," << depth << ","
*5f39d1b3SJooyung Han                << benchmark<Kernel>(depth) * 1e-9f << std::endl;
*5f39d1b3SJooyung Han    }
*5f39d1b3SJooyung Han  } else {
*5f39d1b3SJooyung Han    const int depth = BenchmarkDepthToFitInCache<Kernel>();
*5f39d1b3SJooyung Han    std::cout << kernel_name << "," << benchmark<Kernel>(depth) * 1e-9f
*5f39d1b3SJooyung Han              << std::endl;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han}
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#define BENCHMARK(Kernel)                         \
*5f39d1b3SJooyung Han  do {                                            \
*5f39d1b3SJooyung Han    benchmark_and_print_results<Kernel>(#Kernel); \
*5f39d1b3SJooyung Han  } while (false)
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanint main() {
*5f39d1b3SJooyung Han  if (getenv("BENCHMARK_ALL_DEPTHS")) {
*5f39d1b3SJooyung Han    std::cout << "kernel,depth,Gop/s" << std::endl;
*5f39d1b3SJooyung Han  } else {
*5f39d1b3SJooyung Han    std::cout << "kernel,Gop/s" << std::endl;
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifdef __arm__
*5f39d1b3SJooyung Han  BENCHMARK(NEON_32bit_GEMM_Int8Operands_AccumTwoWithin16Bits);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_32bit_GEMM_Int8Operands_AccumTwoWithin16Bits_intrinsics);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_32bit_GEMM_Uint8Operands_Uint32Accumulators);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_32bit_GEMM_Uint8Operands_Uint32Accumulators_intrinsics);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_32bit_GEMM_Uint8Operands_Uint32Accumulators_noexpand);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_32bit_GEMM_Int32_WithScalar);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_32bit_GEMM_Float32_MLA_WithVectorDuplicatingScalar);
*5f39d1b3SJooyung Han#ifdef __ARM_FEATURE_FMA
*5f39d1b3SJooyung Han  BENCHMARK(NEON_32bit_GEMM_Float32_FMA_WithVectorDuplicatingScalar);
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han  BENCHMARK(NEON_32bit_GEMM_Float32_MLA_WithScalar);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_32bit_GEMM_Float32_WithScalar_intrinsics);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_32bit_GEMM_Float32_WithScalar_A53);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_32bit_GEMM_Float32_WithScalar_A53_depth2);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_32bit_GEMM_Float32_MLA_Rotating);
*5f39d1b3SJooyung Han#ifdef __ARM_FEATURE_FMA
*5f39d1b3SJooyung Han  BENCHMARK(NEON_32bit_GEMM_Float32_FMA_Rotating);
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifdef __aarch64__
*5f39d1b3SJooyung Han  BENCHMARK(NEON_64bit_GEMM_Int425Operands);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_64bit_GEMM_Int425Operands_intrinsics);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_64bit_GEMM_Int7Operands_AccumEightWithin16Bits);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_64bit_GEMM_Int7Operands_AccumEightWithin16Bits_intrinsics);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_64bit_GEMM_Int8Operands_AccumTwoWithin16Bits);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_64bit_GEMM_Int8Operands_AccumTwoWithin16Bits_intrinsics);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_64bit_GEMM_Uint8Operands_Uint32Accumulators);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_64bit_GEMM_Uint8Operands_Uint32Accumulators_intrinsics);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_64bit_GEMM_Uint8Operands_Uint32Accumulators_noexpand_A57);
*5f39d1b3SJooyung Han#ifdef __ARM_FEATURE_DOTPROD
*5f39d1b3SJooyung Han  BENCHMARK(NEON_64bit_GEMM_Uint8Operands_Uint32Accumulators_dotproduct);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_64bit_GEMM_Uint8Operands_Uint32Accumulators_dotproduct_A55r1);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_64bit_GEMM_Uint8Operands_Uint32Accumulators_dotproduct_narrow);
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han  BENCHMARK(NEON_64bit_GEMM_Int32_WithScalar);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_64bit_GEMM_Float32_WithVectorDuplicatingScalar);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_64bit_GEMM_Float32_WithScalar);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_64bit_GEMM_Float32_WithScalar_intrinsics);
*5f39d1b3SJooyung Han  BENCHMARK(NEON_64bit_GEMM_Float32_WithScalar_A57);
*5f39d1b3SJooyung Han#ifndef __APPLE__
*5f39d1b3SJooyung Han  BENCHMARK(NEON_64bit_GEMM_Float32_WithScalar_A53);
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han  BENCHMARK(NEON_64bit_GEMM_Float32_WithScalar_A55r1);
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifdef __mips
*5f39d1b3SJooyung Han  BENCHMARK(MSA_GEMM_12x8_Uint8Operands_Uint32Accumulators1);
*5f39d1b3SJooyung Han  BENCHMARK(MSA_GEMM_12x8_Uint8Operands_Uint32Accumulators2);
*5f39d1b3SJooyung Han  BENCHMARK(MSA_GEMM_Int8Operands_AccumTwoWithin16Bits);
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  return 0;
*5f39d1b3SJooyung Han}