gemmlowp/internal/kernel_neon.h

*5f39d1b3SJooyung Han// Copyright 2015 The Gemmlowp Authors. All Rights Reserved.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Licensed under the Apache License, Version 2.0 (the "License");
*5f39d1b3SJooyung Han// you may not use this file except in compliance with the License.
*5f39d1b3SJooyung Han// You may obtain a copy of the License at
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han//     http://www.apache.org/licenses/LICENSE-2.0
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// Unless required by applicable law or agreed to in writing, software
*5f39d1b3SJooyung Han// distributed under the License is distributed on an "AS IS" BASIS,
*5f39d1b3SJooyung Han// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*5f39d1b3SJooyung Han// See the License for the specific language governing permissions and
*5f39d1b3SJooyung Han// limitations under the License.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// kernel_neon.h: a collection of NEON optimized kernels.
*5f39d1b3SJooyung Han// Check in kernel_default.h which one(s) are actually used by default.
*5f39d1b3SJooyung Han// Others are mere experiments; they are still covered by tests
*5f39d1b3SJooyung Han// in case they might be useful some day.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifndef GEMMLOWP_INTERNAL_KERNEL_NEON_H_
*5f39d1b3SJooyung Han#define GEMMLOWP_INTERNAL_KERNEL_NEON_H_
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#include "kernel.h"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#include <arm_neon.h>
*5f39d1b3SJooyung Han#include <cassert>
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hannamespace gemmlowp {
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// The kernels here are specifically arm 32bit assembly, not arm 64bit.
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_NEON_32
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Our main GEMM kernel.
*5f39d1b3SJooyung Hanstruct NEON_32_Kernel12x4Depth2 : KernelBase {
*5f39d1b3SJooyung Han  typedef KernelFormat<KernelSideFormat<CellFormat<4, 2>, 3>,
*5f39d1b3SJooyung Han                       KernelSideFormat<CellFormat<4, 2>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const char* Name() const override { return "NEON, 12x4, depth 2"; }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // TODO(benoitjacob): reorder function arguments so dst comes last
*5f39d1b3SJooyung Han  void Run(std::int32_t* dst_ptr, std::size_t dst_row_stride,
*5f39d1b3SJooyung Han           std::size_t dst_col_stride, const std::uint8_t* lhs_ptr,
*5f39d1b3SJooyung Han           const std::uint8_t* rhs_ptr, std::size_t start_depth,
*5f39d1b3SJooyung Han           std::size_t run_depth) const override {
*5f39d1b3SJooyung Han    ScopedProfilingLabel label("optimized kernel (NEON 12x4)");
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// For iOS assembler, the %= style of local labels cause compilation errors,
*5f39d1b3SJooyung Han//  so use numerical ones instead. See
*5f39d1b3SJooyung Han// http://stackoverflow.com/questions/3898435/labels-in-gcc-inline-assembly
*5f39d1b3SJooyung Han// If you add any labels, remember to undef them at the end.
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_CLEAR_ACCUMULATORS "1"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_BEFORE_LOOP "2"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_LOOP "3"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_AFTER_LOOP "4"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    assert(dst_row_stride == 1);
*5f39d1b3SJooyung Han    (void)dst_row_stride;
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Overview of register layout:
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 2x4 cell of Rhs is stored in 16bit in d0--d1 (q0).
*5f39d1b3SJooyung Han        // A 12x2 block of 3 4x2 cells Lhs is stored in 16bit in d2--d7
*5f39d1b3SJooyung Han        // (q1--q3).
*5f39d1b3SJooyung Han        // A 12x4 block of accumulators is stored in 32bit in q4--q15.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                   +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //                   |d0[0]|d0[1]|d0[2]|d0[3]|
*5f39d1b3SJooyung Han        //              Rhs  +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //                   |d1[0]|d1[1]|d1[2]|d1[3]|
*5f39d1b3SJooyung Han        //                   +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                   |     |     |     |     |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //    Lhs            |     |     |     |     |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //  +--+--+ - - - -  +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //  |d2|d3|          | q4  | q5  | q6  | q7  |
*5f39d1b3SJooyung Han        //  |d2|d3|          | q4  | q5  | q6  | q7  |
*5f39d1b3SJooyung Han        //  |d2|d3|          | q4  | q5  | q6  | q7  |
*5f39d1b3SJooyung Han        //  |d2|d3|          | q4  | q5  | q6  | q7  |
*5f39d1b3SJooyung Han        //  +--+--+ - - - -  +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //  |d4|d5|          | q8  | q9  | q10 | q11 |
*5f39d1b3SJooyung Han        //  |d4|d5|          | q8  | q9  | q10 | q11 |
*5f39d1b3SJooyung Han        //  |d4|d5|          | q8  | q9  | q10 | q11 |
*5f39d1b3SJooyung Han        //  |d4|d5|          | q8  | q9  | q10 | q11 |
*5f39d1b3SJooyung Han        //  +--+--+ - - - -  +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //  |d6|d7|          | q12 | q13 | q14 | q15 |
*5f39d1b3SJooyung Han        //  |d6|d7|          | q12 | q13 | q14 | q15 |
*5f39d1b3SJooyung Han        //  |d6|d7|          | q12 | q13 | q14 | q15 |
*5f39d1b3SJooyung Han        //  |d6|d7|          | q12 | q13 | q14 | q15 |
*5f39d1b3SJooyung Han        //  +--+--+ - - - -  +-----+-----+-----+-----+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                            Accumulator
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 1 Rhs cell of size 2x4
*5f39d1b3SJooyung Han        "vld1.8 {d0}, [%[rhs_ptr]]!\n"
*5f39d1b3SJooyung Han        // Load 3 Lhs cells of size 4x2 each
*5f39d1b3SJooyung Han        "vld1.8 {d2}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vld1.8 {d4}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han        "vld1.8 {d6}, [%[lhs_ptr]]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Check if start_depth==0 to decide whether we will clear
*5f39d1b3SJooyung Han        // accumulators or load existing accumulators.
*5f39d1b3SJooyung Han        "cmp %[start_depth], #0\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply dst_col_stride by 4 == sizeof(int32) to use
*5f39d1b3SJooyung Han        // it as a byte offset below.
*5f39d1b3SJooyung Han        "lsl %[dst_col_stride], #2\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "beq " GEMMLOWP_LABEL_CLEAR_ACCUMULATORS
*5f39d1b3SJooyung Han        "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load accumulators (start_depth != 0)
*5f39d1b3SJooyung Han        "mov r1, %[dst_ptr]\n"
*5f39d1b3SJooyung Han        "subs %[run_depth], #2\n"
*5f39d1b3SJooyung Han        "mov r0, r1\n"
*5f39d1b3SJooyung Han        "vld1.32 {d8, d9},   [r0]!\n"
*5f39d1b3SJooyung Han        "add r1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "vld1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d24, d25}, [r0]\n"
*5f39d1b3SJooyung Han        "mov r0, r1\n"
*5f39d1b3SJooyung Han        "vld1.32 {d10, d11}, [r0]!\n"
*5f39d1b3SJooyung Han        "add r1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "vld1.32 {d18, d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d26, d27}, [r0]\n"
*5f39d1b3SJooyung Han        "mov r0, r1\n"
*5f39d1b3SJooyung Han        "vld1.32 {d12, d13}, [r0]!\n"
*5f39d1b3SJooyung Han        "add r1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "vld1.32 {d20, d21}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d28, d29}, [r0]\n"
*5f39d1b3SJooyung Han        "mov r0, r1\n"
*5f39d1b3SJooyung Han        "vld1.32 {d14, d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d22, d23}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d30, d31}, [r0]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "b " GEMMLOWP_LABEL_BEFORE_LOOP "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_CLEAR_ACCUMULATORS
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Clear accumulators (start_depth == 0)
*5f39d1b3SJooyung Han        "vmov.s32 q4, #0\n"
*5f39d1b3SJooyung Han        "subs %[run_depth], #2\n"
*5f39d1b3SJooyung Han        "vmov.s32 q8, q4\n"
*5f39d1b3SJooyung Han        "vmov.s32 q12, q4\n"
*5f39d1b3SJooyung Han        "vmov.s32 q5, q4\n"
*5f39d1b3SJooyung Han        "vmov.s32 q9, q4\n"
*5f39d1b3SJooyung Han        "vmov.s32 q13, q4\n"
*5f39d1b3SJooyung Han        "vmov.s32 q6, q4\n"
*5f39d1b3SJooyung Han        "vmov.s32 q10, q4\n"
*5f39d1b3SJooyung Han        "vmov.s32 q14, q4\n"
*5f39d1b3SJooyung Han        "vmov.s32 q7, q4\n"
*5f39d1b3SJooyung Han        "vmov.s32 q11, q4\n"
*5f39d1b3SJooyung Han        "vmov.s32 q15, q4\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_BEFORE_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // If there are only two levels of depth, skip the loop.
*5f39d1b3SJooyung Han        "beq " GEMMLOWP_LABEL_AFTER_LOOP "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han        // Expand Lhs/Rhs cells to 16 bit.
*5f39d1b3SJooyung Han        // Note: moving theses vmovls further down to allow for
*5f39d1b3SJooyung Han        // longer data pipelining helps a little on A57 but is
*5f39d1b3SJooyung Han        // harmful on A53 --- It looks as if A53 doesn't like
*5f39d1b3SJooyung Han        // interleaving vmovl's into the vmlal's.
*5f39d1b3SJooyung Han        "vmovl.u8 q0, d0\n"
*5f39d1b3SJooyung Han        "vmovl.u8 q1, d2\n"
*5f39d1b3SJooyung Han        "vmovl.u8 q2, d4\n"
*5f39d1b3SJooyung Han        "vmovl.u8 q3, d6\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate, level of depth 0
*5f39d1b3SJooyung Han        "vmlal.u16 q4, d2, d0[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q5, d2, d0[1]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q6, d2, d0[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q7, d2, d0[3]\n"
*5f39d1b3SJooyung Han        "vldr d2, [%[lhs_ptr]]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q8, d4, d0[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q9, d4, d0[1]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q10, d4, d0[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q11, d4, d0[3]\n"
*5f39d1b3SJooyung Han        "vldr d4, [%[lhs_ptr], #8]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q12, d6, d0[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q13, d6, d0[1]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q14, d6, d0[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q15, d6, d0[3]\n"
*5f39d1b3SJooyung Han        "vldr d6, [%[lhs_ptr], #16]\n"
*5f39d1b3SJooyung Han        "vldr d0, [%[rhs_ptr]]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate, level of depth 1
*5f39d1b3SJooyung Han        "vmlal.u16 q4, d3, d1[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q5, d3, d1[1]\n"
*5f39d1b3SJooyung Han        "add %[lhs_ptr], #24\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q6, d3, d1[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q7, d3, d1[3]\n"
*5f39d1b3SJooyung Han        "add %[rhs_ptr], #8\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q8, d5, d1[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q9, d5, d1[1]\n"
*5f39d1b3SJooyung Han        "subs %[run_depth], #2\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q10, d5, d1[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q11, d5, d1[3]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q12, d7, d1[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q13, d7, d1[1]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q14, d7, d1[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q15, d7, d1[3]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_AFTER_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Do remaining arithmetic for the last 2 levels of depth.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Expand Lhs/Rhs cells to 16 bit.
*5f39d1b3SJooyung Han        "vmovl.u8 q0, d0\n"
*5f39d1b3SJooyung Han        "vmovl.u8 q1, d2\n"
*5f39d1b3SJooyung Han        "vmovl.u8 q2, d4\n"
*5f39d1b3SJooyung Han        "vmovl.u8 q3, d6\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate, level of depth 0
*5f39d1b3SJooyung Han        "vmlal.u16 q4, d2, d0[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q5, d2, d0[1]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q6, d2, d0[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q7, d2, d0[3]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q8, d4, d0[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q9, d4, d0[1]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q10, d4, d0[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q11, d4, d0[3]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q12, d6, d0[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q13, d6, d0[1]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q14, d6, d0[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q15, d6, d0[3]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate, level of depth 1
*5f39d1b3SJooyung Han        "vmlal.u16 q4, d3, d1[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q5, d3, d1[1]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q6, d3, d1[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q7, d3, d1[3]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q8, d5, d1[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q9, d5, d1[1]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q10, d5, d1[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q11, d5, d1[3]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q12, d7, d1[0]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q13, d7, d1[1]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q14, d7, d1[2]\n"
*5f39d1b3SJooyung Han        "vmlal.u16 q15, d7, d1[3]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov r1, %[dst_ptr]\n"
*5f39d1b3SJooyung Han        "mov r0, r1\n"
*5f39d1b3SJooyung Han        "vst1.32 {d8, d9},   [r0]!\n"
*5f39d1b3SJooyung Han        "add r1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "vst1.32 {d16, d17}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d24, d25}, [r0]\n"
*5f39d1b3SJooyung Han        "mov r0, r1\n"
*5f39d1b3SJooyung Han        "vst1.32 {d10, d11}, [r0]!\n"
*5f39d1b3SJooyung Han        "add r1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "vst1.32 {d18, d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d26, d27}, [r0]\n"
*5f39d1b3SJooyung Han        "mov r0, r1\n"
*5f39d1b3SJooyung Han        "vst1.32 {d12, d13}, [r0]!\n"
*5f39d1b3SJooyung Han        "add r1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "vst1.32 {d20, d21}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d28, d29}, [r0]\n"
*5f39d1b3SJooyung Han        "mov r0, r1\n"
*5f39d1b3SJooyung Han        "vst1.32 {d14, d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d22, d23}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d30, d31}, [r0]\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [dst_ptr] "+r"(dst_ptr),
*5f39d1b3SJooyung Han        [run_depth] "+r"(run_depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [start_depth] "r"(start_depth),
*5f39d1b3SJooyung Han        [dst_col_stride] "r"(dst_col_stride)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "r0", "r1",
*5f39d1b3SJooyung Han        // note: someone on internet says that quad registers are
*5f39d1b3SJooyung Han        // unsupported in the clobber list!
*5f39d1b3SJooyung Han        "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7", "d8", "d9", "d10",
*5f39d1b3SJooyung Han        "d11", "d12", "d13", "d14", "d15", "d16", "d17", "d18", "d19", "d20",
*5f39d1b3SJooyung Han        "d21", "d22", "d23", "d24", "d25", "d26", "d27", "d28", "d29", "d30",
*5f39d1b3SJooyung Han        "d31");
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_CLEAR_ACCUMULATORS
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_BEFORE_LOOP
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_AFTER_LOOP
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanstruct NEON_32_Kernel12x4Depth2Assuming12BitProducts : KernelBase {
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 2, CellOrder::WidthMajor>, 3>,
*5f39d1b3SJooyung Han      KernelSideFormat<CellFormat<4, 2, CellOrder::WidthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const char* Name() const override {
*5f39d1b3SJooyung Han    return "NEON, 12x4, depth 2, assuming 12-bit products";
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // TODO(benoitjacob): reorder function arguments so dst comes last
*5f39d1b3SJooyung Han  void Run(std::int32_t* dst_ptr, std::size_t dst_row_stride,
*5f39d1b3SJooyung Han           std::size_t dst_col_stride, const std::uint8_t* lhs_ptr,
*5f39d1b3SJooyung Han           const std::uint8_t* rhs_ptr, std::size_t start_depth,
*5f39d1b3SJooyung Han           std::size_t run_depth) const override {
*5f39d1b3SJooyung Han    ScopedProfilingLabel label(
*5f39d1b3SJooyung Han        "optimized kernel (NEON 12x4, assuming 12-bit products)");
*5f39d1b3SJooyung Han    assert(dst_row_stride == 1);
*5f39d1b3SJooyung Han    (void)dst_row_stride;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// See comments above for why we need local numerical labels in our asm.
*5f39d1b3SJooyung Han#define GEMMLOWP_LOOP_NEON_32_KERNEL_12X4_DEPTH2_ASSUMING_12BIT_PRODUCTS "1"
*5f39d1b3SJooyung Han#define GEMMLOWP_LOAD_GLOBAL_ACCUMULATORS_NEON_32_KERNEL_12X4_DEPTH2_12BIT "2"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_32 "3"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_24 "4"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_16 "5"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_8 "6"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_2 "7"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    // This kernel is special in that it uses local 16-bit accumulators.
*5f39d1b3SJooyung Han    // Because it assumes that each product fits in 12 bits, it can accumulate
*5f39d1b3SJooyung Han    // 16 products into a local 16-bit accumulator without risking overflow.
*5f39d1b3SJooyung Han    // At that point, it must accumulate these local 16-bit accumulators back
*5f39d1b3SJooyung Han    // into global 32-bit accumulators, which have to be stored in memory for
*5f39d1b3SJooyung Han    // lack of register space.
*5f39d1b3SJooyung Han    // This 12x4 block of global accumulators is laid out as 3 cells of size 4x4
*5f39d1b3SJooyung Han    // stored in diagonal-major order like this for the first 4x4 cell:
*5f39d1b3SJooyung Han    //
*5f39d1b3SJooyung Han    //   0   4   8  12
*5f39d1b3SJooyung Han    //  13   1   5   9
*5f39d1b3SJooyung Han    //  10  14   2   6
*5f39d1b3SJooyung Han    //   7  11  15   3
*5f39d1b3SJooyung Han    //
*5f39d1b3SJooyung Han    // and likewise for the 2nd  cell (16--31) and 3rd cell (32--47)
*5f39d1b3SJooyung Han    std::int32_t global_accumulators[3 * 4 * 4];
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Compute stride between consecutive columns, in bytes
*5f39d1b3SJooyung Han        "mov r0, #4\n"  // multiply by 4 = sizeof(int32)
*5f39d1b3SJooyung Han        "mul %[dst_col_stride], r0\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "cmp %[start_depth], #0\n"
*5f39d1b3SJooyung Han        "bne"
*5f39d1b3SJooyung Han        " " GEMMLOWP_LOAD_GLOBAL_ACCUMULATORS_NEON_32_KERNEL_12X4_DEPTH2_12BIT
*5f39d1b3SJooyung Han        "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // If start_depth==0, we need to clear our global accumulators
*5f39d1b3SJooyung Han        "mov r0, %[global_accumulators]\n"
*5f39d1b3SJooyung Han        "vmov.s32 q8, #0\n"
*5f39d1b3SJooyung Han        "vmov.s32 q9, q8\n"
*5f39d1b3SJooyung Han        "vst1.32 {d16,d17,d18,d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d16,d17,d18,d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d16,d17,d18,d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d16,d17,d18,d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d16,d17,d18,d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d16,d17,d18,d19}, [r0]!\n"
*5f39d1b3SJooyung Han        "b " GEMMLOWP_LOOP_NEON_32_KERNEL_12X4_DEPTH2_ASSUMING_12BIT_PRODUCTS
*5f39d1b3SJooyung Han        "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // If start_depth!=0, we need to load our existing global accumulators
*5f39d1b3SJooyung Han        GEMMLOWP_LOAD_GLOBAL_ACCUMULATORS_NEON_32_KERNEL_12X4_DEPTH2_12BIT
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han        // Load global accumulators from destination matrix, column-major
*5f39d1b3SJooyung Han        "mov r1, %[dst_ptr]\n"
*5f39d1b3SJooyung Han        "mov r0, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "sub r0, #32\n"
*5f39d1b3SJooyung Han        "vld1.32 {d0,d1}, [r1]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d8,d9}, [r1]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d16,d17}, [r1], r0\n"
*5f39d1b3SJooyung Han        "vld1.32 {d2,d3}, [r1]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d10,d11}, [r1]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d18,d19}, [r1], r0\n"
*5f39d1b3SJooyung Han        "vld1.32 {d4,d5}, [r1]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d12,d13}, [r1]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d20,d21}, [r1], r0\n"
*5f39d1b3SJooyung Han        "vld1.32 {d6,d7}, [r1]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d14,d15}, [r1]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d22,d23}, [r1], r0\n"
*5f39d1b3SJooyung Han        // Now we need to convert the global accumulator registers to
*5f39d1b3SJooyung Han        // 4x4-block-wise diagonal-major order. What we effectively want to do
*5f39d1b3SJooyung Han        // is to rotate the rows, however the accumulators are stored in
*5f39d1b3SJooyung Han        // column-major order in registers. So we achieve this by
*5f39d1b3SJooyung Han        // transposing, rotating the registers, and transposing again each
*5f39d1b3SJooyung Han        // 4x4 block.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Transpose 3 4x4 blocks separately
*5f39d1b3SJooyung Han        "vtrn.32 q0, q1\n"
*5f39d1b3SJooyung Han        "vtrn.32 q2, q3\n"
*5f39d1b3SJooyung Han        "vswp d1, d4\n"
*5f39d1b3SJooyung Han        "vswp d3, d6\n"
*5f39d1b3SJooyung Han        "vtrn.32 q4, q5\n"
*5f39d1b3SJooyung Han        "vtrn.32 q6, q7\n"
*5f39d1b3SJooyung Han        "vswp d9, d12\n"
*5f39d1b3SJooyung Han        "vswp d11, d14\n"
*5f39d1b3SJooyung Han        "vtrn.32 q8, q9\n"
*5f39d1b3SJooyung Han        "vtrn.32 q10, q11\n"
*5f39d1b3SJooyung Han        "vswp d17, d20\n"
*5f39d1b3SJooyung Han        "vswp d19, d22\n"
*5f39d1b3SJooyung Han        // Rotate the registers
*5f39d1b3SJooyung Han        "vext.32 q1, q1, q1, #1\n"
*5f39d1b3SJooyung Han        "vext.32 q2, q2, q2, #2\n"
*5f39d1b3SJooyung Han        "vext.32 q3, q3, q3, #3\n"
*5f39d1b3SJooyung Han        "vext.32 q5, q5, q5, #1\n"
*5f39d1b3SJooyung Han        "vext.32 q6, q6, q6, #2\n"
*5f39d1b3SJooyung Han        "vext.32 q7, q7, q7, #3\n"
*5f39d1b3SJooyung Han        "vext.32 q9, q9, q9, #1\n"
*5f39d1b3SJooyung Han        "vext.32 q10, q10, q10, #2\n"
*5f39d1b3SJooyung Han        "vext.32 q11, q11, q11, #3\n"
*5f39d1b3SJooyung Han        // Transpose again and store into our global accumulators
*5f39d1b3SJooyung Han        // buffer. These two operations are done at once using vst4.
*5f39d1b3SJooyung Han        "mov r0, %[global_accumulators]\n"
*5f39d1b3SJooyung Han        "vst4.32 {d0,d2,d4,d6}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst4.32 {d1,d3,d5,d7}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst4.32 {d8,d10,d12,d14}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst4.32 {d9,d11,d13,d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst4.32 {d16,d18,d20,d22}, [r0]!\n"
*5f39d1b3SJooyung Han        "vst4.32 {d17,d19,d21,d23}, [r0]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        /* Main loop */
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LOOP_NEON_32_KERNEL_12X4_DEPTH2_ASSUMING_12BIT_PRODUCTS
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    // Overview of register layout:
*5f39d1b3SJooyung Han    //
*5f39d1b3SJooyung Han    // Registers q4--q16 are the local 16-bit accumulators.
*5f39d1b3SJooyung Han    // However, each entry in the result matrix is represented
*5f39d1b3SJooyung Han    // by *two* local 16-bit accumulators: one for even levels
*5f39d1b3SJooyung Han    // of depth and one for odd levels of depth. These correspond
*5f39d1b3SJooyung Han    // to the scalars at even and odd indices within each q-register.
*5f39d1b3SJooyung Han    // Thus we effectively use 32 bits of register space for each
*5f39d1b3SJooyung Han    // entry in the result matrix. The accumulators register layout
*5f39d1b3SJooyung Han    // is the same as was described above for the global 32-bit
*5f39d1b3SJooyung Han    // accumulators (3 cells of size 4x4 in diagonal-major order)
*5f39d1b3SJooyung Han    // with the only difference that instead of 32bit values we have
*5f39d1b3SJooyung Han    // pairs of 16bit values.
*5f39d1b3SJooyung Han    //
*5f39d1b3SJooyung Han    // A 2x4 cell of Rhs is stored in 8bit in d0.
*5f39d1b3SJooyung Han    // A 12x2 block of 3 4x2 cells Lhs is stored in 8bit in d1--d3.
*5f39d1b3SJooyung Han    //
*5f39d1b3SJooyung Han    //                      +--------+--------+--------+--------+
*5f39d1b3SJooyung Han    //                      |d0[0]   |d0[2]   |d0[4]   |d0[6]   |
*5f39d1b3SJooyung Han    //                 Rhs  +--------+--------+--------+--------+
*5f39d1b3SJooyung Han    //                      |d0[1]   |d0[3]   |d0[5]   |d0[7]   |
*5f39d1b3SJooyung Han    //                      +--------+--------+--------+--------+
*5f39d1b3SJooyung Han    //
*5f39d1b3SJooyung Han    //                      |        |        |        |        |
*5f39d1b3SJooyung Han    //
*5f39d1b3SJooyung Han    //    Lhs               |        |        |        |        |
*5f39d1b3SJooyung Han    //
*5f39d1b3SJooyung Han    //  +-----+-----+ - - - +--------+--------+--------+--------+
*5f39d1b3SJooyung Han    //  |d1[0]|d1[1]|       |q4[0,1] |q5[0,1] |q6[0,1] |q7[0,1] |
*5f39d1b3SJooyung Han    //  |d1[2]|d1[3]|       |q7[2,3] |q4[2,3] |q5[2,3] |q6[2,3] |
*5f39d1b3SJooyung Han    //  |d1[4]|d1[5]|       |q6[4,5] |q7[4,5] |q4[4,5] |q5[4,5] |
*5f39d1b3SJooyung Han    //  |d1[6]|d1[7]|       |q5[6,7] |q6[6,7] |q7[6,7] |q4[6,7] |
*5f39d1b3SJooyung Han    //  +-----+-----+ - - - +--------+--------+--------+--------+
*5f39d1b3SJooyung Han    //  |d2[0]|d2[1]|       |q8[0,1] |q8[0,1] |q8[0,1] |q8[0,1] |
*5f39d1b3SJooyung Han    //  |d2[2]|d2[3]|       |q9[2,3] |q9[2,3] |q9[2,3] |q9[2,3] |
*5f39d1b3SJooyung Han    //  |d2[4]|d2[5]|       |q10[4,5]|q10[4,5]|q10[4,5]|q10[4,5]|
*5f39d1b3SJooyung Han    //  |d2[6]|d2[7]|       |q11[6,7]|q11[6,7]|q11[6,7]|q11[6,7]|
*5f39d1b3SJooyung Han    //  +-----+-----+ - - - +--------+--------+--------+--------+
*5f39d1b3SJooyung Han    //  |d3[0]|d3[1]|       |q12[0,1]|q12[0,1]|q12[0,1]|q12[0,1]|
*5f39d1b3SJooyung Han    //  |d3[2]|d3[3]|       |q13[2,3]|q13[2,3]|q13[2,3]|q13[2,3]|
*5f39d1b3SJooyung Han    //  |d3[4]|d3[5]|       |q14[4,5]|q14[4,5]|q14[4,5]|q14[4,5]|
*5f39d1b3SJooyung Han    //  |d3[6]|d3[7]|       |q15[6,7]|q15[6,7]|q15[6,7]|q15[6,7]|
*5f39d1b3SJooyung Han    //  +-----+-----+ - - - +--------+--------+--------+--------+
*5f39d1b3SJooyung Han    //
*5f39d1b3SJooyung Han    //                            Local 16-bit accumulators
*5f39d1b3SJooyung Han    //                         Note: 2 scalars per matrix entry
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#define GEMMLOWP_ACCUMULATE_2_LEVELS_OF_DEPTH \
*5f39d1b3SJooyung Han  /* Load 3 Lhs cells of size 4x2 */          \
*5f39d1b3SJooyung Han  "vld1.8 {d1,d2,d3}, [%[lhs_ptr]:64]!\n"     \
*5f39d1b3SJooyung Han                                              \
*5f39d1b3SJooyung Han  /* Load 1 Rhs cell of size 2x4 */           \
*5f39d1b3SJooyung Han  "vld1.8 {d0}, [%[rhs_ptr]:64]!\n"           \
*5f39d1b3SJooyung Han                                              \
*5f39d1b3SJooyung Han  /* Multiply-accumulate */                   \
*5f39d1b3SJooyung Han  "vmlal.u8 q4, d1, d0\n"                     \
*5f39d1b3SJooyung Han  "vmlal.u8 q8, d2, d0\n"                     \
*5f39d1b3SJooyung Han  "vmlal.u8 q12, d3, d0\n"                    \
*5f39d1b3SJooyung Han  "vext.8 d0, d0, d0, #2\n"                   \
*5f39d1b3SJooyung Han  "vmlal.u8 q5, d1, d0\n"                     \
*5f39d1b3SJooyung Han  "vmlal.u8 q9, d2, d0\n"                     \
*5f39d1b3SJooyung Han  "vmlal.u8 q13, d3, d0\n"                    \
*5f39d1b3SJooyung Han  "vext.8 d0, d0, d0, #2\n"                   \
*5f39d1b3SJooyung Han  "vmlal.u8 q6, d1, d0\n"                     \
*5f39d1b3SJooyung Han  "vmlal.u8 q10, d2, d0\n"                    \
*5f39d1b3SJooyung Han  "vmlal.u8 q14, d3, d0\n"                    \
*5f39d1b3SJooyung Han  "vext.8 d0, d0, d0, #2\n"                   \
*5f39d1b3SJooyung Han  "vmlal.u8 q7, d1, d0\n"                     \
*5f39d1b3SJooyung Han  "vmlal.u8 q11, d2, d0\n"                    \
*5f39d1b3SJooyung Han  "vmlal.u8 q15, d3, d0\n"                    \
*5f39d1b3SJooyung Han                                              \
*5f39d1b3SJooyung Han  "sub %[run_depth], #2\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#define GEMMLOWP_ACCUMULATE_8_LEVELS_OF_DEPTH \
*5f39d1b3SJooyung Han  GEMMLOWP_ACCUMULATE_2_LEVELS_OF_DEPTH       \
*5f39d1b3SJooyung Han  GEMMLOWP_ACCUMULATE_2_LEVELS_OF_DEPTH       \
*5f39d1b3SJooyung Han  GEMMLOWP_ACCUMULATE_2_LEVELS_OF_DEPTH       \
*5f39d1b3SJooyung Han  GEMMLOWP_ACCUMULATE_2_LEVELS_OF_DEPTH
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Clear local 16-bit accumulators
*5f39d1b3SJooyung Han        "vmov.s32 q4, #0\n"
*5f39d1b3SJooyung Han        "vmov.s32 q5, q4\n"
*5f39d1b3SJooyung Han        "vmov.s32 q6, q4\n"
*5f39d1b3SJooyung Han        "vmov.s32 q7, q4\n"
*5f39d1b3SJooyung Han        "vmov.s32 q8, q4\n"
*5f39d1b3SJooyung Han        "vmov.s32 q9, q4\n"
*5f39d1b3SJooyung Han        "vmov.s32 q10, q4\n"
*5f39d1b3SJooyung Han        "vmov.s32 q11, q4\n"
*5f39d1b3SJooyung Han        "vmov.s32 q12, q4\n"
*5f39d1b3SJooyung Han        "vmov.s32 q13, q4\n"
*5f39d1b3SJooyung Han        "vmov.s32 q14, q4\n"
*5f39d1b3SJooyung Han        "vmov.s32 q15, q4\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Select a suitable number of depth levels
*5f39d1b3SJooyung Han        // to process at this iteration. TODO (benoitjacob) I guess that
*5f39d1b3SJooyung Han        // someone who really knows asm should make this a jump table.
*5f39d1b3SJooyung Han        "cmp %[run_depth], #32\n"
*5f39d1b3SJooyung Han        "bge " GEMMLOWP_LABEL_32
*5f39d1b3SJooyung Han        "f\n"
*5f39d1b3SJooyung Han        "cmp %[run_depth], #24\n"
*5f39d1b3SJooyung Han        "bge " GEMMLOWP_LABEL_24
*5f39d1b3SJooyung Han        "f\n"
*5f39d1b3SJooyung Han        "cmp %[run_depth], #16\n"
*5f39d1b3SJooyung Han        "bge " GEMMLOWP_LABEL_16
*5f39d1b3SJooyung Han        "f\n"
*5f39d1b3SJooyung Han        "cmp %[run_depth], #8\n"
*5f39d1b3SJooyung Han        "bge " GEMMLOWP_LABEL_8
*5f39d1b3SJooyung Han        "f\n"
*5f39d1b3SJooyung Han        "b " GEMMLOWP_LABEL_2 "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_32
*5f39d1b3SJooyung Han        ":\n" GEMMLOWP_ACCUMULATE_8_LEVELS_OF_DEPTH GEMMLOWP_LABEL_24
*5f39d1b3SJooyung Han        ":\n" GEMMLOWP_ACCUMULATE_8_LEVELS_OF_DEPTH GEMMLOWP_LABEL_16
*5f39d1b3SJooyung Han        ":\n" GEMMLOWP_ACCUMULATE_8_LEVELS_OF_DEPTH GEMMLOWP_LABEL_8
*5f39d1b3SJooyung Han        ":\n" GEMMLOWP_ACCUMULATE_2_LEVELS_OF_DEPTH
*5f39d1b3SJooyung Han            GEMMLOWP_ACCUMULATE_2_LEVELS_OF_DEPTH
*5f39d1b3SJooyung Han                GEMMLOWP_ACCUMULATE_2_LEVELS_OF_DEPTH GEMMLOWP_LABEL_2
*5f39d1b3SJooyung Han        ":\n" GEMMLOWP_ACCUMULATE_2_LEVELS_OF_DEPTH
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Accumulate the local accumulators into the global accumulators.
*5f39d1b3SJooyung Han        // This is about summing adjacent pairs of 16-bit scalars into
*5f39d1b3SJooyung Han        // single 32-bit scalars, so we use pairwise long addition (vpadal).
*5f39d1b3SJooyung Han        "mov r0, %[global_accumulators]\n"
*5f39d1b3SJooyung Han        "mov r1, %[global_accumulators]\n"
*5f39d1b3SJooyung Han        "vld1.32 {d0,d1,d2,d3}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d4,d5,d6,d7}, [r0]!\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q0, q4\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q1, q5\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q2, q6\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q3, q7\n"
*5f39d1b3SJooyung Han        "vst1.32 {d0,d1,d2,d3}, [r1]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d4,d5,d6,d7}, [r1]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d0,d1,d2,d3}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d4,d5,d6,d7}, [r0]!\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q0, q8\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q1, q9\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q2, q10\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q3, q11\n"
*5f39d1b3SJooyung Han        "vst1.32 {d0,d1,d2,d3}, [r1]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d4,d5,d6,d7}, [r1]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d0,d1,d2,d3}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld1.32 {d4,d5,d6,d7}, [r0]!\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q0, q12\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q1, q13\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q2, q14\n"
*5f39d1b3SJooyung Han        "vpadal.u16 q3, q15\n"
*5f39d1b3SJooyung Han        "vst1.32 {d0,d1,d2,d3}, [r1]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d4,d5,d6,d7}, [r1]!\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Loop.
*5f39d1b3SJooyung Han        "cmp %[run_depth], #0\n"
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LOOP_NEON_32_KERNEL_12X4_DEPTH2_ASSUMING_12BIT_PRODUCTS
*5f39d1b3SJooyung Han        "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#undef GEMMLOWP_CLEAR_LOCAL_ACCUMULATORS
*5f39d1b3SJooyung Han#undef GEMMLOWP_ACCUMULATE_8_LEVELS_OF_DEPTH
*5f39d1b3SJooyung Han#undef GEMMLOWP_ACCUMULATE_2_LEVELS_OF_DEPTH
*5f39d1b3SJooyung Han#undef GEMMLOWP_ADD_TO_GLOBAL_ACCUMULATORS
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        /* end of main loop */
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store the global accumulators to the destination matrix
*5f39d1b3SJooyung Han        // (column-major)
*5f39d1b3SJooyung Han        // This is the reverse of the steps that we followed at the beginning
*5f39d1b3SJooyung Han        // when we load the global accumulators from the destination matrix.
*5f39d1b3SJooyung Han        // The problem is the same: how to convert 4x4 blocks
*5f39d1b3SJooyung Han        // between column-major and diagonal-major orders.
*5f39d1b3SJooyung Han        // Like above, we do this by rotating rows, and we achieve that by
*5f39d1b3SJooyung Han        // tranposing, rotating columns, and transposing again.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Load and transpose 4x4 blocks of global accumulators
*5f39d1b3SJooyung Han        // These two steps are done at once by the vld4 instruction.
*5f39d1b3SJooyung Han        "mov r0, %[global_accumulators]\n"
*5f39d1b3SJooyung Han        "vld4.32 {d0,d2,d4,d6}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld4.32 {d1,d3,d5,d7}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld4.32 {d8,d10,d12,d14}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld4.32 {d9,d11,d13,d15}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld4.32 {d16,d18,d20,d22}, [r0]!\n"
*5f39d1b3SJooyung Han        "vld4.32 {d17,d19,d21,d23}, [r0]!\n"
*5f39d1b3SJooyung Han        // Rotate the rows of each 4x4 block
*5f39d1b3SJooyung Han        "vext.32 q1, q1, q1, #3\n"
*5f39d1b3SJooyung Han        "vext.32 q2, q2, q2, #2\n"
*5f39d1b3SJooyung Han        "vext.32 q3, q3, q3, #1\n"
*5f39d1b3SJooyung Han        "vext.32 q5, q5, q5, #3\n"
*5f39d1b3SJooyung Han        "vext.32 q6, q6, q6, #2\n"
*5f39d1b3SJooyung Han        "vext.32 q7, q7, q7, #1\n"
*5f39d1b3SJooyung Han        "vext.32 q9, q9, q9, #3\n"
*5f39d1b3SJooyung Han        "vext.32 q10, q10, q10, #2\n"
*5f39d1b3SJooyung Han        "vext.32 q11, q11, q11, #1\n"
*5f39d1b3SJooyung Han        // Transpose again each 4x4 block
*5f39d1b3SJooyung Han        "vtrn.32 q0, q1\n"
*5f39d1b3SJooyung Han        "vtrn.32 q2, q3\n"
*5f39d1b3SJooyung Han        "vswp d1, d4\n"
*5f39d1b3SJooyung Han        "vswp d3, d6\n"
*5f39d1b3SJooyung Han        "vtrn.32 q4, q5\n"
*5f39d1b3SJooyung Han        "vtrn.32 q6, q7\n"
*5f39d1b3SJooyung Han        "vswp d9, d12\n"
*5f39d1b3SJooyung Han        "vswp d11, d14\n"
*5f39d1b3SJooyung Han        "vtrn.32 q8, q9\n"
*5f39d1b3SJooyung Han        "vtrn.32 q10, q11\n"
*5f39d1b3SJooyung Han        "vswp d17, d20\n"
*5f39d1b3SJooyung Han        "vswp d19, d22\n"
*5f39d1b3SJooyung Han        // Store into the column-major destination matrix
*5f39d1b3SJooyung Han        "mov r1, %[dst_ptr]\n"
*5f39d1b3SJooyung Han        "mov r0, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "sub r0, #32\n"
*5f39d1b3SJooyung Han        "vst1.32 {d0,d1}, [r1]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d8,d9}, [r1]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d16,d17}, [r1], r0\n"
*5f39d1b3SJooyung Han        "vst1.32 {d2,d3}, [r1]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d10,d11}, [r1]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d18,d19}, [r1], r0\n"
*5f39d1b3SJooyung Han        "vst1.32 {d4,d5}, [r1]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d12,d13}, [r1]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d20,d21}, [r1], r0\n"
*5f39d1b3SJooyung Han        "vst1.32 {d6,d7}, [r1]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d14,d15}, [r1]!\n"
*5f39d1b3SJooyung Han        "vst1.32 {d22,d23}, [r1], r0\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [dst_ptr] "+r"(dst_ptr),
*5f39d1b3SJooyung Han        [run_depth] "+r"(run_depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [start_depth] "r"(start_depth), [dst_col_stride] "r"(dst_col_stride),
*5f39d1b3SJooyung Han        [global_accumulators] "r"(&global_accumulators[0])
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "r0", "r1",
*5f39d1b3SJooyung Han        // note: someone on internet says that quad registers are
*5f39d1b3SJooyung Han        // unsupported in the clobber list!
*5f39d1b3SJooyung Han        "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7", "d8", "d9", "d10",
*5f39d1b3SJooyung Han        "d11", "d12", "d13", "d14", "d15", "d16", "d17", "d18", "d19", "d20",
*5f39d1b3SJooyung Han        "d21", "d22", "d23", "d24", "d25", "d26", "d27", "d28", "d29", "d30",
*5f39d1b3SJooyung Han        "d31");
*5f39d1b3SJooyung Han#undef GEMMLOWP_LOOP_NEON_32_KERNEL_12X4_DEPTH2_ASSUMING_12BIT_PRODUCTS
*5f39d1b3SJooyung Han#undef GEMMLOWP_LOAD_GLOBAL_ACCUMULATORS_NEON_32_KERNEL_12X4_DEPTH2_12BIT
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_32
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_24
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_16
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_8
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_2
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanstruct NEON_32bit_GEMM_Int8Operands_LhsNonzero : KernelBase {
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormatInt8<CellFormat<4, 16, CellOrder::WidthMajor>, 1>,
*5f39d1b3SJooyung Han      KernelSideFormatInt8<CellFormat<2, 16, CellOrder::WidthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  const char* Name() const override {
*5f39d1b3SJooyung Han    return "NEON, 4x2, depth 16, accumulating two within signed int16";
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // TODO(benoitjacob): reorder function arguments so dst comes last
*5f39d1b3SJooyung Han  void Run(std::int32_t* dst_ptr, std::size_t dst_row_stride,
*5f39d1b3SJooyung Han           std::size_t dst_col_stride, const std::uint8_t* lhs_ptr,
*5f39d1b3SJooyung Han           const std::uint8_t* rhs_ptr, std::size_t start_depth,
*5f39d1b3SJooyung Han           std::size_t run_depth) const override {
*5f39d1b3SJooyung Han    (void)dst_row_stride;
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_AFTER_LOOP "1"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_LOOP "2"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_ACCUMULATE_EXISTING_DST_VALUES "3"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_STORE "4"
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Multiply dst_col_stride by 4 == sizeof(int32) to use
*5f39d1b3SJooyung Han        // it as a byte offset below.
*5f39d1b3SJooyung Han        "lsl %[dst_col_stride], %[dst_col_stride], #2\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Overview of register layout:
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 2x16 block of Rhs is stored in 8 bit in d0--d3.
*5f39d1b3SJooyung Han        // A 4x16 block of Lhs is stored in 8 bit in d4--d7. That is only
*5f39d1b3SJooyung Han        // half of the register space required, so we loop over these registers
*5f39d1b3SJooyung Han        // twice. Only half of it, a 2x16 block, is stored in d4--d7 at
*5f39d1b3SJooyung Han        // any given time.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 4x2 block of accumulators is stored in q8--q15 (as 4x32 bit
*5f39d1b3SJooyung Han        // components which need to be horizontally-added at the end)
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // The Lhs vectors are multiplied by the Rhs vectors with a widening
*5f39d1b3SJooyung Han        // multiply over the 8 first levels of depth, producing int16x8
*5f39d1b3SJooyung Han        // vectors of products for each position in the accumulator matrix.
*5f39d1b3SJooyung Han        // Here comes the special trick: since the operands are signed int8,
*5f39d1b3SJooyung Han        // their range being [ -2^7 , 2^7 ), their products are in range
*5f39d1b3SJooyung Han        // [ -2^14 , 2^14 - 1 ), meaning that we can add two such values
*5f39d1b3SJooyung Han        // without any risk of overflowing int16.
*5f39d1b3SJooyung Han        // We thus proceed with the 8 next levels of depth, multiplying
*5f39d1b3SJooyung Han        // again Lhs by Rhs, accumulating into this existing int16x8 vector.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Only then, having processed 16 levels of depth, do we need to
*5f39d1b3SJooyung Han        // horizontally add these int16x8 accumulators into the final
*5f39d1b3SJooyung Han        // int32x4 accumulators.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // As we do not have enough registers to store all 16 int16x8
*5f39d1b3SJooyung Han        // temporary-16bit-accumulators, we have them cycle through q4--q7.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Register layout (ignoring the q4--q7 temporary 16bit accumulators):
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                               +----+----+
*5f39d1b3SJooyung Han        //                               | d0 | d2 |
*5f39d1b3SJooyung Han        //                               | .  | .  |
*5f39d1b3SJooyung Han        //                               | .  | .  |
*5f39d1b3SJooyung Han        //                               | .  | .  |
*5f39d1b3SJooyung Han        //                       Rhs     +----+----+
*5f39d1b3SJooyung Han        //                               | d1 | d3 |
*5f39d1b3SJooyung Han        //                               | .  | .  |
*5f39d1b3SJooyung Han        //                               | .  | .  |
*5f39d1b3SJooyung Han        //                               | .  | .  |
*5f39d1b3SJooyung Han        //                               +----+----+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                               |    |    |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //    Lhs                        |    |    |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //  +--------+--------+ - - - -  +----+----+
*5f39d1b3SJooyung Han        //  | d4 ... | d5 ... |          | q8 | q9 |
*5f39d1b3SJooyung Han        //  | d6 ... | d7 ... |          | q10| q11|
*5f39d1b3SJooyung Han        //  | d4 ... | d5 ... |          | q12| q13|
*5f39d1b3SJooyung Han        //  | d6 ... | d7 ... |          | q14| q15|
*5f39d1b3SJooyung Han        //  +--------+--------+ - - - -  +----+----+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                               Accumulator
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Clear accumulators, and, interleaved with it,
*5f39d1b3SJooyung Han        // initial loads of the first loop iteration,
*5f39d1b3SJooyung Han        // taken out of the loop so that in the loop itself we have
*5f39d1b3SJooyung Han        // optimal streaming of data from memory.
*5f39d1b3SJooyung Han        "vldr d0, [%[rhs_ptr], #0]\n"
*5f39d1b3SJooyung Han        "vmov.i32 q8, #0\n"
*5f39d1b3SJooyung Han        "vldr d4, [%[lhs_ptr], #0]\n"
*5f39d1b3SJooyung Han        "vmov.i32 q9, #0\n"
*5f39d1b3SJooyung Han        "vldr d2, [%[rhs_ptr], #16]\n"
*5f39d1b3SJooyung Han        "vmov.i32 q10, q8\n"
*5f39d1b3SJooyung Han        "vldr d6, [%[lhs_ptr], #16]\n"
*5f39d1b3SJooyung Han        "vmov.i32 q11, q8\n"
*5f39d1b3SJooyung Han        "vldr d1, [%[rhs_ptr], #8]\n"
*5f39d1b3SJooyung Han        "vmov.i32 q12, q8\n"
*5f39d1b3SJooyung Han        "vldr d5, [%[lhs_ptr], #8]\n"
*5f39d1b3SJooyung Han        "vmov.i32 q13, q8\n"
*5f39d1b3SJooyung Han        "vldr d3, [%[rhs_ptr], #24]\n"
*5f39d1b3SJooyung Han        "vmov.i32 q14, q8\n"
*5f39d1b3SJooyung Han        "vldr d7, [%[lhs_ptr], #24]\n"
*5f39d1b3SJooyung Han        "vmov.i32 q15, q8\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // General loop.
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply 8 first levels of depth.
*5f39d1b3SJooyung Han        "vmull.s8    q4,  d0,  d4\n"
*5f39d1b3SJooyung Han        "add %[rhs_ptr], %[rhs_ptr], #32\n"
*5f39d1b3SJooyung Han        "vmull.s8    q5,  d2,  d4\n"
*5f39d1b3SJooyung Han        "vldr d4, [%[lhs_ptr], #32]\n"
*5f39d1b3SJooyung Han        "vmull.s8    q6,  d0,  d6\n"
*5f39d1b3SJooyung Han        "vmull.s8    q7,  d2,  d6\n"
*5f39d1b3SJooyung Han        "vldr d6, [%[lhs_ptr], #48]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate second-half, again into the same
*5f39d1b3SJooyung Han        // 16bit local accumulator registers. This is where we
*5f39d1b3SJooyung Han        // take advantage of having int8 instead of uint8 and therefore
*5f39d1b3SJooyung Han        // being able to accumulate two products into int16.
*5f39d1b3SJooyung Han        "vmlal.s8    q4,  d1,  d5\n"
*5f39d1b3SJooyung Han        "vmlal.s8    q5,  d3,  d5\n"
*5f39d1b3SJooyung Han        "vldr d5, [%[lhs_ptr], #40]\n"
*5f39d1b3SJooyung Han        "vmlal.s8    q6,  d1,  d7\n"
*5f39d1b3SJooyung Han        "vmlal.s8    q7,  d3,  d7\n"
*5f39d1b3SJooyung Han        "vldr d7, [%[lhs_ptr], #56]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Add pairwise, accumulate into 32-bit accumulators.
*5f39d1b3SJooyung Han        "vpadal.s16   q8,  q4\n"
*5f39d1b3SJooyung Han        "add %[lhs_ptr], %[lhs_ptr], #64\n"
*5f39d1b3SJooyung Han        "vpadal.s16   q9,  q5\n"
*5f39d1b3SJooyung Han        "subs %[run_depth], %[run_depth], #16\n"
*5f39d1b3SJooyung Han        "vpadal.s16   q10, q6\n"
*5f39d1b3SJooyung Han        "vpadal.s16   q11, q7\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "beq " GEMMLOWP_LABEL_AFTER_LOOP
*5f39d1b3SJooyung Han        "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply first half.
*5f39d1b3SJooyung Han        "vmull.s8    q4,  d0,  d4\n"
*5f39d1b3SJooyung Han        "vmull.s8    q5,  d2,  d4\n"
*5f39d1b3SJooyung Han        "vldr d4, [%[lhs_ptr], #0]\n"
*5f39d1b3SJooyung Han        "vmull.s8    q6,  d0,  d6\n"
*5f39d1b3SJooyung Han        "vldr d0, [%[rhs_ptr], #0]\n"
*5f39d1b3SJooyung Han        "vmull.s8    q7,  d2,  d6\n"
*5f39d1b3SJooyung Han        "vldr d2, [%[rhs_ptr], #16]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate second-half, again into the same
*5f39d1b3SJooyung Han        // 16bit local accumulator registers. This is where we
*5f39d1b3SJooyung Han        // take advantage of having int8 instead of uint8 and therefore
*5f39d1b3SJooyung Han        // being able to accumulate two products into int16.
*5f39d1b3SJooyung Han        "vmlal.s8    q4,  d1,  d5\n"
*5f39d1b3SJooyung Han        "vldr d6, [%[lhs_ptr], #16]\n"
*5f39d1b3SJooyung Han        "vmlal.s8    q5,  d3,  d5\n"
*5f39d1b3SJooyung Han        "vldr d5, [%[lhs_ptr], #8]\n"
*5f39d1b3SJooyung Han        "vmlal.s8    q6,  d1,  d7\n"
*5f39d1b3SJooyung Han        "vldr d1, [%[rhs_ptr], #8]\n"
*5f39d1b3SJooyung Han        "vmlal.s8    q7,  d3,  d7\n"
*5f39d1b3SJooyung Han        "vldr d3, [%[rhs_ptr], #24]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Add pairwise, accumulate into 32-bit accumulators.
*5f39d1b3SJooyung Han        "vpadal.s16   q12, q4\n"
*5f39d1b3SJooyung Han        "vldr d7, [%[lhs_ptr], #24]\n"
*5f39d1b3SJooyung Han        "vpadal.s16   q13, q5\n"
*5f39d1b3SJooyung Han        "vpadal.s16   q14, q6\n"
*5f39d1b3SJooyung Han        "vpadal.s16   q15, q7\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "b " GEMMLOWP_LABEL_LOOP "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_AFTER_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply first half.
*5f39d1b3SJooyung Han        "vmull.s8    q4,  d0,  d4\n"
*5f39d1b3SJooyung Han        "vmull.s8    q5,  d2,  d4\n"
*5f39d1b3SJooyung Han        "vmull.s8    q6,  d0,  d6\n"
*5f39d1b3SJooyung Han        "vmull.s8    q7,  d2,  d6\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate second-half, again into the same
*5f39d1b3SJooyung Han        // 16bit local accumulator registers. This is where we
*5f39d1b3SJooyung Han        // take advantage of having int8 instead of uint8 and therefore
*5f39d1b3SJooyung Han        // being able to accumulate two products into int16.
*5f39d1b3SJooyung Han        "vmlal.s8    q4,  d1,  d5\n"
*5f39d1b3SJooyung Han        "vmlal.s8    q5,  d3,  d5\n"
*5f39d1b3SJooyung Han        "vmlal.s8    q6,  d1,  d7\n"
*5f39d1b3SJooyung Han        "vmlal.s8    q7,  d3,  d7\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Add pairwise, accumulate into 32-bit accumulators.
*5f39d1b3SJooyung Han        "vpadal.s16   q12, q4\n"
*5f39d1b3SJooyung Han        "vpadal.s16   q13, q5\n"
*5f39d1b3SJooyung Han        "vpadal.s16   q14, q6\n"
*5f39d1b3SJooyung Han        "vpadal.s16   q15, q7\n"
*5f39d1b3SJooyung Han        "cmp %[start_depth], #0\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Reduce 32bit accumulators horizontally.
*5f39d1b3SJooyung Han        "vpadd.s32 d0, d16, d17\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d1, d18, d19\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d2, d20, d21\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d3, d22, d23\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d4, d24, d25\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d5, d26, d27\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d6, d28, d29\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d7, d30, d31\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_ACCUMULATE_EXISTING_DST_VALUES
*5f39d1b3SJooyung Han        "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Reduce 32bit accumulators horizontally, second pass
*5f39d1b3SJooyung Han        // (each pass adds pairwise. we need to add 4-wise).
*5f39d1b3SJooyung Han        "vpadd.s32 d8, d0, d2\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d9, d4, d6\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d10, d1, d3\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d11, d5, d7\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "b " GEMMLOWP_LABEL_STORE "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_ACCUMULATE_EXISTING_DST_VALUES
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Reduce 32bit accumulators horizontally, second pass
*5f39d1b3SJooyung Han        // (each pass adds pairwise. we need to add 4-wise),
*5f39d1b3SJooyung Han        // and load destination values from memory.
*5f39d1b3SJooyung Han        "mov r0, %[dst_ptr]\n"
*5f39d1b3SJooyung Han        "vld1.32 {d16, d17}, [r0], %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d8, d0, d2\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d9, d4, d6\n"
*5f39d1b3SJooyung Han        "vld1.32 {d18, d19}, [r0]\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d10, d1, d3\n"
*5f39d1b3SJooyung Han        "vpadd.s32 d11, d5, d7\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Add horizontally-reduced accumulators into
*5f39d1b3SJooyung Han        // the values loaded from memory
*5f39d1b3SJooyung Han        "vadd.s32 q4, q8, q4\n"
*5f39d1b3SJooyung Han        "vadd.s32 q5, q9, q5\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_STORE
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han        // Store back into memory
*5f39d1b3SJooyung Han        "mov r0, %[dst_ptr]\n"
*5f39d1b3SJooyung Han        "vst1.32 {d8, d9}, [r0], %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "vst1.32 {d10, d11}, [r0]\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [dst_ptr] "+r"(dst_ptr), [run_depth] "+r"(run_depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [start_depth] "r"(start_depth),
*5f39d1b3SJooyung Han        [dst_col_stride] "r"(dst_col_stride)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "r0", "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7",
*5f39d1b3SJooyung Han        "d8", "d9", "d10", "d11", "d12", "d13", "d14", "d15", "d16", "d17",
*5f39d1b3SJooyung Han        "d18", "d19", "d20", "d21", "d22", "d23", "d24", "d25", "d26", "d27",
*5f39d1b3SJooyung Han        "d28", "d29", "d30", "d31");
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_AFTER_LOOP
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_ACCUMULATE_EXISTING_DST_VALUES
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_STORE
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Same as NEON_32bit_GEMM_Int8Operands_LhsNonzero, but uses a side format that
*5f39d1b3SJooyung Han// requires that user inputs were originally int8. This avoids the uint8->int8
*5f39d1b3SJooyung Han// conversion in the pack step.
*5f39d1b3SJooyung Hanstruct NEON_32bit_GEMM_Int8Operands_LhsNonzero_Int8Inputs
*5f39d1b3SJooyung Han    : NEON_32bit_GEMM_Int8Operands_LhsNonzero {
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormatInt8Inputs<CellFormat<4, 16, CellOrder::WidthMajor>, 1>,
*5f39d1b3SJooyung Han      KernelSideFormatInt8Inputs<CellFormat<2, 16, CellOrder::WidthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#endif  // GEMMLOWP_NEON_32
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// The kernels here are specifically arm 64bit assembly, not arm 32bit.
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_NEON_64
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Hanstruct NEON_64bit_GEMM_Int8Operands_LhsNonzero : KernelBase {
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormatInt8<CellFormat<4, 16, CellOrder::WidthMajor>, 1>,
*5f39d1b3SJooyung Han      KernelSideFormatInt8<CellFormat<4, 16, CellOrder::WidthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han  const char* Name() const override {
*5f39d1b3SJooyung Han    return "NEON, 4x4, depth 16, accumulating two within signed int16";
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // TODO(benoitjacob): reorder function arguments so dst comes last
*5f39d1b3SJooyung Han  void Run(std::int32_t* dst_ptr, std::size_t dst_row_stride,
*5f39d1b3SJooyung Han           std::size_t dst_col_stride, const std::uint8_t* lhs_ptr,
*5f39d1b3SJooyung Han           const std::uint8_t* rhs_ptr, std::size_t start_depth,
*5f39d1b3SJooyung Han           std::size_t run_depth) const override {
*5f39d1b3SJooyung Han    (void)dst_row_stride;
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_AFTER_LOOP_LAST16 "1"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_LOOP "2"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_ACCUMULATE_EXISTING_DST_VALUES "3"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_STORE "4"
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Clear accumulators, and, interleaved with it,
*5f39d1b3SJooyung Han        // initial loads of the first loop iteration,
*5f39d1b3SJooyung Han        // taken out of the loop so that in the loop itself we have
*5f39d1b3SJooyung Han        // optimal streaming of data from memory.
*5f39d1b3SJooyung Han        "ld1 {v0.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v16.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v4.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v17.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v1.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v18.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v5.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v19.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v2.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v20.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v3.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v21.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v6.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v22.4s, wzr\n"
*5f39d1b3SJooyung Han        "ld1 {v7.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "dup v23.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v24.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v25.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v26.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v27.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v28.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v29.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v30.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v31.4s, wzr\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply dst_col_stride by 4 == sizeof(int32) to use
*5f39d1b3SJooyung Han        // it as a byte offset below.
*5f39d1b3SJooyung Han        "lsl %[dst_col_stride], %[dst_col_stride], #2\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Initial arithmetic of the first loop iteration,
*5f39d1b3SJooyung Han        // taken out of the loop so that in the loop itself we have
*5f39d1b3SJooyung Han        // optimal streaming of data from memory.
*5f39d1b3SJooyung Han        "smull    v8.8h,  v0.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "smull    v9.8h,  v1.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "smull    v10.8h,  v2.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "smull    v11.8h,  v3.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "smull    v12.8h,  v0.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "smull    v13.8h,  v1.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "smull    v14.8h,  v2.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "smull    v15.8h,  v3.8b,  v5.8b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate second-half, again into the same
*5f39d1b3SJooyung Han        // 16bit local accumulator registers. This is where we
*5f39d1b3SJooyung Han        // take advantage of having int8 instead of uint8 and therefore
*5f39d1b3SJooyung Han        // being able to accumulate two products into int16.
*5f39d1b3SJooyung Han        "smlal2   v8.8h,  v0.16b,  v4.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v9.8h,  v1.16b,  v4.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v10.8h,  v2.16b,  v4.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v11.8h,  v3.16b,  v4.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v12.8h,  v0.16b,  v5.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v13.8h,  v1.16b,  v5.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v14.8h,  v2.16b,  v5.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v15.8h,  v3.16b,  v5.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "subs %[run_depth], %[run_depth], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // If the loop depth is only 16, then we can skip the general loop
*5f39d1b3SJooyung Han        // and go straight to the final part of the code.
*5f39d1b3SJooyung Han        "beq " GEMMLOWP_LABEL_AFTER_LOOP_LAST16 "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // General loop.
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Overview of register layout:
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 4x16 block of Rhs is stored in 8 bit in v0--v3.
*5f39d1b3SJooyung Han        // A 4x16 block of Lhs is stored in 8 bit in v4--v7.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 4x4 block of accumulators is stored in v16-v31 (as 4x32 bit
*5f39d1b3SJooyung Han        // components which need to be horizontally-added at the end)
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // The Lhs vectors are multiplied by the Rhs vectors with a widening
*5f39d1b3SJooyung Han        // multiply over the 8 first levels of depth, producing int16x8
*5f39d1b3SJooyung Han        // vectors of products for each position in the accumulator matrix.
*5f39d1b3SJooyung Han        // Here comes the special trick: since the operands are signed int8,
*5f39d1b3SJooyung Han        // their range being [ -2^7 , 2^7 ), their products are in range
*5f39d1b3SJooyung Han        // [ -2^14 , 2^14 - 1 ), meaning that we can add two such values
*5f39d1b3SJooyung Han        // without any risk of overflowing int16.
*5f39d1b3SJooyung Han        // We thus proceed with the 8 next levels of depth, multiplying
*5f39d1b3SJooyung Han        // again Lhs by Rhs, accumulating into this existing int16x8 vector.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Only then, having processed 16 levels of depth, do we need to
*5f39d1b3SJooyung Han        // horizontally add these int16x8 accumulators into the final
*5f39d1b3SJooyung Han        // int32x4 accumulators.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // As we do not have enough registers to store all 16 int16x8
*5f39d1b3SJooyung Han        // temporary-16bit-accumulators, we have them cycle through v8--v15.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // Register layout (ignoring the v8--v15 temporary 16bit accumulators):
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                               +--------+--------+--------+--------+
*5f39d1b3SJooyung Han        //                               |v0.b[0] |v1.b[0] |v2.b[0] |v3.b[0] |
*5f39d1b3SJooyung Han        //                          Rhs  +--------+--------+--------+--------+
*5f39d1b3SJooyung Han        //                               |  ...   |  ...   |  ...   |  ...   |
*5f39d1b3SJooyung Han        //                               +--------+--------+--------+--------|
*5f39d1b3SJooyung Han        //                               |v0.b[15]|v1.b[15]|v2.b[15]|v3.b[15]|
*5f39d1b3SJooyung Han        //                               +--------+--------+--------+--------+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                               |        |        |        |        |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //    Lhs                        |        |        |        |        |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //  +-------+-----+--------+ - - +--------+--------+--------+--------+
*5f39d1b3SJooyung Han        //  |v4.b[0]| ... |v4.b[15]|     | v16.4s | v17.4s | v18.4s | v19.4s |
*5f39d1b3SJooyung Han        //  |v5.b[0]| ... |v5.b[15]|     | v20.4s | v21.4s | v22.4s | v23.4s |
*5f39d1b3SJooyung Han        //  |v6.b[0]| ... |v6.b[15]|     | v24.4s | v25.4s | v26.4s | v27.4s |
*5f39d1b3SJooyung Han        //  |v7.b[0]| ... |v7.b[15]|     | v28.4s | v29.4s | v30.4s | v31.4s |
*5f39d1b3SJooyung Han        //  +-------+--------------+ - - +--------+--------+--------+--------+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                                                Accumulator
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Some multiplications and 16-bit accumulation were already done above,
*5f39d1b3SJooyung Han        // so we start right away in the middle.
*5f39d1b3SJooyung Han        "sadalp  v16.4s, v8.8h\n"
*5f39d1b3SJooyung Han        "ld1 {v4.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smull    v8.8h,  v0.8b,  v6.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v17.4s, v9.8h\n"
*5f39d1b3SJooyung Han        "ld1 {v5.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smull    v9.8h,  v1.8b,  v6.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v18.4s, v10.8h\n"
*5f39d1b3SJooyung Han        "smull    v10.8h,  v2.8b,  v6.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v19.4s, v11.8h\n"
*5f39d1b3SJooyung Han        "smull    v11.8h,  v3.8b,  v6.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v20.4s, v12.8h\n"
*5f39d1b3SJooyung Han        "smull    v12.8h,  v0.8b,  v7.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v21.4s, v13.8h\n"
*5f39d1b3SJooyung Han        "smull    v13.8h,  v1.8b,  v7.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v22.4s, v14.8h\n"
*5f39d1b3SJooyung Han        "smull    v14.8h,  v2.8b,  v7.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v23.4s, v15.8h\n"
*5f39d1b3SJooyung Han        "smull    v15.8h,  v3.8b,  v7.8b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate second-half, again into the same
*5f39d1b3SJooyung Han        // 16bit local accumulator registers. This is where we
*5f39d1b3SJooyung Han        // take advantage of having int8 instead of uint8 and therefore
*5f39d1b3SJooyung Han        // being able to accumulate two products into int16.
*5f39d1b3SJooyung Han        "smlal2   v8.8h,  v0.16b,  v6.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v9.8h,  v1.16b,  v6.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v10.8h,  v2.16b,  v6.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v11.8h,  v3.16b,  v6.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "ld1 {v6.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "smlal2   v12.8h,  v0.16b,  v7.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v0.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2   v13.8h,  v1.16b,  v7.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v1.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2   v14.8h,  v2.16b,  v7.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v2.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smlal2   v15.8h,  v3.16b,  v7.16b\n"
*5f39d1b3SJooyung Han        "ld1 {v3.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "sadalp  v24.4s, v8.8h\n"
*5f39d1b3SJooyung Han        "smull    v8.8h,  v0.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v25.4s, v9.8h\n"
*5f39d1b3SJooyung Han        "ld1 {v7.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han        "smull    v9.8h,  v1.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v26.4s, v10.8h\n"
*5f39d1b3SJooyung Han        "smull    v10.8h,  v2.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v27.4s, v11.8h\n"
*5f39d1b3SJooyung Han        "smull    v11.8h,  v3.8b,  v4.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v28.4s, v12.8h\n"
*5f39d1b3SJooyung Han        "smull    v12.8h,  v0.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v29.4s, v13.8h\n"
*5f39d1b3SJooyung Han        "smull    v13.8h,  v1.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v30.4s, v14.8h\n"
*5f39d1b3SJooyung Han        "smull    v14.8h,  v2.8b,  v5.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v31.4s, v15.8h\n"
*5f39d1b3SJooyung Han        "smull    v15.8h,  v3.8b,  v5.8b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate second-half, again into the same
*5f39d1b3SJooyung Han        // 16bit local accumulator registers. This is where we
*5f39d1b3SJooyung Han        // take advantage of having int8 instead of uint8 and therefore
*5f39d1b3SJooyung Han        // being able to accumulate two products into int16.
*5f39d1b3SJooyung Han        "smlal2   v8.8h,  v0.16b,  v4.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v9.8h,  v1.16b,  v4.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v10.8h,  v2.16b,  v4.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v11.8h,  v3.16b,  v4.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Loop. Decrement loop index (depth) by 16, since we just handled
*5f39d1b3SJooyung Han        // 16 levels of depth.  Do this subs a bit before the end of the loop
*5f39d1b3SJooyung Han        // for better dispatch on A57.
*5f39d1b3SJooyung Han        "subs %[run_depth], %[run_depth], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "smlal2   v12.8h,  v0.16b,  v5.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v13.8h,  v1.16b,  v5.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v14.8h,  v2.16b,  v5.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v15.8h,  v3.16b,  v5.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Final code for the last 16 levels of depth.
*5f39d1b3SJooyung Han        // There is nothing to load anymore, only some arithmetic to finish.
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_AFTER_LOOP_LAST16
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Some multiplications and 16-bit accumulation were already done above,
*5f39d1b3SJooyung Han        // so we start right away in the middle.
*5f39d1b3SJooyung Han        "sadalp  v16.4s, v8.8h\n"
*5f39d1b3SJooyung Han        "smull    v8.8h,  v0.8b,  v6.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v17.4s, v9.8h\n"
*5f39d1b3SJooyung Han        "smull    v9.8h,  v1.8b,  v6.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v18.4s, v10.8h\n"
*5f39d1b3SJooyung Han        "smull    v10.8h,  v2.8b,  v6.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v19.4s, v11.8h\n"
*5f39d1b3SJooyung Han        "smull    v11.8h,  v3.8b,  v6.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v20.4s, v12.8h\n"
*5f39d1b3SJooyung Han        "smull    v12.8h,  v0.8b,  v7.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v21.4s, v13.8h\n"
*5f39d1b3SJooyung Han        "smull    v13.8h,  v1.8b,  v7.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v22.4s, v14.8h\n"
*5f39d1b3SJooyung Han        "smull    v14.8h,  v2.8b,  v7.8b\n"
*5f39d1b3SJooyung Han        "sadalp  v23.4s, v15.8h\n"
*5f39d1b3SJooyung Han        "smull    v15.8h,  v3.8b,  v7.8b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate second-half, again into the same
*5f39d1b3SJooyung Han        // 16bit local accumulator registers. This is where we
*5f39d1b3SJooyung Han        // take advantage of having int8 instead of uint8 and therefore
*5f39d1b3SJooyung Han        // being able to accumulate two products into int16.
*5f39d1b3SJooyung Han        "smlal2   v8.8h,  v0.16b,  v6.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v9.8h,  v1.16b,  v6.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v10.8h,  v2.16b,  v6.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v11.8h,  v3.16b,  v6.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v12.8h,  v0.16b,  v7.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v13.8h,  v1.16b,  v7.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v14.8h,  v2.16b,  v7.16b\n"
*5f39d1b3SJooyung Han        "smlal2   v15.8h,  v3.16b,  v7.16b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "sadalp  v24.4s, v8.8h\n"
*5f39d1b3SJooyung Han        "sadalp  v25.4s, v9.8h\n"
*5f39d1b3SJooyung Han        "sadalp  v26.4s, v10.8h\n"
*5f39d1b3SJooyung Han        "sadalp  v27.4s, v11.8h\n"
*5f39d1b3SJooyung Han        "sadalp  v28.4s, v12.8h\n"
*5f39d1b3SJooyung Han        "sadalp  v29.4s, v13.8h\n"
*5f39d1b3SJooyung Han        "sadalp  v30.4s, v14.8h\n"
*5f39d1b3SJooyung Han        "sadalp  v31.4s, v15.8h\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Reduce 32bit accumulators horizontally.
*5f39d1b3SJooyung Han        "addp v0.4s, v16.4s, v20.4s\n"
*5f39d1b3SJooyung Han        "addp v2.4s, v17.4s, v21.4s\n"
*5f39d1b3SJooyung Han        "addp v4.4s, v18.4s, v22.4s\n"
*5f39d1b3SJooyung Han        "addp v6.4s, v19.4s, v23.4s\n"
*5f39d1b3SJooyung Han        "addp v1.4s, v24.4s, v28.4s\n"
*5f39d1b3SJooyung Han        "addp v3.4s, v25.4s, v29.4s\n"
*5f39d1b3SJooyung Han        "addp v5.4s, v26.4s, v30.4s\n"
*5f39d1b3SJooyung Han        "addp v7.4s, v27.4s, v31.4s\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "cmp %[start_depth], #0\n"
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_ACCUMULATE_EXISTING_DST_VALUES
*5f39d1b3SJooyung Han        "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Reduce 32bit accumulators horizontally, second pass
*5f39d1b3SJooyung Han        // (each pass adds pairwise. we need to add 4-wise).
*5f39d1b3SJooyung Han        "addp v12.4s, v0.4s, v1.4s\n"
*5f39d1b3SJooyung Han        "addp v13.4s, v2.4s, v3.4s\n"
*5f39d1b3SJooyung Han        "addp v14.4s, v4.4s, v5.4s\n"
*5f39d1b3SJooyung Han        "addp v15.4s, v6.4s, v7.4s\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "b " GEMMLOWP_LABEL_STORE "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_ACCUMULATE_EXISTING_DST_VALUES
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Reduce 32bit accumulators horizontally, second pass
*5f39d1b3SJooyung Han        // (each pass adds pairwise. we need to add 4-wise),
*5f39d1b3SJooyung Han        // and load destination values from memory.
*5f39d1b3SJooyung Han        "mov x0, %[dst_ptr]\n"
*5f39d1b3SJooyung Han        "ld1 {v12.16b}, [x0], %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "addp v8.4s, v0.4s, v1.4s\n"
*5f39d1b3SJooyung Han        "ld1 {v13.16b}, [x0], %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "addp v9.4s, v2.4s, v3.4s\n"
*5f39d1b3SJooyung Han        "ld1 {v14.16b}, [x0], %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "addp v10.4s, v4.4s, v5.4s\n"
*5f39d1b3SJooyung Han        "ld1 {v15.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "addp v11.4s, v6.4s, v7.4s\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Add horizontally-reduced accumulators into
*5f39d1b3SJooyung Han        // the values loaded from memory
*5f39d1b3SJooyung Han        "add v12.4s, v12.4s, v8.4s\n"
*5f39d1b3SJooyung Han        "add v13.4s, v13.4s, v9.4s\n"
*5f39d1b3SJooyung Han        "add v14.4s, v14.4s, v10.4s\n"
*5f39d1b3SJooyung Han        "add v15.4s, v15.4s, v11.4s\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_STORE
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han        // Store back into memory
*5f39d1b3SJooyung Han        "mov x0, %[dst_ptr]\n"
*5f39d1b3SJooyung Han        "st1 {v12.16b}, [x0], %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "st1 {v13.16b}, [x0], %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "st1 {v14.16b}, [x0], %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "st1 {v15.16b}, [x0]\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [dst_ptr] "+r"(dst_ptr), [run_depth] "+r"(run_depth),
*5f39d1b3SJooyung Han        [dst_col_stride] "+r"(dst_col_stride)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [start_depth] "r"(start_depth)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "x0", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7",
*5f39d1b3SJooyung Han        "v8", "v9", "v10", "v11", "v12", "v13", "v14", "v15", "v16", "v17",
*5f39d1b3SJooyung Han        "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26", "v27",
*5f39d1b3SJooyung Han        "v28", "v29", "v30", "v31");
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_AFTER_LOOP_LAST16
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_ACCUMULATE_EXISTING_DST_VALUES
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_STORE
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Same as NEON_32bit_GEMM_Int8Operands_LhsNonzero, but uses a side format that
*5f39d1b3SJooyung Han// requires that user inputs were originally int8. This avoids the uint8->int8
*5f39d1b3SJooyung Han// conversion in the pack step.
*5f39d1b3SJooyung Hanstruct NEON_64bit_GEMM_Int8Operands_LhsNonzero_Int8Inputs
*5f39d1b3SJooyung Han    : NEON_64bit_GEMM_Int8Operands_LhsNonzero {
*5f39d1b3SJooyung Han  typedef KernelFormat<
*5f39d1b3SJooyung Han      KernelSideFormatInt8Inputs<CellFormat<4, 16, CellOrder::WidthMajor>, 1>,
*5f39d1b3SJooyung Han      KernelSideFormatInt8Inputs<CellFormat<4, 16, CellOrder::WidthMajor>, 1> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Our main GEMM kernel.
*5f39d1b3SJooyung Hanstruct NEON_64_Kernel12x8Depth2 : KernelBase {
*5f39d1b3SJooyung Han  typedef KernelFormat<KernelSideFormat<CellFormat<4, 2>, 3>,
*5f39d1b3SJooyung Han                       KernelSideFormat<CellFormat<4, 2>, 2> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const char* Name() const override { return "NEON, 12x8, depth 2"; }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  // TODO(benoitjacob): reorder function arguments so dst comes last
*5f39d1b3SJooyung Han  void Run(std::int32_t* dst_ptr, std::size_t dst_row_stride,
*5f39d1b3SJooyung Han           std::size_t dst_col_stride, const std::uint8_t* lhs_ptr,
*5f39d1b3SJooyung Han           const std::uint8_t* rhs_ptr, std::size_t start_depth,
*5f39d1b3SJooyung Han           std::size_t run_depth) const override {
*5f39d1b3SJooyung Han    (void)dst_row_stride;
*5f39d1b3SJooyung Han    ScopedProfilingLabel label("optimized kernel (NEON 12x8)");
*5f39d1b3SJooyung Han// See comments above for why we need local numerical labels in our asm.
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_CLEAR_ACCUMULATORS "1"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_BEFORE_LOOP "2"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_LOOP "3"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_AFTER_LOOP "4"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    assert(dst_row_stride == 1);
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Load 1 Rhs cell of size 2x8
*5f39d1b3SJooyung Han        "ld1 {v5.8b}, [%[rhs_ptr]], #8\n"
*5f39d1b3SJooyung Han        "ld1 {v6.8b}, [%[rhs_ptr]], #8\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load 3 Lhs cells of size 4x2 each
*5f39d1b3SJooyung Han        "ld1 {v2.8b}, [%[lhs_ptr]], #8\n"
*5f39d1b3SJooyung Han        "ld1 {v3.8b}, [%[lhs_ptr]], #8\n"
*5f39d1b3SJooyung Han        "ld1 {v4.8b}, [%[lhs_ptr]], #8\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply dst_col_stride by 4 == sizeof(int32) to use
*5f39d1b3SJooyung Han        // it as a byte offset below.
*5f39d1b3SJooyung Han        "lsl %[dst_col_stride], %[dst_col_stride], #2\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "cmp %[start_depth], #0\n"
*5f39d1b3SJooyung Han        "beq " GEMMLOWP_LABEL_CLEAR_ACCUMULATORS
*5f39d1b3SJooyung Han        "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov x1, %[dst_ptr]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "ld1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "subs %[run_depth], %[run_depth], #2\n"
*5f39d1b3SJooyung Han        "ld1 {v16.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "ld1 {v24.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "ld1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "ld1 {v17.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v25.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "ld1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "ld1 {v18.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v26.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "ld1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "ld1 {v19.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v27.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "ld1 {v12.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "ld1 {v20.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v28.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "ld1 {v13.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "ld1 {v21.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v29.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "ld1 {v14.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "ld1 {v22.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v30.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "ld1 {v15.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v23.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v31.16b}, [x0]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "b " GEMMLOWP_LABEL_BEFORE_LOOP "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_CLEAR_ACCUMULATORS
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Clear accumulator registers (see layout below)
*5f39d1b3SJooyung Han        "dup v8.4s, wzr\n"
*5f39d1b3SJooyung Han        "subs %[run_depth], %[run_depth], #2\n"
*5f39d1b3SJooyung Han        "dup v9.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v10.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v11.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v12.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v13.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v14.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v15.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v16.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v17.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v18.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v19.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v20.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v21.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v22.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v23.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v24.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v25.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v26.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v27.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v28.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v29.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v30.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v31.4s, wzr\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_BEFORE_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "beq " GEMMLOWP_LABEL_AFTER_LOOP "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Overview of register layout:
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        // A 2x8 block of 2 2x4 cells of Rhs is stored in 16bit in v0--v1.
*5f39d1b3SJooyung Han        // A 12x2 block of 3 4x2 cells Lhs is stored in 16bit in v2--v4.
*5f39d1b3SJooyung Han        // A 12x8 block of accumulators is stored in 32bit in v8--v31.
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                         +--------+--------+-----+--------+--------+
*5f39d1b3SJooyung Han        //                         |v0.h[0] |v0.h[1] | ... |v1.h[2] |v1.h[3] |
*5f39d1b3SJooyung Han        //                    Rhs  +--------+--------+-----+--------+--------+
*5f39d1b3SJooyung Han        //                         |v0.h[4] |v0.h[5] | ... |v1.h[6] |v1.h[7] |
*5f39d1b3SJooyung Han        //                         +--------+--------+-----+--------+--------+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                         |        |        |     |        |        |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //    Lhs                  |        |        |     |        |        |
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //  +-------+-------+ - -  +--------+--------+-----+--------+--------+
*5f39d1b3SJooyung Han        //  |v2.h[0]|v2.h[4]|      |v8.s[0] |v9.s[0] | ... |v14.s[0]|v15.s[0]|
*5f39d1b3SJooyung Han        //  |v2.h[1]|v2.h[5]|      |v8.s[1] |v9.s[1] | ... |v14.s[1]|v15.s[1]|
*5f39d1b3SJooyung Han        //  |v2.h[2]|v2.h[6]|      |v8.s[2] |v9.s[2] | ... |v14.s[2]|v15.s[2]|
*5f39d1b3SJooyung Han        //  |v2.h[3]|v2.h[7]|      |v8.s[3] |v9.s[3] | ... |v14.s[3]|v15.s[3]|
*5f39d1b3SJooyung Han        //  +-------+-------+ - -  +--------+--------+-----+--------+--------+
*5f39d1b3SJooyung Han        //  |v3.h[0]|v3.h[4]|      |v16.s[0]|v17.s[0]| ... |v22.s[0]|v23.s[0]|
*5f39d1b3SJooyung Han        //  |v3.h[1]|v3.h[5]|      |v16.s[1]|v17.s[1]| ... |v22.s[1]|v23.s[1]|
*5f39d1b3SJooyung Han        //  |v3.h[2]|v3.h[6]|      |v16.s[2]|v17.s[2]| ... |v22.s[2]|v23.s[2]|
*5f39d1b3SJooyung Han        //  |v3.h[3]|v3.h[7]|      |v16.s[3]|v17.s[3]| ... |v22.s[3]|v23.s[3]|
*5f39d1b3SJooyung Han        //  +-------+-------+ - -  +--------+--------+-----+--------+--------+
*5f39d1b3SJooyung Han        //  |v4.h[0]|v4.h[4]|      |v24.s[0]|v25.s[0]| ... |v30.s[0]|v31.s[0]|
*5f39d1b3SJooyung Han        //  |v4.h[1]|v4.h[5]|      |v24.s[1]|v25.s[1]| ... |v30.s[1]|v31.s[1]|
*5f39d1b3SJooyung Han        //  |v4.h[2]|v4.h[6]|      |v24.s[2]|v25.s[2]| ... |v30.s[2]|v31.s[2]|
*5f39d1b3SJooyung Han        //  |v4.h[3]|v4.h[7]|      |v24.s[3]|v25.s[3]| ... |v30.s[3]|v31.s[3]|
*5f39d1b3SJooyung Han        //  +-------+-------+ - -  +--------+--------+-----+--------+--------+
*5f39d1b3SJooyung Han        //
*5f39d1b3SJooyung Han        //                            Accumulator
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Expand Lhs/Rhs cells to 16 bit.
*5f39d1b3SJooyung Han        "uxtl v0.8h, v5.8b\n"
*5f39d1b3SJooyung Han        "ld1 {v5.8b}, [%[rhs_ptr]], #8\n"
*5f39d1b3SJooyung Han        "uxtl v1.8h, v6.8b\n"
*5f39d1b3SJooyung Han        "ld1 {v6.8b}, [%[rhs_ptr]], #8\n"
*5f39d1b3SJooyung Han        "uxtl v2.8h, v2.8b\n"
*5f39d1b3SJooyung Han        "uxtl v3.8h, v3.8b\n"
*5f39d1b3SJooyung Han        "uxtl v4.8h, v4.8b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate, top third
*5f39d1b3SJooyung Han        "umlal v8.4s, v2.4h, v0.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v9.4s, v2.4h, v0.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v10.4s, v2.4h, v0.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v11.4s, v2.4h, v0.h[3]\n"
*5f39d1b3SJooyung Han        "umlal v12.4s, v2.4h, v1.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v13.4s, v2.4h, v1.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v14.4s, v2.4h, v1.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v15.4s, v2.4h, v1.h[3]\n"
*5f39d1b3SJooyung Han        "umlal2 v8.4s, v2.8h, v0.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v9.4s, v2.8h, v0.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v10.4s, v2.8h, v0.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v11.4s, v2.8h, v0.h[7]\n"
*5f39d1b3SJooyung Han        "umlal2 v12.4s, v2.8h, v1.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v13.4s, v2.8h, v1.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v14.4s, v2.8h, v1.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v15.4s, v2.8h, v1.h[7]\n"
*5f39d1b3SJooyung Han        "ld1 {v2.8b}, [%[lhs_ptr]], #8\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate, middle third
*5f39d1b3SJooyung Han        "umlal v16.4s, v3.4h, v0.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v17.4s, v3.4h, v0.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v18.4s, v3.4h, v0.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v19.4s, v3.4h, v0.h[3]\n"
*5f39d1b3SJooyung Han        "umlal v20.4s, v3.4h, v1.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v21.4s, v3.4h, v1.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v22.4s, v3.4h, v1.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v23.4s, v3.4h, v1.h[3]\n"
*5f39d1b3SJooyung Han        "umlal2 v16.4s, v3.8h, v0.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v17.4s, v3.8h, v0.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v18.4s, v3.8h, v0.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v19.4s, v3.8h, v0.h[7]\n"
*5f39d1b3SJooyung Han        "umlal2 v20.4s, v3.8h, v1.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v21.4s, v3.8h, v1.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v22.4s, v3.8h, v1.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v23.4s, v3.8h, v1.h[7]\n"
*5f39d1b3SJooyung Han        "ld1 {v3.8b}, [%[lhs_ptr]], #8\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "subs %[run_depth], %[run_depth], #2\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate, bottom third
*5f39d1b3SJooyung Han        "umlal v24.4s, v4.4h, v0.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v25.4s, v4.4h, v0.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v26.4s, v4.4h, v0.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v27.4s, v4.4h, v0.h[3]\n"
*5f39d1b3SJooyung Han        "umlal v28.4s, v4.4h, v1.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v29.4s, v4.4h, v1.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v30.4s, v4.4h, v1.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v31.4s, v4.4h, v1.h[3]\n"
*5f39d1b3SJooyung Han        "umlal2 v24.4s, v4.8h, v0.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v25.4s, v4.8h, v0.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v26.4s, v4.8h, v0.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v27.4s, v4.8h, v0.h[7]\n"
*5f39d1b3SJooyung Han        "umlal2 v28.4s, v4.8h, v1.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v29.4s, v4.8h, v1.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v30.4s, v4.8h, v1.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v31.4s, v4.8h, v1.h[7]\n"
*5f39d1b3SJooyung Han        "ld1 {v4.8b}, [%[lhs_ptr]], #8\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_AFTER_LOOP
*5f39d1b3SJooyung Han        ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Expand Lhs/Rhs cells to 16 bit.
*5f39d1b3SJooyung Han        "uxtl v0.8h, v5.8b\n"
*5f39d1b3SJooyung Han        "uxtl v1.8h, v6.8b\n"
*5f39d1b3SJooyung Han        "uxtl v2.8h, v2.8b\n"
*5f39d1b3SJooyung Han        "uxtl v3.8h, v3.8b\n"
*5f39d1b3SJooyung Han        "uxtl v4.8h, v4.8b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate, level of depth 0
*5f39d1b3SJooyung Han        "umlal v8.4s, v2.4h, v0.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v9.4s, v2.4h, v0.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v10.4s, v2.4h, v0.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v11.4s, v2.4h, v0.h[3]\n"
*5f39d1b3SJooyung Han        "umlal v12.4s, v2.4h, v1.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v13.4s, v2.4h, v1.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v14.4s, v2.4h, v1.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v15.4s, v2.4h, v1.h[3]\n"
*5f39d1b3SJooyung Han        "umlal v16.4s, v3.4h, v0.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v17.4s, v3.4h, v0.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v18.4s, v3.4h, v0.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v19.4s, v3.4h, v0.h[3]\n"
*5f39d1b3SJooyung Han        "umlal v20.4s, v3.4h, v1.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v21.4s, v3.4h, v1.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v22.4s, v3.4h, v1.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v23.4s, v3.4h, v1.h[3]\n"
*5f39d1b3SJooyung Han        "umlal v24.4s, v4.4h, v0.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v25.4s, v4.4h, v0.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v26.4s, v4.4h, v0.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v27.4s, v4.4h, v0.h[3]\n"
*5f39d1b3SJooyung Han        "umlal v28.4s, v4.4h, v1.h[0]\n"
*5f39d1b3SJooyung Han        "umlal v29.4s, v4.4h, v1.h[1]\n"
*5f39d1b3SJooyung Han        "umlal v30.4s, v4.4h, v1.h[2]\n"
*5f39d1b3SJooyung Han        "umlal v31.4s, v4.4h, v1.h[3]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Multiply-accumulate, level of depth 1
*5f39d1b3SJooyung Han        "umlal2 v8.4s, v2.8h, v0.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v9.4s, v2.8h, v0.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v10.4s, v2.8h, v0.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v11.4s, v2.8h, v0.h[7]\n"
*5f39d1b3SJooyung Han        "umlal2 v12.4s, v2.8h, v1.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v13.4s, v2.8h, v1.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v14.4s, v2.8h, v1.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v15.4s, v2.8h, v1.h[7]\n"
*5f39d1b3SJooyung Han        "umlal2 v16.4s, v3.8h, v0.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v17.4s, v3.8h, v0.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v18.4s, v3.8h, v0.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v19.4s, v3.8h, v0.h[7]\n"
*5f39d1b3SJooyung Han        "umlal2 v20.4s, v3.8h, v1.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v21.4s, v3.8h, v1.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v22.4s, v3.8h, v1.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v23.4s, v3.8h, v1.h[7]\n"
*5f39d1b3SJooyung Han        "umlal2 v24.4s, v4.8h, v0.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v25.4s, v4.8h, v0.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v26.4s, v4.8h, v0.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v27.4s, v4.8h, v0.h[7]\n"
*5f39d1b3SJooyung Han        "umlal2 v28.4s, v4.8h, v1.h[4]\n"
*5f39d1b3SJooyung Han        "umlal2 v29.4s, v4.8h, v1.h[5]\n"
*5f39d1b3SJooyung Han        "umlal2 v30.4s, v4.8h, v1.h[6]\n"
*5f39d1b3SJooyung Han        "umlal2 v31.4s, v4.8h, v1.h[7]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov x1, %[dst_ptr]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "st1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "subs %[run_depth], %[run_depth], #2\n"
*5f39d1b3SJooyung Han        "st1 {v16.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "st1 {v24.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "st1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "st1 {v17.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v25.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "st1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "st1 {v18.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v26.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "st1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "st1 {v19.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v27.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "st1 {v12.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "st1 {v20.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v28.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "st1 {v13.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "st1 {v21.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v29.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "st1 {v14.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "st1 {v22.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v30.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "st1 {v15.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v23.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v31.16b}, [x0]\n"
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_CLEAR_ACCUMULATORS
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_BEFORE_LOOP
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_LOOP
*5f39d1b3SJooyung Han#undef GEMMLOWP_LABEL_AFTER_LOOP
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [dst_ptr] "+r"(dst_ptr),
*5f39d1b3SJooyung Han        [run_depth] "+r"(run_depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [start_depth] "r"(start_depth),
*5f39d1b3SJooyung Han        [dst_col_stride] "r"(dst_col_stride)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "x0", "x1", "v0", "v1", "v2", "v3", "v4", "v5", "v6",
*5f39d1b3SJooyung Han        "v7", "v8", "v9", "v10", "v11", "v12", "v13", "v14", "v15", "v16",
*5f39d1b3SJooyung Han        "v17", "v18", "v19", "v20", "v21", "v22", "v23", "v24", "v25", "v26",
*5f39d1b3SJooyung Han        "v27", "v28", "v29", "v30", "v31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#ifdef GEMMLOWP_DOTPROD_KERNEL
*5f39d1b3SJooyung Han#ifndef __ARM_FEATURE_DOTPROD
*5f39d1b3SJooyung Han#error This kernel requires ARM dot-product instructions. Enable them by \
*5f39d1b3SJooyung Han  adding '+dotprod' to a compiler flag, e.g. -march=armv8.2-a+dotprod . \
*5f39d1b3SJooyung Han  Note that Clang up to version 7 fails to define the corresponding \
*5f39d1b3SJooyung Han  preprocessor token __ARM_FEATURE_DOTPROD, so you will still have to define \
*5f39d1b3SJooyung Han  it manually.
*5f39d1b3SJooyung Han#endif
*5f39d1b3SJooyung Han// Kernels utilizing the Armv8.2 Dot Product extension.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// The dot product instructions work by taking 4 consecutive 8-bit depth
*5f39d1b3SJooyung Han// values from each operand, multiplying the 4 pairs together and
*5f39d1b3SJooyung Han// accumulating all the results into the corresponding 32-bit accumulator
*5f39d1b3SJooyung Han// lane.  As such, the operation is identical to a 32-bit instruction (like
*5f39d1b3SJooyung Han// FMLA used in SGEMM), except that 4 depth values are processed at a time
*5f39d1b3SJooyung Han// instead of 1.
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han// Thus, this first kernel is a carbon copy of
*5f39d1b3SJooyung Han// "NEON_64bit_GEMM_Float32_WithScalar_A57" (which should provide good
*5f39d1b3SJooyung Han// performance for most processors) below with the opcode (fmla -> udot) and
*5f39d1b3SJooyung Han// types (float32 -> uint8/uint32) changed.
*5f39d1b3SJooyung Han//
*5f39d1b3SJooyung Han// A signed version of this kernel could be produced by replacing "udot"
*5f39d1b3SJooyung Han// with "sdot" - performance should be identical to this udot kernel.
*5f39d1b3SJooyung Hanstruct NEON_64_Kernel12x8Depth4_dotprod : KernelBase {
*5f39d1b3SJooyung Han  typedef KernelFormat<KernelSideFormat<CellFormat<4, 4, CellOrder::WidthMajor>, 3>,
*5f39d1b3SJooyung Han                       KernelSideFormat<CellFormat<4, 4, CellOrder::WidthMajor>, 2> >
*5f39d1b3SJooyung Han      Format;
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  const char* Name() const override { return "NEON, 12x8, depth 4, dotprod"; }
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han  void Run(std::int32_t* dst_ptr, std::size_t dst_row_stride, std::size_t dst_col_stride,
*5f39d1b3SJooyung Han           const std::uint8_t* lhs_ptr, const std::uint8_t* rhs_ptr, std::size_t start_depth,
*5f39d1b3SJooyung Han           std::size_t depth) const override {
*5f39d1b3SJooyung Han    (void)dst_row_stride;
*5f39d1b3SJooyung Han    ScopedProfilingLabel label("optimized kernel (NEON 12x8, depth 4, dotprod)");
*5f39d1b3SJooyung Han// See comments above for why we need local numerical labels in our asm.
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_CLEAR_ACCUMULATORS "1"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_BEFORE_LOOP "2"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_LOOP "3"
*5f39d1b3SJooyung Han#define GEMMLOWP_LABEL_AFTER_LOOP "4"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han    assert(dst_row_stride == 1);
*5f39d1b3SJooyung Han    asm volatile(
*5f39d1b3SJooyung Han        // Multiply dst_col_stride by 4 == sizeof(int32) to use
*5f39d1b3SJooyung Han        // it as a byte offset below.
*5f39d1b3SJooyung Han        "lsl %[dst_col_stride], %[dst_col_stride], #2\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "cmp %[start_depth], #0\n"
*5f39d1b3SJooyung Han        "beq " GEMMLOWP_LABEL_CLEAR_ACCUMULATORS "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Load accumulators
*5f39d1b3SJooyung Han        "mov x1, %[dst_ptr]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "ld1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v16.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "ld1 {v24.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "ld1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "ld1 {v17.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v25.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "ld1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "ld1 {v18.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v26.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "ld1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "ld1 {v19.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v27.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "ld1 {v12.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "ld1 {v20.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v28.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "ld1 {v13.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "ld1 {v21.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v29.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "ld1 {v14.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "ld1 {v22.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v30.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "ld1 {v15.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v23.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "ld1 {v31.16b}, [x0]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "b " GEMMLOWP_LABEL_BEFORE_LOOP "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_CLEAR_ACCUMULATORS ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Clear accumulator registers (see layout below)
*5f39d1b3SJooyung Han        "dup v8.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v9.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v10.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v11.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v12.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v13.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v14.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v15.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v16.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v17.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v18.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v19.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v20.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v21.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v22.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v23.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v24.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v25.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v26.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v27.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v28.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v29.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v30.4s, wzr\n"
*5f39d1b3SJooyung Han        "dup v31.4s, wzr\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_BEFORE_LOOP ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "subs %w[depth], %w[depth], #4\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // The start of the loop assumes first Rhs cell is already loaded, so
*5f39d1b3SJooyung Han        // do it here for first iteration.
*5f39d1b3SJooyung Han        "ld1 {v0.16b}, [%[rhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // And the same for the first Lhs cell.
*5f39d1b3SJooyung Han        "ld1 {v2.16b}, [%[lhs_ptr]], #16\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "beq " GEMMLOWP_LABEL_AFTER_LOOP "f\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_LOOP ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Start the MACs at the head of the loop - 1st cell from each side
*5f39d1b3SJooyung Han        // already loaded.
*5f39d1b3SJooyung Han        ".word 0x6f80e048  // udot v8.4s, v2.16b, v0.4b[0]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa0e049  // udot v9.4s, v2.16b, v0.4b[1]\n"
*5f39d1b3SJooyung Han        "ld1 {v1.16b}, [%[rhs_ptr]], #16\n"  // Load second Rhs cell.
*5f39d1b3SJooyung Han        ".word 0x6f80e84a  // udot v10.4s, v2.16b, v0.4b[2]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa0e84b  // udot v11.4s, v2.16b, v0.4b[3]\n"
*5f39d1b3SJooyung Han        "ld1 {v3.16b}, [%[lhs_ptr]], #16\n"  // Load second Lhs cell.
*5f39d1b3SJooyung Han        ".word 0x6f81e04c  // udot v12.4s, v2.16b, v1.4b[0]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa1e04d  // udot v13.4s, v2.16b, v1.4b[1]\n"
*5f39d1b3SJooyung Han        "ld1 {v4.16b}, [%[lhs_ptr]], #16\n"  // Load third Lhs cell.
*5f39d1b3SJooyung Han        ".word 0x6f81e84e  // udot v14.4s, v2.16b, v1.4b[2]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa1e84f  // udot v15.4s, v2.16b, v1.4b[3]\n"
*5f39d1b3SJooyung Han        "ld1 {v2.16b}, [%[lhs_ptr]], #16\n"  // Done with first Lhs cell - load
*5f39d1b3SJooyung Han        // for the next iteration early.
*5f39d1b3SJooyung Han        ".word 0x6f80e070  // udot v16.4s, v3.16b, v0.4b[0]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa0e071  // udot v17.4s, v3.16b, v0.4b[1]\n"
*5f39d1b3SJooyung Han        ".word 0x6f80e872  // udot v18.4s, v3.16b, v0.4b[2]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa0e873  // udot v19.4s, v3.16b, v0.4b[3]\n"
*5f39d1b3SJooyung Han        ".word 0x6f81e074  // udot v20.4s, v3.16b, v1.4b[0]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa1e075  // udot v21.4s, v3.16b, v1.4b[1]\n"
*5f39d1b3SJooyung Han        ".word 0x6f81e876  // udot v22.4s, v3.16b, v1.4b[2]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa1e877  // udot v23.4s, v3.16b, v1.4b[3]\n"
*5f39d1b3SJooyung Han        ".word 0x6f80e098  // udot v24.4s, v4.16b, v0.4b[0]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa0e099  // udot v25.4s, v4.16b, v0.4b[1]\n"
*5f39d1b3SJooyung Han        ".word 0x6f80e89a  // udot v26.4s, v4.16b, v0.4b[2]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa0e89b  // udot v27.4s, v4.16b, v0.4b[3]\n"
*5f39d1b3SJooyung Han        "ld1 {v0.16b}, [%[rhs_ptr]], #16\n"  // Done with the first Rhs cell -
*5f39d1b3SJooyung Han        // load for the next iteration early.
*5f39d1b3SJooyung Han        ".word 0x6f81e09c  // udot v28.4s, v4.16b, v1.4b[0]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa1e09d  // udot v29.4s, v4.16b, v1.4b[1]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Loop.  Decrement loop index (depth) by 4 as udot processes 4
*5f39d1b3SJooyung Han        // depth values.
*5f39d1b3SJooyung Han        "subs %w[depth], %w[depth], #4\n"
*5f39d1b3SJooyung Han        ".word 0x6f81e89e  // udot v30.4s, v4.16b, v1.4b[2]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa1e89f  // udot v31.4s, v4.16b, v1.4b[3]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        "bne " GEMMLOWP_LABEL_LOOP "b\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        GEMMLOWP_LABEL_AFTER_LOOP ":\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Final iteration. v0 and v2 were already loaded, don't load
*5f39d1b3SJooyung Han        // them again, don't read past the end of buffers.
*5f39d1b3SJooyung Han        ".word 0x6f80e048  // udot v8.4s, v2.16b, v0.4b[0]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa0e049  // udot v9.4s, v2.16b, v0.4b[1]\n"
*5f39d1b3SJooyung Han        "ld1 {v1.16b}, [%[rhs_ptr]], #16\n"  // Load second Rhs cell.
*5f39d1b3SJooyung Han        ".word 0x6f80e84a  // udot v10.4s, v2.16b, v0.4b[2]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa0e84b  // udot v11.4s, v2.16b, v0.4b[3]\n"
*5f39d1b3SJooyung Han        "ld1 {v3.16b}, [%[lhs_ptr]], #16\n"  // Load second Lhs cell.
*5f39d1b3SJooyung Han        ".word 0x6f81e04c  // udot v12.4s, v2.16b, v1.4b[0]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa1e04d  // udot v13.4s, v2.16b, v1.4b[1]\n"
*5f39d1b3SJooyung Han        "ld1 {v4.16b}, [%[lhs_ptr]], #16\n"  // Load third Lhs cell.
*5f39d1b3SJooyung Han        ".word 0x6f81e84e  // udot v14.4s, v2.16b, v1.4b[2]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa1e84f  // udot v15.4s, v2.16b, v1.4b[3]\n"
*5f39d1b3SJooyung Han        ".word 0x6f80e070  // udot v16.4s, v3.16b, v0.4b[0]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa0e071  // udot v17.4s, v3.16b, v0.4b[1]\n"
*5f39d1b3SJooyung Han        ".word 0x6f80e872  // udot v18.4s, v3.16b, v0.4b[2]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa0e873  // udot v19.4s, v3.16b, v0.4b[3]\n"
*5f39d1b3SJooyung Han        ".word 0x6f81e074  // udot v20.4s, v3.16b, v1.4b[0]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa1e075  // udot v21.4s, v3.16b, v1.4b[1]\n"
*5f39d1b3SJooyung Han        ".word 0x6f81e876  // udot v22.4s, v3.16b, v1.4b[2]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa1e877  // udot v23.4s, v3.16b, v1.4b[3]\n"
*5f39d1b3SJooyung Han        ".word 0x6f80e098  // udot v24.4s, v4.16b, v0.4b[0]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa0e099  // udot v25.4s, v4.16b, v0.4b[1]\n"
*5f39d1b3SJooyung Han        ".word 0x6f80e89a  // udot v26.4s, v4.16b, v0.4b[2]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa0e89b  // udot v27.4s, v4.16b, v0.4b[3]\n"
*5f39d1b3SJooyung Han        ".word 0x6f81e09c  // udot v28.4s, v4.16b, v1.4b[0]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa1e09d  // udot v29.4s, v4.16b, v1.4b[1]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Loop.  Decrement loop index (depth) by 4 as udot processes 4
*5f39d1b3SJooyung Han        // depth values.
*5f39d1b3SJooyung Han        "subs %w[depth], %w[depth], #4\n"
*5f39d1b3SJooyung Han        ".word 0x6f81e89e  // udot v30.4s, v4.16b, v1.4b[2]\n"
*5f39d1b3SJooyung Han        ".word 0x6fa1e89f  // udot v31.4s, v4.16b, v1.4b[3]\n"
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han        // Store accumulators
*5f39d1b3SJooyung Han        "mov x1, %[dst_ptr]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "st1 {v8.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v16.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "st1 {v24.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "st1 {v9.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "st1 {v17.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v25.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "st1 {v10.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "st1 {v18.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v26.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "st1 {v11.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "st1 {v19.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v27.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "st1 {v12.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "st1 {v20.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v28.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "st1 {v13.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "st1 {v21.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v29.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "st1 {v14.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "add x1, x1, %[dst_col_stride]\n"
*5f39d1b3SJooyung Han        "st1 {v22.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v30.16b}, [x0]\n"
*5f39d1b3SJooyung Han        "mov x0, x1\n"
*5f39d1b3SJooyung Han        "st1 {v15.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v23.16b}, [x0], #16\n"
*5f39d1b3SJooyung Han        "st1 {v31.16b}, [x0]\n"
*5f39d1b3SJooyung Han        :  // outputs
*5f39d1b3SJooyung Han        [lhs_ptr] "+r"(lhs_ptr), [rhs_ptr] "+r"(rhs_ptr),
*5f39d1b3SJooyung Han        [depth] "+r"(depth)
*5f39d1b3SJooyung Han        :  // inputs
*5f39d1b3SJooyung Han        [dst_ptr] "r"(dst_ptr), [dst_col_stride] "r"(dst_col_stride), [start_depth] "r"(start_depth)
*5f39d1b3SJooyung Han        :  // clobbers
*5f39d1b3SJooyung Han        "cc", "memory", "x0", "x1", "v0", "v1", "v2", "v3", "v4", "v5", "v6", "v7", "v8", "v9",
*5f39d1b3SJooyung Han        "v10", "v11", "v12", "v13", "v14", "v15", "v16", "v17", "v18", "v19", "v20", "v21", "v22",
*5f39d1b3SJooyung Han        "v23", "v24", "v25", "v26", "v27", "v28", "v29", "v30", "v31");
*5f39d1b3SJooyung Han  }
*5f39d1b3SJooyung Han};
*5f39d1b3SJooyung Han#endif  // GEMMLOWP_DOTPROD_KERNEL
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#endif  // GEMMLOWP_NEON_64
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han}  // namespace gemmlowp
*5f39d1b3SJooyung Han
*5f39d1b3SJooyung Han#endif  // GEMMLOWP_INTERNAL_KERNEL_NEON_H_