qualcomm/builders/README.md

*523fa7a6SAndroid Build Coastguard Worker# Contribution for More Operators
*523fa7a6SAndroid Build Coastguard WorkerThank you for contributing to Qualcomm AI Engine Direct delegate for ExecuTorch. Reading and following these guidelines will help you quickly get the essentials of implementing operator builder to unblock yourself and land pull requests more efficiently.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker## Sections
*523fa7a6SAndroid Build Coastguard Worker* [References](#references)
*523fa7a6SAndroid Build Coastguard Worker* [Getting Started](#getting-started)
*523fa7a6SAndroid Build Coastguard Worker    * [Identify Unsupported Operator](#identify-unsupported-operator)
*523fa7a6SAndroid Build Coastguard Worker    * [Check Operator Spec](#check-operator-spec)
*523fa7a6SAndroid Build Coastguard Worker    * [Implementation](#implementation)
*523fa7a6SAndroid Build Coastguard Worker    * [Quantizer Annotation](#quantizer-annotation)
*523fa7a6SAndroid Build Coastguard Worker* [Issues](#issues)
*523fa7a6SAndroid Build Coastguard Worker* [Pull Requests](#pull-requests)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker## References
*523fa7a6SAndroid Build Coastguard Worker### Qualcomm AI Engine Direct
*523fa7a6SAndroid Build Coastguard Worker- [Operator Definitions](https://docs.qualcomm.com/bundle/publicresource/topics/80-63442-50/MasterOpDef.html)
*523fa7a6SAndroid Build Coastguard Worker- [Supported Operators in Backends](https://docs.qualcomm.com/bundle/publicresource/topics/80-63442-50/operations.html#backend-supplements)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker### PyTorch
*523fa7a6SAndroid Build Coastguard Worker- [torch.nn Operator Definitions](https://pytorch.org/docs/stable/nn.html)
*523fa7a6SAndroid Build Coastguard Worker- [torch.nn.functional Operator Definitions](https://pytorch.org/docs/stable/nn.functional.html)
*523fa7a6SAndroid Build Coastguard Worker- [ATen Operator Definitions](https://github.com/pytorch/pytorch/tree/main/aten/src/ATen/native)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker## Getting Started
*523fa7a6SAndroid Build Coastguard Worker### Identify Unsupported Operator
*523fa7a6SAndroid Build Coastguard WorkerConsider we're enabling following model:
*523fa7a6SAndroid Build Coastguard Worker```python
*523fa7a6SAndroid Build Coastguard Workerclass MyModel(torch.nn.Module):
*523fa7a6SAndroid Build Coastguard Worker    def __init__(self):
*523fa7a6SAndroid Build Coastguard Worker        super().__init__()
*523fa7a6SAndroid Build Coastguard Worker        self.layer_norm = torch.nn.LayerNorm([768], eps=1e-6)
*523fa7a6SAndroid Build Coastguard Worker        self.linear = torch.nn.Linear(768, 100)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def forward(self, x):
*523fa7a6SAndroid Build Coastguard Worker        return self.linear(self.layer_norm(x))
*523fa7a6SAndroid Build Coastguard Worker```
*523fa7a6SAndroid Build Coastguard WorkerAt the time we try to lower it with Qualcomm backend:
*523fa7a6SAndroid Build Coastguard Worker```python
*523fa7a6SAndroid Build Coastguard Workerfrom excutorch.examples.qualcomm.utils import build_executorch_binary
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerbuild_executorch_binary(
*523fa7a6SAndroid Build Coastguard Worker    model=MyModel(),
*523fa7a6SAndroid Build Coastguard Worker    inputs=(torch.randn(200, 768),),
*523fa7a6SAndroid Build Coastguard Worker    soc_model="SM8650"
*523fa7a6SAndroid Build Coastguard Worker    file_name="my_model",
*523fa7a6SAndroid Build Coastguard Worker    dataset=None,
*523fa7a6SAndroid Build Coastguard Worker)
*523fa7a6SAndroid Build Coastguard Worker```
*523fa7a6SAndroid Build Coastguard WorkerAssume there is no `torch.nn.LayerNorm` support, you should see the following error logs:
*523fa7a6SAndroid Build Coastguard Worker```bash
*523fa7a6SAndroid Build Coastguard WorkerFile "/executorch/backends/qualcomm/partition/qnn_partitioner.py", line 77, in is_node_supported
*523fa7a6SAndroid Build Coastguard Worker    op_wrapper = self.node_visitors[node.target.__name__].define_node(
*523fa7a6SAndroid Build Coastguard WorkerKeyError: 'aten.native_layer_norm.default'
*523fa7a6SAndroid Build Coastguard Worker```
*523fa7a6SAndroid Build Coastguard WorkerThis log comes straight to the point, there is no suitable conversion for delegating torch operator to Qualcomm AI Engine Direct. Where the `node_visitors` is a dictionary which maps operator target name with its implementation callback. The goal of this tutorial aims for helping you register the missing one.<br/>
*523fa7a6SAndroid Build Coastguard WorkerThe very first step is to locate which operator type are we going to support. Sometimes the target name of operator might be obscure, following snippet could help you trace back by its call stack:
*523fa7a6SAndroid Build Coastguard Worker```python
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm.utils.utils import capture_program
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerprog = capture_program(MyModel(), (torch.randn(200, 768),))
*523fa7a6SAndroid Build Coastguard Workerfor node in prog.exported_program.graph.nodes:
*523fa7a6SAndroid Build Coastguard Worker    if node.op == "call_function" and node.target.__name__ == 'aten.native_layer_norm.default':
*523fa7a6SAndroid Build Coastguard Worker        print(node.meta["source_fn_stack"])
*523fa7a6SAndroid Build Coastguard Worker```
*523fa7a6SAndroid Build Coastguard WorkerIt will provide more hint to the source PyTorch layer where the missing operator maps to:
*523fa7a6SAndroid Build Coastguard Worker```bash
*523fa7a6SAndroid Build Coastguard Worker[('l__self___layer_norm', <class 'torch.nn.modules.normalization.LayerNorm'>)]
*523fa7a6SAndroid Build Coastguard Worker```
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker### Check Operator Spec
*523fa7a6SAndroid Build Coastguard Worker- **Qualcomm AI Engine Direct**:<br/>
*523fa7a6SAndroid Build Coastguard Worker    You could collect information of `LayerNorm`'s IO via documents mentioned in [Qualcomm AI Engine Direct Manual](#qualcomm-ai-engine-direct):
*523fa7a6SAndroid Build Coastguard Worker    * inputs
*523fa7a6SAndroid Build Coastguard Worker        - in[0] - input activation / required
*523fa7a6SAndroid Build Coastguard Worker        - in[1] - gamma / optional
*523fa7a6SAndroid Build Coastguard Worker        - in[2] - beta / optional
*523fa7a6SAndroid Build Coastguard Worker    * parameters
*523fa7a6SAndroid Build Coastguard Worker        - "epsilon" / optional
*523fa7a6SAndroid Build Coastguard Worker        - "axes" / required
*523fa7a6SAndroid Build Coastguard Worker    * outputs
*523fa7a6SAndroid Build Coastguard Worker        - out[0] - output activation / required
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    The required tensors must be provided for no default values were given inside QNN runtime, The order of IOs (`input activation`, `gamma`, `beta`) matters compared to parameters (`epsilon`, `axes`) who are recognized by literal value:
*523fa7a6SAndroid Build Coastguard Worker    ```c
*523fa7a6SAndroid Build Coastguard Worker    typedef struct {
*523fa7a6SAndroid Build Coastguard Worker        /// A human-readable name for the operation instance.
*523fa7a6SAndroid Build Coastguard Worker        const char* name;
*523fa7a6SAndroid Build Coastguard Worker        /// The name of the operation package to which this operation's type belongs.
*523fa7a6SAndroid Build Coastguard Worker        const char* packageName;
*523fa7a6SAndroid Build Coastguard Worker        /// The name of operation type (e.g. Conv2D).
*523fa7a6SAndroid Build Coastguard Worker        const char* typeName;
*523fa7a6SAndroid Build Coastguard Worker        /// The number of static parameters provided in the params array.
*523fa7a6SAndroid Build Coastguard Worker        uint32_t numOfParams;
*523fa7a6SAndroid Build Coastguard Worker        /// Array of operation parameters.
*523fa7a6SAndroid Build Coastguard Worker        Qnn_Param_t* params;
*523fa7a6SAndroid Build Coastguard Worker        /// The number of input tensors.
*523fa7a6SAndroid Build Coastguard Worker        uint32_t numOfInputs;
*523fa7a6SAndroid Build Coastguard Worker        /// Array of input tensors.
*523fa7a6SAndroid Build Coastguard Worker        Qnn_Tensor_t* inputTensors;
*523fa7a6SAndroid Build Coastguard Worker        /// The number of output tensors.
*523fa7a6SAndroid Build Coastguard Worker        uint32_t numOfOutputs;
*523fa7a6SAndroid Build Coastguard Worker        /// Array of output tensors.
*523fa7a6SAndroid Build Coastguard Worker        Qnn_Tensor_t* outputTensors;
*523fa7a6SAndroid Build Coastguard Worker    } Qnn_OpConfigV1_t;
*523fa7a6SAndroid Build Coastguard Worker    ```
*523fa7a6SAndroid Build Coastguard Worker    This is a data structure used to check operator validity in QNN SDK. Inside validation process, tensors are retrieved sequentially and passed through a series of spec examinations while parameters are matched by their names:
*523fa7a6SAndroid Build Coastguard Worker    ```c
*523fa7a6SAndroid Build Coastguard Worker    typedef struct {
*523fa7a6SAndroid Build Coastguard Worker        /// Parameter type: scalar or tensor
*523fa7a6SAndroid Build Coastguard Worker        Qnn_ParamType_t paramType;
*523fa7a6SAndroid Build Coastguard Worker        /// Name of the parameter
*523fa7a6SAndroid Build Coastguard Worker        const char* name;
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        union UNNAMED {
*523fa7a6SAndroid Build Coastguard Worker            /// Scalar parameter specification
*523fa7a6SAndroid Build Coastguard Worker            Qnn_Scalar_t scalarParam;
*523fa7a6SAndroid Build Coastguard Worker            /// Tensor parameter specification; tensors referred to must be STATIC.
*523fa7a6SAndroid Build Coastguard Worker            Qnn_Tensor_t tensorParam;
*523fa7a6SAndroid Build Coastguard Worker        };
*523fa7a6SAndroid Build Coastguard Worker    } Qnn_Param_t;
*523fa7a6SAndroid Build Coastguard Worker    ```
*523fa7a6SAndroid Build Coastguard Worker    The name value equals to the parameter name described in [Operator Definitions](https://docs.qualcomm.com/bundle/publicresource/topics/80-63442-50/MasterOpDef.html), there are `epsilon`, `axes` for `LayerNorm` case.<br/>
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    If you find it hard to correlate missing operator with documentation, this [table](https://docs.qualcomm.com/bundle/publicresource/topics/80-63442-50/SupportedOps.html) might be helpful for searching. In some cases, an exact match may not exist. Consider seeking for a math equivalent approach or notify maintainer for further analysis.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker- **PyTorch**:<br/>
*523fa7a6SAndroid Build Coastguard Worker    We could also read the IO spec from [function declaration](https://github.com/pytorch/pytorch/blob/main/aten/src/ATen/native/layer_norm.cpp) mentioned in [PyTorch Documentation](#pytorch):
*523fa7a6SAndroid Build Coastguard Worker    * inputs
*523fa7a6SAndroid Build Coastguard Worker        - in[0] - input activation / required
*523fa7a6SAndroid Build Coastguard Worker        - in[1] - normalized_shape / required
*523fa7a6SAndroid Build Coastguard Worker        - in[2] - weight_opt / optional
*523fa7a6SAndroid Build Coastguard Worker        - in[3] - bias_opt / optional
*523fa7a6SAndroid Build Coastguard Worker        - in[4] - eps / required
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    Through comparing the [equation](https://pytorch.org/docs/stable/generated/torch.nn.LayerNorm.html), we could sort out the relevance of arguments (`gamma` / `beta` / `epsilon`) inside Qualcomm manual to PyTorch (`weight_opt` / `bias_opt` / `eps`). The unmatched parameter `axes` will have more discussions in the [implementation](#implementation) part.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker### Implementation
*523fa7a6SAndroid Build Coastguard WorkerLet's start with adding new definition in `qnn_constant.py` for `LayerNorm` operator.
*523fa7a6SAndroid Build Coastguard Worker```python
*523fa7a6SAndroid Build Coastguard Worker@dataclass(init=False, frozen=True)
*523fa7a6SAndroid Build Coastguard Workerclass OpHardSwish:
*523fa7a6SAndroid Build Coastguard Worker    ...
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker# please insert it in alphabetically order
*523fa7a6SAndroid Build Coastguard Worker@dataclass(init=False, frozen=True)
*523fa7a6SAndroid Build Coastguard Workerclass OpLayerNorm:
*523fa7a6SAndroid Build Coastguard Worker    op_name: str = "LayerNorm"
*523fa7a6SAndroid Build Coastguard Worker    param_epsilon = "epsilon"
*523fa7a6SAndroid Build Coastguard Worker    param_axes = "axes"
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker@dataclass(init=False, frozen=True)
*523fa7a6SAndroid Build Coastguard Workerclass OpLogSoftmax:
*523fa7a6SAndroid Build Coastguard Worker    ...
*523fa7a6SAndroid Build Coastguard Worker```
*523fa7a6SAndroid Build Coastguard WorkerThe conventions are:
*523fa7a6SAndroid Build Coastguard Worker- op_name: string describing the operator
*523fa7a6SAndroid Build Coastguard Worker- params_xxx: string for consumed parameters
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard WorkerThe content should have exact match with literal values mentioned in [Qualcomm AI Engine Direct Manual](#qualcomm-ai-engine-direct) or `QnnOpDef.h` under `$QNN_SDK_ROOT/include/QNN/`:
*523fa7a6SAndroid Build Coastguard Worker```c
*523fa7a6SAndroid Build Coastguard Worker#define QNN_OP_LAYER_NORM               "LayerNorm"
*523fa7a6SAndroid Build Coastguard Worker#define QNN_OP_LAYER_NORM_PARAM_EPSILON "epsilon"
*523fa7a6SAndroid Build Coastguard Worker#define QNN_OP_LAYER_NORM_PARAM_AXES    "axes"
*523fa7a6SAndroid Build Coastguard Worker```
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard WorkerNext, create a new file with name in snake case format (e.g. `op_layer_norm.py`) and import required modules (please check comments for getting the ideas of usage):
*523fa7a6SAndroid Build Coastguard Worker```python
*523fa7a6SAndroid Build Coastguard Worker# pybind interface for invoking QNN APIs
*523fa7a6SAndroid Build Coastguard Workerimport executorch.backends.qualcomm.python.PyQnnWrapperAdaptor as PyQnnWrapper
*523fa7a6SAndroid Build Coastguard Worker# tensors or other numerics will be shipped in numpy format
*523fa7a6SAndroid Build Coastguard Workerimport numpy as np
*523fa7a6SAndroid Build Coastguard Workerimport torch
*523fa7a6SAndroid Build Coastguard Worker# common keywords of Qualcomm backend
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm.utils.constants import QCOM_DATA
*523fa7a6SAndroid Build Coastguard Worker# op builder will inherit NodeVisitor and have its own implementation
*523fa7a6SAndroid Build Coastguard Worker# register_node_visitor for book-keeping the dictionary of target name v.s. callback
*523fa7a6SAndroid Build Coastguard Workerfrom .node_visitor import NodeVisitor, register_node_visitor
*523fa7a6SAndroid Build Coastguard Worker# the definitions required to build operator in QNN
*523fa7a6SAndroid Build Coastguard Workerfrom .qnn_constants import OpLayerNorm, QNN_OP_PACKAGE_NAME_QTI_AISW
*523fa7a6SAndroid Build Coastguard Worker# utility to get parameter value when creating tensor in QNN
*523fa7a6SAndroid Build Coastguard Workerfrom .utils import get_parameter
*523fa7a6SAndroid Build Coastguard Worker```
*523fa7a6SAndroid Build Coastguard WorkerStart with function declaration as:
*523fa7a6SAndroid Build Coastguard Worker```python
*523fa7a6SAndroid Build Coastguard Worker@register_node_visitor
*523fa7a6SAndroid Build Coastguard Workerclass LayerNormVisitor(NodeVisitor):
*523fa7a6SAndroid Build Coastguard Worker    target = ["aten.native_layer_norm.default"]
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def __init__(self, *args) -> None:
*523fa7a6SAndroid Build Coastguard Worker        super().__init__(*args)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def define_node(
*523fa7a6SAndroid Build Coastguard Worker        self,
*523fa7a6SAndroid Build Coastguard Worker        node: torch.fx.Node,
*523fa7a6SAndroid Build Coastguard Worker        nodes_to_wrappers: Dict[torch.fx.Node, PyQnnWrapper.TensorWrapper],
*523fa7a6SAndroid Build Coastguard Worker    ) -> PyQnnWrapper.PyQnnOpWrapper:
*523fa7a6SAndroid Build Coastguard Worker```
*523fa7a6SAndroid Build Coastguard WorkerIt's mandatory to have `target` member in list form, since there would have multiple targets map to the same implementation. e.g. `aten.leaky_relu.default`, `aten.prelu.default` have similar equations but only differ in negative slope.<br/>
*523fa7a6SAndroid Build Coastguard WorkerThe `nodes_to_wrappers` is a dictionary maintaining relationship between graph node and its output tensor. `nodes_to_wrappers` acts as an memo for not creating tensor objects to nodes that have already been traversed.<br/>
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard WorkerNow, we can start to fill in function body step by step:
*523fa7a6SAndroid Build Coastguard Worker1. Define input activation tensors:
*523fa7a6SAndroid Build Coastguard Worker    ```python
*523fa7a6SAndroid Build Coastguard Worker        input_node = node.args[0]
*523fa7a6SAndroid Build Coastguard Worker        input_tensor = self.get_tensor(input_node, node)
*523fa7a6SAndroid Build Coastguard Worker        input_tensor_wrapper = self.define_tensor(
*523fa7a6SAndroid Build Coastguard Worker            input_node,
*523fa7a6SAndroid Build Coastguard Worker            input_tensor,
*523fa7a6SAndroid Build Coastguard Worker            PyQnnWrapper.Qnn_TensorType_t.QNN_TENSOR_TYPE_NATIVE,
*523fa7a6SAndroid Build Coastguard Worker            nodes_to_wrappers,
*523fa7a6SAndroid Build Coastguard Worker            is_input_tensor=True,
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker    ```
*523fa7a6SAndroid Build Coastguard Worker    Through the information in [Check Operator Spec](#check-operator-spec) section, we could easily extract the desired nodes.<br/>
*523fa7a6SAndroid Build Coastguard Worker    The `get_tensor` method is responsible for retrieving torch tensor in correct axis order if `layout_transform` pass happened to apply.<br/>
*523fa7a6SAndroid Build Coastguard Worker    The `define_tensor` method is for generating tensor object for QNN API and will be memorized by aforementioned `node_to_wrappers`.<br/>
*523fa7a6SAndroid Build Coastguard Worker    And yet, there are arguments worth for addressing more:
*523fa7a6SAndroid Build Coastguard Worker    - **node**: current graph node
*523fa7a6SAndroid Build Coastguard Worker    - **tensor**: torch tensor emitted by node
*523fa7a6SAndroid Build Coastguard Worker    - **tensor_type**: type compatible with QNN SDK, oftenly use `QNN_TENSOR_TYPE_NATIVE` for intermediate outputs and `QNN_TENSOR_TYPE_STATIC` for constant parameters
*523fa7a6SAndroid Build Coastguard Worker    - **nodes_to_wrappers**: dictionary of graph node and its output tensor (note: the tensor here is not a torch tensor but a wrapped object for QNN)
*523fa7a6SAndroid Build Coastguard Worker    - **is_input_tensor**: flag to tell if current tensor is input activation or parameter, which is important for fixed point mixed-precision to work properly
*523fa7a6SAndroid Build Coastguard Worker    - **node_name**: (optional) tensor name for user to specify
*523fa7a6SAndroid Build Coastguard Worker    - **wrapper_idx**: (optional) defaults to zero if node is not a tuple, otherwise it acts as an indexer to output tensors. e.g. when slicing input tensor into multiple outputs, `wrapper_idx` is necessary for getting correct wrapped tensor object
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker2. Define input gamma / beta tensors:
*523fa7a6SAndroid Build Coastguard Worker    ```python
*523fa7a6SAndroid Build Coastguard Worker        weight_node = node.args[2]
*523fa7a6SAndroid Build Coastguard Worker        weight_tensor = get_parameter(weight_node, self.edge_program)
*523fa7a6SAndroid Build Coastguard Worker        weight_tensor_wrapper = self.define_tensor(
*523fa7a6SAndroid Build Coastguard Worker            weight_node,
*523fa7a6SAndroid Build Coastguard Worker            weight_tensor,
*523fa7a6SAndroid Build Coastguard Worker            PyQnnWrapper.Qnn_TensorType_t.QNN_TENSOR_TYPE_STATIC,
*523fa7a6SAndroid Build Coastguard Worker            nodes_to_wrappers,
*523fa7a6SAndroid Build Coastguard Worker            is_input_tensor=False,
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        bias_node = node.args[3]
*523fa7a6SAndroid Build Coastguard Worker        bias_tensor = get_parameter(bias_node, self.edge_program)
*523fa7a6SAndroid Build Coastguard Worker        bias_tensor_wrapper = self.define_tensor(
*523fa7a6SAndroid Build Coastguard Worker            bias_node,
*523fa7a6SAndroid Build Coastguard Worker            bias_tensor,
*523fa7a6SAndroid Build Coastguard Worker            PyQnnWrapper.Qnn_TensorType_t.QNN_TENSOR_TYPE_STATIC,
*523fa7a6SAndroid Build Coastguard Worker            nodes_to_wrappers,
*523fa7a6SAndroid Build Coastguard Worker            is_input_tensor=False,
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker    ```
*523fa7a6SAndroid Build Coastguard Worker    The logic should be similar and straightforward. Please carefully set arguments `tensor_type`, `is_input_tensor` according to tensors' property.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker3. Define parameters:
*523fa7a6SAndroid Build Coastguard Worker    ```python
*523fa7a6SAndroid Build Coastguard Worker        normalized_shapes = node.args[1]
*523fa7a6SAndroid Build Coastguard Worker        if len(normalized_shapes) != 1:
*523fa7a6SAndroid Build Coastguard Worker            print("QNN only supports normalized output with rank 1")
*523fa7a6SAndroid Build Coastguard Worker            return
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        axes = [len(input_tensor.shape) - 1]
*523fa7a6SAndroid Build Coastguard Worker        axes_shape = [len(axes)]
*523fa7a6SAndroid Build Coastguard Worker        epsilon = node.args[4]
*523fa7a6SAndroid Build Coastguard Worker    ```
*523fa7a6SAndroid Build Coastguard Worker    Here you can see the constraint introduced by Qualcomm AI Engine Direct. Unlike PyTorch's LayerNorm operator, QNN can only normalize input into 1-D tensor. Therefore we will have log to remind user and return the program directly, this gesture will be considered as validation failure in partitioner and will fallback this operator to CPU.<br/>
*523fa7a6SAndroid Build Coastguard Worker    When passing tensor type parameters via pybind interface, it's also required to ship extra information like tensor shape in list form. e.g. `axes_shape = [len(axes)]`. More details will be provided in coming steps.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker4. Define output tensor:
*523fa7a6SAndroid Build Coastguard Worker    ```python
*523fa7a6SAndroid Build Coastguard Worker        output_tensor = self.get_tensor(node, node, 0)
*523fa7a6SAndroid Build Coastguard Worker        output_tensor_wrapper = self.define_tensor(
*523fa7a6SAndroid Build Coastguard Worker            node,
*523fa7a6SAndroid Build Coastguard Worker            output_tensor,
*523fa7a6SAndroid Build Coastguard Worker            PyQnnWrapper.Qnn_TensorType_t.QNN_TENSOR_TYPE_NATIVE,
*523fa7a6SAndroid Build Coastguard Worker            nodes_to_wrappers,
*523fa7a6SAndroid Build Coastguard Worker            is_input_tensor=False,
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker    ```
*523fa7a6SAndroid Build Coastguard Worker    Althought the input / output activations might map to the graph IOs (a.k.a. user inputs / outputs) with corresponding type   `QNN_TENSOR_TYPE_APP_READ` / `QNN_TENSOR_TYPE_APP_WRITE`. Users are still expected to have `QNN_TENSOR_TYPE_NATIVE` for all nodes' IOs and leave the  detection logic handled inside `define_tensor` method.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker5. Generate operator object in QNN graph:
*523fa7a6SAndroid Build Coastguard Worker    ```python
*523fa7a6SAndroid Build Coastguard Worker        layer_norm_op = PyQnnWrapper.PyQnnOpWrapper(
*523fa7a6SAndroid Build Coastguard Worker            node.name,
*523fa7a6SAndroid Build Coastguard Worker            QNN_OP_PACKAGE_NAME_QTI_AISW,
*523fa7a6SAndroid Build Coastguard Worker            OpLayerNorm.op_name,
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker    ```
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker6. Pass IO tensors to operator object:
*523fa7a6SAndroid Build Coastguard Worker    ```python
*523fa7a6SAndroid Build Coastguard Worker        layer_norm_op.AddInputTensors(
*523fa7a6SAndroid Build Coastguard Worker            [input_tensor_wrapper, weight_tensor_wrapper, bias_tensor_wrapper]
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker        layer_norm_op.AddOutputTensors([output_tensor_wrapper])
*523fa7a6SAndroid Build Coastguard Worker    ```
*523fa7a6SAndroid Build Coastguard Worker    The IO tensor objects created before are gathered up and shipped to operator object.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker7. Pass parameters to operator object:
*523fa7a6SAndroid Build Coastguard Worker    ```python
*523fa7a6SAndroid Build Coastguard Worker        layer_norm_op.AddScalarParam(
*523fa7a6SAndroid Build Coastguard Worker            OpLayerNorm.param_epsilon,
*523fa7a6SAndroid Build Coastguard Worker            PyQnnWrapper.Qnn_DataType_t.QNN_DATATYPE_FLOAT_32,
*523fa7a6SAndroid Build Coastguard Worker            {QCOM_DATA: np.float32(epsilon)},
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker        layer_norm_op.AddTensorParam(
*523fa7a6SAndroid Build Coastguard Worker            OpLayerNorm.param_axes,
*523fa7a6SAndroid Build Coastguard Worker            PyQnnWrapper.Qnn_DataType_t.QNN_DATATYPE_UINT_32,
*523fa7a6SAndroid Build Coastguard Worker            len(axis_shape),
*523fa7a6SAndroid Build Coastguard Worker            axis_shape,
*523fa7a6SAndroid Build Coastguard Worker            np.array(axis, dtype=np.uint32),
*523fa7a6SAndroid Build Coastguard Worker            True,
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker    ```
*523fa7a6SAndroid Build Coastguard Worker    By checking the `Shape` property of parameter in [Qualcomm AI Engine Direct Manual](#qualcomm-ai-engine-direct), it should be clear which API to be used. e.g.:
*523fa7a6SAndroid Build Coastguard Worker    - "epsilon" > __Shape__: scalar
*523fa7a6SAndroid Build Coastguard Worker    - "axes" > __Shape__: 1D of shape[M]
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    The function signature of AddScalarParam is:
*523fa7a6SAndroid Build Coastguard Worker    - **name**: string maps to the operator name in Qualcomm AI Engine Direct manual
*523fa7a6SAndroid Build Coastguard Worker    - **data_type**: type compatible with QNN SDK, e.g. `QNN_DATATYPE_FLOAT_32`, `QNN_DATATYPE_UINT_32`, etc.
*523fa7a6SAndroid Build Coastguard Worker    - **attr**: dictionary for shipping data, currently only `QCOM_DATA` key is used
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    The function signature of AddTensorParam is:
*523fa7a6SAndroid Build Coastguard Worker    - **name**: string maps to the operator name in Qualcomm AI Engine Direct manual
*523fa7a6SAndroid Build Coastguard Worker    - **data_type**: type compatible with QNN SDK, e.g. `QNN_DATATYPE_FLOAT_32`, `QNN_DATATYPE_UINT_32`, etc.
*523fa7a6SAndroid Build Coastguard Worker    - **rank**: dimensions of tensor
*523fa7a6SAndroid Build Coastguard Worker    - **dims**: shape of tensor
*523fa7a6SAndroid Build Coastguard Worker    - **data**: tesnor data
*523fa7a6SAndroid Build Coastguard Worker    - **copy_data**: user should specify to True for constant parameters
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker8. Last, return operator object for partitioner to conduct validation:
*523fa7a6SAndroid Build Coastguard Worker    ```python
*523fa7a6SAndroid Build Coastguard Worker        return layer_norm_op
*523fa7a6SAndroid Build Coastguard Worker    ```
*523fa7a6SAndroid Build Coastguard Worker    Also update the `__init__.py` for `register_node_visitor` to work properly:
*523fa7a6SAndroid Build Coastguard Worker    ```python
*523fa7a6SAndroid Build Coastguard Worker    from . import (
*523fa7a6SAndroid Build Coastguard Worker        ...
*523fa7a6SAndroid Build Coastguard Worker        op_index_put,
*523fa7a6SAndroid Build Coastguard Worker        # please insert codes in alphabetical order
*523fa7a6SAndroid Build Coastguard Worker        op_layer_norm,
*523fa7a6SAndroid Build Coastguard Worker        op_linear,
*523fa7a6SAndroid Build Coastguard Worker        ...
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    __all__ = [
*523fa7a6SAndroid Build Coastguard Worker        ...
*523fa7a6SAndroid Build Coastguard Worker        op_index_put,
*523fa7a6SAndroid Build Coastguard Worker        # please insert codes in alphabetical order
*523fa7a6SAndroid Build Coastguard Worker        op_layer_norm,
*523fa7a6SAndroid Build Coastguard Worker        op_linear,
*523fa7a6SAndroid Build Coastguard Worker        ...
*523fa7a6SAndroid Build Coastguard Worker    ]
*523fa7a6SAndroid Build Coastguard Worker    ```
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker### Quantizer Annotation
*523fa7a6SAndroid Build Coastguard WorkerThe operator now should be functional for Qualcomm backends. For operator to work in fixed-precision, we should also make `QnnQuantizer` to correctly insert observers for recording calibrated encodings. Please read more on the [Quantization Annotation Tutorial](../quantizer//README.md).
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker## Issues
*523fa7a6SAndroid Build Coastguard WorkerPlease refer to the [issue section](../README.md#issues) for more information.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker## Pull Requests
*523fa7a6SAndroid Build Coastguard WorkerPlease refer to the [PR section](../README.md#pull-requests) for more information.