qualcomm/utils/utils.py

*523fa7a6SAndroid Build Coastguard Worker# Copyright (c) Qualcomm Innovation Center, Inc.
*523fa7a6SAndroid Build Coastguard Worker# All rights reserved
*523fa7a6SAndroid Build Coastguard Worker#
*523fa7a6SAndroid Build Coastguard Worker# This source code is licensed under the BSD-style license found in the
*523fa7a6SAndroid Build Coastguard Worker# LICENSE file in the root directory of this source tree.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerimport operator
*523fa7a6SAndroid Build Coastguard Workerimport warnings
*523fa7a6SAndroid Build Coastguard Workerfrom collections import OrderedDict
*523fa7a6SAndroid Build Coastguard Workerfrom typing import Callable, Dict, FrozenSet, List, Tuple
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerimport executorch.backends.qualcomm.python.PyQnnManagerAdaptor as PyQnnManagerAdaptor
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerimport executorch.exir as exir
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerimport torch
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.annotate_and_quant_scalar import (
*523fa7a6SAndroid Build Coastguard Worker    AnnotateAndQuantScalar,
*523fa7a6SAndroid Build Coastguard Worker)
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.annotate_decomposed import AnnotateDecomposed
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.annotate_quant_attrs import AnnotateQuantAttrs
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.convert_binary_op_with_scalar import (
*523fa7a6SAndroid Build Coastguard Worker    ConvertBinaryOpsWithScalar,
*523fa7a6SAndroid Build Coastguard Worker)
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.convert_bmm_to_matmul import (
*523fa7a6SAndroid Build Coastguard Worker    ConvertBmmToMatmul,
*523fa7a6SAndroid Build Coastguard Worker)
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.convert_interpolate_with_upsample2d import (
*523fa7a6SAndroid Build Coastguard Worker    ConvertInterpolateWithUpsample2D,
*523fa7a6SAndroid Build Coastguard Worker)
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.convert_prelu import ConvertPReLU
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.convert_to_linear import ConvertToLinear
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.expand_broadcast_tensor_shape import (
*523fa7a6SAndroid Build Coastguard Worker    ExpandBroadcastTensorShape,
*523fa7a6SAndroid Build Coastguard Worker)
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.fold_qdq import FoldQDQ
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.i64_to_i32 import I64toI32
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.layout_transform import LayoutTransform
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.recompose_pixel_unshuffle import (
*523fa7a6SAndroid Build Coastguard Worker    RecomposePixelUnshuffle,
*523fa7a6SAndroid Build Coastguard Worker)
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.recompose_rms_norm import RecomposeRmsNorm
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.remove_redundancy import RemoveRedundancy
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm._passes.replace_index_put_input import (
*523fa7a6SAndroid Build Coastguard Worker    ReplaceIndexPutInput,
*523fa7a6SAndroid Build Coastguard Worker)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm.builders.node_visitor import (
*523fa7a6SAndroid Build Coastguard Worker    QNN_QUANT_TYPE_MAP,
*523fa7a6SAndroid Build Coastguard Worker    QNN_TENSOR_TYPE_MAP,
*523fa7a6SAndroid Build Coastguard Worker)
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm.builders.qnn_constants import OpContextLoader
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm.partition.qnn_partitioner import (
*523fa7a6SAndroid Build Coastguard Worker    generate_qnn_executorch_option,
*523fa7a6SAndroid Build Coastguard Worker    QnnPartitioner,
*523fa7a6SAndroid Build Coastguard Worker)
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm.serialization.qc_schema import (
*523fa7a6SAndroid Build Coastguard Worker    _soc_info_table,
*523fa7a6SAndroid Build Coastguard Worker    HtpArch,
*523fa7a6SAndroid Build Coastguard Worker    QcomChipset,
*523fa7a6SAndroid Build Coastguard Worker    QnnExecuTorchBackendOptions,
*523fa7a6SAndroid Build Coastguard Worker    QnnExecuTorchBackendType,
*523fa7a6SAndroid Build Coastguard Worker    QnnExecuTorchHtpBackendOptions,
*523fa7a6SAndroid Build Coastguard Worker    QnnExecuTorchHtpPerformanceMode,
*523fa7a6SAndroid Build Coastguard Worker    QnnExecuTorchHtpPrecision,
*523fa7a6SAndroid Build Coastguard Worker    QnnExecuTorchLogLevel,
*523fa7a6SAndroid Build Coastguard Worker    QnnExecuTorchOptions,
*523fa7a6SAndroid Build Coastguard Worker    QnnExecuTorchProfileLevel,
*523fa7a6SAndroid Build Coastguard Worker)
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm.serialization.qc_schema_serialize import (
*523fa7a6SAndroid Build Coastguard Worker    flatbuffer_to_option,
*523fa7a6SAndroid Build Coastguard Worker    option_to_flatbuffer,
*523fa7a6SAndroid Build Coastguard Worker)
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.backends.qualcomm.utils.constants import (
*523fa7a6SAndroid Build Coastguard Worker    QCOM_PASS_EXPAND_BROADCAST_SHAPE,
*523fa7a6SAndroid Build Coastguard Worker    QCOM_PASS_SKIP_ADVANCED_REQUANT,
*523fa7a6SAndroid Build Coastguard Worker    QCOM_QNN_COMPILE_SPEC,
*523fa7a6SAndroid Build Coastguard Worker    QCOM_QUANTIZED_IO,
*523fa7a6SAndroid Build Coastguard Worker)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.exir import (
*523fa7a6SAndroid Build Coastguard Worker    EdgeCompileConfig,
*523fa7a6SAndroid Build Coastguard Worker    ExecutorchProgramManager,
*523fa7a6SAndroid Build Coastguard Worker    ExirExportedProgram,
*523fa7a6SAndroid Build Coastguard Worker    to_edge,
*523fa7a6SAndroid Build Coastguard Worker)
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.exir.backend.compile_spec_schema import CompileSpec
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.exir.capture import ExecutorchBackendConfig
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.exir.lowered_backend_module import LoweredBackendModule
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.exir.program._program import _get_updated_graph_signature
*523fa7a6SAndroid Build Coastguard Workerfrom torch._decomp import core_aten_decompositions as torch_core_aten_decompositions
*523fa7a6SAndroid Build Coastguard Workerfrom torch.export.exported_program import ExportedProgram
*523fa7a6SAndroid Build Coastguard Workerfrom torch.fx import passes
*523fa7a6SAndroid Build Coastguard Workerfrom torch.fx.passes.operator_support import OperatorSupportBase
*523fa7a6SAndroid Build Coastguard Workerfrom torch.library import Library
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerclass _AnnotationSkipper(OperatorSupportBase):
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    Class used to partition out unwanted graph nodes.
*523fa7a6SAndroid Build Coastguard Worker    e.g. - nodes are prevented from quantization annotation
*523fa7a6SAndroid Build Coastguard Worker         - nodes have been grouped together as a submodule
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    Attributes
*523fa7a6SAndroid Build Coastguard Worker    ----------
*523fa7a6SAndroid Build Coastguard Worker    fp_node_id_set : set
*523fa7a6SAndroid Build Coastguard Worker        a set contains nodes' name to be left in fp precision
*523fa7a6SAndroid Build Coastguard Worker    fp_node_op_set : set
*523fa7a6SAndroid Build Coastguard Worker        a set contains nodes' target (aten dialect) to be left in fp precision
*523fa7a6SAndroid Build Coastguard Worker    skip_annotated_submodule : bool
*523fa7a6SAndroid Build Coastguard Worker        flag to skip annotated submodule or not
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    Methods
*523fa7a6SAndroid Build Coastguard Worker    -------
*523fa7a6SAndroid Build Coastguard Worker    should_delegate(n: torch.fx.Node)
*523fa7a6SAndroid Build Coastguard Worker        identify the residual nodes haven't be lowered with fixed-precision
*523fa7a6SAndroid Build Coastguard Worker    should_skip(n: torch.fx.Node)
*523fa7a6SAndroid Build Coastguard Worker        identify the nodes should be kept out with fixed-precision or not
*523fa7a6SAndroid Build Coastguard Worker    is_node_supported(_, node: torch.fx.Node)
*523fa7a6SAndroid Build Coastguard Worker        overridden method for graph partitioning
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def __init__(
*523fa7a6SAndroid Build Coastguard Worker        self,
*523fa7a6SAndroid Build Coastguard Worker        fp_node_id_set: set = None,
*523fa7a6SAndroid Build Coastguard Worker        fp_node_op_set: set = None,
*523fa7a6SAndroid Build Coastguard Worker        skip_annotated_submodule: bool = False,
*523fa7a6SAndroid Build Coastguard Worker    ):
*523fa7a6SAndroid Build Coastguard Worker        self.fp_node_id_set = fp_node_id_set
*523fa7a6SAndroid Build Coastguard Worker        self.fp_node_op_set = fp_node_op_set
*523fa7a6SAndroid Build Coastguard Worker        self.skip_annotated_submodule = skip_annotated_submodule
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def should_delegate(self, n: torch.fx.Node):
*523fa7a6SAndroid Build Coastguard Worker        return n.op == "call_function" and n.target != operator.getitem
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def should_skip(self, n: torch.fx.Node):
*523fa7a6SAndroid Build Coastguard Worker        return n.name in self.fp_node_id_set or n.target in self.fp_node_op_set
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def is_node_supported(self, _, node: torch.fx.Node) -> bool:
*523fa7a6SAndroid Build Coastguard Worker        if self.skip_annotated_submodule:
*523fa7a6SAndroid Build Coastguard Worker            if node.op == "get_attr":
*523fa7a6SAndroid Build Coastguard Worker                return all(self.should_delegate(user) for user in node.users)
*523fa7a6SAndroid Build Coastguard Worker            return self.should_delegate(node)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        if any(
*523fa7a6SAndroid Build Coastguard Worker            [
*523fa7a6SAndroid Build Coastguard Worker                node.op in ("placeholder", "output"),
*523fa7a6SAndroid Build Coastguard Worker                self.should_skip(node),
*523fa7a6SAndroid Build Coastguard Worker                # check if parameters belong to fallbacked operator
*523fa7a6SAndroid Build Coastguard Worker                (
*523fa7a6SAndroid Build Coastguard Worker                    node.op == "get_attr"
*523fa7a6SAndroid Build Coastguard Worker                    and all(self.should_skip(user) for user in node.users)
*523fa7a6SAndroid Build Coastguard Worker                ),
*523fa7a6SAndroid Build Coastguard Worker            ]
*523fa7a6SAndroid Build Coastguard Worker        ):
*523fa7a6SAndroid Build Coastguard Worker            print(f"[QNN Quantizer Annotation]: {node.name} | Skipped")
*523fa7a6SAndroid Build Coastguard Worker            return False
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        return True
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef qnn_capture_config():
*523fa7a6SAndroid Build Coastguard Worker    return exir.CaptureConfig(enable_aot=True)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef qnn_edge_config() -> exir.EdgeCompileConfig:
*523fa7a6SAndroid Build Coastguard Worker    return exir.EdgeCompileConfig(
*523fa7a6SAndroid Build Coastguard Worker        _check_ir_validity=False,
*523fa7a6SAndroid Build Coastguard Worker        _skip_dim_order=True,  # TODO(T182928844): Delegate dim order op to backend.
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef convert_linear_to_conv2d(module: torch.nn.Module):
*523fa7a6SAndroid Build Coastguard Worker    class Conv2D(torch.nn.Module):
*523fa7a6SAndroid Build Coastguard Worker        def __init__(self, weight, bias=None):
*523fa7a6SAndroid Build Coastguard Worker            super().__init__()
*523fa7a6SAndroid Build Coastguard Worker            use_bias = bias is not None
*523fa7a6SAndroid Build Coastguard Worker            self.conv = torch.nn.Conv2d(
*523fa7a6SAndroid Build Coastguard Worker                in_channels=weight.shape[0],
*523fa7a6SAndroid Build Coastguard Worker                out_channels=weight.shape[1],
*523fa7a6SAndroid Build Coastguard Worker                kernel_size=1,
*523fa7a6SAndroid Build Coastguard Worker                padding=0,
*523fa7a6SAndroid Build Coastguard Worker                bias=use_bias,
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker            self.conv.weight = torch.nn.Parameter(weight.reshape(*weight.shape, 1, 1))
*523fa7a6SAndroid Build Coastguard Worker            if use_bias:
*523fa7a6SAndroid Build Coastguard Worker                self.conv.bias = torch.nn.Parameter(bias)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        def forward(self, x):
*523fa7a6SAndroid Build Coastguard Worker            rank = x.dim()
*523fa7a6SAndroid Build Coastguard Worker            x = x.unsqueeze(-1) if rank == 3 else x.reshape(1, *x.shape, 1)
*523fa7a6SAndroid Build Coastguard Worker            x = torch.transpose(x, 1, 2)
*523fa7a6SAndroid Build Coastguard Worker            res = self.conv(x)
*523fa7a6SAndroid Build Coastguard Worker            res = torch.transpose(res, 1, 2)
*523fa7a6SAndroid Build Coastguard Worker            res = res.squeeze(-1) if rank == 3 else res.reshape(*res.shape[1:3])
*523fa7a6SAndroid Build Coastguard Worker            return res
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def replace_linear(module: torch.nn.Module):
*523fa7a6SAndroid Build Coastguard Worker        attr_strs = dir(module)
*523fa7a6SAndroid Build Coastguard Worker        if isinstance(module, torch.nn.ModuleList):
*523fa7a6SAndroid Build Coastguard Worker            attr_strs += [str(i) for i in range(len(module))]
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        for attr_str in attr_strs:
*523fa7a6SAndroid Build Coastguard Worker            target_attr = getattr(module, attr_str)
*523fa7a6SAndroid Build Coastguard Worker            if isinstance(target_attr, torch.nn.Linear):
*523fa7a6SAndroid Build Coastguard Worker                setattr(module, attr_str, Conv2D(target_attr.weight, target_attr.bias))
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        for _, sub_module in module.named_children():
*523fa7a6SAndroid Build Coastguard Worker            sub_module = replace_linear(sub_module)
*523fa7a6SAndroid Build Coastguard Worker        return module
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    return replace_linear(module)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef update_spill_fill_size(
*523fa7a6SAndroid Build Coastguard Worker    exported_program: ExportedProgram | List[LoweredBackendModule],
*523fa7a6SAndroid Build Coastguard Worker):
*523fa7a6SAndroid Build Coastguard Worker    # check if user specifies to use multi_contexts
*523fa7a6SAndroid Build Coastguard Worker    # this is a generic approach in case there exists multiple backends
*523fa7a6SAndroid Build Coastguard Worker    def get_program_info(program):
*523fa7a6SAndroid Build Coastguard Worker        def process_exported_program(prog):
*523fa7a6SAndroid Build Coastguard Worker            max_sf_buf_size, module_map = 0, {}
*523fa7a6SAndroid Build Coastguard Worker            for _, m in prog.graph_module._modules.items():
*523fa7a6SAndroid Build Coastguard Worker                # currently only 1 compile spec is expected in each partition
*523fa7a6SAndroid Build Coastguard Worker                options = flatbuffer_to_option(m.compile_specs[0].value)
*523fa7a6SAndroid Build Coastguard Worker                if (
*523fa7a6SAndroid Build Coastguard Worker                    options.backend_options.backend_type
*523fa7a6SAndroid Build Coastguard Worker                    == QnnExecuTorchBackendType.kHtpBackend
*523fa7a6SAndroid Build Coastguard Worker                    and options.backend_options.htp_options.use_multi_contexts
*523fa7a6SAndroid Build Coastguard Worker                ):
*523fa7a6SAndroid Build Coastguard Worker                    qnn_mgr = PyQnnManagerAdaptor.QnnManager(
*523fa7a6SAndroid Build Coastguard Worker                        m.compile_specs[0].value, m.processed_bytes
*523fa7a6SAndroid Build Coastguard Worker                    )
*523fa7a6SAndroid Build Coastguard Worker                    assert qnn_mgr.Init().value == 0, "failed to load context binary"
*523fa7a6SAndroid Build Coastguard Worker                    max_sf_buf_size = max(
*523fa7a6SAndroid Build Coastguard Worker                        max_sf_buf_size, qnn_mgr.GetSpillFillBufferSize()
*523fa7a6SAndroid Build Coastguard Worker                    )
*523fa7a6SAndroid Build Coastguard Worker                    module_map[m] = options
*523fa7a6SAndroid Build Coastguard Worker                    qnn_mgr.Destroy()
*523fa7a6SAndroid Build Coastguard Worker            return max_sf_buf_size, module_map
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        def process_lowered_module(module):
*523fa7a6SAndroid Build Coastguard Worker            qnn_mgr = PyQnnManagerAdaptor.QnnManager(
*523fa7a6SAndroid Build Coastguard Worker                module.compile_specs[0].value, module.processed_bytes
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker            assert qnn_mgr.Init().value == 0, "failed to load context binary"
*523fa7a6SAndroid Build Coastguard Worker            spill_fill_size = qnn_mgr.GetSpillFillBufferSize()
*523fa7a6SAndroid Build Coastguard Worker            qnn_mgr.Destroy()
*523fa7a6SAndroid Build Coastguard Worker            return spill_fill_size, {
*523fa7a6SAndroid Build Coastguard Worker                module: flatbuffer_to_option(module.compile_specs[0].value)
*523fa7a6SAndroid Build Coastguard Worker            }
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        dispatch = {
*523fa7a6SAndroid Build Coastguard Worker            ExportedProgram: process_exported_program,
*523fa7a6SAndroid Build Coastguard Worker            LoweredBackendModule: process_lowered_module,
*523fa7a6SAndroid Build Coastguard Worker        }
*523fa7a6SAndroid Build Coastguard Worker        return dispatch[type(program)](program)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def update_program(max_sf_buf_size, module_map):
*523fa7a6SAndroid Build Coastguard Worker        def set_spec(module, options):
*523fa7a6SAndroid Build Coastguard Worker            spec = CompileSpec(QCOM_QNN_COMPILE_SPEC, option_to_flatbuffer(options))
*523fa7a6SAndroid Build Coastguard Worker            if isinstance(module, ExportedProgram):
*523fa7a6SAndroid Build Coastguard Worker                module.compile_specs[0] = spec
*523fa7a6SAndroid Build Coastguard Worker            else:
*523fa7a6SAndroid Build Coastguard Worker                module._compile_specs[0] = spec
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        for module, options in module_map.items():
*523fa7a6SAndroid Build Coastguard Worker            options.backend_options.htp_options.max_sf_buf_size = max_sf_buf_size
*523fa7a6SAndroid Build Coastguard Worker            set_spec(module, options)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    if isinstance(exported_program, list):
*523fa7a6SAndroid Build Coastguard Worker        max_sf_size, modules_map = 0, {}
*523fa7a6SAndroid Build Coastguard Worker        for prog in exported_program:
*523fa7a6SAndroid Build Coastguard Worker            max_sf_buf_size, module_map = get_program_info(prog)
*523fa7a6SAndroid Build Coastguard Worker            max_sf_size = max(max_sf_size, max_sf_buf_size)
*523fa7a6SAndroid Build Coastguard Worker            modules_map.update(module_map)
*523fa7a6SAndroid Build Coastguard Worker        update_program(max_sf_size, modules_map)
*523fa7a6SAndroid Build Coastguard Worker    else:
*523fa7a6SAndroid Build Coastguard Worker        update_program(*get_program_info(exported_program))
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_decomp_table() -> Dict[torch._ops.OperatorBase, Callable]:
*523fa7a6SAndroid Build Coastguard Worker    source_decompositions = torch_core_aten_decompositions()
*523fa7a6SAndroid Build Coastguard Worker    # The below super ops are supported by QNN
*523fa7a6SAndroid Build Coastguard Worker    remove_decompositions = [
*523fa7a6SAndroid Build Coastguard Worker        torch.ops.aten.pixel_shuffle.default,
*523fa7a6SAndroid Build Coastguard Worker        torch.ops.aten.pixel_unshuffle.default,
*523fa7a6SAndroid Build Coastguard Worker        torch.ops.aten.hardsigmoid.default,
*523fa7a6SAndroid Build Coastguard Worker        torch.ops.aten.hardswish.default,
*523fa7a6SAndroid Build Coastguard Worker        torch.ops.aten._safe_softmax.default,
*523fa7a6SAndroid Build Coastguard Worker    ]
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    for key in remove_decompositions:
*523fa7a6SAndroid Build Coastguard Worker        source_decompositions.pop(key)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    return source_decompositions
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef _transform(
*523fa7a6SAndroid Build Coastguard Worker    edge_program: ExportedProgram, custom_pass_config: FrozenSet[str] = frozenset()
*523fa7a6SAndroid Build Coastguard Worker) -> ExportedProgram:
*523fa7a6SAndroid Build Coastguard Worker    # currently ExirExportedProgram.transform does not accept
*523fa7a6SAndroid Build Coastguard Worker    # changes of input number which was caused by FoldQDQ
*523fa7a6SAndroid Build Coastguard Worker    # apply passes one by one here to avoid IR capture failure
*523fa7a6SAndroid Build Coastguard Worker    graph_module = edge_program.graph_module
*523fa7a6SAndroid Build Coastguard Worker    RemoveRedundancy()(graph_module)
*523fa7a6SAndroid Build Coastguard Worker    RecomposePixelUnshuffle()(graph_module)
*523fa7a6SAndroid Build Coastguard Worker    RecomposeRmsNorm()(graph_module)
*523fa7a6SAndroid Build Coastguard Worker    ConvertToLinear()(graph_module)
*523fa7a6SAndroid Build Coastguard Worker    ConvertPReLU(edge_program)(graph_module)
*523fa7a6SAndroid Build Coastguard Worker    ConvertBmmToMatmul()(graph_module)
*523fa7a6SAndroid Build Coastguard Worker    ConvertInterpolateWithUpsample2D()(graph_module)
*523fa7a6SAndroid Build Coastguard Worker    I64toI32(edge_program)(graph_module)
*523fa7a6SAndroid Build Coastguard Worker    AnnotateQuantAttrs(
*523fa7a6SAndroid Build Coastguard Worker        edge_program, QCOM_PASS_SKIP_ADVANCED_REQUANT in custom_pass_config
*523fa7a6SAndroid Build Coastguard Worker    )(graph_module)
*523fa7a6SAndroid Build Coastguard Worker    AnnotateAndQuantScalar(edge_program)(graph_module)
*523fa7a6SAndroid Build Coastguard Worker    AnnotateDecomposed(edge_program)(graph_module)
*523fa7a6SAndroid Build Coastguard Worker    FoldQDQ()(graph_module)
*523fa7a6SAndroid Build Coastguard Worker    # this pass is not necessary for network without layout-sensitive ops
*523fa7a6SAndroid Build Coastguard Worker    # enable defaultly will introduce overhead from extra view_copy nodes
*523fa7a6SAndroid Build Coastguard Worker    if QCOM_PASS_EXPAND_BROADCAST_SHAPE in custom_pass_config:
*523fa7a6SAndroid Build Coastguard Worker        ExpandBroadcastTensorShape()(graph_module)
*523fa7a6SAndroid Build Coastguard Worker    LayoutTransform(edge_program)(graph_module)
*523fa7a6SAndroid Build Coastguard Worker    ReplaceIndexPutInput(edge_program)(graph_module)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    # Since QDQ nodes are stripped, update graph signature again to validate program
*523fa7a6SAndroid Build Coastguard Worker    edge_program._graph_signature = _get_updated_graph_signature(
*523fa7a6SAndroid Build Coastguard Worker        edge_program.graph_signature,
*523fa7a6SAndroid Build Coastguard Worker        edge_program.graph_module,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    edge_program._validate()
*523fa7a6SAndroid Build Coastguard Worker    return edge_program
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef capture_program(
*523fa7a6SAndroid Build Coastguard Worker    module: torch.nn.Module,
*523fa7a6SAndroid Build Coastguard Worker    inputs: Tuple[torch.Tensor],
*523fa7a6SAndroid Build Coastguard Worker    custom_pass_config: FrozenSet[str] = frozenset(),
*523fa7a6SAndroid Build Coastguard Worker) -> exir.ExirExportedProgram:
*523fa7a6SAndroid Build Coastguard Worker    ep = torch.export.export(module, inputs)
*523fa7a6SAndroid Build Coastguard Worker    decomposed_ep = ep.run_decompositions(get_decomp_table())
*523fa7a6SAndroid Build Coastguard Worker    # We choose call_operator by target in ConvertBinaryOpsWithScalar
*523fa7a6SAndroid Build Coastguard Worker    # because it is the same source_fn_stack for MultiheadAttention
*523fa7a6SAndroid Build Coastguard Worker    # TODO: Should modify the scalar op in the op builder instead of
*523fa7a6SAndroid Build Coastguard Worker    #       using transformation
*523fa7a6SAndroid Build Coastguard Worker    core_ep = ExirExportedProgram(decomposed_ep, False)
*523fa7a6SAndroid Build Coastguard Worker    core_ep.transform(ConvertBinaryOpsWithScalar())
*523fa7a6SAndroid Build Coastguard Worker    edge_ep = core_ep.to_edge(qnn_edge_config())
*523fa7a6SAndroid Build Coastguard Worker    _transform(edge_ep.exported_program, custom_pass_config)
*523fa7a6SAndroid Build Coastguard Worker    return edge_ep
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef _partition_graph_into_submodules(gm, subgm_tag, subgm_cb, ptn):
*523fa7a6SAndroid Build Coastguard Worker    from torch.fx.passes.utils.fuser_utils import (
*523fa7a6SAndroid Build Coastguard Worker        erase_nodes,
*523fa7a6SAndroid Build Coastguard Worker        fuse_as_graphmodule,
*523fa7a6SAndroid Build Coastguard Worker        insert_subgm,
*523fa7a6SAndroid Build Coastguard Worker        legalize_graph,
*523fa7a6SAndroid Build Coastguard Worker        topo_sort,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    partitions = ptn.propose_partitions()
*523fa7a6SAndroid Build Coastguard Worker    # insert meta for each partition group
*523fa7a6SAndroid Build Coastguard Worker    for i, partition in enumerate(partitions):
*523fa7a6SAndroid Build Coastguard Worker        for node in partition.nodes:
*523fa7a6SAndroid Build Coastguard Worker            node.meta[subgm_tag] = i
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    for i in range(len(partitions)):
*523fa7a6SAndroid Build Coastguard Worker        # find nodes with same group id in current graph
*523fa7a6SAndroid Build Coastguard Worker        node_list = [
*523fa7a6SAndroid Build Coastguard Worker            node for node in gm.graph.nodes if node.meta.get(subgm_tag, "") == i
*523fa7a6SAndroid Build Coastguard Worker        ]
*523fa7a6SAndroid Build Coastguard Worker        # fuse group nodes into submodule
*523fa7a6SAndroid Build Coastguard Worker        sorted_nodes = topo_sort(node_list)
*523fa7a6SAndroid Build Coastguard Worker        submodule_name = f"{subgm_tag}_{i}"
*523fa7a6SAndroid Build Coastguard Worker        subgm, orig_inputs, orig_outputs = fuse_as_graphmodule(
*523fa7a6SAndroid Build Coastguard Worker            gm, sorted_nodes, submodule_name
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker        # insert submodule & trim group nodes
*523fa7a6SAndroid Build Coastguard Worker        gm = insert_subgm(
*523fa7a6SAndroid Build Coastguard Worker            gm,
*523fa7a6SAndroid Build Coastguard Worker            subgm_cb(subgm, submodule_name),
*523fa7a6SAndroid Build Coastguard Worker            orig_inputs,
*523fa7a6SAndroid Build Coastguard Worker            orig_outputs,
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker        erase_nodes(gm, sorted_nodes)
*523fa7a6SAndroid Build Coastguard Worker        legalize_graph(gm)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    gm.recompile()
*523fa7a6SAndroid Build Coastguard Worker    return gm
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef _canonicalize_graph_with_lowered_module(gm, subgm_tag, ptn):
*523fa7a6SAndroid Build Coastguard Worker    from executorch.exir.backend.backend_api import to_backend
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    # return lowered program for user to debug
*523fa7a6SAndroid Build Coastguard Worker    exported_progs = []
*523fa7a6SAndroid Build Coastguard Worker    # partition each submodule which went through convert_pt2e
*523fa7a6SAndroid Build Coastguard Worker    for node in gm.graph.nodes:
*523fa7a6SAndroid Build Coastguard Worker        if node.op == "call_module" and subgm_tag in node.name:
*523fa7a6SAndroid Build Coastguard Worker            # obtain sample inputs through meta
*523fa7a6SAndroid Build Coastguard Worker            subgm_input = [
*523fa7a6SAndroid Build Coastguard Worker                torch.ones(arg.meta["val"].shape, dtype=arg.meta["val"].dtype)
*523fa7a6SAndroid Build Coastguard Worker                for arg in node.args
*523fa7a6SAndroid Build Coastguard Worker            ]
*523fa7a6SAndroid Build Coastguard Worker            # program meets QNN backend requirement
*523fa7a6SAndroid Build Coastguard Worker            sub_prog = capture_program(gm.get_submodule(node.name), tuple(subgm_input))
*523fa7a6SAndroid Build Coastguard Worker            # start lowering with given partitioner
*523fa7a6SAndroid Build Coastguard Worker            exported_progs.append(to_backend(sub_prog.exported_program, ptn))
*523fa7a6SAndroid Build Coastguard Worker            # replace submodule with lowered module
*523fa7a6SAndroid Build Coastguard Worker            gm.set_submodule(
*523fa7a6SAndroid Build Coastguard Worker                node.name,
*523fa7a6SAndroid Build Coastguard Worker                exported_progs[-1].graph_module,
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker            # if node has multiple outputs, getitems will be default generated
*523fa7a6SAndroid Build Coastguard Worker            if all(n.target != operator.getitem for n in node.users):
*523fa7a6SAndroid Build Coastguard Worker                with gm.graph.inserting_after(node):
*523fa7a6SAndroid Build Coastguard Worker                    getitem_node = gm.graph.call_function(
*523fa7a6SAndroid Build Coastguard Worker                        operator.getitem,
*523fa7a6SAndroid Build Coastguard Worker                        (node, 0),
*523fa7a6SAndroid Build Coastguard Worker                    )
*523fa7a6SAndroid Build Coastguard Worker                    getitem_node.meta = node.meta
*523fa7a6SAndroid Build Coastguard Worker                    node.replace_all_uses_with(
*523fa7a6SAndroid Build Coastguard Worker                        replace_with=getitem_node,
*523fa7a6SAndroid Build Coastguard Worker                        delete_user_cb=lambda user: user.target != operator.getitem,
*523fa7a6SAndroid Build Coastguard Worker                    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    gm.recompile()
*523fa7a6SAndroid Build Coastguard Worker    return gm, exported_progs
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef skip_annotation(
*523fa7a6SAndroid Build Coastguard Worker    nn_module: torch.nn.Module,
*523fa7a6SAndroid Build Coastguard Worker    quantizer,
*523fa7a6SAndroid Build Coastguard Worker    partitioner,
*523fa7a6SAndroid Build Coastguard Worker    sample_input: Tuple[torch.Tensor, ...],
*523fa7a6SAndroid Build Coastguard Worker    calibration_cb: Callable[[torch.fx.GraphModule], None],
*523fa7a6SAndroid Build Coastguard Worker    fp_node_id_set: set = None,
*523fa7a6SAndroid Build Coastguard Worker    fp_node_op_set: set = None,
*523fa7a6SAndroid Build Coastguard Worker    fallback_to_cpu: bool = True,
*523fa7a6SAndroid Build Coastguard Worker):
*523fa7a6SAndroid Build Coastguard Worker    r"""
*523fa7a6SAndroid Build Coastguard Worker    Exclude speific operators from quantizer annotation.
*523fa7a6SAndroid Build Coastguard Worker    Skipped operators will defaultly stay in CPU, set 'fallback_to_cpu'
*523fa7a6SAndroid Build Coastguard Worker    to False for trying to delegate them with FP16 precision.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    e.g.: consider following graph:
*523fa7a6SAndroid Build Coastguard Worker    bias_1 weight_1 input_1   bias_2 weight_2 input_2
*523fa7a6SAndroid Build Coastguard Worker      | (placeholder) |         | (placeholder) |
*523fa7a6SAndroid Build Coastguard Worker       \      |      /           \      |      /
*523fa7a6SAndroid Build Coastguard Worker        \     |     /             \     |     /
*523fa7a6SAndroid Build Coastguard Worker         \    |    /               \    |    /
*523fa7a6SAndroid Build Coastguard Worker           conv2d_1                 conv2d_2
*523fa7a6SAndroid Build Coastguard Worker           (torch.ops.aten.conv2d.default)
*523fa7a6SAndroid Build Coastguard Worker               \                       /
*523fa7a6SAndroid Build Coastguard Worker                \                     /
*523fa7a6SAndroid Build Coastguard Worker                 \_______     _______/
*523fa7a6SAndroid Build Coastguard Worker                         add_1
*523fa7a6SAndroid Build Coastguard Worker             (torch.ops.aten.add.default)
*523fa7a6SAndroid Build Coastguard Worker                           |
*523fa7a6SAndroid Build Coastguard Worker                         output
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    If user wants to skip convolution op by names with
*523fa7a6SAndroid Build Coastguard Worker    'skip_node_id_set' = {"conv2d_1"}
*523fa7a6SAndroid Build Coastguard Worker    "bias_1 / weight_1 / input_1 / input_2 / conv2d_1"
*523fa7a6SAndroid Build Coastguard Worker    will be partitioned out and not annotated / lowered with QNN.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    [Generated graph]
*523fa7a6SAndroid Build Coastguard Worker    bias_1 weight_1 input_1   input_2
*523fa7a6SAndroid Build Coastguard Worker      | (placeholder) |          |
*523fa7a6SAndroid Build Coastguard Worker       \      |      /           |
*523fa7a6SAndroid Build Coastguard Worker        \     |     /            |
*523fa7a6SAndroid Build Coastguard Worker         \    |    /             |
*523fa7a6SAndroid Build Coastguard Worker           conv2d_1              |
*523fa7a6SAndroid Build Coastguard Worker              \                 /
*523fa7a6SAndroid Build Coastguard Worker               \               /
*523fa7a6SAndroid Build Coastguard Worker                \             /
*523fa7a6SAndroid Build Coastguard Worker               lowered_module_1
*523fa7a6SAndroid Build Coastguard Worker            (QNN fixed precision)
*523fa7a6SAndroid Build Coastguard Worker                      |
*523fa7a6SAndroid Build Coastguard Worker                    output
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    If user wants to skip convolution op by target with
*523fa7a6SAndroid Build Coastguard Worker    'skip_node_op_set' = {torch.ops.aten.conv2d.default}
*523fa7a6SAndroid Build Coastguard Worker    "bias_1 / weight_1 / input_1 / conv2d_1,
*523fa7a6SAndroid Build Coastguard Worker     bias_2 / weight_2 / input_2 / conv2d_2"
*523fa7a6SAndroid Build Coastguard Worker    will be partitioned out and not annotated / lowered with QNN.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    [Generated graph]
*523fa7a6SAndroid Build Coastguard Worker    bias_1 weight_1 input_1   bias_2 weight_2 input_2
*523fa7a6SAndroid Build Coastguard Worker      | (placeholder) |         | (placeholder) |
*523fa7a6SAndroid Build Coastguard Worker       \      |      /           \      |      /
*523fa7a6SAndroid Build Coastguard Worker        \     |     /             \     |     /
*523fa7a6SAndroid Build Coastguard Worker         \    |    /               \    |    /
*523fa7a6SAndroid Build Coastguard Worker           conv2d_1                 conv2d_2
*523fa7a6SAndroid Build Coastguard Worker           (torch.ops.aten.conv2d.default)
*523fa7a6SAndroid Build Coastguard Worker               \                       /
*523fa7a6SAndroid Build Coastguard Worker                \                     /
*523fa7a6SAndroid Build Coastguard Worker                 \__               __/
*523fa7a6SAndroid Build Coastguard Worker                    lowered_module_1
*523fa7a6SAndroid Build Coastguard Worker                 (QNN fixed precision)
*523fa7a6SAndroid Build Coastguard Worker                           |
*523fa7a6SAndroid Build Coastguard Worker                         output
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    If user wants to delegate the skipped conv2d from above graph
*523fa7a6SAndroid Build Coastguard Worker    with 'fallback_to_cpu' = False:
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    [Generated graph]
*523fa7a6SAndroid Build Coastguard Worker       input_1         input_2
*523fa7a6SAndroid Build Coastguard Worker    (placeholder)   (placeholder)
*523fa7a6SAndroid Build Coastguard Worker          |               |
*523fa7a6SAndroid Build Coastguard Worker          \               /
*523fa7a6SAndroid Build Coastguard Worker          lowered_module_2
*523fa7a6SAndroid Build Coastguard Worker         (QNN fp16 precision)
*523fa7a6SAndroid Build Coastguard Worker                  |
*523fa7a6SAndroid Build Coastguard Worker                  |
*523fa7a6SAndroid Build Coastguard Worker          lowered_module_1
*523fa7a6SAndroid Build Coastguard Worker         (QNN fixed precision)
*523fa7a6SAndroid Build Coastguard Worker                  |
*523fa7a6SAndroid Build Coastguard Worker                output
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    Args:
*523fa7a6SAndroid Build Coastguard Worker        nn_module (torch.nn.Module): The module to be lowered.
*523fa7a6SAndroid Build Coastguard Worker        quantizer (QnnQuantizer): Instance of QnnQuantizer.
*523fa7a6SAndroid Build Coastguard Worker        partitioner (QnnPartitioner): Instance of QnnPartitioner.
*523fa7a6SAndroid Build Coastguard Worker        sample_input ((torch.Tensor, ...)): Sample input tensors for graph exporting.
*523fa7a6SAndroid Build Coastguard Worker        calibration_cb (callable): Callback function for user-defined calibration.
*523fa7a6SAndroid Build Coastguard Worker        fp_node_id_set ({str, ...}): Set of operator names to be left in fp precision.
*523fa7a6SAndroid Build Coastguard Worker        fp_node_op_set ({torch.ops.aten.xxx, ...}): Set of operator targets to be left in fp precision.
*523fa7a6SAndroid Build Coastguard Worker        fallback_to_cpu (bool): Whether to lower skipped nodes to fp16 or not.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    Returns:
*523fa7a6SAndroid Build Coastguard Worker        exported_programs: List of programs lowered to QnnBackend (quantized graphs only).
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    from executorch.backends.qualcomm.serialization.qc_schema import (
*523fa7a6SAndroid Build Coastguard Worker        QnnExecuTorchHtpPrecision,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    from executorch.backends.qualcomm.serialization.qc_schema_serialize import (
*523fa7a6SAndroid Build Coastguard Worker        flatbuffer_to_option,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    from torch.ao.quantization.quantize_pt2e import convert_pt2e, prepare_pt2e
*523fa7a6SAndroid Build Coastguard Worker    from torch.fx.passes.infra.partitioner import CapabilityBasedPartitioner
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def prepare_subgm(subgm, subgm_name):
*523fa7a6SAndroid Build Coastguard Worker        # prepare current submodule for quantization annotation
*523fa7a6SAndroid Build Coastguard Worker        subgm_prepared = prepare_pt2e(subgm, quantizer)
*523fa7a6SAndroid Build Coastguard Worker        # overwrite this attribute or name will be set to "GraphModule"
*523fa7a6SAndroid Build Coastguard Worker        # we could not identify each submodule if action is not performed
*523fa7a6SAndroid Build Coastguard Worker        subgm_prepared.__class__.__name__ = subgm_name
*523fa7a6SAndroid Build Coastguard Worker        return subgm_prepared
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    fp_node_id_set = fp_node_id_set if fp_node_id_set is not None else set()
*523fa7a6SAndroid Build Coastguard Worker    fp_node_op_set = fp_node_op_set if fp_node_op_set is not None else set()
*523fa7a6SAndroid Build Coastguard Worker    graph_module = torch.export.export(nn_module, sample_input).module()
*523fa7a6SAndroid Build Coastguard Worker    # define node support type
*523fa7a6SAndroid Build Coastguard Worker    capability_partitioner = CapabilityBasedPartitioner(
*523fa7a6SAndroid Build Coastguard Worker        graph_module,
*523fa7a6SAndroid Build Coastguard Worker        _AnnotationSkipper(fp_node_id_set, fp_node_op_set),
*523fa7a6SAndroid Build Coastguard Worker        allows_single_node_partition=True,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    subgm_tag = "annotated_group"
*523fa7a6SAndroid Build Coastguard Worker    graph_module = _partition_graph_into_submodules(
*523fa7a6SAndroid Build Coastguard Worker        gm=graph_module,
*523fa7a6SAndroid Build Coastguard Worker        subgm_tag=subgm_tag,
*523fa7a6SAndroid Build Coastguard Worker        subgm_cb=prepare_subgm,
*523fa7a6SAndroid Build Coastguard Worker        ptn=capability_partitioner,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    # perform calibration
*523fa7a6SAndroid Build Coastguard Worker    calibration_cb(graph_module)
*523fa7a6SAndroid Build Coastguard Worker    # convert sub modules which went through prepare_pt2e
*523fa7a6SAndroid Build Coastguard Worker    for node in graph_module.graph.nodes:
*523fa7a6SAndroid Build Coastguard Worker        if node.op == "call_module":
*523fa7a6SAndroid Build Coastguard Worker            graph_module.set_submodule(
*523fa7a6SAndroid Build Coastguard Worker                node.name, convert_pt2e(graph_module.get_submodule(node.name))
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker    # canonicalize graph for lowering again
*523fa7a6SAndroid Build Coastguard Worker    graph_module, exported_progs = _canonicalize_graph_with_lowered_module(
*523fa7a6SAndroid Build Coastguard Worker        gm=graph_module,
*523fa7a6SAndroid Build Coastguard Worker        subgm_tag=subgm_tag,
*523fa7a6SAndroid Build Coastguard Worker        ptn=partitioner,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    if not fallback_to_cpu:
*523fa7a6SAndroid Build Coastguard Worker        try:
*523fa7a6SAndroid Build Coastguard Worker            from executorch.exir.backend.partitioner import DelegationSpec
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker            # change HTP compiler spec for hardware to enable fp16
*523fa7a6SAndroid Build Coastguard Worker            qnn_option = generate_qnn_executorch_option(
*523fa7a6SAndroid Build Coastguard Worker                partitioner.compiler_specs_snapshot
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker            compile_option = flatbuffer_to_option(qnn_option)
*523fa7a6SAndroid Build Coastguard Worker            htp_options = compile_option.backend_options.htp_options
*523fa7a6SAndroid Build Coastguard Worker            htp_options.precision = QnnExecuTorchHtpPrecision.kHtpFp16
*523fa7a6SAndroid Build Coastguard Worker            partitioner.delegation_spec = DelegationSpec(
*523fa7a6SAndroid Build Coastguard Worker                "QnnBackend",
*523fa7a6SAndroid Build Coastguard Worker                [
*523fa7a6SAndroid Build Coastguard Worker                    CompileSpec(
*523fa7a6SAndroid Build Coastguard Worker                        QCOM_QNN_COMPILE_SPEC, option_to_flatbuffer(compile_option)
*523fa7a6SAndroid Build Coastguard Worker                    )
*523fa7a6SAndroid Build Coastguard Worker                ],
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker        except:
*523fa7a6SAndroid Build Coastguard Worker            print(
*523fa7a6SAndroid Build Coastguard Worker                "Failed to change HTP compiler spec with 'use_fp16' as True,"
*523fa7a6SAndroid Build Coastguard Worker                " skipped operators will fallback to cpu,"
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker            return graph_module, exported_progs
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # try lowering skipped operator into fp16
*523fa7a6SAndroid Build Coastguard Worker        capability_partitioner = CapabilityBasedPartitioner(
*523fa7a6SAndroid Build Coastguard Worker            graph_module,
*523fa7a6SAndroid Build Coastguard Worker            _AnnotationSkipper(skip_annotated_submodule=True),
*523fa7a6SAndroid Build Coastguard Worker            allows_single_node_partition=True,
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker        subgm_tag = "skipped_group"
*523fa7a6SAndroid Build Coastguard Worker        graph_module = _partition_graph_into_submodules(
*523fa7a6SAndroid Build Coastguard Worker            gm=graph_module,
*523fa7a6SAndroid Build Coastguard Worker            subgm_tag=subgm_tag,
*523fa7a6SAndroid Build Coastguard Worker            subgm_cb=lambda subgm, _: subgm,
*523fa7a6SAndroid Build Coastguard Worker            ptn=capability_partitioner,
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker        graph_module, exported_progs_fp = _canonicalize_graph_with_lowered_module(
*523fa7a6SAndroid Build Coastguard Worker            gm=graph_module,
*523fa7a6SAndroid Build Coastguard Worker            subgm_tag=subgm_tag,
*523fa7a6SAndroid Build Coastguard Worker            ptn=partitioner,
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker        exported_progs.extend(exported_progs_fp)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    return graph_module, exported_progs
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef from_context_binary(  # noqa: C901
*523fa7a6SAndroid Build Coastguard Worker    ctx_path: str | bytes,
*523fa7a6SAndroid Build Coastguard Worker    op_name: str,
*523fa7a6SAndroid Build Coastguard Worker    soc_model: QcomChipset = QcomChipset.SM8650,
*523fa7a6SAndroid Build Coastguard Worker    custom_info: Dict = None,
*523fa7a6SAndroid Build Coastguard Worker):
*523fa7a6SAndroid Build Coastguard Worker    from pathlib import Path
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def implement_op(custom_op, op_name, outputs):
*523fa7a6SAndroid Build Coastguard Worker        @torch.library.impl(
*523fa7a6SAndroid Build Coastguard Worker            custom_op, str(op_name), dispatch_key="CompositeExplicitAutograd"
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker        def op_impl(inputs: List[torch.Tensor]):
*523fa7a6SAndroid Build Coastguard Worker            return tuple(
*523fa7a6SAndroid Build Coastguard Worker                torch.zeros(tuple(v.shape), device="meta", dtype=v.dtype)
*523fa7a6SAndroid Build Coastguard Worker                for v in outputs.values()
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def build_graph(inputs, outputs):
*523fa7a6SAndroid Build Coastguard Worker        # custom op declaration
*523fa7a6SAndroid Build Coastguard Worker        inputs_str = "Tensor[] inputs"
*523fa7a6SAndroid Build Coastguard Worker        func_proto = f"{op_name}({inputs_str}) -> Any"
*523fa7a6SAndroid Build Coastguard Worker        custom_op = Library(OpContextLoader.namespace, "FRAGMENT")
*523fa7a6SAndroid Build Coastguard Worker        custom_op.define(func_proto)
*523fa7a6SAndroid Build Coastguard Worker        # custom op implementation
*523fa7a6SAndroid Build Coastguard Worker        implement_op(custom_op, op_name, outputs)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # model architecture mimicking context binary
*523fa7a6SAndroid Build Coastguard Worker        class Model(torch.nn.Module):
*523fa7a6SAndroid Build Coastguard Worker            def forward(self, *inputs):
*523fa7a6SAndroid Build Coastguard Worker                return getattr(
*523fa7a6SAndroid Build Coastguard Worker                    getattr(torch.ops, OpContextLoader.namespace), op_name
*523fa7a6SAndroid Build Coastguard Worker                ).default(inputs)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        model = Model()
*523fa7a6SAndroid Build Coastguard Worker        prog = torch.export.export(model, tuple(inputs.values()))
*523fa7a6SAndroid Build Coastguard Worker        # bookkeeping for variables' life cycle
*523fa7a6SAndroid Build Coastguard Worker        return {
*523fa7a6SAndroid Build Coastguard Worker            "custom_op": custom_op,
*523fa7a6SAndroid Build Coastguard Worker            "custom_module": model,
*523fa7a6SAndroid Build Coastguard Worker            "exported_program": prog,
*523fa7a6SAndroid Build Coastguard Worker        }
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def build_tensor(tensors, dtype_map):
*523fa7a6SAndroid Build Coastguard Worker        ret = OrderedDict()
*523fa7a6SAndroid Build Coastguard Worker        for t in tensors:
*523fa7a6SAndroid Build Coastguard Worker            dtype = t.GetDataType()
*523fa7a6SAndroid Build Coastguard Worker            dtype_torch = dtype_map.get(dtype, None)
*523fa7a6SAndroid Build Coastguard Worker            assert dtype_torch is not None, f"unknown qnn data type {dtype}"
*523fa7a6SAndroid Build Coastguard Worker            ret[t.GetName()] = torch.zeros(tuple(t.GetDims()), dtype=dtype_torch)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        return ret
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def preprocess_binary(ctx_bin, compiler_specs):
*523fa7a6SAndroid Build Coastguard Worker        qnn_mgr = PyQnnManagerAdaptor.QnnManager(
*523fa7a6SAndroid Build Coastguard Worker            generate_qnn_executorch_option(compiler_specs),
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker        return bytes(qnn_mgr.MakeBinaryInfo(ctx_bin))
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    # dummy compiler spec would be fine, since we're not compiling
*523fa7a6SAndroid Build Coastguard Worker    backend_options = generate_htp_compiler_spec(use_fp16=False)
*523fa7a6SAndroid Build Coastguard Worker    compiler_specs = generate_qnn_executorch_compiler_spec(
*523fa7a6SAndroid Build Coastguard Worker        soc_model=soc_model,
*523fa7a6SAndroid Build Coastguard Worker        backend_options=backend_options,
*523fa7a6SAndroid Build Coastguard Worker        is_from_context_binary=True,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    ctx_bin = (
*523fa7a6SAndroid Build Coastguard Worker        ctx_path
*523fa7a6SAndroid Build Coastguard Worker        if not isinstance(ctx_path, str)
*523fa7a6SAndroid Build Coastguard Worker        else preprocess_binary(Path(f"{ctx_path}").read_bytes(), compiler_specs)
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    dtype_map = {}
*523fa7a6SAndroid Build Coastguard Worker    for type_map in (QNN_QUANT_TYPE_MAP, QNN_TENSOR_TYPE_MAP):
*523fa7a6SAndroid Build Coastguard Worker        for k, v in type_map.items():
*523fa7a6SAndroid Build Coastguard Worker            dtype_map.setdefault(v, k)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    if custom_info is not None:
*523fa7a6SAndroid Build Coastguard Worker        # since some context binaries might fail to open on host
*523fa7a6SAndroid Build Coastguard Worker        # if they are compiled with special flags:
*523fa7a6SAndroid Build Coastguard Worker        # e.g. weight sharing
*523fa7a6SAndroid Build Coastguard Worker        # use custom information here instead
*523fa7a6SAndroid Build Coastguard Worker        inputs = build_tensor(custom_info["graph_inputs"], dtype_map)
*523fa7a6SAndroid Build Coastguard Worker        outputs = build_tensor(custom_info["graph_outputs"], dtype_map)
*523fa7a6SAndroid Build Coastguard Worker        graph_name = custom_info["graph_name"]
*523fa7a6SAndroid Build Coastguard Worker    else:
*523fa7a6SAndroid Build Coastguard Worker        # get context-binary io tensor info through qnn manager
*523fa7a6SAndroid Build Coastguard Worker        qnn_mgr = PyQnnManagerAdaptor.QnnManager(
*523fa7a6SAndroid Build Coastguard Worker            generate_qnn_executorch_option(compiler_specs),
*523fa7a6SAndroid Build Coastguard Worker            ctx_bin,
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker        assert qnn_mgr.Init().value == 0, "failed to load context binary"
*523fa7a6SAndroid Build Coastguard Worker        # assume we only have one graph in current context
*523fa7a6SAndroid Build Coastguard Worker        graph_name = qnn_mgr.GetGraphNames()[0]
*523fa7a6SAndroid Build Coastguard Worker        qnn_mgr.AllocateTensor(graph_name)
*523fa7a6SAndroid Build Coastguard Worker        inputs = build_tensor(qnn_mgr.GetGraphInputs(graph_name), dtype_map)
*523fa7a6SAndroid Build Coastguard Worker        outputs = build_tensor(qnn_mgr.GetGraphOutputs(graph_name), dtype_map)
*523fa7a6SAndroid Build Coastguard Worker        qnn_mgr.Destroy()
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    # generate graph specific for loading context
*523fa7a6SAndroid Build Coastguard Worker    bundle_prog = build_graph(inputs, outputs)
*523fa7a6SAndroid Build Coastguard Worker    bundle_prog.update({"inputs": inputs, "outputs": outputs})
*523fa7a6SAndroid Build Coastguard Worker    edge_prog_mgr = to_edge(
*523fa7a6SAndroid Build Coastguard Worker        programs={graph_name: bundle_prog["exported_program"]},
*523fa7a6SAndroid Build Coastguard Worker        # do not alter name for custom op
*523fa7a6SAndroid Build Coastguard Worker        compile_config=EdgeCompileConfig(_use_edge_ops=False),
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    # update meta with context binary
*523fa7a6SAndroid Build Coastguard Worker    for n in edge_prog_mgr._edge_programs[graph_name].graph.nodes:
*523fa7a6SAndroid Build Coastguard Worker        if n.op == "call_function" and OpContextLoader.namespace in str(n.target):
*523fa7a6SAndroid Build Coastguard Worker            n.meta[OpContextLoader.meta_ctx_bin] = ctx_bin
*523fa7a6SAndroid Build Coastguard Worker            break
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    bundle_prog["edge_program_manager"] = edge_prog_mgr.to_backend(
*523fa7a6SAndroid Build Coastguard Worker        QnnPartitioner(compiler_specs)
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    return bundle_prog
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef draw_graph(title, path, graph_module: torch.fx.GraphModule):
*523fa7a6SAndroid Build Coastguard Worker    graph = passes.graph_drawer.FxGraphDrawer(graph_module, title)
*523fa7a6SAndroid Build Coastguard Worker    with open(f"{path}/{title}.svg", "wb") as f:
*523fa7a6SAndroid Build Coastguard Worker        f.write(graph.get_dot_graph().create_svg())
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef generate_multi_graph_program(
*523fa7a6SAndroid Build Coastguard Worker    compiler_specs: List[CompileSpec],
*523fa7a6SAndroid Build Coastguard Worker    processed_bytes: List[bytes],
*523fa7a6SAndroid Build Coastguard Worker    backend_config: ExecutorchBackendConfig = None,
*523fa7a6SAndroid Build Coastguard Worker) -> ExecutorchProgramManager:
*523fa7a6SAndroid Build Coastguard Worker    # compile multiple graphs in qcir into single context binary
*523fa7a6SAndroid Build Coastguard Worker    graph_inputs, graph_outputs = {}, {}
*523fa7a6SAndroid Build Coastguard Worker    qnn_mgr = PyQnnManagerAdaptor.QnnManager(
*523fa7a6SAndroid Build Coastguard Worker        generate_qnn_executorch_option(compiler_specs), processed_bytes
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    assert qnn_mgr.Init().value == 0, "failed to load processed bytes"
*523fa7a6SAndroid Build Coastguard Worker    binary_info = bytes(qnn_mgr.Compile())
*523fa7a6SAndroid Build Coastguard Worker    assert len(binary_info) != 0, "failed to generate QNN context binary"
*523fa7a6SAndroid Build Coastguard Worker    graph_names = qnn_mgr.GetGraphNames()
*523fa7a6SAndroid Build Coastguard Worker    for graph_name in graph_names:
*523fa7a6SAndroid Build Coastguard Worker        graph_inputs[graph_name] = qnn_mgr.GetGraphInputs(graph_name)
*523fa7a6SAndroid Build Coastguard Worker        graph_outputs[graph_name] = qnn_mgr.GetGraphOutputs(graph_name)
*523fa7a6SAndroid Build Coastguard Worker    qnn_mgr.Destroy()
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    # build custom ops with different graph signatures
*523fa7a6SAndroid Build Coastguard Worker    compiler_options = flatbuffer_to_option(compiler_specs[0].value)
*523fa7a6SAndroid Build Coastguard Worker    bundle_progs = [
*523fa7a6SAndroid Build Coastguard Worker        from_context_binary(
*523fa7a6SAndroid Build Coastguard Worker            ctx_path=binary_info,
*523fa7a6SAndroid Build Coastguard Worker            op_name=f"loader_{graph_name}",
*523fa7a6SAndroid Build Coastguard Worker            soc_model=compiler_options.soc_info.soc_model,
*523fa7a6SAndroid Build Coastguard Worker            custom_info={
*523fa7a6SAndroid Build Coastguard Worker                "graph_inputs": graph_inputs[graph_name],
*523fa7a6SAndroid Build Coastguard Worker                "graph_outputs": graph_outputs[graph_name],
*523fa7a6SAndroid Build Coastguard Worker                "graph_name": graph_name,
*523fa7a6SAndroid Build Coastguard Worker            },
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker        for graph_name in graph_names
*523fa7a6SAndroid Build Coastguard Worker    ]
*523fa7a6SAndroid Build Coastguard Worker    # leverage ExecutorchProgramManager for generating pte with multi-methods
*523fa7a6SAndroid Build Coastguard Worker    edge_prog_mgr = to_edge(
*523fa7a6SAndroid Build Coastguard Worker        programs={
*523fa7a6SAndroid Build Coastguard Worker            graph_name: bundle_prog["exported_program"]
*523fa7a6SAndroid Build Coastguard Worker            for graph_name, bundle_prog in zip(graph_names, bundle_progs)
*523fa7a6SAndroid Build Coastguard Worker        },
*523fa7a6SAndroid Build Coastguard Worker        # do not alter name for custom op
*523fa7a6SAndroid Build Coastguard Worker        compile_config=EdgeCompileConfig(_use_edge_ops=False),
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    # restore meta losed in generating EdgeProgramManager
*523fa7a6SAndroid Build Coastguard Worker    for graph_name in graph_names:
*523fa7a6SAndroid Build Coastguard Worker        for n in edge_prog_mgr._edge_programs[graph_name].graph.nodes:
*523fa7a6SAndroid Build Coastguard Worker            if graph_name in n.name:
*523fa7a6SAndroid Build Coastguard Worker                n.meta[OpContextLoader.meta_ctx_bin] = binary_info
*523fa7a6SAndroid Build Coastguard Worker                break
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    return edge_prog_mgr.to_backend(QnnPartitioner(compiler_specs)).to_executorch(
*523fa7a6SAndroid Build Coastguard Worker        config=backend_config or ExecutorchBackendConfig()
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef generate_htp_compiler_spec(
*523fa7a6SAndroid Build Coastguard Worker    use_fp16: bool,
*523fa7a6SAndroid Build Coastguard Worker    use_dlbc: bool = False,
*523fa7a6SAndroid Build Coastguard Worker    use_multi_contexts: bool = False,
*523fa7a6SAndroid Build Coastguard Worker) -> QnnExecuTorchBackendOptions:
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    Helper function generating backend options for QNN HTP
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    Args:
*523fa7a6SAndroid Build Coastguard Worker        use_fp16: If true, the model is compiled to QNN HTP fp16 runtime.
*523fa7a6SAndroid Build Coastguard Worker            Note that not all SoC support QNN HTP fp16. Only premium tier SoC
*523fa7a6SAndroid Build Coastguard Worker            like Snapdragon 8 Gen 1 or newer can support HTP fp16.
*523fa7a6SAndroid Build Coastguard Worker        use_dlbc: Deep Learning Bandwidth Compression allows inputs to be
*523fa7a6SAndroid Build Coastguard Worker            compressed, such that the processing bandwidth can be lowered.
*523fa7a6SAndroid Build Coastguard Worker        use_multi_contexts: When multiple contexts are generated inside the same
*523fa7a6SAndroid Build Coastguard Worker            pte, it is possible to reserve a single spill-fill allocation that
*523fa7a6SAndroid Build Coastguard Worker            could be re-used across all the splits.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    Returns:
*523fa7a6SAndroid Build Coastguard Worker        QnnExecuTorchHtpBackendOptions: backend options for QNN HTP.
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    htp_options = QnnExecuTorchHtpBackendOptions()
*523fa7a6SAndroid Build Coastguard Worker    htp_options.precision = (
*523fa7a6SAndroid Build Coastguard Worker        QnnExecuTorchHtpPrecision.kHtpFp16
*523fa7a6SAndroid Build Coastguard Worker        if use_fp16
*523fa7a6SAndroid Build Coastguard Worker        else QnnExecuTorchHtpPrecision.kHtpQuantized
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    # This actually is not an option which can affect the compiled blob.
*523fa7a6SAndroid Build Coastguard Worker    # But we don't have other place to pass this option at execution stage.
*523fa7a6SAndroid Build Coastguard Worker    # TODO: enable voting mechanism in runtime and make this as an option
*523fa7a6SAndroid Build Coastguard Worker    htp_options.performance_mode = QnnExecuTorchHtpPerformanceMode.kHtpBurst
*523fa7a6SAndroid Build Coastguard Worker    htp_options.use_multi_contexts = use_multi_contexts
*523fa7a6SAndroid Build Coastguard Worker    htp_options.use_dlbc = use_dlbc
*523fa7a6SAndroid Build Coastguard Worker    return QnnExecuTorchBackendOptions(
*523fa7a6SAndroid Build Coastguard Worker        backend_type=QnnExecuTorchBackendType.kHtpBackend,
*523fa7a6SAndroid Build Coastguard Worker        htp_options=htp_options,
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef generate_qnn_executorch_compiler_spec(
*523fa7a6SAndroid Build Coastguard Worker    soc_model: QcomChipset,
*523fa7a6SAndroid Build Coastguard Worker    backend_options: QnnExecuTorchBackendOptions,
*523fa7a6SAndroid Build Coastguard Worker    debug: bool = False,
*523fa7a6SAndroid Build Coastguard Worker    saver: bool = False,
*523fa7a6SAndroid Build Coastguard Worker    online_prepare: bool = False,
*523fa7a6SAndroid Build Coastguard Worker    dump_intermediate_outputs: bool = False,
*523fa7a6SAndroid Build Coastguard Worker    profile: bool = False,
*523fa7a6SAndroid Build Coastguard Worker    optrace: bool = False,
*523fa7a6SAndroid Build Coastguard Worker    shared_buffer: bool = False,
*523fa7a6SAndroid Build Coastguard Worker    is_from_context_binary: bool = False,
*523fa7a6SAndroid Build Coastguard Worker    multiple_graphs: bool = False,
*523fa7a6SAndroid Build Coastguard Worker    graph_name: str = "forward",
*523fa7a6SAndroid Build Coastguard Worker) -> List[CompileSpec]:
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    Helper function generating compiler specs for Qualcomm AI Engine Direct
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    Args:
*523fa7a6SAndroid Build Coastguard Worker        soc_model: The SoC you plan to run the compiled model. Please check
*523fa7a6SAndroid Build Coastguard Worker            QcomChipset for supported SoC.
*523fa7a6SAndroid Build Coastguard Worker            SM8450 (Snapdragon 8 Gen 1)
*523fa7a6SAndroid Build Coastguard Worker            SM8475(Snapdragon 8 Gen 1+)
*523fa7a6SAndroid Build Coastguard Worker            SM8550(Snapdragon 8 Gen 2)
*523fa7a6SAndroid Build Coastguard Worker            SM8650(Snapdragon 8 Gen 3)
*523fa7a6SAndroid Build Coastguard Worker        backend_options: Options required by different backends.
*523fa7a6SAndroid Build Coastguard Worker        debug: Enable verbose logging. Disclaimer: this option must change in
*523fa7a6SAndroid Build Coastguard Worker            the near future.
*523fa7a6SAndroid Build Coastguard Worker        online_prepare: Compose QNN graph on device if set to True
*523fa7a6SAndroid Build Coastguard Worker        saver: Instead of compiling the model, run QNN Saver. Please check
*523fa7a6SAndroid Build Coastguard Worker            documents of Qualcomm AI Engine Direct SDK. This feature is usually
*523fa7a6SAndroid Build Coastguard Worker            for debugging purpose.
*523fa7a6SAndroid Build Coastguard Worker        dump_intermediate_outputs: If tensor dump is enabled, all intermediate tensors output will be dumped.
*523fa7a6SAndroid Build Coastguard Worker            This option exists for debugging accuracy issues
*523fa7a6SAndroid Build Coastguard Worker        profile: Enable profile the performance of per operator.
*523fa7a6SAndroid Build Coastguard Worker            Note that for now only support kProfileDetailed to
*523fa7a6SAndroid Build Coastguard Worker            profile the performance of each operator with cycle unit.
*523fa7a6SAndroid Build Coastguard Worker        shared_buffer: Enables usage of shared buffer between application
*523fa7a6SAndroid Build Coastguard Worker            and backend for graph I/O.
*523fa7a6SAndroid Build Coastguard Worker        is_from_context_binary: True if current graph comes from pre-built context binary.
*523fa7a6SAndroid Build Coastguard Worker        multiple_graphs: True if multiple methods are expected to have in single .pte file.
*523fa7a6SAndroid Build Coastguard Worker            Please see test cases for post-processing example.
*523fa7a6SAndroid Build Coastguard Worker        graph_name: Assign unique graph name if 'multiple_graphs' is used.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    Returns:
*523fa7a6SAndroid Build Coastguard Worker        List[CompileSpec]: Compiler specs for Qualcomm AI Engine Direct.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    Raises:
*523fa7a6SAndroid Build Coastguard Worker        ValueError: The value QcomChipset is currently not supported.
*523fa7a6SAndroid Build Coastguard Worker        ValueError: Confliction between compiler specs.
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    _supported_soc_models = {soc_model.value for soc_model in QcomChipset}
*523fa7a6SAndroid Build Coastguard Worker    if soc_model not in _supported_soc_models:
*523fa7a6SAndroid Build Coastguard Worker        raise ValueError(f"unknown SoC model for QNN: {soc_model}")
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    if profile and dump_intermediate_outputs:
*523fa7a6SAndroid Build Coastguard Worker        warnings.warn(
*523fa7a6SAndroid Build Coastguard Worker            "It is not recommended to turn on both profiling and dump_intermediate_outputs the same time"
*523fa7a6SAndroid Build Coastguard Worker            ", because dump_intermediate_outputs will cause performance drop.",
*523fa7a6SAndroid Build Coastguard Worker            stacklevel=1,
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    qnn_executorch_options = QnnExecuTorchOptions(
*523fa7a6SAndroid Build Coastguard Worker        _soc_info_table[soc_model], backend_options
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker    qnn_executorch_options.graph_name = graph_name
*523fa7a6SAndroid Build Coastguard Worker    qnn_executorch_options.log_level = (
*523fa7a6SAndroid Build Coastguard Worker        QnnExecuTorchLogLevel.kLogLevelDebug
*523fa7a6SAndroid Build Coastguard Worker        if debug
*523fa7a6SAndroid Build Coastguard Worker        else QnnExecuTorchLogLevel.kLogLevelWarn
*523fa7a6SAndroid Build Coastguard Worker    )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    qnn_executorch_options.dump_intermediate_outputs = dump_intermediate_outputs
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    if saver:
*523fa7a6SAndroid Build Coastguard Worker        qnn_executorch_options.library_path = "libQnnSaver.so"
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    if optrace:
*523fa7a6SAndroid Build Coastguard Worker        qnn_executorch_options.profile_level = QnnExecuTorchProfileLevel.kProfileOptrace
*523fa7a6SAndroid Build Coastguard Worker    elif profile:
*523fa7a6SAndroid Build Coastguard Worker        qnn_executorch_options.profile_level = (
*523fa7a6SAndroid Build Coastguard Worker            QnnExecuTorchProfileLevel.kProfileDetailed
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker    else:
*523fa7a6SAndroid Build Coastguard Worker        qnn_executorch_options.profile_level = QnnExecuTorchProfileLevel.kProfileOff
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    if (
*523fa7a6SAndroid Build Coastguard Worker        online_prepare
*523fa7a6SAndroid Build Coastguard Worker        and backend_options.backend_type == QnnExecuTorchBackendType.kHtpBackend
*523fa7a6SAndroid Build Coastguard Worker        and backend_options.htp_options.use_multi_contexts
*523fa7a6SAndroid Build Coastguard Worker    ):
*523fa7a6SAndroid Build Coastguard Worker        raise ValueError(
*523fa7a6SAndroid Build Coastguard Worker            "'use_multi_context' could not function in online prepare mode, "
*523fa7a6SAndroid Build Coastguard Worker            "please set 'online_prepare' to False"
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    qnn_executorch_options.shared_buffer = shared_buffer
*523fa7a6SAndroid Build Coastguard Worker    qnn_executorch_options.online_prepare = online_prepare
*523fa7a6SAndroid Build Coastguard Worker    qnn_executorch_options.is_from_context_binary = is_from_context_binary
*523fa7a6SAndroid Build Coastguard Worker    qnn_executorch_options.multiple_graphs = multiple_graphs
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    if multiple_graphs:
*523fa7a6SAndroid Build Coastguard Worker        # enable weight sharing mechanism if multiple graphs appear
*523fa7a6SAndroid Build Coastguard Worker        if backend_options.backend_type == QnnExecuTorchBackendType.kHtpBackend:
*523fa7a6SAndroid Build Coastguard Worker            backend_options.htp_options.use_weight_sharing = True
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    return [
*523fa7a6SAndroid Build Coastguard Worker        CompileSpec(QCOM_QNN_COMPILE_SPEC, option_to_flatbuffer(qnn_executorch_options))
*523fa7a6SAndroid Build Coastguard Worker    ]
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_soc_to_arch_map():
*523fa7a6SAndroid Build Coastguard Worker    return {
*523fa7a6SAndroid Build Coastguard Worker        "SSG2115P": HtpArch.V73,
*523fa7a6SAndroid Build Coastguard Worker        "SM8650": HtpArch.V75,
*523fa7a6SAndroid Build Coastguard Worker        "SM8550": HtpArch.V73,
*523fa7a6SAndroid Build Coastguard Worker        "SM8475": HtpArch.V69,
*523fa7a6SAndroid Build Coastguard Worker        "SM8450": HtpArch.V69,
*523fa7a6SAndroid Build Coastguard Worker        "SA8295": HtpArch.V68,
*523fa7a6SAndroid Build Coastguard Worker    }
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef get_soc_to_chipset_map():
*523fa7a6SAndroid Build Coastguard Worker    return {
*523fa7a6SAndroid Build Coastguard Worker        "SSG2115P": QcomChipset.SSG2115P,
*523fa7a6SAndroid Build Coastguard Worker        "SM8650": QcomChipset.SM8650,
*523fa7a6SAndroid Build Coastguard Worker        "SM8550": QcomChipset.SM8550,
*523fa7a6SAndroid Build Coastguard Worker        "SM8475": QcomChipset.SM8475,
*523fa7a6SAndroid Build Coastguard Worker        "SM8450": QcomChipset.SM8450,
*523fa7a6SAndroid Build Coastguard Worker        "SA8295": QcomChipset.SA8295,
*523fa7a6SAndroid Build Coastguard Worker    }
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerdef tag_quant_io(gm: torch.fx.GraphModule, get_quant_io_dtype_fn: Callable):
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    Tag io nodes which get/output quantized tensor. No need to insert q/dq in qnn_preprocess
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    for node in gm.graph.nodes:
*523fa7a6SAndroid Build Coastguard Worker        if dtype := get_quant_io_dtype_fn(node):
*523fa7a6SAndroid Build Coastguard Worker            node.meta[QCOM_QUANTIZED_IO] = dtype