benchmarks/dynamo/common.py

*da0073e9SAndroid Build Coastguard Worker#!/usr/bin/env python3
*da0073e9SAndroid Build Coastguard Workerfrom __future__ import annotations
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport abc
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport argparse
*da0073e9SAndroid Build Coastguard Workerimport collections
*da0073e9SAndroid Build Coastguard Workerimport contextlib
*da0073e9SAndroid Build Coastguard Workerimport copy
*da0073e9SAndroid Build Coastguard Workerimport csv
*da0073e9SAndroid Build Coastguard Workerimport dataclasses
*da0073e9SAndroid Build Coastguard Workerimport functools
*da0073e9SAndroid Build Coastguard Workerimport importlib
*da0073e9SAndroid Build Coastguard Workerimport itertools
*da0073e9SAndroid Build Coastguard Workerimport logging
*da0073e9SAndroid Build Coastguard Workerimport os
*da0073e9SAndroid Build Coastguard Workerimport pathlib
*da0073e9SAndroid Build Coastguard Workerimport shutil
*da0073e9SAndroid Build Coastguard Workerimport signal
*da0073e9SAndroid Build Coastguard Workerimport subprocess
*da0073e9SAndroid Build Coastguard Workerimport sys
*da0073e9SAndroid Build Coastguard Workerimport time
*da0073e9SAndroid Build Coastguard Workerimport weakref
*da0073e9SAndroid Build Coastguard Workerfrom contextlib import contextmanager
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerfrom typing import (
*da0073e9SAndroid Build Coastguard Worker    Any,
*da0073e9SAndroid Build Coastguard Worker    Callable,
*da0073e9SAndroid Build Coastguard Worker    Generator,
*da0073e9SAndroid Build Coastguard Worker    List,
*da0073e9SAndroid Build Coastguard Worker    Mapping,
*da0073e9SAndroid Build Coastguard Worker    NamedTuple,
*da0073e9SAndroid Build Coastguard Worker    Optional,
*da0073e9SAndroid Build Coastguard Worker    Sequence,
*da0073e9SAndroid Build Coastguard Worker    Tuple,
*da0073e9SAndroid Build Coastguard Worker    Type,
*da0073e9SAndroid Build Coastguard Worker    TYPE_CHECKING,
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Workerfrom typing_extensions import Self
*da0073e9SAndroid Build Coastguard Workerfrom unittest.mock import MagicMock
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport numpy as np
*da0073e9SAndroid Build Coastguard Workerimport pandas as pd
*da0073e9SAndroid Build Coastguard Workerimport psutil
*da0073e9SAndroid Build Coastguard Workerfrom scipy.stats import gmean, ttest_ind
*da0073e9SAndroid Build Coastguard Workerfrom tqdm.auto import tqdm, trange
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport torch
*da0073e9SAndroid Build Coastguard Workerimport torch._dynamo
*da0073e9SAndroid Build Coastguard Workerimport torch._dynamo.utils
*da0073e9SAndroid Build Coastguard Workerimport torch._export
*da0073e9SAndroid Build Coastguard Workerimport torch.distributed
*da0073e9SAndroid Build Coastguard Workerimport torch.multiprocessing as mp
*da0073e9SAndroid Build Coastguard Workerfrom torch._C import _has_cuda as HAS_CUDA, _has_xpu as HAS_XPU
*da0073e9SAndroid Build Coastguard Workerfrom torch._dynamo.profiler import fx_insert_profiling, Profiler
*da0073e9SAndroid Build Coastguard Workerfrom torch._dynamo.testing import (
*da0073e9SAndroid Build Coastguard Worker    dummy_fx_compile,
*da0073e9SAndroid Build Coastguard Worker    format_speedup,
*da0073e9SAndroid Build Coastguard Worker    reset_rng_state,
*da0073e9SAndroid Build Coastguard Worker    same,
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertry:
*da0073e9SAndroid Build Coastguard Worker    from torch._dynamo.utils import (
*da0073e9SAndroid Build Coastguard Worker        clone_inputs,
*da0073e9SAndroid Build Coastguard Worker        graph_break_reasons,
*da0073e9SAndroid Build Coastguard Worker        maybe_enable_compiled_autograd,
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    from torch._inductor.utils import fresh_inductor_cache
*da0073e9SAndroid Build Coastguard Workerexcept ImportError:
*da0073e9SAndroid Build Coastguard Worker    from _dynamo.utils import (
*da0073e9SAndroid Build Coastguard Worker        clone_inputs,
*da0073e9SAndroid Build Coastguard Worker        graph_break_reasons,
*da0073e9SAndroid Build Coastguard Worker        maybe_enable_compiled_autograd,
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport torch._functorch.config
*da0073e9SAndroid Build Coastguard Workerfrom torch._functorch.aot_autograd import set_model_name
*da0073e9SAndroid Build Coastguard Workerfrom torch._inductor import config as inductor_config, metrics
*da0073e9SAndroid Build Coastguard Workerfrom torch._subclasses.fake_tensor import FakeTensorMode
*da0073e9SAndroid Build Coastguard Workerfrom torch.utils import _pytree as pytree
*da0073e9SAndroid Build Coastguard Workerfrom torch.utils._pytree import tree_map, tree_map_only
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertry:
*da0073e9SAndroid Build Coastguard Worker    import torch_xla
*da0073e9SAndroid Build Coastguard Worker    import torch_xla.core.xla_model as xm
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # This is to woraround the backward issue https://github.com/pytorch/xla/issues/4174
*da0073e9SAndroid Build Coastguard Worker    torch_xla._XLAC._init_computation_client()
*da0073e9SAndroid Build Coastguard Workerexcept ImportError:
*da0073e9SAndroid Build Coastguard Worker    # ignore the error if torch_xla is not installed
*da0073e9SAndroid Build Coastguard Worker    pass
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerif TYPE_CHECKING:
*da0073e9SAndroid Build Coastguard Worker    from torch.onnx._internal.fx import diagnostics
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerlog = logging.getLogger(__name__)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker# We are primarily interested in TF32
*da0073e9SAndroid Build Coastguard Workertorch.backends.cuda.matmul.allow_tf32 = True
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker# Suppress torch.profiler spam
*da0073e9SAndroid Build Coastguard Workeros.environ["KINETO_LOG_LEVEL"] = "5"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workercurrent_name = ""
*da0073e9SAndroid Build Coastguard Workercurrent_device = ""
*da0073e9SAndroid Build Coastguard Workercurrent_onnx_compiler = ""
*da0073e9SAndroid Build Coastguard Workercurrent_batch_size = None
*da0073e9SAndroid Build Coastguard Workeroutput_filename = None
*da0073e9SAndroid Build Coastguard Workerdisable_output = False
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerMAX_DOWNLOAD_ATTEMPTS = 5
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass CI(NamedTuple):
*da0073e9SAndroid Build Coastguard Worker    backend: str  # aot_eager or inductor
*da0073e9SAndroid Build Coastguard Worker    training: bool
*da0073e9SAndroid Build Coastguard Worker    dynamic: bool = False
*da0073e9SAndroid Build Coastguard Worker    device: str = "cuda"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerCI_SKIP_OPTIMIZER = {
*da0073e9SAndroid Build Coastguard Worker    # TIMM
*da0073e9SAndroid Build Coastguard Worker    "convmixer_768_32",  # accuracy
*da0073e9SAndroid Build Coastguard Worker    "hrnet_w18",  # Stack issue in fx
*da0073e9SAndroid Build Coastguard Worker    # HF
*da0073e9SAndroid Build Coastguard Worker    "pnasnet5large",  # Stack issue in fx
*da0073e9SAndroid Build Coastguard Worker    "MobileBertForMaskedLM",  # Stack issue in fx
*da0073e9SAndroid Build Coastguard Worker    "MobileBertForQuestionAnswering",  # Stack issue in fx
*da0073e9SAndroid Build Coastguard Worker    "PegasusForConditionalGeneration",  # OOM
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerCI_SKIP_DYNAMIC_BATCH_ONLY = {
*da0073e9SAndroid Build Coastguard Worker    "sam",
*da0073e9SAndroid Build Coastguard Worker    # See https://github.com/mindee/doctr/blob/f2114758d529ed8d3d0030581638f0520b6b98d8/doctr/models/detection/core.py#L89
*da0073e9SAndroid Build Coastguard Worker    # It iterates over the batch, which is dynamic, and dynamo chokes
*da0073e9SAndroid Build Coastguard Worker    # We should be able to graphbreak there.
*da0073e9SAndroid Build Coastguard Worker    "doctr_det_predictor",
*da0073e9SAndroid Build Coastguard Worker    "dlrm",
*da0073e9SAndroid Build Coastguard Worker    "pyhpc_isoneutral_mixing",
*da0073e9SAndroid Build Coastguard Worker    "pyhpc_equation_of_state",
*da0073e9SAndroid Build Coastguard Worker    "pyhpc_turbulent_kinetic_energy",
*da0073e9SAndroid Build Coastguard Worker    "detectron2_fcos_r_50_fpn",
*da0073e9SAndroid Build Coastguard Worker    "hf_T5_generate",
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker# These models currently fail accuracy with eager Adam optimizer
*da0073e9SAndroid Build Coastguard Worker# so we use SGD when running the full benchmarks
*da0073e9SAndroid Build Coastguard Worker# https://github.com/pytorch/pytorch/issues/115966
*da0073e9SAndroid Build Coastguard WorkerBENCHMARK_USE_SGD = {
*da0073e9SAndroid Build Coastguard Worker    # TorchBench
*da0073e9SAndroid Build Coastguard Worker    "BERT_pytorch",
*da0073e9SAndroid Build Coastguard Worker    "LearningToPaint",
*da0073e9SAndroid Build Coastguard Worker    "alexnet",
*da0073e9SAndroid Build Coastguard Worker    "dcgan",
*da0073e9SAndroid Build Coastguard Worker    "demucs",
*da0073e9SAndroid Build Coastguard Worker    "densenet121",
*da0073e9SAndroid Build Coastguard Worker    "dlrm",
*da0073e9SAndroid Build Coastguard Worker    "fastNLP_Bert",
*da0073e9SAndroid Build Coastguard Worker    "mobilenet_v2",
*da0073e9SAndroid Build Coastguard Worker    "phlippe_densenet",
*da0073e9SAndroid Build Coastguard Worker    "phlippe_resnet",
*da0073e9SAndroid Build Coastguard Worker    "pytorch_stargan",
*da0073e9SAndroid Build Coastguard Worker    "resnet18",
*da0073e9SAndroid Build Coastguard Worker    "shufflenet_v2_x1_0",
*da0073e9SAndroid Build Coastguard Worker    "speech_transformer",
*da0073e9SAndroid Build Coastguard Worker    "squeezenet1_1",
*da0073e9SAndroid Build Coastguard Worker    "stable_diffusion_text_encoder",
*da0073e9SAndroid Build Coastguard Worker    "timm_efficientdet",
*da0073e9SAndroid Build Coastguard Worker    "timm_nfnet",
*da0073e9SAndroid Build Coastguard Worker    "timm_regnet",
*da0073e9SAndroid Build Coastguard Worker    "timm_vision_transformer",
*da0073e9SAndroid Build Coastguard Worker    "timm_vovnet",
*da0073e9SAndroid Build Coastguard Worker    "vgg16",
*da0073e9SAndroid Build Coastguard Worker    "hf_T5",  # Fails dynamic https://github.com/pytorch/pytorch/issues/115968
*da0073e9SAndroid Build Coastguard Worker    # HF
*da0073e9SAndroid Build Coastguard Worker    "AlbertForMaskedLM",
*da0073e9SAndroid Build Coastguard Worker    "BartForCausalLM",
*da0073e9SAndroid Build Coastguard Worker    "BartForConditionalGeneration",
*da0073e9SAndroid Build Coastguard Worker    "BlenderbotSmallForCausalLM",
*da0073e9SAndroid Build Coastguard Worker    "BlenderbotSmallForConditionalGeneration",
*da0073e9SAndroid Build Coastguard Worker    "DebertaV2ForQuestionAnswering",  # eager OOM
*da0073e9SAndroid Build Coastguard Worker    "ElectraForCausalLM",
*da0073e9SAndroid Build Coastguard Worker    "M2M100ForConditionalGeneration",
*da0073e9SAndroid Build Coastguard Worker    "MBartForCausalLM",
*da0073e9SAndroid Build Coastguard Worker    "MBartForConditionalGeneration",
*da0073e9SAndroid Build Coastguard Worker    "OPTForCausalLM",
*da0073e9SAndroid Build Coastguard Worker    "PLBartForCausalLM",
*da0073e9SAndroid Build Coastguard Worker    "PLBartForConditionalGeneration",
*da0073e9SAndroid Build Coastguard Worker    "PegasusForCausalLM",
*da0073e9SAndroid Build Coastguard Worker    "Speech2Text2ForCausalLM",
*da0073e9SAndroid Build Coastguard Worker    "TrOCRForCausalLM",
*da0073e9SAndroid Build Coastguard Worker    "XGLMForCausalLM",
*da0073e9SAndroid Build Coastguard Worker    # TIMM
*da0073e9SAndroid Build Coastguard Worker    "adv_inception_v3",
*da0073e9SAndroid Build Coastguard Worker    "botnet26t_256",
*da0073e9SAndroid Build Coastguard Worker    "cait_m36_384",  # OOM
*da0073e9SAndroid Build Coastguard Worker    "coat_lite_mini",
*da0073e9SAndroid Build Coastguard Worker    "convit_base",
*da0073e9SAndroid Build Coastguard Worker    "dpn107",
*da0073e9SAndroid Build Coastguard Worker    "fbnetv3_b",
*da0073e9SAndroid Build Coastguard Worker    "gernet_l",
*da0073e9SAndroid Build Coastguard Worker    "lcnet_050",
*da0073e9SAndroid Build Coastguard Worker    "mixnet_l",
*da0073e9SAndroid Build Coastguard Worker    "res2net101_26w_4s",
*da0073e9SAndroid Build Coastguard Worker    "res2net50_14w_8s",
*da0073e9SAndroid Build Coastguard Worker    "res2next50",
*da0073e9SAndroid Build Coastguard Worker    "resnest101e",
*da0073e9SAndroid Build Coastguard Worker    "sebotnet33ts_256",
*da0073e9SAndroid Build Coastguard Worker    "swsl_resnext101_32x16d",
*da0073e9SAndroid Build Coastguard Worker    "tf_efficientnet_b0",
*da0073e9SAndroid Build Coastguard Worker    "ghostnet_100",
*da0073e9SAndroid Build Coastguard Worker    "gmixer_24_224",
*da0073e9SAndroid Build Coastguard Worker    "tinynet_a",
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker# These models OOM in CI
*da0073e9SAndroid Build Coastguard Worker# due to the extra memory of Adam optimizer states,
*da0073e9SAndroid Build Coastguard Worker# so we fall back to SGD in CI
*da0073e9SAndroid Build Coastguard WorkerCI_USE_SGD = {
*da0073e9SAndroid Build Coastguard Worker    "torchrec_dlrm",
*da0073e9SAndroid Build Coastguard Worker    "demucs",
*da0073e9SAndroid Build Coastguard Worker    "detectron2_fasterrcnn_r_101_c4",
*da0073e9SAndroid Build Coastguard Worker    "detectron2_fasterrcnn_r_101_dc5",
*da0073e9SAndroid Build Coastguard Worker    "detectron2_fasterrcnn_r_101_fpn",
*da0073e9SAndroid Build Coastguard Worker    "detectron2_fasterrcnn_r_50_c4",
*da0073e9SAndroid Build Coastguard Worker    "detectron2_fasterrcnn_r_50_dc5",
*da0073e9SAndroid Build Coastguard Worker    "detectron2_fasterrcnn_r_50_fpn",
*da0073e9SAndroid Build Coastguard Worker    "detectron2_maskrcnn_r_101_c4",
*da0073e9SAndroid Build Coastguard Worker    "detectron2_maskrcnn_r_101_fpn",
*da0073e9SAndroid Build Coastguard Worker    "detectron2_maskrcnn_r_50_c4",
*da0073e9SAndroid Build Coastguard Worker    "detectron2_maskrcnn_r_50_fpn",
*da0073e9SAndroid Build Coastguard Worker    "hf_T5_base",
*da0073e9SAndroid Build Coastguard Worker    "hf_clip",
*da0073e9SAndroid Build Coastguard Worker    "llama_v2_7b_16h",
*da0073e9SAndroid Build Coastguard Worker    "mobilenet_v2_quantized_qat",
*da0073e9SAndroid Build Coastguard Worker    "phi_1_5 resnet50_quantized_qat",
*da0073e9SAndroid Build Coastguard Worker    "BlenderbotForCausalLM",
*da0073e9SAndroid Build Coastguard Worker    "cait_m36_384",
*da0073e9SAndroid Build Coastguard Worker    "DALLE2_pytorch",
*da0073e9SAndroid Build Coastguard Worker    "moco",
*da0073e9SAndroid Build Coastguard Worker    "timm_efficientdet",
*da0073e9SAndroid Build Coastguard Worker    "ghostnet_100",
*da0073e9SAndroid Build Coastguard Worker    "regnety_002",
*da0073e9SAndroid Build Coastguard Worker    "poolformer_m36",
*da0073e9SAndroid Build Coastguard Worker    "inception_v3",
*da0073e9SAndroid Build Coastguard Worker    "tinynet_a",
*da0073e9SAndroid Build Coastguard Worker    "selecsls42b",
*da0073e9SAndroid Build Coastguard Worker    "mobilevit_s",
*da0073e9SAndroid Build Coastguard Worker    "pytorch_CycleGAN_and_pix2pix",
*da0073e9SAndroid Build Coastguard Worker    "vision_maskrcnn",
*da0073e9SAndroid Build Coastguard Worker    "resmlp_12_224",
*da0073e9SAndroid Build Coastguard Worker    "dlrm",
*da0073e9SAndroid Build Coastguard Worker    "resnet50",
*da0073e9SAndroid Build Coastguard Worker    "dm_nfnet_f0",
*da0073e9SAndroid Build Coastguard Worker    "pit_b_224",
*da0073e9SAndroid Build Coastguard Worker    "tf_mixnet_l",
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerDO_NOT_CAST_INPUTS = {"stable_diffusion"}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker# Maps a benchmark model name to a list of status codes. For any listed entry, we'll
*da0073e9SAndroid Build Coastguard Worker# capture TORCH_COMPILE_DEBUG logs in CI runs and preseve them (i.e., for upload) if
*da0073e9SAndroid Build Coastguard Worker# the result status matches one listed.
*da0073e9SAndroid Build Coastguard WorkerCI_PRESERVE_COMPILE_DEBUG = {
*da0073e9SAndroid Build Coastguard Worker    # For example:
*da0073e9SAndroid Build Coastguard Worker    # "mnasnet1_0": ["fail_accuracy"],
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef model_specified_by_path(path_and_class_str):
*da0073e9SAndroid Build Coastguard Worker    return ":" in path_and_class_str
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef load_model_from_path(path_and_class_str):
*da0073e9SAndroid Build Coastguard Worker    configs = {}
*da0073e9SAndroid Build Coastguard Worker    for kvstr in path_and_class_str.split(","):
*da0073e9SAndroid Build Coastguard Worker        k, v = kvstr.split(":")
*da0073e9SAndroid Build Coastguard Worker        configs[k] = v
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    for name in ["path", "class"]:
*da0073e9SAndroid Build Coastguard Worker        if name not in configs:
*da0073e9SAndroid Build Coastguard Worker            raise RuntimeError(
*da0073e9SAndroid Build Coastguard Worker                "Invalid --only arguments. Check help message for the correct format"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    path = configs["path"]
*da0073e9SAndroid Build Coastguard Worker    class_name = configs["class"]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if path[:1] != "/":
*da0073e9SAndroid Build Coastguard Worker        raise RuntimeError(
*da0073e9SAndroid Build Coastguard Worker            "Use absolute path since dynamo may change the current working directory which makes using relative path tricky"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    spec = importlib.util.spec_from_file_location("module_name", path)
*da0073e9SAndroid Build Coastguard Worker    module = importlib.util.module_from_spec(spec)
*da0073e9SAndroid Build Coastguard Worker    spec.loader.exec_module(module)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    model_class = getattr(module, class_name)
*da0073e9SAndroid Build Coastguard Worker    assert issubclass(model_class, torch.nn.Module)
*da0073e9SAndroid Build Coastguard Worker    model = model_class()
*da0073e9SAndroid Build Coastguard Worker    assert hasattr(model, "get_example_inputs")
*da0073e9SAndroid Build Coastguard Worker    inputs = model.get_example_inputs()
*da0073e9SAndroid Build Coastguard Worker    return model, inputs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef output_csv(filename, headers, row):
*da0073e9SAndroid Build Coastguard Worker    global disable_output
*da0073e9SAndroid Build Coastguard Worker    if disable_output:
*da0073e9SAndroid Build Coastguard Worker        return
*da0073e9SAndroid Build Coastguard Worker    if os.path.exists(filename):
*da0073e9SAndroid Build Coastguard Worker        with open(filename) as fd:
*da0073e9SAndroid Build Coastguard Worker            lines = list(csv.reader(fd)) or [[]]
*da0073e9SAndroid Build Coastguard Worker            if headers and len(headers) > len(lines[0]):
*da0073e9SAndroid Build Coastguard Worker                # if prior results failed the header might not be filled in yet
*da0073e9SAndroid Build Coastguard Worker                lines[0] = headers
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                headers = lines[0]
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        lines = [headers]
*da0073e9SAndroid Build Coastguard Worker    lines.append([(f"{x:.6f}" if isinstance(x, float) else x) for x in row])
*da0073e9SAndroid Build Coastguard Worker    with open(filename, "w") as fd:
*da0073e9SAndroid Build Coastguard Worker        writer = csv.writer(fd, lineterminator="\n")
*da0073e9SAndroid Build Coastguard Worker        for line in lines:
*da0073e9SAndroid Build Coastguard Worker            writer.writerow(list(line) + ["0"] * (len(headers) - len(line)))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef nothing(f):
*da0073e9SAndroid Build Coastguard Worker    return f
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@functools.lru_cache(None)
*da0073e9SAndroid Build Coastguard Workerdef patch_torch_manual_seed():
*da0073e9SAndroid Build Coastguard Worker    """Make torch manual seed deterministic. Helps with accuracy testing."""
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def deterministic_torch_manual_seed(*args, **kwargs):
*da0073e9SAndroid Build Coastguard Worker        from torch._C import default_generator
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        seed = 1337
*da0073e9SAndroid Build Coastguard Worker        if HAS_CUDA:
*da0073e9SAndroid Build Coastguard Worker            import torch.cuda
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if not torch.cuda._is_in_bad_fork():
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.manual_seed_all(seed)
*da0073e9SAndroid Build Coastguard Worker        if HAS_XPU:
*da0073e9SAndroid Build Coastguard Worker            import torch.xpu
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if not torch.xpu._is_in_bad_fork():
*da0073e9SAndroid Build Coastguard Worker                torch.xpu.manual_seed_all(seed)
*da0073e9SAndroid Build Coastguard Worker        return default_generator.manual_seed(seed)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    torch.manual_seed = deterministic_torch_manual_seed
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef empty_gpu_cache(device):
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    Explicitly empty gpu cache to avoid OOM in subsequent run.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if device not in ["cuda", "xpu"]:
*da0073e9SAndroid Build Coastguard Worker        log.warning(
*da0073e9SAndroid Build Coastguard Worker            "Trying to call the empty_gpu_cache for device: %s, which is not in list [cuda, xpu]",
*da0073e9SAndroid Build Coastguard Worker            device,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        return
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if device == "cuda":
*da0073e9SAndroid Build Coastguard Worker        torch.cuda.empty_cache()
*da0073e9SAndroid Build Coastguard Worker    elif device == "xpu":
*da0073e9SAndroid Build Coastguard Worker        torch.xpu.empty_cache()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef synchronize():
*da0073e9SAndroid Build Coastguard Worker    pass
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef summarize_graph_break(filename):
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    Sorts and de-dupes the graphs breaks on the reason string. Note that this
*da0073e9SAndroid Build Coastguard Worker    function is just a best effort to reduce the logging information. We could
*da0073e9SAndroid Build Coastguard Worker    miss some graph breaks because of de-duping. We can further refine this
*da0073e9SAndroid Build Coastguard Worker    function as need arises.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    log_file = f"{filename.rstrip('.csv')}_graph_breaks.csv"
*da0073e9SAndroid Build Coastguard Worker    if os.path.exists(log_file):
*da0073e9SAndroid Build Coastguard Worker        df = pd.read_csv(log_file)
*da0073e9SAndroid Build Coastguard Worker        df = df.sort_values("reason").drop_duplicates(subset="reason")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Specialize for multi tensor sgd as reason is not identical
*da0073e9SAndroid Build Coastguard Worker        multi_tensor_sgd_row = df.loc[df["reason"].str.contains("_multi_tensor_sgd")]
*da0073e9SAndroid Build Coastguard Worker        if len(multi_tensor_sgd_row):
*da0073e9SAndroid Build Coastguard Worker            df = df[
*da0073e9SAndroid Build Coastguard Worker                ~df["reason"].str.contains("_multi_tensor_sgd")
*da0073e9SAndroid Build Coastguard Worker            ]  # Drop all sgd rows
*da0073e9SAndroid Build Coastguard Worker            df = pd.concat(
*da0073e9SAndroid Build Coastguard Worker                [df, pd.DataFrame([multi_tensor_sgd_row.iloc[0]])], axis=0
*da0073e9SAndroid Build Coastguard Worker            )  # Add back a single row
*da0073e9SAndroid Build Coastguard Worker        df.to_csv(f"{log_file.rstrip('.csv')}_deduped.csv", index=False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef print_summary(filename, print_dataframe=False):
*da0073e9SAndroid Build Coastguard Worker    if not (filename and os.path.exists(filename)):
*da0073e9SAndroid Build Coastguard Worker        return
*da0073e9SAndroid Build Coastguard Worker    data = pd.read_csv(filename)
*da0073e9SAndroid Build Coastguard Worker    if "tag" in data.columns:
*da0073e9SAndroid Build Coastguard Worker        for tag in data.tag.unique():
*da0073e9SAndroid Build Coastguard Worker            if tag == "0.0000":
*da0073e9SAndroid Build Coastguard Worker                continue  # This happens for failed runs
*da0073e9SAndroid Build Coastguard Worker            print(f"\nSummary for tag={tag}:")
*da0073e9SAndroid Build Coastguard Worker            print_summary_table(data[data.tag == tag], print_dataframe=print_dataframe)
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        print_summary_table(data, print_dataframe=print_dataframe)
*da0073e9SAndroid Build Coastguard Worker    summarize_graph_break(filename)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef print_summary_table(data, print_dataframe=False):
*da0073e9SAndroid Build Coastguard Worker    if print_dataframe:
*da0073e9SAndroid Build Coastguard Worker        pd.options.display.max_rows = 1000
*da0073e9SAndroid Build Coastguard Worker        pd.options.display.max_columns = 1000
*da0073e9SAndroid Build Coastguard Worker        pd.options.display.width = 2000
*da0073e9SAndroid Build Coastguard Worker        print(data)
*da0073e9SAndroid Build Coastguard Worker    width = max(map(len, data.columns))
*da0073e9SAndroid Build Coastguard Worker    for col in data.columns:
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            if col in ("dev", "name", "batch_size", "tag"):
*da0073e9SAndroid Build Coastguard Worker                continue
*da0073e9SAndroid Build Coastguard Worker            elif col in ("pct_ops", "pct_time"):
*da0073e9SAndroid Build Coastguard Worker                print(col.ljust(width), f"{data[col].mean():.3%}")
*da0073e9SAndroid Build Coastguard Worker            elif col in ("graphs", "graph_calls", "captured_ops", "total_ops"):
*da0073e9SAndroid Build Coastguard Worker                print(col.ljust(width), f"{data[col].mean():.3f}")
*da0073e9SAndroid Build Coastguard Worker            elif col in ("compilation_latency"):
*da0073e9SAndroid Build Coastguard Worker                print(col.ljust(width), f"mean={data[col].mean():.3f} seconds")
*da0073e9SAndroid Build Coastguard Worker            elif col in ("compression_ratio"):
*da0073e9SAndroid Build Coastguard Worker                print(col.ljust(width), f"mean={data[col].mean():.3f}x")
*da0073e9SAndroid Build Coastguard Worker            elif col in ("accuracy"):
*da0073e9SAndroid Build Coastguard Worker                pass_rate = (data[col] == "pass").mean()
*da0073e9SAndroid Build Coastguard Worker                print(col.ljust(width), f"pass_rate={100*pass_rate:.2f}%")
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                cdata = data[col]
*da0073e9SAndroid Build Coastguard Worker                print(
*da0073e9SAndroid Build Coastguard Worker                    col.ljust(width),
*da0073e9SAndroid Build Coastguard Worker                    f"gmean={gmean(cdata):.2f}x mean={cdata.mean():.3f}x",
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker        except Exception as e:
*da0073e9SAndroid Build Coastguard Worker            pass
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef tensor_is_on_xla(tensors):
*da0073e9SAndroid Build Coastguard Worker    def visit(x: torch.Tensor):
*da0073e9SAndroid Build Coastguard Worker        nonlocal result
*da0073e9SAndroid Build Coastguard Worker        if x.device.type == "xla":
*da0073e9SAndroid Build Coastguard Worker            result = True
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    result = False
*da0073e9SAndroid Build Coastguard Worker    tree_map_only(torch.Tensor, visit, tensors)
*da0073e9SAndroid Build Coastguard Worker    return result
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef timed(
*da0073e9SAndroid Build Coastguard Worker    model,
*da0073e9SAndroid Build Coastguard Worker    model_iter_fn,
*da0073e9SAndroid Build Coastguard Worker    example_inputs,
*da0073e9SAndroid Build Coastguard Worker    times=1,
*da0073e9SAndroid Build Coastguard Worker    return_result=False,
*da0073e9SAndroid Build Coastguard Worker    collect_outputs=False,
*da0073e9SAndroid Build Coastguard Worker):
*da0073e9SAndroid Build Coastguard Worker    use_xla = tensor_is_on_xla(example_inputs)
*da0073e9SAndroid Build Coastguard Worker    synchronize()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if use_xla:
*da0073e9SAndroid Build Coastguard Worker        xm.mark_step()
*da0073e9SAndroid Build Coastguard Worker        xm.wait_device_ops()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    time_total = 0
*da0073e9SAndroid Build Coastguard Worker    # Dont collect outputs to correctly measure timing
*da0073e9SAndroid Build Coastguard Worker    for _ in range(times):
*da0073e9SAndroid Build Coastguard Worker        # Put this call inside the loop to reset the seed for each iteration.
*da0073e9SAndroid Build Coastguard Worker        # Don't include reset_rng_state() to correctly measure timing
*da0073e9SAndroid Build Coastguard Worker        reset_rng_state(use_xla)
*da0073e9SAndroid Build Coastguard Worker        t_iter_begin = time.perf_counter()
*da0073e9SAndroid Build Coastguard Worker        result = model_iter_fn(model, example_inputs, collect_outputs=collect_outputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # instead of calling sync on result_list, we should call mark_step.
*da0073e9SAndroid Build Coastguard Worker        # In training case, result_list may be empty, but we want to
*da0073e9SAndroid Build Coastguard Worker        # send all the pending graphs for compilation.
*da0073e9SAndroid Build Coastguard Worker        if use_xla:
*da0073e9SAndroid Build Coastguard Worker            # For the model running on regular torchxla (baseline), we need the
*da0073e9SAndroid Build Coastguard Worker            # mark step to send the accumulated graph for compilation.
*da0073e9SAndroid Build Coastguard Worker            #
*da0073e9SAndroid Build Coastguard Worker            # For the model running with dynamo/torchxla bridge, in training case,
*da0073e9SAndroid Build Coastguard Worker            # we need the mark step to send the optimizer graph out for
*da0073e9SAndroid Build Coastguard Worker            # compilation.
*da0073e9SAndroid Build Coastguard Worker            xm.mark_step()
*da0073e9SAndroid Build Coastguard Worker        t_iter_end = time.perf_counter()
*da0073e9SAndroid Build Coastguard Worker        time_total += t_iter_end - t_iter_begin
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    t_0 = time.perf_counter()
*da0073e9SAndroid Build Coastguard Worker    if use_xla:
*da0073e9SAndroid Build Coastguard Worker        xm.wait_device_ops()
*da0073e9SAndroid Build Coastguard Worker    synchronize()
*da0073e9SAndroid Build Coastguard Worker    t_1 = time.perf_counter()
*da0073e9SAndroid Build Coastguard Worker    time_total += t_1 - t_0
*da0073e9SAndroid Build Coastguard Worker    return (time_total, result) if return_result else time_total
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _normalize_bench_inputs(example_inputs) -> Tuple[Tuple[Any], Mapping[str, Any]]:
*da0073e9SAndroid Build Coastguard Worker    # NOTE(bowbao): For huggingface benchmark, example_inputs are formatted as dictionary,
*da0073e9SAndroid Build Coastguard Worker    # and consumed like `model(**example_inputs)`.
*da0073e9SAndroid Build Coastguard Worker    # For other benchmarks, example_inputs are formatted as tuple and consumed
*da0073e9SAndroid Build Coastguard Worker    # like `model(*example_inputs)`.
*da0073e9SAndroid Build Coastguard Worker    if isinstance(example_inputs, dict):
*da0073e9SAndroid Build Coastguard Worker        return (), example_inputs
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        return tuple(example_inputs), {}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _register_dataclass_output_as_pytree(example_outputs) -> None:
*da0073e9SAndroid Build Coastguard Worker    # NOTE(angelayi): For huggingface benchmark, some example outputs are
*da0073e9SAndroid Build Coastguard Worker    # formatted as a dataclass which pytree cannot consume. So we want
*da0073e9SAndroid Build Coastguard Worker    # to register the pytree implementation here
*da0073e9SAndroid Build Coastguard Worker    example_outputs_flat = pytree.tree_leaves(example_outputs)
*da0073e9SAndroid Build Coastguard Worker    output_dataclass_types = [
*da0073e9SAndroid Build Coastguard Worker        type(out) for out in example_outputs_flat if dataclasses.is_dataclass(type(out))
*da0073e9SAndroid Build Coastguard Worker    ]
*da0073e9SAndroid Build Coastguard Worker    for output_type in output_dataclass_types:
*da0073e9SAndroid Build Coastguard Worker        from torch._export.utils import register_dataclass_as_pytree_node
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        register_dataclass_as_pytree_node(
*da0073e9SAndroid Build Coastguard Worker            output_type,
*da0073e9SAndroid Build Coastguard Worker            serialized_type_name=f"{output_type.__module__}.{output_type.__name__}",
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass Stats:
*da0073e9SAndroid Build Coastguard Worker    totals = collections.defaultdict(collections.Counter)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @classmethod
*da0073e9SAndroid Build Coastguard Worker    def reset_counters(cls):
*da0073e9SAndroid Build Coastguard Worker        for k, v in torch._dynamo.utils.counters.items():
*da0073e9SAndroid Build Coastguard Worker            cls.totals[k].update(v)
*da0073e9SAndroid Build Coastguard Worker        ok = torch._dynamo.utils.counters["frames"]["ok"]
*da0073e9SAndroid Build Coastguard Worker        total = torch._dynamo.utils.counters["frames"]["total"]
*da0073e9SAndroid Build Coastguard Worker        torch._dynamo.utils.counters.clear()
*da0073e9SAndroid Build Coastguard Worker        return ok, total
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @classmethod
*da0073e9SAndroid Build Coastguard Worker    def print_summary(cls):
*da0073e9SAndroid Build Coastguard Worker        for k, v in sorted(cls.totals.items()):
*da0073e9SAndroid Build Coastguard Worker            lines = "\n  ".join(map(str, v.most_common(50)))
*da0073e9SAndroid Build Coastguard Worker            print(f"STATS {k}\n  {lines}")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @classmethod
*da0073e9SAndroid Build Coastguard Worker    def aot_summary(cls):
*da0073e9SAndroid Build Coastguard Worker        return [cls.totals["aot_autograd"]["total"], cls.totals["aot_autograd"]["ok"]]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef coverage_experiment(args, model_iter_fn, model, example_inputs):
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    Test operator/model coverage of TorchDynamo and record statistics
*da0073e9SAndroid Build Coastguard Worker    taken from a profiler.  This target is mainly intended to check
*da0073e9SAndroid Build Coastguard Worker    correctness.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Writes to ./coverage.csv
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    profiler = Profiler()
*da0073e9SAndroid Build Coastguard Worker    frozen_model_iter_fn = torch._dynamo.run(model_iter_fn)
*da0073e9SAndroid Build Coastguard Worker    with profiler.prof:
*da0073e9SAndroid Build Coastguard Worker        frozen_model_iter_fn(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker    coverage_result = profiler.results()
*da0073e9SAndroid Build Coastguard Worker    output_csv(
*da0073e9SAndroid Build Coastguard Worker        output_filename,
*da0073e9SAndroid Build Coastguard Worker        (
*da0073e9SAndroid Build Coastguard Worker            "dev",
*da0073e9SAndroid Build Coastguard Worker            "name",
*da0073e9SAndroid Build Coastguard Worker            "batch_size",
*da0073e9SAndroid Build Coastguard Worker            "graphs",
*da0073e9SAndroid Build Coastguard Worker            "graph_calls",
*da0073e9SAndroid Build Coastguard Worker            "captured_ops",
*da0073e9SAndroid Build Coastguard Worker            "total_ops",
*da0073e9SAndroid Build Coastguard Worker            "pct_ops",
*da0073e9SAndroid Build Coastguard Worker            "pct_time",
*da0073e9SAndroid Build Coastguard Worker        ),
*da0073e9SAndroid Build Coastguard Worker        [
*da0073e9SAndroid Build Coastguard Worker            current_device,
*da0073e9SAndroid Build Coastguard Worker            current_name,
*da0073e9SAndroid Build Coastguard Worker            current_batch_size,
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker        + coverage_result.tocsv(),
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    return coverage_result
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef speedup_experiment_fx2trt(args, model_iter_fn, model, example_inputs):
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    Measure speedups over eager using the trt inference backend. TRT backend is based fx graph
*da0073e9SAndroid Build Coastguard Worker    generated by torch._dynamo.
*da0073e9SAndroid Build Coastguard Worker    Writes to ./speedups_fx2trt.csv
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    return speedup_experiment(args, model_iter_fn, model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef recompile_profiler_experiment(args, model_iter_fn, model, example_inputs):
*da0073e9SAndroid Build Coastguard Worker    prof = torch._dynamo.utils.CompilerProfiler()
*da0073e9SAndroid Build Coastguard Worker    opt_model_iter_fn = torch._dynamo.optimize(prof, nopython=args.nopython)(
*da0073e9SAndroid Build Coastguard Worker        model_iter_fn
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    opt_model_iter_fn(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker    output_csv(
*da0073e9SAndroid Build Coastguard Worker        output_filename, ["model", "profiler report"], [current_name, prof.report()]
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    met = prof.get_metrics()
*da0073e9SAndroid Build Coastguard Worker    guard_failures = len(met["guard_failures"])
*da0073e9SAndroid Build Coastguard Worker    return [guard_failures]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef randomize_input(inputs):
*da0073e9SAndroid Build Coastguard Worker    if isinstance(inputs, (list, tuple)):
*da0073e9SAndroid Build Coastguard Worker        return type(inputs)([randomize_input(x) for x in inputs])
*da0073e9SAndroid Build Coastguard Worker    elif isinstance(inputs, torch.Tensor):
*da0073e9SAndroid Build Coastguard Worker        if inputs.dtype in (torch.float32, torch.float64):
*da0073e9SAndroid Build Coastguard Worker            torch._dynamo.utils.counters["randomize_input"]["times"] += 1
*da0073e9SAndroid Build Coastguard Worker            return torch.randn_like(inputs)
*da0073e9SAndroid Build Coastguard Worker        elif inputs.dtype == torch.int64:
*da0073e9SAndroid Build Coastguard Worker            # Note: we can not simply tune integer tensors as follows
*da0073e9SAndroid Build Coastguard Worker            #   `return torch.randint_like(inputs, high=inputs.max().item())`
*da0073e9SAndroid Build Coastguard Worker            # This may break some invariants between tensors.
*da0073e9SAndroid Build Coastguard Worker            # E.g. in embedding lookup case, one tensor is the length
*da0073e9SAndroid Build Coastguard Worker            # and another is an indices tensor.
*da0073e9SAndroid Build Coastguard Worker            return inputs
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            raise RuntimeError(
*da0073e9SAndroid Build Coastguard Worker                f"randomize_input need support tensor of type {inputs.dtype}"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        raise RuntimeError(
*da0073e9SAndroid Build Coastguard Worker            f"randomize_input can not handle input of type {type(inputs)}"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef maybe_mark_step(args):
*da0073e9SAndroid Build Coastguard Worker    if args.trace_on_xla:
*da0073e9SAndroid Build Coastguard Worker        xm.mark_step()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef speedup_experiment(args, model_iter_fn, model, example_inputs, **kwargs):
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    Measure speedups over eager.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Writes to ./speedups.csv
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    # if args.dynamic_shapes:
*da0073e9SAndroid Build Coastguard Worker    #     return speedup_experiment_ds(args, model_iter_fn, model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    timings = np.zeros((args.repeat, 2), np.float64)
*da0073e9SAndroid Build Coastguard Worker    # if we randomize the input, we should also check the result is correct
*da0073e9SAndroid Build Coastguard Worker    should_randomize_input = args.randomize_input
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    import contextlib
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    from torch._inductor.utils import maybe_profile
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @contextlib.contextmanager
*da0073e9SAndroid Build Coastguard Worker    def maybe_mark_profile(*args, **kwargs):
*da0073e9SAndroid Build Coastguard Worker        prof: torch.profiler.profile = kwargs.pop("p", None)
*da0073e9SAndroid Build Coastguard Worker        mark = kwargs.pop("mark", None)
*da0073e9SAndroid Build Coastguard Worker        if prof:
*da0073e9SAndroid Build Coastguard Worker            with torch.profiler.record_function(mark):
*da0073e9SAndroid Build Coastguard Worker                yield
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            yield
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    times = args.iterations_per_run
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # Use higher tolerance for XLA since XLA cause numerical unstability when
*da0073e9SAndroid Build Coastguard Worker    # graph size changes
*da0073e9SAndroid Build Coastguard Worker    tolerance = args.xla_tolerance if args.trace_on_xla else 1e-4
*da0073e9SAndroid Build Coastguard Worker    torch._dynamo.config.repro_tolerance = tolerance
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    with maybe_profile(args.export_profiler_trace) as p:
*da0073e9SAndroid Build Coastguard Worker        if args.export_aot_inductor:
*da0073e9SAndroid Build Coastguard Worker            frozen_model_iter_fn = export_aot_inductor(
*da0073e9SAndroid Build Coastguard Worker                model, example_inputs, args.devices[0]
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            frozen_model_iter_fn = torch._dynamo.run(model_iter_fn)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for rep in trange(args.repeat, desc="running benchmark"):
*da0073e9SAndroid Build Coastguard Worker            inputs = (
*da0073e9SAndroid Build Coastguard Worker                randomize_input(copy.deepcopy(example_inputs))
*da0073e9SAndroid Build Coastguard Worker                if should_randomize_input
*da0073e9SAndroid Build Coastguard Worker                else example_inputs
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            # need call mark_step to perform the computation
*da0073e9SAndroid Build Coastguard Worker            # on randomize_input. Otherwise the first call using the
*da0073e9SAndroid Build Coastguard Worker            # inputs will incur high penalty then the next one.
*da0073e9SAndroid Build Coastguard Worker            maybe_mark_step(args)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # interleave the runs to handle frequency scaling and load changes
*da0073e9SAndroid Build Coastguard Worker            with maybe_mark_profile(p=p, mark="expected"):
*da0073e9SAndroid Build Coastguard Worker                timings[rep, 0], expected_output = timed(
*da0073e9SAndroid Build Coastguard Worker                    model,
*da0073e9SAndroid Build Coastguard Worker                    model_iter_fn,
*da0073e9SAndroid Build Coastguard Worker                    inputs,
*da0073e9SAndroid Build Coastguard Worker                    return_result=True,
*da0073e9SAndroid Build Coastguard Worker                    times=times,
*da0073e9SAndroid Build Coastguard Worker                    collect_outputs=args.collect_outputs,
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # call mark_step between the 2 calls to make the comparison fair.
*da0073e9SAndroid Build Coastguard Worker            maybe_mark_step(args)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            with maybe_mark_profile(p=p, mark="actual"), maybe_enable_compiled_autograd(
*da0073e9SAndroid Build Coastguard Worker                args.compiled_autograd
*da0073e9SAndroid Build Coastguard Worker            ):
*da0073e9SAndroid Build Coastguard Worker                timings[rep, 1], actual_output = timed(
*da0073e9SAndroid Build Coastguard Worker                    model,
*da0073e9SAndroid Build Coastguard Worker                    frozen_model_iter_fn,
*da0073e9SAndroid Build Coastguard Worker                    inputs,
*da0073e9SAndroid Build Coastguard Worker                    return_result=True,
*da0073e9SAndroid Build Coastguard Worker                    times=times,
*da0073e9SAndroid Build Coastguard Worker                    collect_outputs=args.collect_outputs,
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.export_profiler_trace:
*da0073e9SAndroid Build Coastguard Worker        name = args.profiler_trace_name + "_" + model.name
*da0073e9SAndroid Build Coastguard Worker        if hasattr(args, "rank"):
*da0073e9SAndroid Build Coastguard Worker            name += f"_rank_{args.rank}"
*da0073e9SAndroid Build Coastguard Worker        name += ".json"
*da0073e9SAndroid Build Coastguard Worker        name = os.path.join(torch._dynamo.config.base_dir, name)
*da0073e9SAndroid Build Coastguard Worker        p.export_chrome_trace(name)
*da0073e9SAndroid Build Coastguard Worker    median = np.median(timings, axis=0)
*da0073e9SAndroid Build Coastguard Worker    speedup = median[0] / median[1]
*da0073e9SAndroid Build Coastguard Worker    if args.dump_raw_metrics:
*da0073e9SAndroid Build Coastguard Worker        np.save(
*da0073e9SAndroid Build Coastguard Worker            f"{output_filename[:-4]}-raw_timings-{current_name}-{current_device}.npy",
*da0073e9SAndroid Build Coastguard Worker            timings,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    first_headers = ["dev", "name", "batch_size"]
*da0073e9SAndroid Build Coastguard Worker    first_fields = [current_device, current_name, current_batch_size]
*da0073e9SAndroid Build Coastguard Worker    if "tag" in kwargs:
*da0073e9SAndroid Build Coastguard Worker        first_headers.append("tag")
*da0073e9SAndroid Build Coastguard Worker        first_fields.append(kwargs["tag"])
*da0073e9SAndroid Build Coastguard Worker    headers = first_headers + ["speedup", "abs_latency"]
*da0073e9SAndroid Build Coastguard Worker    row = first_fields + [float(speedup), median[1] * 1000]
*da0073e9SAndroid Build Coastguard Worker    msg = f"{speedup:.3f}x"
*da0073e9SAndroid Build Coastguard Worker    if args.baseline:
*da0073e9SAndroid Build Coastguard Worker        headers.extend(
*da0073e9SAndroid Build Coastguard Worker            [
*da0073e9SAndroid Build Coastguard Worker                "baseline",
*da0073e9SAndroid Build Coastguard Worker                "speedup_vs_baseline",
*da0073e9SAndroid Build Coastguard Worker            ]
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        df = pd.read_csv(args.baseline)
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            baseline_speedup = df[df["name"] == current_name]["speedup"].item()
*da0073e9SAndroid Build Coastguard Worker            row.extend([baseline_speedup, speedup / baseline_speedup])
*da0073e9SAndroid Build Coastguard Worker            msg = f"{baseline_speedup:.3f}x -> {speedup:.3f}x [{speedup / baseline_speedup:.3f}x]"
*da0073e9SAndroid Build Coastguard Worker        except (KeyError, ZeroDivisionError):
*da0073e9SAndroid Build Coastguard Worker            row.extend(
*da0073e9SAndroid Build Coastguard Worker                [
*da0073e9SAndroid Build Coastguard Worker                    0.0,
*da0073e9SAndroid Build Coastguard Worker                    0.0,
*da0073e9SAndroid Build Coastguard Worker                ]
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker    if "compilation_latency" in kwargs:
*da0073e9SAndroid Build Coastguard Worker        headers += [
*da0073e9SAndroid Build Coastguard Worker            "compilation_latency",
*da0073e9SAndroid Build Coastguard Worker            "compression_ratio",
*da0073e9SAndroid Build Coastguard Worker            "eager_peak_mem",
*da0073e9SAndroid Build Coastguard Worker            "dynamo_peak_mem",
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker        row.append(kwargs["compilation_latency"])
*da0073e9SAndroid Build Coastguard Worker        row.append(kwargs["compression_ratio"])
*da0073e9SAndroid Build Coastguard Worker        row.append(kwargs["eager_peak_mem"])
*da0073e9SAndroid Build Coastguard Worker        row.append(kwargs["dynamo_peak_mem"])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if "cache_lookup_latency" in kwargs:
*da0073e9SAndroid Build Coastguard Worker        headers.append("cache_lookup_latency")
*da0073e9SAndroid Build Coastguard Worker        row.append(kwargs["cache_lookup_latency"])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if "dynamo_stats" in kwargs:
*da0073e9SAndroid Build Coastguard Worker        for k, v in kwargs["dynamo_stats"].items():
*da0073e9SAndroid Build Coastguard Worker            headers.append(k)
*da0073e9SAndroid Build Coastguard Worker            row.append(v)
*da0073e9SAndroid Build Coastguard Worker    output_csv(
*da0073e9SAndroid Build Coastguard Worker        output_filename,
*da0073e9SAndroid Build Coastguard Worker        headers,
*da0073e9SAndroid Build Coastguard Worker        row,
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    headers, data = torch._dynamo.utils.compile_times(repr="csv", aggregate=True)
*da0073e9SAndroid Build Coastguard Worker    assert (
*da0073e9SAndroid Build Coastguard Worker        output_filename.find(".csv") > 0
*da0073e9SAndroid Build Coastguard Worker    ), f"expected output_filename to be a .csv, but got {output_filename}"
*da0073e9SAndroid Build Coastguard Worker    output_csv(
*da0073e9SAndroid Build Coastguard Worker        output_filename[:-4] + "_compilation_metrics.csv",
*da0073e9SAndroid Build Coastguard Worker        first_headers + headers,
*da0073e9SAndroid Build Coastguard Worker        first_fields + data,
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    return msg
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef speedup_experiment_ds(args, model_iter_fn, model, example_inputs):
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    Run dynamic shapes benchmarks.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Requires dynamic shape compatible models, which provide a list of example inputs.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Warms up using the first input example and then iterates the inputs,
*da0073e9SAndroid Build Coastguard Worker    measuring (and expecting minimal) variance between the runtime for different examples.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    timings = np.zeros((args.repeat, len(example_inputs), 2), np.float64)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.repeat > 5:
*da0073e9SAndroid Build Coastguard Worker        print(
*da0073e9SAndroid Build Coastguard Worker            f"\ndynamic shapes experiments are slow, consider setting --repeat less than {args.repeat}\n"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    nwarmup = 4
*da0073e9SAndroid Build Coastguard Worker    for rep in range(args.repeat):
*da0073e9SAndroid Build Coastguard Worker        # Start each rep fresh, e.g. only warmup on example 0
*da0073e9SAndroid Build Coastguard Worker        torch._dynamo.reset()
*da0073e9SAndroid Build Coastguard Worker        optimized_model_iter_fn = optimize_ctx(model_iter_fn)
*da0073e9SAndroid Build Coastguard Worker        for _ in range(nwarmup):
*da0073e9SAndroid Build Coastguard Worker            optimized_model_iter_fn(model, example_inputs[0])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for input_idx, inputs in enumerate(example_inputs):
*da0073e9SAndroid Build Coastguard Worker            # interleave the runs to handle frequency scaling and load changes
*da0073e9SAndroid Build Coastguard Worker            timings[rep, input_idx, 0] = timed(
*da0073e9SAndroid Build Coastguard Worker                model, model_iter_fn, inputs, return_result=False
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            # different from regular speedup_experiment, we _DO_ want to allow recompilation
*da0073e9SAndroid Build Coastguard Worker            timings[rep, input_idx, 1] = timed(
*da0073e9SAndroid Build Coastguard Worker                model, optimized_model_iter_fn, inputs, return_result=False
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker    medians = np.median(timings, axis=0)
*da0073e9SAndroid Build Coastguard Worker    speedups = list(medians[:, 0] / medians[:, 1])
*da0073e9SAndroid Build Coastguard Worker    speedups_mean = np.mean(speedups)
*da0073e9SAndroid Build Coastguard Worker    speedups_median = np.median(speedups)
*da0073e9SAndroid Build Coastguard Worker    speedups_var = np.var(speedups)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # TODO this x[0] is not going to work in general but bert only has 1 input
*da0073e9SAndroid Build Coastguard Worker    shapes = [x[0].shape for x in example_inputs]
*da0073e9SAndroid Build Coastguard Worker    shape_keys = sorted(set(shapes))
*da0073e9SAndroid Build Coastguard Worker    shape_speedups = {
*da0073e9SAndroid Build Coastguard Worker        shape: [
*da0073e9SAndroid Build Coastguard Worker            it[1] for it in filter(lambda it: it[0] == shape, zip(shapes, speedups))
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker        for shape in shape_keys
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    output_str = (
*da0073e9SAndroid Build Coastguard Worker        f"mean: {speedups_mean:.3f}, median: {speedups_median:.3f}, var: {speedups_var:.3f}"
*da0073e9SAndroid Build Coastguard Worker        + "\nSpeedups by shape: "
*da0073e9SAndroid Build Coastguard Worker        + "\n".join(
*da0073e9SAndroid Build Coastguard Worker            [
*da0073e9SAndroid Build Coastguard Worker                f"{shape}: "
*da0073e9SAndroid Build Coastguard Worker                + ", ".join([f"{speedup: .3g}" for speedup in shape_speedups[shape]])
*da0073e9SAndroid Build Coastguard Worker                for shape in shape_keys
*da0073e9SAndroid Build Coastguard Worker            ]
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    output_csv(
*da0073e9SAndroid Build Coastguard Worker        output_filename,
*da0073e9SAndroid Build Coastguard Worker        ("dev", "name", "batch_size", "speedup mean", "speedup median", "speedup var"),
*da0073e9SAndroid Build Coastguard Worker        [
*da0073e9SAndroid Build Coastguard Worker            current_device,
*da0073e9SAndroid Build Coastguard Worker            current_name,
*da0073e9SAndroid Build Coastguard Worker            current_batch_size,
*da0073e9SAndroid Build Coastguard Worker            speedups_mean,
*da0073e9SAndroid Build Coastguard Worker            speedups_median,
*da0073e9SAndroid Build Coastguard Worker            speedups_var,
*da0073e9SAndroid Build Coastguard Worker        ],
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    return output_str
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@contextlib.contextmanager
*da0073e9SAndroid Build Coastguard Workerdef override_synchronize_with_onnx_iobinding(iobinding):
*da0073e9SAndroid Build Coastguard Worker    global synchronize
*da0073e9SAndroid Build Coastguard Worker    prev_synchrnoize = synchronize
*da0073e9SAndroid Build Coastguard Worker    try:
*da0073e9SAndroid Build Coastguard Worker        if iobinding is not None:
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def new_synchronize():
*da0073e9SAndroid Build Coastguard Worker                iobinding.synchronize_inputs()
*da0073e9SAndroid Build Coastguard Worker                iobinding.synchronize_outputs()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            synchronize = new_synchronize
*da0073e9SAndroid Build Coastguard Worker        yield
*da0073e9SAndroid Build Coastguard Worker    finally:
*da0073e9SAndroid Build Coastguard Worker        synchronize = prev_synchrnoize
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef speedup_experiment_onnx(
*da0073e9SAndroid Build Coastguard Worker    args,
*da0073e9SAndroid Build Coastguard Worker    model_iter_fn,
*da0073e9SAndroid Build Coastguard Worker    onnx_model: OnnxModel,
*da0073e9SAndroid Build Coastguard Worker    model,
*da0073e9SAndroid Build Coastguard Worker    example_inputs,
*da0073e9SAndroid Build Coastguard Worker    **kwargs,
*da0073e9SAndroid Build Coastguard Worker):
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    Measure speedups over eager.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    This function is responsible for the following:
*da0073e9SAndroid Build Coastguard Worker        1. Creating iobinding with OnnxModel if device is CUDA, which is essential for perf measurement.
*da0073e9SAndroid Build Coastguard Worker        2. Running ORT with OnnxModel.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Writes to ./{output_filename}, which should be
*da0073e9SAndroid Build Coastguard Worker        `pathlib.Path(self.output_dir) / f"{self.compiler}_{suite}_{self.dtype}_{self.mode}_{self.device}_{self.testing}.csv".
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    TODO(bowbao): Record export time and export peak memory usage.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    timings = np.zeros((args.repeat, 2), np.float64)
*da0073e9SAndroid Build Coastguard Worker    is_correct = True
*da0073e9SAndroid Build Coastguard Worker    should_randomize_input = args.randomize_input
*da0073e9SAndroid Build Coastguard Worker    times = args.iterations_per_run
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def create_onnx_input_binded_fn(onnx_model: OnnxModel, pt_inputs, example_outputs):
*da0073e9SAndroid Build Coastguard Worker        # Goal is to move the iobinding creation outside of the timer function.
*da0073e9SAndroid Build Coastguard Worker        iobinding, outputs = onnx_model.create_iobinding(pt_inputs, example_outputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def onnxrt_model_iter_fn(model, inputs, collect_outputs=True):
*da0073e9SAndroid Build Coastguard Worker            onnx_model.run_with_iobinding(iobinding, outputs)
*da0073e9SAndroid Build Coastguard Worker            if collect_outputs:
*da0073e9SAndroid Build Coastguard Worker                return outputs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        return onnxrt_model_iter_fn, iobinding
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def create_onnx_fn(onnx_model: OnnxModel, pt_inputs):
*da0073e9SAndroid Build Coastguard Worker        # NOTE: Making perf comparison fair by moving out the i/o adapting part.
*da0073e9SAndroid Build Coastguard Worker        # 1. Pre-adapt `pt_inputs` to `onnx_inputs` here.
*da0073e9SAndroid Build Coastguard Worker        # 2. Drop `onnx_outputs` to `pt_outputs` adapting. Output comparison is not part of perf measurement.
*da0073e9SAndroid Build Coastguard Worker        onnx_inputs = onnx_model.adapt_pt_inputs_to_onnx(pt_inputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def onnxrt_model_iter_fn(model, inputs, collect_outputs=True):
*da0073e9SAndroid Build Coastguard Worker            return onnx_model.run_with_onnx_inputs(onnx_inputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        return onnxrt_model_iter_fn
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def timed_onnx(model, onnx_model: OnnxModel, inputs):
*da0073e9SAndroid Build Coastguard Worker        if current_device == "cpu" or onnx_model.is_cpu():
*da0073e9SAndroid Build Coastguard Worker            onnxrt_model_iter_fn = create_onnx_fn(onnx_model, inputs)
*da0073e9SAndroid Build Coastguard Worker            iobinding = None
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            onnxrt_model_iter_fn, iobinding = create_onnx_input_binded_fn(
*da0073e9SAndroid Build Coastguard Worker                onnx_model, inputs, expected_output
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker        with override_synchronize_with_onnx_iobinding(iobinding):
*da0073e9SAndroid Build Coastguard Worker            return timed(
*da0073e9SAndroid Build Coastguard Worker                model,
*da0073e9SAndroid Build Coastguard Worker                onnxrt_model_iter_fn,
*da0073e9SAndroid Build Coastguard Worker                inputs,
*da0073e9SAndroid Build Coastguard Worker                return_result=True,
*da0073e9SAndroid Build Coastguard Worker                times=times,
*da0073e9SAndroid Build Coastguard Worker                collect_outputs=args.collect_outputs,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # Insert ONNX warm-up
*da0073e9SAndroid Build Coastguard Worker    inputs = (
*da0073e9SAndroid Build Coastguard Worker        randomize_input(copy.deepcopy(example_inputs))
*da0073e9SAndroid Build Coastguard Worker        if should_randomize_input
*da0073e9SAndroid Build Coastguard Worker        else example_inputs
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    _, expected_output = timed(
*da0073e9SAndroid Build Coastguard Worker        model,
*da0073e9SAndroid Build Coastguard Worker        model_iter_fn,
*da0073e9SAndroid Build Coastguard Worker        inputs,
*da0073e9SAndroid Build Coastguard Worker        return_result=True,
*da0073e9SAndroid Build Coastguard Worker        times=times,
*da0073e9SAndroid Build Coastguard Worker        collect_outputs=args.collect_outputs,
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    for _ in range(2):
*da0073e9SAndroid Build Coastguard Worker        timed_onnx(model, onnx_model, inputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    for rep in range(args.repeat):
*da0073e9SAndroid Build Coastguard Worker        inputs = (
*da0073e9SAndroid Build Coastguard Worker            randomize_input(copy.deepcopy(example_inputs))
*da0073e9SAndroid Build Coastguard Worker            if should_randomize_input
*da0073e9SAndroid Build Coastguard Worker            else example_inputs
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        if torch.cuda.device_count() > 1:
*da0073e9SAndroid Build Coastguard Worker            # Manually set correct torch.cuda.current_device to ensure torch.cuda.synchronize() works as intended.
*da0073e9SAndroid Build Coastguard Worker            # When there are more than 1 cuda devices, the first one is used for pytorch eager.
*da0073e9SAndroid Build Coastguard Worker            # The second one is used for onnx ort.
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.set_device(0)
*da0073e9SAndroid Build Coastguard Worker        timings[rep, 0], expected_output = timed(
*da0073e9SAndroid Build Coastguard Worker            model,
*da0073e9SAndroid Build Coastguard Worker            model_iter_fn,
*da0073e9SAndroid Build Coastguard Worker            inputs,
*da0073e9SAndroid Build Coastguard Worker            return_result=True,
*da0073e9SAndroid Build Coastguard Worker            times=times,
*da0073e9SAndroid Build Coastguard Worker            collect_outputs=args.collect_outputs,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        if torch.cuda.device_count() > 1:
*da0073e9SAndroid Build Coastguard Worker            # Manually set correct torch.cuda.current_device to ensure torch.cuda.synchronize() works as intended.
*da0073e9SAndroid Build Coastguard Worker            # When there are more than 1 cuda devices, the first one is used for pytorch eager.
*da0073e9SAndroid Build Coastguard Worker            # The second one is used for onnx ort.
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.set_device(1)
*da0073e9SAndroid Build Coastguard Worker        timings[rep, 1], actual_output = timed_onnx(model, onnx_model, inputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    pvalue = ttest_ind(timings[:, 0], timings[:, 1]).pvalue
*da0073e9SAndroid Build Coastguard Worker    median = np.median(timings, axis=0)
*da0073e9SAndroid Build Coastguard Worker    speedup = median[0] / median[1]
*da0073e9SAndroid Build Coastguard Worker    if args.dump_raw_metrics:
*da0073e9SAndroid Build Coastguard Worker        np.save(
*da0073e9SAndroid Build Coastguard Worker            f"{output_filename[:-4]}-raw_timings-{current_name}-{current_device}.npy",
*da0073e9SAndroid Build Coastguard Worker            timings,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    headers = ["dev", "name", "batch_size", "speedup", "abs_latency"]
*da0073e9SAndroid Build Coastguard Worker    row = [
*da0073e9SAndroid Build Coastguard Worker        current_device,
*da0073e9SAndroid Build Coastguard Worker        current_name,
*da0073e9SAndroid Build Coastguard Worker        current_batch_size,
*da0073e9SAndroid Build Coastguard Worker        float(speedup),
*da0073e9SAndroid Build Coastguard Worker        median[1] * 1000,
*da0073e9SAndroid Build Coastguard Worker    ]
*da0073e9SAndroid Build Coastguard Worker    if "compilation_latency" in kwargs:
*da0073e9SAndroid Build Coastguard Worker        headers = headers + ["compilation_latency", "compression_ratio"]
*da0073e9SAndroid Build Coastguard Worker        row.append(kwargs["compilation_latency"])
*da0073e9SAndroid Build Coastguard Worker        row.append(kwargs["compression_ratio"])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    output_csv(
*da0073e9SAndroid Build Coastguard Worker        output_filename,
*da0073e9SAndroid Build Coastguard Worker        headers,
*da0073e9SAndroid Build Coastguard Worker        row,
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    headers, data = torch._dynamo.utils.compile_times(repr="csv", aggregate=True)
*da0073e9SAndroid Build Coastguard Worker    assert (
*da0073e9SAndroid Build Coastguard Worker        output_filename.find(".csv") > 0
*da0073e9SAndroid Build Coastguard Worker    ), f"expected output_filename to be a .csv, but got {output_filename}"
*da0073e9SAndroid Build Coastguard Worker    output_csv(
*da0073e9SAndroid Build Coastguard Worker        output_filename[:-4] + "_compilation_metrics.csv",
*da0073e9SAndroid Build Coastguard Worker        ["dev", "name", "batch_size"] + headers,
*da0073e9SAndroid Build Coastguard Worker        [current_device, current_name, current_batch_size] + data,
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    return format_speedup(speedup, pvalue, is_correct=is_correct)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef overhead_experiment(*args, model_iter_fn):
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    Measure overheads of TorchDynamo by running with no backend (only
*da0073e9SAndroid Build Coastguard Worker    eager+FX), and reporting speedup/slowdown over eager.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Writes to ./overheads.csv
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    return speedup_experiment(*args, model_iter_fn)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef print_fx(gm, example_inputs):
*da0073e9SAndroid Build Coastguard Worker    print(gm.graph)
*da0073e9SAndroid Build Coastguard Worker    return gm
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef print_aten_ops(gm, example_inputs):
*da0073e9SAndroid Build Coastguard Worker    from functorch.compile import aot_module
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def trace_printer(gm, _):
*da0073e9SAndroid Build Coastguard Worker        print(gm.graph)
*da0073e9SAndroid Build Coastguard Worker        return gm
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return aot_module(gm, fw_compiler=trace_printer, bw_compiler=trace_printer)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef baselines(models, model_iter_fn, example_inputs, args):
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    Common measurement code across all baseline experiments.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    models = list(models)
*da0073e9SAndroid Build Coastguard Worker    for idx, (name, model) in enumerate(models):
*da0073e9SAndroid Build Coastguard Worker        if idx == 0:
*da0073e9SAndroid Build Coastguard Worker            result0 = model_iter_fn(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker        elif model is not None:
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                result = model_iter_fn(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker                if same(result0, result):
*da0073e9SAndroid Build Coastguard Worker                    continue
*da0073e9SAndroid Build Coastguard Worker                print(name, "is INCORRECT")
*da0073e9SAndroid Build Coastguard Worker            except Exception:
*da0073e9SAndroid Build Coastguard Worker                log.exception("error checking %s", name)
*da0073e9SAndroid Build Coastguard Worker            models[idx] = (name, None)
*da0073e9SAndroid Build Coastguard Worker    timings = np.zeros((args.repeat, len(models)), np.float64)
*da0073e9SAndroid Build Coastguard Worker    timings.fill(1.0e10)
*da0073e9SAndroid Build Coastguard Worker    for rep in range(args.repeat):
*da0073e9SAndroid Build Coastguard Worker        for idx, (name, model) in enumerate(models):
*da0073e9SAndroid Build Coastguard Worker            if model is not None:
*da0073e9SAndroid Build Coastguard Worker                try:
*da0073e9SAndroid Build Coastguard Worker                    timings[rep, idx] = timed(model, model_iter_fn, example_inputs)
*da0073e9SAndroid Build Coastguard Worker                except Exception:
*da0073e9SAndroid Build Coastguard Worker                    pass
*da0073e9SAndroid Build Coastguard Worker    pvalue = [
*da0073e9SAndroid Build Coastguard Worker        ttest_ind(timings[:, 0], timings[:, i]).pvalue
*da0073e9SAndroid Build Coastguard Worker        for i in range(1, timings.shape[1])
*da0073e9SAndroid Build Coastguard Worker    ]
*da0073e9SAndroid Build Coastguard Worker    median = np.median(timings, axis=0)
*da0073e9SAndroid Build Coastguard Worker    speedup = median[0] / median[1:]
*da0073e9SAndroid Build Coastguard Worker    for idx, (name, model) in enumerate(models[1:]):
*da0073e9SAndroid Build Coastguard Worker        if model is None:
*da0073e9SAndroid Build Coastguard Worker            speedup[idx] = 0.0
*da0073e9SAndroid Build Coastguard Worker    result = " ".join(
*da0073e9SAndroid Build Coastguard Worker        [
*da0073e9SAndroid Build Coastguard Worker            format_speedup(s, p, m is not None)
*da0073e9SAndroid Build Coastguard Worker            for s, p, m in zip(speedup, pvalue, [m for n, m in models[1:]])
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    output_csv(
*da0073e9SAndroid Build Coastguard Worker        output_filename,
*da0073e9SAndroid Build Coastguard Worker        ("dev", "name", "batch_size") + tuple(n for n, m in models[1:]),
*da0073e9SAndroid Build Coastguard Worker        [current_device, current_name, current_batch_size]
*da0073e9SAndroid Build Coastguard Worker        + [f"{x:.4f}" for x in speedup],
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    return result
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef xla(args, model_iter_fn, model, example_inputs):
*da0073e9SAndroid Build Coastguard Worker    xla_dev = xm.xla_device(devkind=current_device)
*da0073e9SAndroid Build Coastguard Worker    model_xla = copy.deepcopy(model).to("cpu").to(device=xla_dev)
*da0073e9SAndroid Build Coastguard Worker    example_inputs_xla = tree_map_only(
*da0073e9SAndroid Build Coastguard Worker        torch.Tensor, lambda x: x.to("cpu").to(device=xla_dev), example_inputs
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    for _ in range(3):  # warmup
*da0073e9SAndroid Build Coastguard Worker        timed(model, model_iter_fn, example_inputs)
*da0073e9SAndroid Build Coastguard Worker        timed(model_xla, model_iter_fn, example_inputs_xla)
*da0073e9SAndroid Build Coastguard Worker    timings = np.zeros((args.repeat, 2), np.float64)
*da0073e9SAndroid Build Coastguard Worker    timings.fill(1.0e10)
*da0073e9SAndroid Build Coastguard Worker    for rep in range(args.repeat):
*da0073e9SAndroid Build Coastguard Worker        timings[rep, 0] = timed(model, model_iter_fn, example_inputs)
*da0073e9SAndroid Build Coastguard Worker        timings[rep, 1] = timed(model_xla, model_iter_fn, example_inputs_xla)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    pvalue = ttest_ind(timings[:, 0], timings[:, 1]).pvalue
*da0073e9SAndroid Build Coastguard Worker    time_baseline, time_xla = np.median(timings, axis=0)
*da0073e9SAndroid Build Coastguard Worker    speedup = time_baseline / time_xla
*da0073e9SAndroid Build Coastguard Worker    output_csv(
*da0073e9SAndroid Build Coastguard Worker        output_filename,
*da0073e9SAndroid Build Coastguard Worker        ("dev", "name", "batch_size", "speedup", "time_baseline", "time_xla"),
*da0073e9SAndroid Build Coastguard Worker        [
*da0073e9SAndroid Build Coastguard Worker            current_device,
*da0073e9SAndroid Build Coastguard Worker            current_name,
*da0073e9SAndroid Build Coastguard Worker            current_batch_size,
*da0073e9SAndroid Build Coastguard Worker            speedup,
*da0073e9SAndroid Build Coastguard Worker            time_baseline,
*da0073e9SAndroid Build Coastguard Worker            time_xla,
*da0073e9SAndroid Build Coastguard Worker        ],
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    return format_speedup(speedup, pvalue)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef try_script(model, example_inputs):
*da0073e9SAndroid Build Coastguard Worker    try:
*da0073e9SAndroid Build Coastguard Worker        return torch.jit.script(model)
*da0073e9SAndroid Build Coastguard Worker    except Exception:
*da0073e9SAndroid Build Coastguard Worker        return None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass AOTInductorModelCache:
*da0073e9SAndroid Build Coastguard Worker    cache = dict()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @classmethod
*da0073e9SAndroid Build Coastguard Worker    def load(cls, model, example_inputs, device):
*da0073e9SAndroid Build Coastguard Worker        import torch._inductor
*da0073e9SAndroid Build Coastguard Worker        import torch.export._trace
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        key = weakref.ref(model)
*da0073e9SAndroid Build Coastguard Worker        if key not in cls.cache:
*da0073e9SAndroid Build Coastguard Worker            # Register the output dataclass to pytree
*da0073e9SAndroid Build Coastguard Worker            example_args, example_kwargs = _normalize_bench_inputs(example_inputs)
*da0073e9SAndroid Build Coastguard Worker            with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker                # copy.deepcopy is required to prevent any surprising side-effect,
*da0073e9SAndroid Build Coastguard Worker                # see https://github.com/pytorch/pytorch/issues/113029
*da0073e9SAndroid Build Coastguard Worker                example_outputs = copy.deepcopy(model)(*example_args, **example_kwargs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if pytree._is_namedtuple_instance(example_outputs):
*da0073e9SAndroid Build Coastguard Worker                typ = type(example_outputs)
*da0073e9SAndroid Build Coastguard Worker                pytree._register_namedtuple(
*da0073e9SAndroid Build Coastguard Worker                    typ,
*da0073e9SAndroid Build Coastguard Worker                    serialized_type_name=f"{typ.__module__}.{typ.__name__}",
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                _register_dataclass_output_as_pytree(example_outputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # TODO(angelayi): change this to predispatch
*da0073e9SAndroid Build Coastguard Worker            # https://github.com/pytorch/pytorch/issues/127513 needs to be fixed before changing
*da0073e9SAndroid Build Coastguard Worker            # to predispatch to avoid performance regressions
*da0073e9SAndroid Build Coastguard Worker            gm = torch.export._trace._export_to_torch_ir(
*da0073e9SAndroid Build Coastguard Worker                model,
*da0073e9SAndroid Build Coastguard Worker                example_args,
*da0073e9SAndroid Build Coastguard Worker                example_kwargs,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker                so_path = torch._inductor.aot_compile(
*da0073e9SAndroid Build Coastguard Worker                    gm, example_args, example_kwargs
*da0073e9SAndroid Build Coastguard Worker                )  # type: ignore[arg-type]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            cls.cache[key] = torch._export.aot_load(so_path, device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        return cls.cache[key]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef export(model, example_inputs):
*da0073e9SAndroid Build Coastguard Worker    example_args, example_kwargs = _normalize_bench_inputs(example_inputs)
*da0073e9SAndroid Build Coastguard Worker    example_outputs = model(*example_args, **example_kwargs)
*da0073e9SAndroid Build Coastguard Worker    _register_dataclass_output_as_pytree(example_outputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    ep = torch.export.export(model, example_args, example_kwargs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def opt_export(_, example_inputs):
*da0073e9SAndroid Build Coastguard Worker        example_args, example_kwargs = _normalize_bench_inputs(example_inputs)
*da0073e9SAndroid Build Coastguard Worker        return ep(*example_args, **example_kwargs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return opt_export
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef export_aot_inductor(model, example_inputs, device):
*da0073e9SAndroid Build Coastguard Worker    optimized = AOTInductorModelCache.load(model, example_inputs, device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def opt_aot_inductor(_, example_inputs, collect_outputs=False):
*da0073e9SAndroid Build Coastguard Worker        example_args, example_kwargs = _normalize_bench_inputs(example_inputs)
*da0073e9SAndroid Build Coastguard Worker        return optimized(*example_args, **example_kwargs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return opt_aot_inductor
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef download_retry_decorator(download_fn):
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    Decorator function for applying retry logic to a download function.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    The wrapped function will be called up to 5 times and raises an exception if the function fails each time.
*da0073e9SAndroid Build Coastguard Worker    After each unsuccessful attempt, there is a delay before the next attempt, which is increased linearly with the number of tries.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Usage:
*da0073e9SAndroid Build Coastguard Worker    @download_retry_decorator
*da0073e9SAndroid Build Coastguard Worker    def download_function(model_name: str):
*da0073e9SAndroid Build Coastguard Worker        # download logic goes here
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @functools.wraps(download_fn)
*da0073e9SAndroid Build Coastguard Worker    def wrapper(self, *args, **kwargs) -> Any:
*da0073e9SAndroid Build Coastguard Worker        tries = 0
*da0073e9SAndroid Build Coastguard Worker        total_allowed_tries = MAX_DOWNLOAD_ATTEMPTS
*da0073e9SAndroid Build Coastguard Worker        while tries <= total_allowed_tries:
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                model = download_fn(self, *args, **kwargs)
*da0073e9SAndroid Build Coastguard Worker                return model
*da0073e9SAndroid Build Coastguard Worker            except Exception as e:
*da0073e9SAndroid Build Coastguard Worker                tries += 1
*da0073e9SAndroid Build Coastguard Worker                if tries <= total_allowed_tries:
*da0073e9SAndroid Build Coastguard Worker                    wait = tries * 30
*da0073e9SAndroid Build Coastguard Worker                    print(
*da0073e9SAndroid Build Coastguard Worker                        f"Failed to load model: {e}. Trying again ({tries}/{total_allowed_tries}) after {wait}s"
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker                    time.sleep(wait)
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    raise RuntimeError(  # noqa: B904
*da0073e9SAndroid Build Coastguard Worker                        f"Failed to load model '{args}' with following error(s): {str(e)}."
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return wrapper
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass OnnxModel(abc.ABC):
*da0073e9SAndroid Build Coastguard Worker    TORCH_TO_NUMPY_DTYPE = {
*da0073e9SAndroid Build Coastguard Worker        torch.float16: np.float16,
*da0073e9SAndroid Build Coastguard Worker        torch.float32: np.float32,
*da0073e9SAndroid Build Coastguard Worker        torch.float64: np.float64,
*da0073e9SAndroid Build Coastguard Worker        torch.uint8: np.uint8,
*da0073e9SAndroid Build Coastguard Worker        torch.int8: np.int8,
*da0073e9SAndroid Build Coastguard Worker        torch.int16: np.int16,
*da0073e9SAndroid Build Coastguard Worker        torch.int32: np.int32,
*da0073e9SAndroid Build Coastguard Worker        torch.int64: np.longlong,
*da0073e9SAndroid Build Coastguard Worker        torch.bool: np.bool_,
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    _COMPILER_NAME: str
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __init__(
*da0073e9SAndroid Build Coastguard Worker        self,
*da0073e9SAndroid Build Coastguard Worker        output_directory,
*da0073e9SAndroid Build Coastguard Worker        model,
*da0073e9SAndroid Build Coastguard Worker        example_inputs,
*da0073e9SAndroid Build Coastguard Worker        dynamic_shapes: bool,
*da0073e9SAndroid Build Coastguard Worker        copy_before_export: bool = False,
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        model_name = current_name
*da0073e9SAndroid Build Coastguard Worker        self.copy_before_export = copy_before_export
*da0073e9SAndroid Build Coastguard Worker        self.model_dir = self._generate_onnx_model_directory(
*da0073e9SAndroid Build Coastguard Worker            output_directory, self._COMPILER_NAME, model_name
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        self.model_path = str(
*da0073e9SAndroid Build Coastguard Worker            self.model_dir / f"{model_name}_{self._COMPILER_NAME}.onnx"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _determine_deepcopy_target_device(self):
*da0073e9SAndroid Build Coastguard Worker        if current_device == "cpu":
*da0073e9SAndroid Build Coastguard Worker            target_device = "cpu"
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            if torch.cuda.device_count() > 1:
*da0073e9SAndroid Build Coastguard Worker                # Copy to another cuda device to avoid OOM.
*da0073e9SAndroid Build Coastguard Worker                target_device = "cuda:1"
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                target_device = "cuda"
*da0073e9SAndroid Build Coastguard Worker        return target_device
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def deepcopy_model_and_inputs_to_device(self, model, example_inputs, target_device):
*da0073e9SAndroid Build Coastguard Worker        # Deepcopy model before export to avoid modification to baseline model.
*da0073e9SAndroid Build Coastguard Worker        # To avoid OOM, the model is first moved to CPU. Both models are then moved to device.
*da0073e9SAndroid Build Coastguard Worker        model_device = next(model.parameters()).device
*da0073e9SAndroid Build Coastguard Worker        model.to("cpu")
*da0073e9SAndroid Build Coastguard Worker        model_copy = copy.deepcopy(model).to(target_device)
*da0073e9SAndroid Build Coastguard Worker        model.to(model_device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        target_device_example_inputs = tree_map_only(
*da0073e9SAndroid Build Coastguard Worker            torch.Tensor, lambda x: x.to(device=target_device), example_inputs
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        return model_copy, target_device_example_inputs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @classmethod
*da0073e9SAndroid Build Coastguard Worker    def _generate_onnx_model_directory(
*da0073e9SAndroid Build Coastguard Worker        cls, output_directory: str, compiler_name: str, model_name: str
*da0073e9SAndroid Build Coastguard Worker    ) -> pathlib.Path:
*da0073e9SAndroid Build Coastguard Worker        model_path = pathlib.Path(
*da0073e9SAndroid Build Coastguard Worker            output_directory,
*da0073e9SAndroid Build Coastguard Worker            ".onnx_models",
*da0073e9SAndroid Build Coastguard Worker            model_name,
*da0073e9SAndroid Build Coastguard Worker            compiler_name,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        if model_path.exists() and model_path.is_dir():
*da0073e9SAndroid Build Coastguard Worker            shutil.rmtree(model_path)
*da0073e9SAndroid Build Coastguard Worker        model_path.mkdir(parents=True, exist_ok=True)
*da0073e9SAndroid Build Coastguard Worker        return model_path
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @abc.abstractmethod
*da0073e9SAndroid Build Coastguard Worker    def format_pt_inputs(self, pt_inputs: Any) -> Sequence[torch.Tensor]:
*da0073e9SAndroid Build Coastguard Worker        ...
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @abc.abstractmethod
*da0073e9SAndroid Build Coastguard Worker    def format_pt_outputs(self, pt_outputs: Any) -> Sequence[torch.Tensor]:
*da0073e9SAndroid Build Coastguard Worker        ...
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def adapt_pt_inputs_to_onnx(self, pt_inputs) -> Mapping[str, np.ndarray]:
*da0073e9SAndroid Build Coastguard Worker        pt_inputs = self.format_pt_inputs(pt_inputs)
*da0073e9SAndroid Build Coastguard Worker        return {
*da0073e9SAndroid Build Coastguard Worker            ort_input.name: pt_input.cpu().numpy()
*da0073e9SAndroid Build Coastguard Worker            for ort_input, pt_input in zip(self.onnx_session.get_inputs(), pt_inputs)
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def adapt_onnx_outputs_to_pt(self, onnx_outputs: List[np.ndarray]) -> Any:
*da0073e9SAndroid Build Coastguard Worker        pt_outputs = [
*da0073e9SAndroid Build Coastguard Worker            torch.from_numpy(onnx_output).to(current_device)
*da0073e9SAndroid Build Coastguard Worker            for onnx_output in onnx_outputs
*da0073e9SAndroid Build Coastguard Worker        ]
*da0073e9SAndroid Build Coastguard Worker        if len(pt_outputs) == 1:
*da0073e9SAndroid Build Coastguard Worker            return pt_outputs[0]
*da0073e9SAndroid Build Coastguard Worker        return pt_outputs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _init_ort_session(self, model_path: str):
*da0073e9SAndroid Build Coastguard Worker        import onnxruntime
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if current_device == "cpu":
*da0073e9SAndroid Build Coastguard Worker            ort_providers = ["CPUExecutionProvider"]
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            # NOTE(bowbao): Reduce OOM by running ORT on another gpu.
*da0073e9SAndroid Build Coastguard Worker            # TODO(bowbao): This works to avoid OOM, but performance is surprisingly very bad.
*da0073e9SAndroid Build Coastguard Worker            cuda_provider_options = {
*da0073e9SAndroid Build Coastguard Worker                "device_id": 1 if torch.cuda.device_count() > 1 else 0,
*da0073e9SAndroid Build Coastguard Worker            }
*da0073e9SAndroid Build Coastguard Worker            ort_providers = [("CUDAExecutionProvider", cuda_provider_options)]
*da0073e9SAndroid Build Coastguard Worker        session_options = onnxruntime.SessionOptions()
*da0073e9SAndroid Build Coastguard Worker        session_options.log_severity_level = 3  # Error
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        ort_session = onnxruntime.InferenceSession(
*da0073e9SAndroid Build Coastguard Worker            self.model_path,
*da0073e9SAndroid Build Coastguard Worker            providers=ort_providers,
*da0073e9SAndroid Build Coastguard Worker            sess_options=session_options,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        return ort_session
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def is_cpu(self) -> bool:
*da0073e9SAndroid Build Coastguard Worker        return self.onnx_session.get_providers()[0] == "CPUExecutionProvider"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def cpu(self) -> Self:
*da0073e9SAndroid Build Coastguard Worker        self.onnx_session.set_providers(["CPUExecutionProvider"])
*da0073e9SAndroid Build Coastguard Worker        return self
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def create_outputs(self, *example_outputs):
*da0073e9SAndroid Build Coastguard Worker        return tuple(torch.empty_like(x) for x in example_outputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def create_iobinding(self, pt_inputs, example_outputs):
*da0073e9SAndroid Build Coastguard Worker        pt_inputs = self.format_pt_inputs(pt_inputs)
*da0073e9SAndroid Build Coastguard Worker        example_outputs = self.format_pt_outputs(example_outputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        iobinding = self.onnx_session.io_binding()
*da0073e9SAndroid Build Coastguard Worker        args = [arg.contiguous() for arg in pt_inputs]
*da0073e9SAndroid Build Coastguard Worker        for ort_input, arg in zip(self.onnx_session.get_inputs(), args):
*da0073e9SAndroid Build Coastguard Worker            # NOTE: Run ORT on another cuda device to reduce OOM.
*da0073e9SAndroid Build Coastguard Worker            if torch.cuda.device_count() > 1:
*da0073e9SAndroid Build Coastguard Worker                arg = arg.detach().to("cuda:1")
*da0073e9SAndroid Build Coastguard Worker            device = arg.device
*da0073e9SAndroid Build Coastguard Worker            iobinding.bind_input(
*da0073e9SAndroid Build Coastguard Worker                ort_input.name,
*da0073e9SAndroid Build Coastguard Worker                device.type,
*da0073e9SAndroid Build Coastguard Worker                device.index or 0,
*da0073e9SAndroid Build Coastguard Worker                self.TORCH_TO_NUMPY_DTYPE[arg.dtype],
*da0073e9SAndroid Build Coastguard Worker                arg.size(),
*da0073e9SAndroid Build Coastguard Worker                arg.data_ptr(),
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        outputs = self.create_outputs(*example_outputs)
*da0073e9SAndroid Build Coastguard Worker        for ort_output, output in zip(self.onnx_session.get_outputs(), outputs):
*da0073e9SAndroid Build Coastguard Worker            if torch.cuda.device_count() > 1:
*da0073e9SAndroid Build Coastguard Worker                output = output.detach().to("cuda:1")
*da0073e9SAndroid Build Coastguard Worker            device = output.device
*da0073e9SAndroid Build Coastguard Worker            iobinding.bind_output(
*da0073e9SAndroid Build Coastguard Worker                ort_output.name,
*da0073e9SAndroid Build Coastguard Worker                device.type,
*da0073e9SAndroid Build Coastguard Worker                device.index or 0,
*da0073e9SAndroid Build Coastguard Worker                self.TORCH_TO_NUMPY_DTYPE[output.dtype],
*da0073e9SAndroid Build Coastguard Worker                output.size(),
*da0073e9SAndroid Build Coastguard Worker                output.data_ptr(),
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker        return iobinding, outputs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def run_with_iobinding(self, iobinding, outputs):
*da0073e9SAndroid Build Coastguard Worker        # 'outputs' are torch empty tensors binded to 'iobinding'.
*da0073e9SAndroid Build Coastguard Worker        self.onnx_session.run_with_iobinding(iobinding)
*da0073e9SAndroid Build Coastguard Worker        return outputs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def run_with_onnx_inputs(self, onnx_inputs):
*da0073e9SAndroid Build Coastguard Worker        return self.onnx_session.run(None, onnx_inputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @classmethod
*da0073e9SAndroid Build Coastguard Worker    def save_tensor_data(cls, numpy_tensor, output_path):
*da0073e9SAndroid Build Coastguard Worker        from onnx import numpy_helper
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        proto_tensor = numpy_helper.from_array(numpy_tensor)
*da0073e9SAndroid Build Coastguard Worker        with open(output_path, "wb") as f:
*da0073e9SAndroid Build Coastguard Worker            f.write(proto_tensor.SerializeToString())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def run_and_serialize_inputs_outputs(self, pt_inputs):
*da0073e9SAndroid Build Coastguard Worker        test_data_dir = self.model_dir / "test_data_set_0"
*da0073e9SAndroid Build Coastguard Worker        test_data_dir.mkdir(parents=True, exist_ok=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        onnx_inputs = self.adapt_pt_inputs_to_onnx(pt_inputs)
*da0073e9SAndroid Build Coastguard Worker        for i, onnx_input in enumerate(onnx_inputs.values()):
*da0073e9SAndroid Build Coastguard Worker            self.save_tensor_data(onnx_input, str(test_data_dir / f"input_{i}.pb"))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        onnx_outputs = self.run_with_onnx_inputs(onnx_inputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for i, onnx_output in enumerate(onnx_outputs):
*da0073e9SAndroid Build Coastguard Worker            self.save_tensor_data(onnx_output, str(test_data_dir / f"output_{i}.pb"))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        return self.adapt_onnx_outputs_to_pt(onnx_outputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def run(self, pt_inputs):
*da0073e9SAndroid Build Coastguard Worker        # NOTE: For CUDA performance testing, use `run_with_iobinding` to exclude memory
*da0073e9SAndroid Build Coastguard Worker        # copying overhead for inputs/outputs between cpu and gpu.
*da0073e9SAndroid Build Coastguard Worker        # Otherwise perf number is inaccurate.
*da0073e9SAndroid Build Coastguard Worker        onnx_inputs = self.adapt_pt_inputs_to_onnx(pt_inputs)
*da0073e9SAndroid Build Coastguard Worker        onnx_outputs = self.run_with_onnx_inputs(onnx_inputs)
*da0073e9SAndroid Build Coastguard Worker        return self.adapt_onnx_outputs_to_pt(onnx_outputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass OnnxModelFromTorchScript(OnnxModel):
*da0073e9SAndroid Build Coastguard Worker    """TorchScript based onnx export. `torch.onnx.export`
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    TODO(bowbao):
*da0073e9SAndroid Build Coastguard Worker    * large model export failed.
*da0073e9SAndroid Build Coastguard Worker          Onnx Model is larger than 2GB, but exporter makes decision based pt model size, which is
*da0073e9SAndroid Build Coastguard Worker          smaller than 2GB.
*da0073e9SAndroid Build Coastguard Worker    * OOM on slightly larger model.
*da0073e9SAndroid Build Coastguard Worker          Both pt model and ort inference session are on gpu. Attempt has been made to move ORT to
*da0073e9SAndroid Build Coastguard Worker          cuda:1, however ORT perf drop significantly.
*da0073e9SAndroid Build Coastguard Worker          For now running everything with batch_size 1 set in launch script.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    _COMPILER_NAME = "torchscript"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __init__(
*da0073e9SAndroid Build Coastguard Worker        self, output_directory, model, example_inputs, dynamic_shapes: bool, **kwargs
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        if dynamic_shapes:
*da0073e9SAndroid Build Coastguard Worker            raise NotImplementedError("NYI dynamic shapes for OnnxModelFromTorchScript")
*da0073e9SAndroid Build Coastguard Worker        super().__init__(
*da0073e9SAndroid Build Coastguard Worker            output_directory, model, example_inputs, dynamic_shapes, **kwargs
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        self._export(
*da0073e9SAndroid Build Coastguard Worker            model,
*da0073e9SAndroid Build Coastguard Worker            example_inputs,
*da0073e9SAndroid Build Coastguard Worker            self.model_path,
*da0073e9SAndroid Build Coastguard Worker            opset_version=17,
*da0073e9SAndroid Build Coastguard Worker            do_constant_folding=False,
*da0073e9SAndroid Build Coastguard Worker            verbose=False,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        self.onnx_session = self._init_ort_session(self.model_path)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _export(self, model, example_inputs, output_path: str, /, **kwargs) -> None:
*da0073e9SAndroid Build Coastguard Worker        if self.copy_before_export:
*da0073e9SAndroid Build Coastguard Worker            # Deepcopy model before export to avoid modification to baseline model.
*da0073e9SAndroid Build Coastguard Worker            model, example_inputs = self.deepcopy_model_and_inputs_to_device(
*da0073e9SAndroid Build Coastguard Worker                model, example_inputs, self._determine_deepcopy_target_device()
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Hack for huggingface models (kwargs only).
*da0073e9SAndroid Build Coastguard Worker        if isinstance(example_inputs, dict):
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            class WrapperModel(torch.nn.Module):
*da0073e9SAndroid Build Coastguard Worker                def __init__(self, model, keys):
*da0073e9SAndroid Build Coastguard Worker                    super().__init__()
*da0073e9SAndroid Build Coastguard Worker                    self.model = model
*da0073e9SAndroid Build Coastguard Worker                    self.keys = keys
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                def forward(self, *args):
*da0073e9SAndroid Build Coastguard Worker                    return self.model(**dict(zip(self.keys, args)))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            model = WrapperModel(model, list(example_inputs.keys()))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        torch.onnx.export(
*da0073e9SAndroid Build Coastguard Worker            model,
*da0073e9SAndroid Build Coastguard Worker            self.format_pt_inputs(example_inputs),
*da0073e9SAndroid Build Coastguard Worker            output_path,
*da0073e9SAndroid Build Coastguard Worker            **kwargs,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def format_pt_inputs(self, pt_inputs):
*da0073e9SAndroid Build Coastguard Worker        # NOTE(bowbao): For huggingface benchmark, pt_inputs are formatted as dictionary,
*da0073e9SAndroid Build Coastguard Worker        # and consumed like `model(**pt_inputs)`.
*da0073e9SAndroid Build Coastguard Worker        # For other benchmarks, pt_inputs are formatted as tuple and consumed
*da0073e9SAndroid Build Coastguard Worker        # like `model(*pt_inputs)`.
*da0073e9SAndroid Build Coastguard Worker        if isinstance(pt_inputs, dict):
*da0073e9SAndroid Build Coastguard Worker            pt_inputs = list(pt_inputs.values())
*da0073e9SAndroid Build Coastguard Worker        if isinstance(pt_inputs, torch.Tensor):
*da0073e9SAndroid Build Coastguard Worker            pt_inputs = (pt_inputs,)
*da0073e9SAndroid Build Coastguard Worker        return tuple(arg.contiguous() for arg in pt_inputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def format_pt_outputs(self, pt_outputs):
*da0073e9SAndroid Build Coastguard Worker        if isinstance(pt_outputs, torch.Tensor):
*da0073e9SAndroid Build Coastguard Worker            pt_outputs = (pt_outputs,)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        pt_outputs = pytree.tree_leaves(pt_outputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Hack for huggingface model outputs
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            from transformers import modeling_outputs
*da0073e9SAndroid Build Coastguard Worker        except ImportError:
*da0073e9SAndroid Build Coastguard Worker            pass
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def _to_tuple(x):
*da0073e9SAndroid Build Coastguard Worker                if isinstance(x, modeling_outputs.ModelOutput):
*da0073e9SAndroid Build Coastguard Worker                    return x.to_tuple()
*da0073e9SAndroid Build Coastguard Worker                return x
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            pt_outputs = pytree.tree_map(_to_tuple, pt_outputs)
*da0073e9SAndroid Build Coastguard Worker            pt_outputs = pytree.tree_leaves(pt_outputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        return pt_outputs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass OnnxModelFromDynamo(OnnxModel):
*da0073e9SAndroid Build Coastguard Worker    """Dynamo and Fx based export. `torch.onnx.dynamo_export`."""
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    _COMPILER_NAME = "dynamo"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __init__(
*da0073e9SAndroid Build Coastguard Worker        self, output_directory, model, example_inputs, dynamic_shapes: bool, **kwargs
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        super().__init__(
*da0073e9SAndroid Build Coastguard Worker            output_directory, model, example_inputs, dynamic_shapes, **kwargs
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        self._dynamic_shapes = dynamic_shapes
*da0073e9SAndroid Build Coastguard Worker        self._onnx_program = self._export(model, example_inputs, self.model_path)
*da0073e9SAndroid Build Coastguard Worker        # Clear the model proto to save memory.
*da0073e9SAndroid Build Coastguard Worker        # The model proto is saved to disk and no longer needed from `onnx_program`.
*da0073e9SAndroid Build Coastguard Worker        # `onnx_program` is kept for i/o adapter usage.
*da0073e9SAndroid Build Coastguard Worker        self._onnx_program.model_proto.Clear()
*da0073e9SAndroid Build Coastguard Worker        self.onnx_session = self._init_ort_session(self.model_path)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _export(
*da0073e9SAndroid Build Coastguard Worker        self, model, example_inputs, output_path: str
*da0073e9SAndroid Build Coastguard Worker    ) -> torch.onnx.ONNXProgram:
*da0073e9SAndroid Build Coastguard Worker        if self.copy_before_export:
*da0073e9SAndroid Build Coastguard Worker            # Deepcopy model before export to avoid modification to baseline model.
*da0073e9SAndroid Build Coastguard Worker            model, example_inputs = self.deepcopy_model_and_inputs_to_device(
*da0073e9SAndroid Build Coastguard Worker                model, example_inputs, self._determine_deepcopy_target_device()
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        example_args, example_kwargs = _normalize_bench_inputs(example_inputs)
*da0073e9SAndroid Build Coastguard Worker        options = torch.onnx.ExportOptions(dynamic_shapes=self._dynamic_shapes)
*da0073e9SAndroid Build Coastguard Worker        onnx_program = torch.onnx.dynamo_export(
*da0073e9SAndroid Build Coastguard Worker            model, *example_args, **example_kwargs, export_options=options
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        onnx_program.save(output_path)
*da0073e9SAndroid Build Coastguard Worker        return onnx_program
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def format_pt_inputs(self, pt_inputs):
*da0073e9SAndroid Build Coastguard Worker        pt_args, pt_kwargs = _normalize_bench_inputs(pt_inputs)
*da0073e9SAndroid Build Coastguard Worker        return self._onnx_program.adapt_torch_inputs_to_onnx(*pt_args, **pt_kwargs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def format_pt_outputs(self, pt_outputs):
*da0073e9SAndroid Build Coastguard Worker        return self._onnx_program.adapt_torch_outputs_to_onnx(pt_outputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass OnnxModelFromDynamoAotInline(OnnxModelFromDynamo):
*da0073e9SAndroid Build Coastguard Worker    """Dynamo and Fx based export, with AOT inline post export. `torch.onnx.dynamo_export`."""
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    _COMPILER_NAME = "dynamo_aot_inline"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _export(
*da0073e9SAndroid Build Coastguard Worker        self, model, example_inputs, output_path: str
*da0073e9SAndroid Build Coastguard Worker    ) -> torch.onnx.ONNXProgram:
*da0073e9SAndroid Build Coastguard Worker        if self.copy_before_export:
*da0073e9SAndroid Build Coastguard Worker            # Deepcopy model before export to avoid modification to baseline model.
*da0073e9SAndroid Build Coastguard Worker            model, example_inputs = self.deepcopy_model_and_inputs_to_device(
*da0073e9SAndroid Build Coastguard Worker                model, example_inputs, self._determine_deepcopy_target_device()
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        example_args, example_kwargs = _normalize_bench_inputs(example_inputs)
*da0073e9SAndroid Build Coastguard Worker        options = torch.onnx.ExportOptions(dynamic_shapes=self._dynamic_shapes)
*da0073e9SAndroid Build Coastguard Worker        onnx_program = torch.onnx.dynamo_export(
*da0073e9SAndroid Build Coastguard Worker            model, *example_args, **example_kwargs, export_options=options
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        # Apply AOT inline post export.
*da0073e9SAndroid Build Coastguard Worker        # Requires onnx >= 1.15
*da0073e9SAndroid Build Coastguard Worker        import onnx
*da0073e9SAndroid Build Coastguard Worker        import onnx.inliner
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Workaround for inliner not supporting with models larger than 2GB.
*da0073e9SAndroid Build Coastguard Worker        # Save model to disk first separating out external data,
*da0073e9SAndroid Build Coastguard Worker        # and load back without external data for inliner to work on.
*da0073e9SAndroid Build Coastguard Worker        model_proto = onnx_program.model_proto
*da0073e9SAndroid Build Coastguard Worker        onnx.save_model(model_proto, output_path, save_as_external_data=True)
*da0073e9SAndroid Build Coastguard Worker        model_proto = onnx.load(output_path, load_external_data=False)
*da0073e9SAndroid Build Coastguard Worker        model_proto = onnx.inliner.inline_local_functions(model_proto)
*da0073e9SAndroid Build Coastguard Worker        onnx.save_model(model_proto, output_path)
*da0073e9SAndroid Build Coastguard Worker        return onnx_program
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass OnnxModelFromDynamoAotOptimize(OnnxModelFromDynamo):
*da0073e9SAndroid Build Coastguard Worker    """Dynamo and Fx based export, with AOT optimize post export. `torch.onnx.dynamo_export`."""
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    _COMPILER_NAME = "dynamo_aot_optimize"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _export(
*da0073e9SAndroid Build Coastguard Worker        self, model, example_inputs, output_path: str
*da0073e9SAndroid Build Coastguard Worker    ) -> torch.onnx.ONNXProgram:
*da0073e9SAndroid Build Coastguard Worker        if self.copy_before_export:
*da0073e9SAndroid Build Coastguard Worker            # Deepcopy model before export to avoid modification to baseline model.
*da0073e9SAndroid Build Coastguard Worker            model, example_inputs = self.deepcopy_model_and_inputs_to_device(
*da0073e9SAndroid Build Coastguard Worker                model, example_inputs, self._determine_deepcopy_target_device()
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        example_args, example_kwargs = _normalize_bench_inputs(example_inputs)
*da0073e9SAndroid Build Coastguard Worker        options = torch.onnx.ExportOptions(dynamic_shapes=self._dynamic_shapes)
*da0073e9SAndroid Build Coastguard Worker        export_output = torch.onnx.dynamo_export(
*da0073e9SAndroid Build Coastguard Worker            model, *example_args, **example_kwargs, export_options=options
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        import onnx
*da0073e9SAndroid Build Coastguard Worker        from onnxscript.rewriter.onnxruntime import rewrite
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        model_proto = rewrite(export_output.model_proto)
*da0073e9SAndroid Build Coastguard Worker        onnx.save_model(
*da0073e9SAndroid Build Coastguard Worker            model_proto,
*da0073e9SAndroid Build Coastguard Worker            output_path,
*da0073e9SAndroid Build Coastguard Worker            save_as_external_data=True,
*da0073e9SAndroid Build Coastguard Worker            all_tensors_to_one_file=True,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        return export_output
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass _OnnxPatch:
*da0073e9SAndroid Build Coastguard Worker    @classmethod
*da0073e9SAndroid Build Coastguard Worker    def patch_non_tensor_outputs(cls, correct_result, new_result, fp64_outputs):
*da0073e9SAndroid Build Coastguard Worker        """Patch non-tensor outputs to make them comparable with the correct result.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        ONNX model always returns a flat tuple of tensors, but the PyTorch model outputs
*da0073e9SAndroid Build Coastguard Worker        `correct_result` and `fp64_outputs` can be arbitrary types. This function normalizes
*da0073e9SAndroid Build Coastguard Worker        the outputs to make them comparable with the ONNX model output.
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            from transformers import modeling_outputs
*da0073e9SAndroid Build Coastguard Worker        except ImportError:
*da0073e9SAndroid Build Coastguard Worker            has_transformers = False
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            has_transformers = True
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if has_transformers and isinstance(
*da0073e9SAndroid Build Coastguard Worker            correct_result, modeling_outputs.ModelOutput
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            correct_result = correct_result.to_tuple()
*da0073e9SAndroid Build Coastguard Worker            fp64_outputs = fp64_outputs.to_tuple() if fp64_outputs is not None else None
*da0073e9SAndroid Build Coastguard Worker        elif type(correct_result).__name__ in (
*da0073e9SAndroid Build Coastguard Worker            "MaskedLMOutput",
*da0073e9SAndroid Build Coastguard Worker            "Seq2SeqLMOutput",
*da0073e9SAndroid Build Coastguard Worker            "CausalLMOutputWithCrossAttentions",
*da0073e9SAndroid Build Coastguard Worker            "LongformerMaskedLMOutput",
*da0073e9SAndroid Build Coastguard Worker            "Instances",
*da0073e9SAndroid Build Coastguard Worker            "SquashedNormal",
*da0073e9SAndroid Build Coastguard Worker            "Boxes",
*da0073e9SAndroid Build Coastguard Worker            "Normal",
*da0073e9SAndroid Build Coastguard Worker            "TanhTransform",
*da0073e9SAndroid Build Coastguard Worker            "Foo",
*da0073e9SAndroid Build Coastguard Worker            "Variable",
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            # Copied from `same` function in `torch._dynamo.utils`
*da0073e9SAndroid Build Coastguard Worker            correct_result = [
*da0073e9SAndroid Build Coastguard Worker                value
*da0073e9SAndroid Build Coastguard Worker                for key in correct_result.__dict__.keys()
*da0073e9SAndroid Build Coastguard Worker                if (value := getattr(correct_result, key)) is not None
*da0073e9SAndroid Build Coastguard Worker            ]
*da0073e9SAndroid Build Coastguard Worker            fp64_outputs = (
*da0073e9SAndroid Build Coastguard Worker                [
*da0073e9SAndroid Build Coastguard Worker                    value
*da0073e9SAndroid Build Coastguard Worker                    for key in fp64_outputs.__dict__.keys()
*da0073e9SAndroid Build Coastguard Worker                    if (value := getattr(fp64_outputs, key)) is not None
*da0073e9SAndroid Build Coastguard Worker                ]
*da0073e9SAndroid Build Coastguard Worker                if fp64_outputs is not None
*da0073e9SAndroid Build Coastguard Worker                else None
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Flatten nested tuple of tensors, i.e. past_key_values
*da0073e9SAndroid Build Coastguard Worker        correct_result = pytree.tree_leaves(correct_result)
*da0073e9SAndroid Build Coastguard Worker        # Hack to put results from different runs on same device.
*da0073e9SAndroid Build Coastguard Worker        # This is needed for ONNX CPU fallback benchmark, where PyTorch eager is run on GPU.
*da0073e9SAndroid Build Coastguard Worker        # Assuming outputs from a single run are always on same device!
*da0073e9SAndroid Build Coastguard Worker        devices = [x.device for x in correct_result if isinstance(x, torch.Tensor)]
*da0073e9SAndroid Build Coastguard Worker        assert devices and all(
*da0073e9SAndroid Build Coastguard Worker            x == devices[0] for x in devices
*da0073e9SAndroid Build Coastguard Worker        ), "All tensors must be on same device!"
*da0073e9SAndroid Build Coastguard Worker        device = devices[0]
*da0073e9SAndroid Build Coastguard Worker        new_result = pytree.tree_leaves(new_result)
*da0073e9SAndroid Build Coastguard Worker        new_result = pytree.tree_map(
*da0073e9SAndroid Build Coastguard Worker            lambda x: x.to(device=device) if isinstance(x, torch.Tensor) else x,
*da0073e9SAndroid Build Coastguard Worker            new_result,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        fp64_outputs = pytree.tree_leaves(fp64_outputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        return correct_result, new_result, fp64_outputs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@dataclasses.dataclass
*da0073e9SAndroid Build Coastguard Workerclass OnnxExportErrorRow:
*da0073e9SAndroid Build Coastguard Worker    device: str
*da0073e9SAndroid Build Coastguard Worker    model_name: str
*da0073e9SAndroid Build Coastguard Worker    batch_size: int
*da0073e9SAndroid Build Coastguard Worker    rule_id: Optional[str] = None
*da0073e9SAndroid Build Coastguard Worker    rule_name: Optional[str] = None
*da0073e9SAndroid Build Coastguard Worker    diagnostic_level: Optional[str] = None
*da0073e9SAndroid Build Coastguard Worker    diagnostic_message: Optional[str] = None
*da0073e9SAndroid Build Coastguard Worker    exception_type_name: Optional[str] = None
*da0073e9SAndroid Build Coastguard Worker    exception_message: Optional[str] = None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __post_init__(self):
*da0073e9SAndroid Build Coastguard Worker        assert (
*da0073e9SAndroid Build Coastguard Worker            self.rule_id is not None
*da0073e9SAndroid Build Coastguard Worker            and self.rule_name is not None
*da0073e9SAndroid Build Coastguard Worker            and self.diagnostic_level is not None
*da0073e9SAndroid Build Coastguard Worker            and self.diagnostic_message is not None
*da0073e9SAndroid Build Coastguard Worker        ) or self.exception_type_name, (
*da0073e9SAndroid Build Coastguard Worker            "Either rule_id, rule_name, diagnostic_level and diagnostic_message "
*da0073e9SAndroid Build Coastguard Worker            "must be set or exception_type_name must be set"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def headers(self) -> List[str]:
*da0073e9SAndroid Build Coastguard Worker        return [field.name for field in dataclasses.fields(self)]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def row(self) -> List[str]:
*da0073e9SAndroid Build Coastguard Worker        return [getattr(self, field.name) for field in dataclasses.fields(self)]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass OnnxExportErrorParser:
*da0073e9SAndroid Build Coastguard Worker    def __init__(self, device: str, model_name: str, batch_size: int):
*da0073e9SAndroid Build Coastguard Worker        self.device = device
*da0073e9SAndroid Build Coastguard Worker        self.model_name = model_name
*da0073e9SAndroid Build Coastguard Worker        self.batch_size = batch_size
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def _qualified_exception_class_name(self, exception: Exception) -> str:
*da0073e9SAndroid Build Coastguard Worker        if exception.__class__.__module__ == "builtins":
*da0073e9SAndroid Build Coastguard Worker            return exception.__class__.__name__
*da0073e9SAndroid Build Coastguard Worker        return f"{exception.__class__.__module__}.{exception.__class__.__name__}"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def parse_diagnostic_context(
*da0073e9SAndroid Build Coastguard Worker        self,
*da0073e9SAndroid Build Coastguard Worker        diagnostic_context: diagnostics.DiagnosticContext,
*da0073e9SAndroid Build Coastguard Worker    ) -> Generator[OnnxExportErrorRow, Any, Any]:
*da0073e9SAndroid Build Coastguard Worker        from torch.onnx._internal.fx import diagnostics
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for diagnostic in diagnostic_context.diagnostics:
*da0073e9SAndroid Build Coastguard Worker            if diagnostic.level >= diagnostics.levels.ERROR:
*da0073e9SAndroid Build Coastguard Worker                yield OnnxExportErrorRow(
*da0073e9SAndroid Build Coastguard Worker                    device=self.device,
*da0073e9SAndroid Build Coastguard Worker                    model_name=self.model_name,
*da0073e9SAndroid Build Coastguard Worker                    batch_size=self.batch_size,
*da0073e9SAndroid Build Coastguard Worker                    rule_id=diagnostic.rule.id,
*da0073e9SAndroid Build Coastguard Worker                    rule_name=diagnostic.rule.name,
*da0073e9SAndroid Build Coastguard Worker                    diagnostic_level=diagnostic.level.name,
*da0073e9SAndroid Build Coastguard Worker                    diagnostic_message=diagnostic.message,
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def parse_exception(self, exception: Exception) -> OnnxExportErrorRow:
*da0073e9SAndroid Build Coastguard Worker        return OnnxExportErrorRow(
*da0073e9SAndroid Build Coastguard Worker            device=self.device,
*da0073e9SAndroid Build Coastguard Worker            model_name=self.model_name,
*da0073e9SAndroid Build Coastguard Worker            batch_size=self.batch_size,
*da0073e9SAndroid Build Coastguard Worker            exception_type_name=self._qualified_exception_class_name(exception),
*da0073e9SAndroid Build Coastguard Worker            exception_message=str(exception),
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@dataclasses.dataclass
*da0073e9SAndroid Build Coastguard Workerclass OnnxContext:
*da0073e9SAndroid Build Coastguard Worker    onnx_model: Optional[OnnxModel] = None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef optimize_onnx_ctx(
*da0073e9SAndroid Build Coastguard Worker    output_directory: str,
*da0073e9SAndroid Build Coastguard Worker    onnx_model_cls: Type[OnnxModel],
*da0073e9SAndroid Build Coastguard Worker    run_n_iterations: Callable,
*da0073e9SAndroid Build Coastguard Worker    dynamic_shapes: bool = False,
*da0073e9SAndroid Build Coastguard Worker    copy_before_export: bool = False,
*da0073e9SAndroid Build Coastguard Worker) -> Callable:
*da0073e9SAndroid Build Coastguard Worker    # NOTE(bowbao): This function creates and returns the onnx version of 'run_n_iterations',
*da0073e9SAndroid Build Coastguard Worker    # which does the following:
*da0073e9SAndroid Build Coastguard Worker    #   1. Export and cache model.
*da0073e9SAndroid Build Coastguard Worker    #   2. Create iobinding for ORT.
*da0073e9SAndroid Build Coastguard Worker    #   3. Run ORT for n iterations.
*da0073e9SAndroid Build Coastguard Worker    # The cached model is stored in 'context' under the returned callable.
*da0073e9SAndroid Build Coastguard Worker    context = OnnxContext()
*da0073e9SAndroid Build Coastguard Worker    test_data_dumped = False
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def run_n_iterations_onnx(model, inputs, n=2):
*da0073e9SAndroid Build Coastguard Worker        from torch.onnx._internal import exporter
*da0073e9SAndroid Build Coastguard Worker        from torch.onnx._internal.fx import diagnostics
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # NOTE(bowbao): Capture all export & ort errors and diagnostics.
*da0073e9SAndroid Build Coastguard Worker        # Serialize to csv, to be parsed and summarized later by '._onnx/reporter.py'.
*da0073e9SAndroid Build Coastguard Worker        # TODO: Accuracy mismatch is not reported here in csv.
*da0073e9SAndroid Build Coastguard Worker        assert (
*da0073e9SAndroid Build Coastguard Worker            output_filename.find(".csv") > 0
*da0073e9SAndroid Build Coastguard Worker        ), f"expected output_filename to be a .csv, but got {output_filename}"
*da0073e9SAndroid Build Coastguard Worker        output_error_filename = output_filename[:-4] + "_export_error.csv"
*da0073e9SAndroid Build Coastguard Worker        parser = OnnxExportErrorParser(current_device, current_name, current_batch_size)
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            nonlocal context
*da0073e9SAndroid Build Coastguard Worker            if context.onnx_model is None:
*da0073e9SAndroid Build Coastguard Worker                context.onnx_model = onnx_model_cls(
*da0073e9SAndroid Build Coastguard Worker                    output_directory,
*da0073e9SAndroid Build Coastguard Worker                    model,
*da0073e9SAndroid Build Coastguard Worker                    copy.deepcopy(inputs),
*da0073e9SAndroid Build Coastguard Worker                    dynamic_shapes=dynamic_shapes,
*da0073e9SAndroid Build Coastguard Worker                    copy_before_export=copy_before_export,
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            onnx_model = context.onnx_model
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            for _ in range(n):
*da0073e9SAndroid Build Coastguard Worker                nonlocal test_data_dumped
*da0073e9SAndroid Build Coastguard Worker                if not test_data_dumped:
*da0073e9SAndroid Build Coastguard Worker                    # Serializes inputs and outputs to .pb files for further offline analysis.
*da0073e9SAndroid Build Coastguard Worker                    # Due to this, this function is not and should not be used for perf measurement.
*da0073e9SAndroid Build Coastguard Worker                    outputs = onnx_model.run_and_serialize_inputs_outputs(inputs)
*da0073e9SAndroid Build Coastguard Worker                    test_data_dumped = True
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    outputs = onnx_model.run(inputs)
*da0073e9SAndroid Build Coastguard Worker            return outputs
*da0073e9SAndroid Build Coastguard Worker        except exporter.OnnxExporterError as e:
*da0073e9SAndroid Build Coastguard Worker            # `torch.onnx.dynamo_export` raises error that encloses diagnostics.
*da0073e9SAndroid Build Coastguard Worker            diagnostic_context = e.onnx_program.diagnostic_context
*da0073e9SAndroid Build Coastguard Worker            for parsed_error in parser.parse_diagnostic_context(diagnostic_context):
*da0073e9SAndroid Build Coastguard Worker                output_csv(
*da0073e9SAndroid Build Coastguard Worker                    output_error_filename, parsed_error.headers, parsed_error.row
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            if context.onnx_model is not None:
*da0073e9SAndroid Build Coastguard Worker                e.onnx_program.save_diagnostics(
*da0073e9SAndroid Build Coastguard Worker                    f"{context.onnx_model.model_dir}/"
*da0073e9SAndroid Build Coastguard Worker                    f"{current_onnx_compiler}_{current_name}_{current_device}.sarif"
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Check also the raw exception that caused export failure.
*da0073e9SAndroid Build Coastguard Worker            # Skip if it is already analyzed by diagnostics.
*da0073e9SAndroid Build Coastguard Worker            cause_of_exception = e.__cause__
*da0073e9SAndroid Build Coastguard Worker            if not isinstance(
*da0073e9SAndroid Build Coastguard Worker                cause_of_exception, diagnostics.RuntimeErrorWithDiagnostic
*da0073e9SAndroid Build Coastguard Worker            ):
*da0073e9SAndroid Build Coastguard Worker                parsed_error = parser.parse_exception(cause_of_exception)
*da0073e9SAndroid Build Coastguard Worker                output_csv(
*da0073e9SAndroid Build Coastguard Worker                    output_error_filename, parsed_error.headers, parsed_error.row
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            raise
*da0073e9SAndroid Build Coastguard Worker        except Exception as e:
*da0073e9SAndroid Build Coastguard Worker            # `torch.onnx.export` errors.
*da0073e9SAndroid Build Coastguard Worker            # ORT errors.
*da0073e9SAndroid Build Coastguard Worker            parsed_error = parser.parse_exception(e)
*da0073e9SAndroid Build Coastguard Worker            output_csv(output_error_filename, parsed_error.headers, parsed_error.row)
*da0073e9SAndroid Build Coastguard Worker            raise
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    run_n_iterations_onnx.context = context
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return run_n_iterations_onnx
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef read_batch_size_from_file(args, filename, model_name):
*da0073e9SAndroid Build Coastguard Worker    batch_size = None
*da0073e9SAndroid Build Coastguard Worker    if os.path.exists("benchmarks"):
*da0073e9SAndroid Build Coastguard Worker        filename = os.path.join("benchmarks", filename)
*da0073e9SAndroid Build Coastguard Worker    assert os.path.exists(filename), filename
*da0073e9SAndroid Build Coastguard Worker    with open(filename) as f:
*da0073e9SAndroid Build Coastguard Worker        lines = f.readlines()
*da0073e9SAndroid Build Coastguard Worker        lines = [i.split(",") for i in lines if len(i.strip()) > 0]
*da0073e9SAndroid Build Coastguard Worker        for val in lines:
*da0073e9SAndroid Build Coastguard Worker            cur_name, b = val
*da0073e9SAndroid Build Coastguard Worker            if model_name == cur_name:
*da0073e9SAndroid Build Coastguard Worker                batch_size = int(b)
*da0073e9SAndroid Build Coastguard Worker    if batch_size is None:
*da0073e9SAndroid Build Coastguard Worker        log.warning("Could not find batch size for %s", model_name)
*da0073e9SAndroid Build Coastguard Worker    elif batch_size == -1:
*da0073e9SAndroid Build Coastguard Worker        raise RuntimeError(
*da0073e9SAndroid Build Coastguard Worker            f"Batch size is unset for {model_name} in {args.batch_size_file}"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker    print(f"batch size: {batch_size}")
*da0073e9SAndroid Build Coastguard Worker    return batch_size
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass TimeOutException(Exception):
*da0073e9SAndroid Build Coastguard Worker    pass
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef alarm_handler(signum, frame):
*da0073e9SAndroid Build Coastguard Worker    raise TimeOutException
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef exit_after(s):
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    Decorator to raise TimeoutException if the fn is taking more than s seconds
*da0073e9SAndroid Build Coastguard Worker    to run.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def outer(fn):
*da0073e9SAndroid Build Coastguard Worker        def inner(*args, **kwargs):
*da0073e9SAndroid Build Coastguard Worker            signal.signal(signal.SIGALRM, alarm_handler)
*da0073e9SAndroid Build Coastguard Worker            signal.alarm(s)
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                result = fn(*args, **kwargs)
*da0073e9SAndroid Build Coastguard Worker            finally:
*da0073e9SAndroid Build Coastguard Worker                signal.alarm(0)
*da0073e9SAndroid Build Coastguard Worker            return result
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        return inner
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return outer
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef get_peak_memory():
*da0073e9SAndroid Build Coastguard Worker    return torch.cuda.max_memory_allocated() / 10**9
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef null_experiment(args, model_iter_fn, model, example_inputs):
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    A no-op experiment useful for making sure TorchBenchark alone works properly.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return []
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef cast_to(dtype, model, inputs):
*da0073e9SAndroid Build Coastguard Worker    # cast model and inputs to fp16
*da0073e9SAndroid Build Coastguard Worker    if dtype == torch.float16:
*da0073e9SAndroid Build Coastguard Worker        model = model.half()
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        model = model.to(dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    inputs = tree_map(
*da0073e9SAndroid Build Coastguard Worker        lambda x: x.to(dtype)
*da0073e9SAndroid Build Coastguard Worker        if isinstance(x, torch.Tensor) and x.is_floating_point()
*da0073e9SAndroid Build Coastguard Worker        else x,
*da0073e9SAndroid Build Coastguard Worker        inputs,
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    return model, inputs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef cast_to_bf16(model, inputs):
*da0073e9SAndroid Build Coastguard Worker    return cast_to(torch.bfloat16, model, inputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef cast_to_fp16(model, inputs):
*da0073e9SAndroid Build Coastguard Worker    return cast_to(torch.float16, model, inputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef cast_to_fp64(model, inputs):
*da0073e9SAndroid Build Coastguard Worker    return cast_to(torch.float64, model, inputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef cast_to_fp32(model, inputs):
*da0073e9SAndroid Build Coastguard Worker    return cast_to(torch.float32, model, inputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass DummyGradScaler:
*da0073e9SAndroid Build Coastguard Worker    def scale(self, loss):
*da0073e9SAndroid Build Coastguard Worker        return loss
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef get_dynamo_stats():
*da0073e9SAndroid Build Coastguard Worker    # TODO: consider deepcopy'ing the entire counters struct and
*da0073e9SAndroid Build Coastguard Worker    # adding a helper to do subtraction on it
*da0073e9SAndroid Build Coastguard Worker    return collections.Counter(
*da0073e9SAndroid Build Coastguard Worker        {
*da0073e9SAndroid Build Coastguard Worker            "calls_captured": torch._dynamo.utils.counters["stats"]["calls_captured"],
*da0073e9SAndroid Build Coastguard Worker            "unique_graphs": torch._dynamo.utils.counters["stats"]["unique_graphs"],
*da0073e9SAndroid Build Coastguard Worker            "graph_breaks": sum(torch._dynamo.utils.counters["graph_break"].values()),
*da0073e9SAndroid Build Coastguard Worker            # NB: The plus removes zero counts
*da0073e9SAndroid Build Coastguard Worker            "unique_graph_breaks": len(+torch._dynamo.utils.counters["graph_break"]),
*da0073e9SAndroid Build Coastguard Worker            "autograd_captures": torch._dynamo.utils.counters["compiled_autograd"][
*da0073e9SAndroid Build Coastguard Worker                "captures"
*da0073e9SAndroid Build Coastguard Worker            ],
*da0073e9SAndroid Build Coastguard Worker            "autograd_compiles": torch._dynamo.utils.counters["compiled_autograd"][
*da0073e9SAndroid Build Coastguard Worker                "compiles"
*da0073e9SAndroid Build Coastguard Worker            ],
*da0073e9SAndroid Build Coastguard Worker            "cudagraph_skips": torch._dynamo.utils.counters["inductor"][
*da0073e9SAndroid Build Coastguard Worker                "cudagraph_skips"
*da0073e9SAndroid Build Coastguard Worker            ],
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@contextmanager
*da0073e9SAndroid Build Coastguard Workerdef maybe_init_distributed(should_init_distributed, rank, world_size, port="6789"):
*da0073e9SAndroid Build Coastguard Worker    try:
*da0073e9SAndroid Build Coastguard Worker        if should_init_distributed:
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.set_device(rank)
*da0073e9SAndroid Build Coastguard Worker            os.environ["MASTER_ADDR"] = "localhost"
*da0073e9SAndroid Build Coastguard Worker            os.environ["MASTER_PORT"] = port
*da0073e9SAndroid Build Coastguard Worker            torch.distributed.init_process_group(
*da0073e9SAndroid Build Coastguard Worker                "nccl", rank=rank, world_size=world_size
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker        yield
*da0073e9SAndroid Build Coastguard Worker    finally:
*da0073e9SAndroid Build Coastguard Worker        if should_init_distributed:
*da0073e9SAndroid Build Coastguard Worker            torch.distributed.destroy_process_group()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@contextmanager
*da0073e9SAndroid Build Coastguard Workerdef maybe_snapshot_memory(should_snapshot_memory, suffix):
*da0073e9SAndroid Build Coastguard Worker    # Enables Memory Snapshot tool for memory deep dives:
*da0073e9SAndroid Build Coastguard Worker    # https://pytorch.org/blog/understanding-gpu-memory-1/
*da0073e9SAndroid Build Coastguard Worker    try:
*da0073e9SAndroid Build Coastguard Worker        if should_snapshot_memory:
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._record_memory_history(max_entries=100000)
*da0073e9SAndroid Build Coastguard Worker        yield
*da0073e9SAndroid Build Coastguard Worker    finally:
*da0073e9SAndroid Build Coastguard Worker        if should_snapshot_memory:
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.memory._dump_snapshot(
*da0073e9SAndroid Build Coastguard Worker                    os.path.join(
*da0073e9SAndroid Build Coastguard Worker                        torch._dynamo.config.base_dir,
*da0073e9SAndroid Build Coastguard Worker                        f"{output_filename.rstrip('.csv')}_{suffix}.pickle",
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            except Exception as e:
*da0073e9SAndroid Build Coastguard Worker                logging.error("Failed to save memory snapshot, %s", e)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            torch.cuda.memory._record_memory_history(enabled=None)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass BenchmarkRunner:
*da0073e9SAndroid Build Coastguard Worker    def __init__(self):
*da0073e9SAndroid Build Coastguard Worker        self.model_iter_fn = None
*da0073e9SAndroid Build Coastguard Worker        self.grad_scaler = DummyGradScaler()
*da0073e9SAndroid Build Coastguard Worker        self.autocast = contextlib.nullcontext
*da0073e9SAndroid Build Coastguard Worker        self.autocast_arg = {}
*da0073e9SAndroid Build Coastguard Worker        self.optimizer = None
*da0073e9SAndroid Build Coastguard Worker        self._args = None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def setup_amp(self, current_device=None):
*da0073e9SAndroid Build Coastguard Worker        if self.args.only in self.fp32_only_models:
*da0073e9SAndroid Build Coastguard Worker            return
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        devices = [current_device] if current_device else self.args.devices
*da0073e9SAndroid Build Coastguard Worker        if self.args.amp:
*da0073e9SAndroid Build Coastguard Worker            # AMP training can lead to small loss values which can undeflow
*da0073e9SAndroid Build Coastguard Worker            # gradient values returning in zero gradients. To solve this
*da0073e9SAndroid Build Coastguard Worker            # problem, PyTorch introduces GradScaler. GradScaler is a stateful
*da0073e9SAndroid Build Coastguard Worker            # structure, that scales the loss values to prevent underflow. Loss
*da0073e9SAndroid Build Coastguard Worker            # values are big at the beginning of training (therefore not
*da0073e9SAndroid Build Coastguard Worker            # requiring scaling), while loss value tends to be small as network
*da0073e9SAndroid Build Coastguard Worker            # starts getting better (requiring scaling). GradScaler manages all
*da0073e9SAndroid Build Coastguard Worker            # of this fine tuning, checking the gradients are turning to inf,
*da0073e9SAndroid Build Coastguard Worker            # discarding such batches.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Since we are not running a long iteration, default value of
*da0073e9SAndroid Build Coastguard Worker            # init_scale 65536 is going to turn all gradients to inf. Therefore,
*da0073e9SAndroid Build Coastguard Worker            # we just use a init_scale of 2.0 for benchmarking purpose.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Disabling Gradscaler because
*da0073e9SAndroid Build Coastguard Worker            #  1) Benchmark setup runs 2 iterations of fwd-bwd. So, not useful.
*da0073e9SAndroid Build Coastguard Worker            #  2) Current setup shares grad_scaler for eager and dynamo model,
*da0073e9SAndroid Build Coastguard Worker            #  which is bad as Gradscaler has state and can adjust the scaling
*da0073e9SAndroid Build Coastguard Worker            #  factor between eager and dynamo run, making accuracy check
*da0073e9SAndroid Build Coastguard Worker            #  harder.
*da0073e9SAndroid Build Coastguard Worker            # self.grad_scaler = torch.amp.GradScaler(device="cuda", init_scale=2.0)
*da0073e9SAndroid Build Coastguard Worker            self.autocast = functools.partial(
*da0073e9SAndroid Build Coastguard Worker                torch.amp.autocast, device_type=devices[0]
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            if self.args.amp_dtype:
*da0073e9SAndroid Build Coastguard Worker                amp_dtype = (
*da0073e9SAndroid Build Coastguard Worker                    torch.float16
*da0073e9SAndroid Build Coastguard Worker                    if self.args.amp_dtype == "float16"
*da0073e9SAndroid Build Coastguard Worker                    else torch.bfloat16
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                self.autocast_arg["dtype"] = amp_dtype
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def init_optimizer(self, name, device, params):
*da0073e9SAndroid Build Coastguard Worker        if device == "cuda" and self.args.training and name not in CI_SKIP_OPTIMIZER:
*da0073e9SAndroid Build Coastguard Worker            if (name in CI_USE_SGD and self.args.ci) or name in BENCHMARK_USE_SGD:
*da0073e9SAndroid Build Coastguard Worker                self.optimizer = torch.optim.SGD(params, lr=0.01, foreach=True)
*da0073e9SAndroid Build Coastguard Worker                # Disable multi_tensor_sgd for benchmarking, there isn't a large performance benefit (~1%) to compiling
*da0073e9SAndroid Build Coastguard Worker                # this optimizer because it is a single foreach add, and increases compile time.
*da0073e9SAndroid Build Coastguard Worker                # After autotuning and fake tensor caching lands, we can enable, becuase the compile time impact will be lower.
*da0073e9SAndroid Build Coastguard Worker                # Fake Tensor caching: https://github.com/pytorch/pytorch/pull/113873
*da0073e9SAndroid Build Coastguard Worker                # Autotuning: https://github.com/pytorch/pytorch/issues/117447
*da0073e9SAndroid Build Coastguard Worker                self.optimizer.step = torch._dynamo.disable(self.optimizer.step)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                self.optimizer = torch.optim.Adam(
*da0073e9SAndroid Build Coastguard Worker                    params, lr=0.01, capturable=True, foreach=True
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            self.optimizer = None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def args(self):
*da0073e9SAndroid Build Coastguard Worker        return self._args
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @args.setter
*da0073e9SAndroid Build Coastguard Worker    def args(self, args):
*da0073e9SAndroid Build Coastguard Worker        self._args = args
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def skip_models(self):
*da0073e9SAndroid Build Coastguard Worker        return set()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def skip_models_for_cuda(self):
*da0073e9SAndroid Build Coastguard Worker        return set()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def skip_models_for_cpu(self):
*da0073e9SAndroid Build Coastguard Worker        return set()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def skip_models_for_freezing(self):
*da0073e9SAndroid Build Coastguard Worker        return set()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def slow_models(self):
*da0073e9SAndroid Build Coastguard Worker        return set()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def very_slow_models(self):
*da0073e9SAndroid Build Coastguard Worker        return set()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def non_deterministic_models(self):
*da0073e9SAndroid Build Coastguard Worker        return set()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def fp32_only_models(self):
*da0073e9SAndroid Build Coastguard Worker        return set()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def force_amp_for_fp16_bf16_models(self):
*da0073e9SAndroid Build Coastguard Worker        return set()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def force_fp16_for_bf16_models(self):
*da0073e9SAndroid Build Coastguard Worker        return set()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def skip_not_suitable_for_training_models(self):
*da0073e9SAndroid Build Coastguard Worker        return set()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def failing_torchinductor_models(self):
*da0073e9SAndroid Build Coastguard Worker        return set()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def failing_fx2trt_models(self):
*da0073e9SAndroid Build Coastguard Worker        return set()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def skip_accuracy_checks_large_models_dashboard(self):
*da0073e9SAndroid Build Coastguard Worker        return set()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def skip_accuracy_check_as_eager_non_deterministic(self):
*da0073e9SAndroid Build Coastguard Worker        return set()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def skip_multiprocess_models(self):
*da0073e9SAndroid Build Coastguard Worker        return set()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def skip_models_due_to_control_flow(self):
*da0073e9SAndroid Build Coastguard Worker        return set()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def guard_on_nn_module_models(self):
*da0073e9SAndroid Build Coastguard Worker        return set()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def get_tolerance_and_cosine_flag(self, is_training, current_device, name):
*da0073e9SAndroid Build Coastguard Worker        raise NotImplementedError
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    def equal_nan(self):
*da0073e9SAndroid Build Coastguard Worker        equal_nan = True
*da0073e9SAndroid Build Coastguard Worker        if self.args.float32:
*da0073e9SAndroid Build Coastguard Worker            equal_nan = False
*da0073e9SAndroid Build Coastguard Worker        return equal_nan
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def iter_models(self, args):
*da0073e9SAndroid Build Coastguard Worker        for model_name in self.iter_model_names(args):
*da0073e9SAndroid Build Coastguard Worker            for device in args.devices:
*da0073e9SAndroid Build Coastguard Worker                try:
*da0073e9SAndroid Build Coastguard Worker                    yield self.load_model(
*da0073e9SAndroid Build Coastguard Worker                        device,
*da0073e9SAndroid Build Coastguard Worker                        model_name,
*da0073e9SAndroid Build Coastguard Worker                        batch_size=args.batch_size,
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker                except NotImplementedError:
*da0073e9SAndroid Build Coastguard Worker                    continue  # bad benchmark implementation
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def deepcopy_model(self, model):
*da0073e9SAndroid Build Coastguard Worker        return copy.deepcopy(model)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def cast_based_on_args(self, model, example_inputs):
*da0073e9SAndroid Build Coastguard Worker        if self.args.float32 or self.args.only in self.fp32_only_models:
*da0073e9SAndroid Build Coastguard Worker            if not self.args.float32:
*da0073e9SAndroid Build Coastguard Worker                log.warning("Model %s supports float32 only", self.args.only)
*da0073e9SAndroid Build Coastguard Worker            model, example_inputs = cast_to_fp32(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker        elif self.args.float16:
*da0073e9SAndroid Build Coastguard Worker            if self.args.only in self.force_amp_for_fp16_bf16_models:
*da0073e9SAndroid Build Coastguard Worker                log.warning(
*da0073e9SAndroid Build Coastguard Worker                    "Model %s does not support float16, running with amp instead",
*da0073e9SAndroid Build Coastguard Worker                    self.args.only,
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                self.args.amp = True
*da0073e9SAndroid Build Coastguard Worker                self.setup_amp()
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                model, example_inputs = cast_to_fp16(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker        elif self.args.bfloat16:
*da0073e9SAndroid Build Coastguard Worker            if self.args.only in self.force_amp_for_fp16_bf16_models:
*da0073e9SAndroid Build Coastguard Worker                log.warning(
*da0073e9SAndroid Build Coastguard Worker                    "Model %s does not support bfloat16, running with amp instead",
*da0073e9SAndroid Build Coastguard Worker                    self.args.only,
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                self.args.amp = True
*da0073e9SAndroid Build Coastguard Worker                self.setup_amp()
*da0073e9SAndroid Build Coastguard Worker            elif self.args.only in self.force_fp16_for_bf16_models:
*da0073e9SAndroid Build Coastguard Worker                log.warning(
*da0073e9SAndroid Build Coastguard Worker                    "Model %s does not support bfloat16, running with float16 instead",
*da0073e9SAndroid Build Coastguard Worker                    self.args.only,
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                model, example_inputs = cast_to_fp16(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                model, example_inputs = cast_to_bf16(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        return model, example_inputs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def validate_model(self, model, example_inputs):
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        Runs the eager model with example inputs to ensure that eager passes.
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        model = self.deepcopy_model(model)
*da0073e9SAndroid Build Coastguard Worker        example_inputs = clone_inputs(example_inputs)
*da0073e9SAndroid Build Coastguard Worker        model, example_inputs = self.cast_based_on_args(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            self.model_iter_fn(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker        except Exception as e:
*da0073e9SAndroid Build Coastguard Worker            raise RuntimeError("Eager run failed") from e
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def maybe_cast(self, model, example_inputs):
*da0073e9SAndroid Build Coastguard Worker        model, example_inputs = self.cast_based_on_args(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker        return model, example_inputs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def decay_batch_exp(self, batch_size, factor=0.5, divisor=2):
*da0073e9SAndroid Build Coastguard Worker        out_batch_size = batch_size * factor
*da0073e9SAndroid Build Coastguard Worker        if out_batch_size > divisor:
*da0073e9SAndroid Build Coastguard Worker            out_batch_size = (out_batch_size + 1) // divisor * divisor
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            out_batch_size = batch_size - 1
*da0073e9SAndroid Build Coastguard Worker        return max(0, int(out_batch_size))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def batch_size_finder(self, device, model_name, initial_batch_size=1024):
*da0073e9SAndroid Build Coastguard Worker        batch_size = initial_batch_size
*da0073e9SAndroid Build Coastguard Worker        while batch_size >= 1:
*da0073e9SAndroid Build Coastguard Worker            empty_gpu_cache(current_device)
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                device, name, model, example_inputs, _ = self.load_model(
*da0073e9SAndroid Build Coastguard Worker                    device,
*da0073e9SAndroid Build Coastguard Worker                    model_name,
*da0073e9SAndroid Build Coastguard Worker                    batch_size,
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                self.model_iter_fn(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker                return batch_size
*da0073e9SAndroid Build Coastguard Worker            except RuntimeError as e:
*da0073e9SAndroid Build Coastguard Worker                error_str = str(e)
*da0073e9SAndroid Build Coastguard Worker                if "channels_last" in error_str:
*da0073e9SAndroid Build Coastguard Worker                    break
*da0073e9SAndroid Build Coastguard Worker            batch_size = self.decay_batch_exp(batch_size)
*da0073e9SAndroid Build Coastguard Worker        return 1
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def run_n_iterations(self, mod, inputs):
*da0073e9SAndroid Build Coastguard Worker        n = self.args.iterations
*da0073e9SAndroid Build Coastguard Worker        for _ in range(n - 1):
*da0073e9SAndroid Build Coastguard Worker            self.model_iter_fn(mod, inputs, collect_outputs=False)
*da0073e9SAndroid Build Coastguard Worker        return self.model_iter_fn(mod, inputs, collect_outputs=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @torch._disable_dynamo(recursive=True)
*da0073e9SAndroid Build Coastguard Worker    def optimizer_zero_grad(self, mod):
*da0073e9SAndroid Build Coastguard Worker        if self.optimizer is not None:
*da0073e9SAndroid Build Coastguard Worker            self.optimizer.zero_grad(True)
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            mod.zero_grad(True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def optimizer_step(self):
*da0073e9SAndroid Build Coastguard Worker        if self.optimizer is not None:
*da0073e9SAndroid Build Coastguard Worker            self.optimizer.step()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def get_benchmark_indices(self, length):
*da0073e9SAndroid Build Coastguard Worker        start = self._args.partition_id * (length // self._args.total_partitions)
*da0073e9SAndroid Build Coastguard Worker        end = (
*da0073e9SAndroid Build Coastguard Worker            (self._args.partition_id + 1) * (length // self._args.total_partitions)
*da0073e9SAndroid Build Coastguard Worker            if self._args.partition_id < self._args.total_partitions - 1
*da0073e9SAndroid Build Coastguard Worker            else length
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        return start, end
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def get_fsdp_auto_wrap_policy(self, model_name: str):
*da0073e9SAndroid Build Coastguard Worker        from diffusers.models.transformer_2d import Transformer2DModel
*da0073e9SAndroid Build Coastguard Worker        from torchbenchmark.models.nanogpt.model import Block
*da0073e9SAndroid Build Coastguard Worker        from transformers.models.llama.modeling_llama import LlamaDecoderLayer
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        from transformers.models.t5.modeling_t5 import T5Block
*da0073e9SAndroid Build Coastguard Worker        from transformers.models.whisper.modeling_whisper import WhisperEncoderLayer
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        from torch.distributed.fsdp.wrap import (
*da0073e9SAndroid Build Coastguard Worker            ModuleWrapPolicy,
*da0073e9SAndroid Build Coastguard Worker            size_based_auto_wrap_policy,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # handcrafted wrap policy
*da0073e9SAndroid Build Coastguard Worker        MODEL_FSDP_WRAP = {
*da0073e9SAndroid Build Coastguard Worker            "stable_diffusion_unet": (Transformer2DModel,),
*da0073e9SAndroid Build Coastguard Worker            "hf_T5": (T5Block,),
*da0073e9SAndroid Build Coastguard Worker            "hf_T5_base": (T5Block,),
*da0073e9SAndroid Build Coastguard Worker            "hf_T5_large": (T5Block,),
*da0073e9SAndroid Build Coastguard Worker            "hf_Whisper": (WhisperEncoderLayer,),
*da0073e9SAndroid Build Coastguard Worker            "llama_v2_7b_16h": (LlamaDecoderLayer,),
*da0073e9SAndroid Build Coastguard Worker            "nanogpt": (Block,),
*da0073e9SAndroid Build Coastguard Worker        }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if model_name not in MODEL_FSDP_WRAP:
*da0073e9SAndroid Build Coastguard Worker            # default to using wrap policy based on module size
*da0073e9SAndroid Build Coastguard Worker            return functools.partial(
*da0073e9SAndroid Build Coastguard Worker                size_based_auto_wrap_policy, recurse=True, min_num_params=int(1e5)
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        return ModuleWrapPolicy(MODEL_FSDP_WRAP[model_name])
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def deepcopy_and_maybe_parallelize(self, model):
*da0073e9SAndroid Build Coastguard Worker        model = self.deepcopy_model(model)
*da0073e9SAndroid Build Coastguard Worker        if self.args.ddp:
*da0073e9SAndroid Build Coastguard Worker            assert (
*da0073e9SAndroid Build Coastguard Worker                torch.distributed.is_available()
*da0073e9SAndroid Build Coastguard Worker            ), "Can't use DDP without a distributed enabled build"
*da0073e9SAndroid Build Coastguard Worker            from torch.nn.parallel import DistributedDataParallel as DDP
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            model = DDP(model, find_unused_parameters=True)
*da0073e9SAndroid Build Coastguard Worker        elif self.args.fsdp:
*da0073e9SAndroid Build Coastguard Worker            assert (
*da0073e9SAndroid Build Coastguard Worker                torch.distributed.is_available()
*da0073e9SAndroid Build Coastguard Worker            ), "Can't use FSDP without a distributed enabled build"
*da0073e9SAndroid Build Coastguard Worker            from torch.distributed.fsdp import (
*da0073e9SAndroid Build Coastguard Worker                FullyShardedDataParallel as FSDP,
*da0073e9SAndroid Build Coastguard Worker                MixedPrecision,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if self.args.float16:
*da0073e9SAndroid Build Coastguard Worker                dtype = torch.float16
*da0073e9SAndroid Build Coastguard Worker            elif self.args.bfloat16:
*da0073e9SAndroid Build Coastguard Worker                dtype = torch.bfloat16
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                dtype = torch.float32
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            mp_policy = MixedPrecision(
*da0073e9SAndroid Build Coastguard Worker                param_dtype=dtype,
*da0073e9SAndroid Build Coastguard Worker                # Gradient communication precision.
*da0073e9SAndroid Build Coastguard Worker                reduce_dtype=dtype,
*da0073e9SAndroid Build Coastguard Worker                # Buffer precision.
*da0073e9SAndroid Build Coastguard Worker                buffer_dtype=dtype,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            model = FSDP(
*da0073e9SAndroid Build Coastguard Worker                model,
*da0073e9SAndroid Build Coastguard Worker                use_orig_params=True,
*da0073e9SAndroid Build Coastguard Worker                device_id=torch.cuda.current_device()
*da0073e9SAndroid Build Coastguard Worker                if self.args.devices[-1] == "cuda"
*da0073e9SAndroid Build Coastguard Worker                else None,
*da0073e9SAndroid Build Coastguard Worker                mixed_precision=mp_policy,
*da0073e9SAndroid Build Coastguard Worker                limit_all_gathers=True,
*da0073e9SAndroid Build Coastguard Worker                auto_wrap_policy=self.get_fsdp_auto_wrap_policy(self.args.only),
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker        return model
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def check_accuracy(
*da0073e9SAndroid Build Coastguard Worker        self, name, model, example_inputs, optimize_ctx, experiment, tag
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        Checks accuracy.
*da0073e9SAndroid Build Coastguard Worker        1) Collect the outputs with fp64 datatype. This is useful for error checking.
*da0073e9SAndroid Build Coastguard Worker        2) Checks if eager itself has variations.
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        start_stats = get_dynamo_stats()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def record_status(accuracy_status, dynamo_start_stats):
*da0073e9SAndroid Build Coastguard Worker            """
*da0073e9SAndroid Build Coastguard Worker            Records the status in the csv file
*da0073e9SAndroid Build Coastguard Worker            """
*da0073e9SAndroid Build Coastguard Worker            if current_name in self.non_deterministic_models:
*da0073e9SAndroid Build Coastguard Worker                if accuracy_status in (
*da0073e9SAndroid Build Coastguard Worker                    "pass",
*da0073e9SAndroid Build Coastguard Worker                    "eager_two_runs_differ",
*da0073e9SAndroid Build Coastguard Worker                    "fail_accuracy",
*da0073e9SAndroid Build Coastguard Worker                ):
*da0073e9SAndroid Build Coastguard Worker                    accuracy_status = "pass"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            headers = ["dev", "name", "batch_size", "accuracy"]
*da0073e9SAndroid Build Coastguard Worker            fields = [current_device, current_name, current_batch_size, accuracy_status]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if tag is not None:
*da0073e9SAndroid Build Coastguard Worker                headers.insert(3, "tag")
*da0073e9SAndroid Build Coastguard Worker                fields.insert(3, tag)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            dynamo_stats = get_dynamo_stats()
*da0073e9SAndroid Build Coastguard Worker            dynamo_stats.subtract(dynamo_start_stats)
*da0073e9SAndroid Build Coastguard Worker            for k, v in dynamo_stats.items():
*da0073e9SAndroid Build Coastguard Worker                headers.append(k)
*da0073e9SAndroid Build Coastguard Worker                fields.append(v)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            output_csv(output_filename, headers, fields)
*da0073e9SAndroid Build Coastguard Worker            return accuracy_status
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if name in self.skip_accuracy_checks_large_models_dashboard:
*da0073e9SAndroid Build Coastguard Worker            return record_status("pass_due_to_skip", dynamo_start_stats=start_stats)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.pick_grad(name, self.args.training):
*da0073e9SAndroid Build Coastguard Worker            # Collect the fp64 reference outputs to be used later for accuracy checking.
*da0073e9SAndroid Build Coastguard Worker            fp64_outputs = None
*da0073e9SAndroid Build Coastguard Worker            model_fp64 = None
*da0073e9SAndroid Build Coastguard Worker            inputs_fp64 = None
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                model_fp64, inputs_fp64 = cast_to_fp64(
*da0073e9SAndroid Build Coastguard Worker                    self.deepcopy_and_maybe_parallelize(model),
*da0073e9SAndroid Build Coastguard Worker                    clone_inputs(example_inputs),
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                self.init_optimizer(name, current_device, model_fp64.parameters())
*da0073e9SAndroid Build Coastguard Worker                fp64_outputs = self.run_n_iterations(model_fp64, inputs_fp64)
*da0073e9SAndroid Build Coastguard Worker                fp64_outputs = tree_map(
*da0073e9SAndroid Build Coastguard Worker                    lambda x: x.to(torch.float64)
*da0073e9SAndroid Build Coastguard Worker                    if isinstance(x, torch.Tensor) and x.is_floating_point()
*da0073e9SAndroid Build Coastguard Worker                    else x,
*da0073e9SAndroid Build Coastguard Worker                    fp64_outputs,
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            except Exception:
*da0073e9SAndroid Build Coastguard Worker                log.warning(
*da0073e9SAndroid Build Coastguard Worker                    "fp64 golden ref were not generated for %s. Setting accuracy check to cosine",
*da0073e9SAndroid Build Coastguard Worker                    name,
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                self.args.cosine = True
*da0073e9SAndroid Build Coastguard Worker                fp64_outputs = None
*da0073e9SAndroid Build Coastguard Worker            finally:
*da0073e9SAndroid Build Coastguard Worker                del model_fp64, inputs_fp64
*da0073e9SAndroid Build Coastguard Worker                empty_gpu_cache(current_device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            tolerance, cos_similarity = self.get_tolerance_and_cosine_flag(
*da0073e9SAndroid Build Coastguard Worker                self.args.training, current_device, name
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Cast the model to float16/float32 as necessary
*da0073e9SAndroid Build Coastguard Worker            model, example_inputs = self.maybe_cast(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker            accuracy_status = "pass"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Get results of native pytorch
*da0073e9SAndroid Build Coastguard Worker            reset_rng_state()
*da0073e9SAndroid Build Coastguard Worker            model_copy = None
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                model_copy = self.deepcopy_and_maybe_parallelize(model)
*da0073e9SAndroid Build Coastguard Worker                self.init_optimizer(name, current_device, model_copy.parameters())
*da0073e9SAndroid Build Coastguard Worker                correct_result = self.run_n_iterations(
*da0073e9SAndroid Build Coastguard Worker                    model_copy, clone_inputs(example_inputs)
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            except Exception as e:
*da0073e9SAndroid Build Coastguard Worker                accuracy_status = (
*da0073e9SAndroid Build Coastguard Worker                    "eager_1st_run_OOM"
*da0073e9SAndroid Build Coastguard Worker                    if isinstance(e, torch.cuda.OutOfMemoryError)
*da0073e9SAndroid Build Coastguard Worker                    else "eager_1st_run_fail"
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                log.exception("")
*da0073e9SAndroid Build Coastguard Worker                return record_status(accuracy_status, dynamo_start_stats=start_stats)
*da0073e9SAndroid Build Coastguard Worker            finally:
*da0073e9SAndroid Build Coastguard Worker                del model_copy
*da0073e9SAndroid Build Coastguard Worker                empty_gpu_cache(current_device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Rerun native pytorch
*da0073e9SAndroid Build Coastguard Worker            reset_rng_state()
*da0073e9SAndroid Build Coastguard Worker            model_copy = None
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                model_copy = self.deepcopy_and_maybe_parallelize(model)
*da0073e9SAndroid Build Coastguard Worker                self.init_optimizer(name, current_device, model_copy.parameters())
*da0073e9SAndroid Build Coastguard Worker                correct_rerun_result = self.run_n_iterations(
*da0073e9SAndroid Build Coastguard Worker                    model_copy, clone_inputs(example_inputs)
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            except Exception as e:
*da0073e9SAndroid Build Coastguard Worker                accuracy_status = (
*da0073e9SAndroid Build Coastguard Worker                    "eager_2nd_run_OOM"
*da0073e9SAndroid Build Coastguard Worker                    if isinstance(e, torch.cuda.OutOfMemoryError)
*da0073e9SAndroid Build Coastguard Worker                    else "eager_2nd_run_fail"
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                log.exception("")
*da0073e9SAndroid Build Coastguard Worker                return record_status(accuracy_status, dynamo_start_stats=start_stats)
*da0073e9SAndroid Build Coastguard Worker            finally:
*da0073e9SAndroid Build Coastguard Worker                del model_copy
*da0073e9SAndroid Build Coastguard Worker                empty_gpu_cache(current_device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Two eager runs should have exactly same result
*da0073e9SAndroid Build Coastguard Worker            is_same = True
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                if (
*da0073e9SAndroid Build Coastguard Worker                    name not in self.skip_accuracy_check_as_eager_non_deterministic
*da0073e9SAndroid Build Coastguard Worker                    and not same(
*da0073e9SAndroid Build Coastguard Worker                        correct_result,
*da0073e9SAndroid Build Coastguard Worker                        correct_rerun_result,
*da0073e9SAndroid Build Coastguard Worker                        fp64_ref=None,
*da0073e9SAndroid Build Coastguard Worker                        cos_similarity=False,
*da0073e9SAndroid Build Coastguard Worker                        tol=0,
*da0073e9SAndroid Build Coastguard Worker                        equal_nan=self.equal_nan,
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker                ):
*da0073e9SAndroid Build Coastguard Worker                    is_same = False
*da0073e9SAndroid Build Coastguard Worker            except Exception as e:
*da0073e9SAndroid Build Coastguard Worker                # Sometimes torch.allclose may throw RuntimeError
*da0073e9SAndroid Build Coastguard Worker                is_same = False
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if not is_same:
*da0073e9SAndroid Build Coastguard Worker                accuracy_status = "eager_two_runs_differ"
*da0073e9SAndroid Build Coastguard Worker                return record_status(accuracy_status, dynamo_start_stats=start_stats)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            correct_rerun_result = None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Run with Dynamo
*da0073e9SAndroid Build Coastguard Worker            reset_rng_state()
*da0073e9SAndroid Build Coastguard Worker            torch._dynamo.reset()
*da0073e9SAndroid Build Coastguard Worker            model_copy = None
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                model_copy = self.deepcopy_and_maybe_parallelize(model)
*da0073e9SAndroid Build Coastguard Worker                self.init_optimizer(name, current_device, model_copy.parameters())
*da0073e9SAndroid Build Coastguard Worker                if self.args.export or self.args.export_aot_inductor:
*da0073e9SAndroid Build Coastguard Worker                    # apply export on module directly
*da0073e9SAndroid Build Coastguard Worker                    # no need for n iterations
*da0073e9SAndroid Build Coastguard Worker                    # the logic should be the same to self.model_iter_fn (forward_pass)
*da0073e9SAndroid Build Coastguard Worker                    with self.autocast(**self.autocast_arg):
*da0073e9SAndroid Build Coastguard Worker                        optimized_model_iter_fn = optimize_ctx(
*da0073e9SAndroid Build Coastguard Worker                            model_copy, example_inputs
*da0073e9SAndroid Build Coastguard Worker                        )
*da0073e9SAndroid Build Coastguard Worker                        new_result = optimized_model_iter_fn(model_copy, example_inputs)
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    optimized_model_iter_fn = optimize_ctx(self.run_n_iterations)
*da0073e9SAndroid Build Coastguard Worker                    with maybe_enable_compiled_autograd(self.args.compiled_autograd):
*da0073e9SAndroid Build Coastguard Worker                        new_result = optimized_model_iter_fn(model_copy, example_inputs)
*da0073e9SAndroid Build Coastguard Worker            except Exception as e:
*da0073e9SAndroid Build Coastguard Worker                log.exception("")
*da0073e9SAndroid Build Coastguard Worker                print(
*da0073e9SAndroid Build Coastguard Worker                    "TorchDynamo optimized model failed to run because of following error"
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                accuracy_status = (
*da0073e9SAndroid Build Coastguard Worker                    "OOM"
*da0073e9SAndroid Build Coastguard Worker                    if isinstance(e, torch.cuda.OutOfMemoryError)
*da0073e9SAndroid Build Coastguard Worker                    else "fail_to_run"
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                return record_status(accuracy_status, dynamo_start_stats=start_stats)
*da0073e9SAndroid Build Coastguard Worker            finally:
*da0073e9SAndroid Build Coastguard Worker                del model_copy
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if name in self.skip_accuracy_check_as_eager_non_deterministic:
*da0073e9SAndroid Build Coastguard Worker                return record_status("pass_due_to_skip", dynamo_start_stats=start_stats)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if (
*da0073e9SAndroid Build Coastguard Worker                current_onnx_compiler == "torchscript"
*da0073e9SAndroid Build Coastguard Worker                or current_onnx_compiler == "dynamo"
*da0073e9SAndroid Build Coastguard Worker            ):
*da0073e9SAndroid Build Coastguard Worker                # Workaround for ONNX for non-tensor outputs
*da0073e9SAndroid Build Coastguard Worker                (
*da0073e9SAndroid Build Coastguard Worker                    correct_result,
*da0073e9SAndroid Build Coastguard Worker                    new_result,
*da0073e9SAndroid Build Coastguard Worker                    fp64_outputs,
*da0073e9SAndroid Build Coastguard Worker                ) = _OnnxPatch.patch_non_tensor_outputs(
*da0073e9SAndroid Build Coastguard Worker                    correct_result, new_result, fp64_outputs
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                # Relax tolerance for ONNX cuda
*da0073e9SAndroid Build Coastguard Worker                if current_device == "cuda":
*da0073e9SAndroid Build Coastguard Worker                    tolerance = 1e-2
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                # TODO: store correct_result into the dumped file for offline onnx model validation.
*da0073e9SAndroid Build Coastguard Worker                # The downside and potential problem, is that the output formats may be different.
*da0073e9SAndroid Build Coastguard Worker                # E.g., the output order might not match, None might be part of output, etc.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                if self.args.training and self.args.amp:
*da0073e9SAndroid Build Coastguard Worker                    if process_fn := self.get_output_amp_train_process_func.get(
*da0073e9SAndroid Build Coastguard Worker                        name, None
*da0073e9SAndroid Build Coastguard Worker                    ):
*da0073e9SAndroid Build Coastguard Worker                        correct_result = process_fn(correct_result)
*da0073e9SAndroid Build Coastguard Worker                        new_result = process_fn(new_result)
*da0073e9SAndroid Build Coastguard Worker                        fp64_outputs = process_fn(fp64_outputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                if not same(
*da0073e9SAndroid Build Coastguard Worker                    correct_result,
*da0073e9SAndroid Build Coastguard Worker                    new_result,
*da0073e9SAndroid Build Coastguard Worker                    fp64_outputs,
*da0073e9SAndroid Build Coastguard Worker                    equal_nan=self.equal_nan,
*da0073e9SAndroid Build Coastguard Worker                    cos_similarity=cos_similarity,
*da0073e9SAndroid Build Coastguard Worker                    tol=tolerance,
*da0073e9SAndroid Build Coastguard Worker                ):
*da0073e9SAndroid Build Coastguard Worker                    is_same = False
*da0073e9SAndroid Build Coastguard Worker            except Exception as e:
*da0073e9SAndroid Build Coastguard Worker                # Sometimes torch.allclose may throw RuntimeError
*da0073e9SAndroid Build Coastguard Worker                is_same = False
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if not is_same:
*da0073e9SAndroid Build Coastguard Worker                if self.args.skip_accuracy_check:
*da0073e9SAndroid Build Coastguard Worker                    accuracy_status = "pass_due_to_skip"
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    accuracy_status = "fail_accuracy"
*da0073e9SAndroid Build Coastguard Worker                return record_status(accuracy_status, dynamo_start_stats=start_stats)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        return record_status(accuracy_status, dynamo_start_stats=start_stats)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def check_tolerance(
*da0073e9SAndroid Build Coastguard Worker        self, name, model, example_inputs, optimize_ctx, base_device="cpu"
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        Checks tolerance based on https://pytorch.org/docs/stable/generated/torch.allclose.html.
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        tolerance_status = "pass"
*da0073e9SAndroid Build Coastguard Worker        if name in self.skip_accuracy_checks_large_models_dashboard:
*da0073e9SAndroid Build Coastguard Worker            tolerance_status = "pass_due_to_skip"
*da0073e9SAndroid Build Coastguard Worker            return tolerance_status
*da0073e9SAndroid Build Coastguard Worker        # Cast the model to float16/float32 as necessary
*da0073e9SAndroid Build Coastguard Worker        model, example_inputs = self.maybe_cast(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.pick_grad(name, self.args.training):
*da0073e9SAndroid Build Coastguard Worker            # Get results of native pytorch
*da0073e9SAndroid Build Coastguard Worker            reset_rng_state()
*da0073e9SAndroid Build Coastguard Worker            model_copy = copy.deepcopy(model)
*da0073e9SAndroid Build Coastguard Worker            model_copy = model_copy.to(base_device)
*da0073e9SAndroid Build Coastguard Worker            example_inputs_copy = copy.deepcopy(example_inputs)
*da0073e9SAndroid Build Coastguard Worker            example_inputs_copy = tree_map(
*da0073e9SAndroid Build Coastguard Worker                lambda x: x.to(base_device), example_inputs_copy
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            self.init_optimizer(name, base_device, model_copy.parameters())
*da0073e9SAndroid Build Coastguard Worker            correct_result = self.run_n_iterations(model_copy, example_inputs_copy)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Run with Dynamo
*da0073e9SAndroid Build Coastguard Worker            # Sometime CI fails with random triton compilation failure which will be skipped for now
*da0073e9SAndroid Build Coastguard Worker            # TODO: revisit this after switching to new Triton runtime
*da0073e9SAndroid Build Coastguard Worker            reset_rng_state()
*da0073e9SAndroid Build Coastguard Worker            torch._dynamo.reset()
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                self.init_optimizer(name, current_device, model.parameters())
*da0073e9SAndroid Build Coastguard Worker                optimized_model_iter_fn = optimize_ctx(self.run_n_iterations)
*da0073e9SAndroid Build Coastguard Worker                new_result = optimized_model_iter_fn(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker            except Exception as e:
*da0073e9SAndroid Build Coastguard Worker                log.exception("")
*da0073e9SAndroid Build Coastguard Worker                print(
*da0073e9SAndroid Build Coastguard Worker                    "TorchDynamo optimized model failed to run because of following error"
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                return "fail_to_run"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def dump_max_mean_values(tol, ref, res):
*da0073e9SAndroid Build Coastguard Worker                if isinstance(ref, (list, tuple, torch.nn.ParameterList, torch.Size)):
*da0073e9SAndroid Build Coastguard Worker                    for refi, resi in zip(ref, res):
*da0073e9SAndroid Build Coastguard Worker                        dump_max_mean_values(tol, refi, resi)
*da0073e9SAndroid Build Coastguard Worker                elif isinstance(ref, dict):
*da0073e9SAndroid Build Coastguard Worker                    for k in ref.keys():
*da0073e9SAndroid Build Coastguard Worker                        dump_max_mean_values(tol, ref[k], res[k])
*da0073e9SAndroid Build Coastguard Worker                elif isinstance(ref, torch.Tensor):
*da0073e9SAndroid Build Coastguard Worker                    res = res.to(base_device)
*da0073e9SAndroid Build Coastguard Worker                    t = torch.abs(ref - res) / (1 + torch.abs(ref))
*da0073e9SAndroid Build Coastguard Worker                    tol.append(t.flatten().to(torch.float32))
*da0073e9SAndroid Build Coastguard Worker                return tol
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            tol = []
*da0073e9SAndroid Build Coastguard Worker            dump_max_mean_values(tol, correct_result, new_result)
*da0073e9SAndroid Build Coastguard Worker            tol = torch.cat(tol)
*da0073e9SAndroid Build Coastguard Worker            tol = torch.tensor(tol)
*da0073e9SAndroid Build Coastguard Worker            max = torch.max(tol)
*da0073e9SAndroid Build Coastguard Worker            mean = torch.mean(tol)
*da0073e9SAndroid Build Coastguard Worker            div = torch.std(tol)
*da0073e9SAndroid Build Coastguard Worker            headers = ["dev", "name", "batch_size", "max", "mean", "std"]
*da0073e9SAndroid Build Coastguard Worker            fields = [
*da0073e9SAndroid Build Coastguard Worker                current_device,
*da0073e9SAndroid Build Coastguard Worker                current_name,
*da0073e9SAndroid Build Coastguard Worker                current_batch_size,
*da0073e9SAndroid Build Coastguard Worker                max.item(),
*da0073e9SAndroid Build Coastguard Worker                mean.item(),
*da0073e9SAndroid Build Coastguard Worker                div.item(),
*da0073e9SAndroid Build Coastguard Worker            ]
*da0073e9SAndroid Build Coastguard Worker            output_csv(output_filename, headers, fields)
*da0073e9SAndroid Build Coastguard Worker        return tolerance_status
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def run_performance_test(
*da0073e9SAndroid Build Coastguard Worker        self, name, model, example_inputs, optimize_ctx, experiment, tag=None
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        if self.args.xla:
*da0073e9SAndroid Build Coastguard Worker            with self.pick_grad(name, self.args.training):
*da0073e9SAndroid Build Coastguard Worker                return experiment(*self.maybe_cast(model, example_inputs))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def warmup(fn, model, example_inputs, mode, niters=5):
*da0073e9SAndroid Build Coastguard Worker            peak_mem = 0
*da0073e9SAndroid Build Coastguard Worker            start_stats = get_dynamo_stats()
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                if current_device == "cuda":
*da0073e9SAndroid Build Coastguard Worker                    torch.cuda.reset_peak_memory_stats()
*da0073e9SAndroid Build Coastguard Worker                    empty_gpu_cache(current_device)
*da0073e9SAndroid Build Coastguard Worker                t0 = time.perf_counter()
*da0073e9SAndroid Build Coastguard Worker                for _ in range(niters):
*da0073e9SAndroid Build Coastguard Worker                    fn(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker                t1 = time.perf_counter()
*da0073e9SAndroid Build Coastguard Worker                latency = t1 - t0
*da0073e9SAndroid Build Coastguard Worker                if current_device == "cuda":
*da0073e9SAndroid Build Coastguard Worker                    peak_mem = get_peak_memory()
*da0073e9SAndroid Build Coastguard Worker                elif current_device == "cpu":
*da0073e9SAndroid Build Coastguard Worker                    total = psutil.virtual_memory().total
*da0073e9SAndroid Build Coastguard Worker                    percentage = psutil.Process(os.getpid()).memory_percent()
*da0073e9SAndroid Build Coastguard Worker                    peak_mem = percentage * total / 10**9
*da0073e9SAndroid Build Coastguard Worker            except Exception:
*da0073e9SAndroid Build Coastguard Worker                log.exception("Backend %s failed in warmup()", mode)
*da0073e9SAndroid Build Coastguard Worker                return sys.exit(-1)
*da0073e9SAndroid Build Coastguard Worker            dynamo_stats = get_dynamo_stats()
*da0073e9SAndroid Build Coastguard Worker            dynamo_stats.subtract(start_stats)
*da0073e9SAndroid Build Coastguard Worker            return latency, peak_mem, dynamo_stats
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Cast the model to float16/float32 as necessary
*da0073e9SAndroid Build Coastguard Worker        model, example_inputs = self.maybe_cast(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Use distributed wrapping as necessary
*da0073e9SAndroid Build Coastguard Worker        model = self.deepcopy_and_maybe_parallelize(model)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.init_optimizer(name, current_device, model.parameters())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # The self.autocast context is needed for the model we export with aot_compile,
*da0073e9SAndroid Build Coastguard Worker        # similar to what we do in the check_accuracy function
*da0073e9SAndroid Build Coastguard Worker        ctx = (
*da0073e9SAndroid Build Coastguard Worker            self.autocast(**self.autocast_arg)
*da0073e9SAndroid Build Coastguard Worker            if self.args.export_aot_inductor
*da0073e9SAndroid Build Coastguard Worker            else contextlib.nullcontext()
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        with self.pick_grad(name, self.args.training), ctx:
*da0073e9SAndroid Build Coastguard Worker            ok, total = Stats.reset_counters()
*da0073e9SAndroid Build Coastguard Worker            experiment_kwargs = {}
*da0073e9SAndroid Build Coastguard Worker            if tag is not None:
*da0073e9SAndroid Build Coastguard Worker                experiment_kwargs["tag"] = tag
*da0073e9SAndroid Build Coastguard Worker            results = []
*da0073e9SAndroid Build Coastguard Worker            with maybe_snapshot_memory(
*da0073e9SAndroid Build Coastguard Worker                self.args.snapshot_memory, f"eager_{self.args.only}"
*da0073e9SAndroid Build Coastguard Worker            ):
*da0073e9SAndroid Build Coastguard Worker                eager_latency, eager_peak_mem, _ = warmup(
*da0073e9SAndroid Build Coastguard Worker                    self.model_iter_fn, model, example_inputs, "eager"
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                if self.args.use_warm_peak_memory:
*da0073e9SAndroid Build Coastguard Worker                    _, eager_peak_mem, _ = warmup(
*da0073e9SAndroid Build Coastguard Worker                        self.model_iter_fn, model, example_inputs, "eager", niters=1
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if self.args.export_aot_inductor:
*da0073e9SAndroid Build Coastguard Worker                t_0 = time.perf_counter()
*da0073e9SAndroid Build Coastguard Worker                optimized_model_iter_fn = optimize_ctx
*da0073e9SAndroid Build Coastguard Worker                t_1 = time.perf_counter()
*da0073e9SAndroid Build Coastguard Worker                aot_compilation_time = t_1 - t_0
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                optimized_model_iter_fn = optimize_ctx(self.model_iter_fn)
*da0073e9SAndroid Build Coastguard Worker                aot_compilation_time = 0
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            with maybe_enable_compiled_autograd(
*da0073e9SAndroid Build Coastguard Worker                self.args.compiled_autograd
*da0073e9SAndroid Build Coastguard Worker            ), maybe_snapshot_memory(
*da0073e9SAndroid Build Coastguard Worker                self.args.snapshot_memory, f"compiled_{self.args.only}"
*da0073e9SAndroid Build Coastguard Worker            ):
*da0073e9SAndroid Build Coastguard Worker                dynamo_latency, dynamo_peak_mem, dynamo_stats = warmup(
*da0073e9SAndroid Build Coastguard Worker                    optimized_model_iter_fn, model, example_inputs, "dynamo"
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                if self.args.use_warm_peak_memory:
*da0073e9SAndroid Build Coastguard Worker                    _, dynamo_peak_mem, _ = warmup(
*da0073e9SAndroid Build Coastguard Worker                        optimized_model_iter_fn,
*da0073e9SAndroid Build Coastguard Worker                        model,
*da0073e9SAndroid Build Coastguard Worker                        example_inputs,
*da0073e9SAndroid Build Coastguard Worker                        "dynamo",
*da0073e9SAndroid Build Coastguard Worker                        niters=1,
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if self.args.profile_dynamo_cache_lookup:
*da0073e9SAndroid Build Coastguard Worker                with torch.profiler.profile(
*da0073e9SAndroid Build Coastguard Worker                    activities=[torch.profiler.ProfilerActivity.CPU]
*da0073e9SAndroid Build Coastguard Worker                ) as prof:
*da0073e9SAndroid Build Coastguard Worker                    with maybe_enable_compiled_autograd(self.args.compiled_autograd):
*da0073e9SAndroid Build Coastguard Worker                        warmup(optimized_model_iter_fn, model, example_inputs, "dynamo")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                events = list(
*da0073e9SAndroid Build Coastguard Worker                    filter(
*da0073e9SAndroid Build Coastguard Worker                        lambda event: "TorchDynamo Cache Lookup" in event.key,
*da0073e9SAndroid Build Coastguard Worker                        prof.key_averages(),
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                dynamo_cache_lookup_latency = events[0].self_cpu_time_total
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            compilation_time = dynamo_latency - eager_latency + aot_compilation_time
*da0073e9SAndroid Build Coastguard Worker            compression_ratio = (
*da0073e9SAndroid Build Coastguard Worker                eager_peak_mem / dynamo_peak_mem if dynamo_peak_mem else 0.0
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            if self.args.print_memory:
*da0073e9SAndroid Build Coastguard Worker                print(
*da0073e9SAndroid Build Coastguard Worker                    f"memory: eager: {eager_peak_mem:.2f} GB, "
*da0073e9SAndroid Build Coastguard Worker                    f"dynamo: {dynamo_peak_mem:.2f} GB, "
*da0073e9SAndroid Build Coastguard Worker                    f"ratio: {compression_ratio:.2f}"
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if self.args.print_compilation_time:
*da0073e9SAndroid Build Coastguard Worker                print(f"Compilation time: {compilation_time:.2f}")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if experiment.func is speedup_experiment:
*da0073e9SAndroid Build Coastguard Worker                experiment_kwargs["compilation_latency"] = compilation_time
*da0073e9SAndroid Build Coastguard Worker                experiment_kwargs["compression_ratio"] = compression_ratio
*da0073e9SAndroid Build Coastguard Worker                experiment_kwargs["eager_peak_mem"] = eager_peak_mem
*da0073e9SAndroid Build Coastguard Worker                experiment_kwargs["dynamo_peak_mem"] = dynamo_peak_mem
*da0073e9SAndroid Build Coastguard Worker                experiment_kwargs["dynamo_stats"] = dynamo_stats
*da0073e9SAndroid Build Coastguard Worker                if self.args.profile_dynamo_cache_lookup:
*da0073e9SAndroid Build Coastguard Worker                    experiment_kwargs[
*da0073e9SAndroid Build Coastguard Worker                        "cache_lookup_latency"
*da0073e9SAndroid Build Coastguard Worker                    ] = dynamo_cache_lookup_latency
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if experiment.func is coverage_experiment:
*da0073e9SAndroid Build Coastguard Worker                ok, total = Stats.reset_counters()
*da0073e9SAndroid Build Coastguard Worker                results = []
*da0073e9SAndroid Build Coastguard Worker                # run with torch._dynamo few times to populate the cache
*da0073e9SAndroid Build Coastguard Worker                for _ in range(3):
*da0073e9SAndroid Build Coastguard Worker                    optimized_model_iter_fn(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker                _, frames_second_pass = Stats.reset_counters()  # should be 0
*da0073e9SAndroid Build Coastguard Worker                if frames_second_pass > 0:
*da0073e9SAndroid Build Coastguard Worker                    optimized_model_iter_fn(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker                    _, frames_third_pass = Stats.reset_counters()  # should be 0
*da0073e9SAndroid Build Coastguard Worker                else:
*da0073e9SAndroid Build Coastguard Worker                    frames_third_pass = 0
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                results.append(
*da0073e9SAndroid Build Coastguard Worker                    f"{ok:3}/{total:3} +{frames_third_pass} frames {compilation_time:3.0f}s"
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if experiment.func is speedup_experiment_onnx:
*da0073e9SAndroid Build Coastguard Worker                experiment = functools.partial(
*da0073e9SAndroid Build Coastguard Worker                    experiment, optimized_model_iter_fn.context.onnx_model
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if not hasattr(model, name):
*da0073e9SAndroid Build Coastguard Worker                model.name = name
*da0073e9SAndroid Build Coastguard Worker            results.append(experiment(model, example_inputs, **experiment_kwargs))
*da0073e9SAndroid Build Coastguard Worker            return " ".join(map(str, results))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def minify_model(
*da0073e9SAndroid Build Coastguard Worker        self,
*da0073e9SAndroid Build Coastguard Worker        name,
*da0073e9SAndroid Build Coastguard Worker        model,
*da0073e9SAndroid Build Coastguard Worker        example_inputs,
*da0073e9SAndroid Build Coastguard Worker        optimize_ctx,
*da0073e9SAndroid Build Coastguard Worker        experiment,
*da0073e9SAndroid Build Coastguard Worker        tag,
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        logging.info("Minifying %s...", name)
*da0073e9SAndroid Build Coastguard Worker        os.environ["TORCH_COMPILE_DEBUG"] = "1"
*da0073e9SAndroid Build Coastguard Worker        os.environ["TORCHDYNAMO_REPRO_AFTER"] = "dynamo"
*da0073e9SAndroid Build Coastguard Worker        os.environ["TORCHDYNAMO_REPRO_LEVEL"] = "4"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.check_accuracy(name, model, example_inputs, optimize_ctx, experiment, tag)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if self.args.output_directory:
*da0073e9SAndroid Build Coastguard Worker            repro_dir = self.args.output_directory
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            repro_dir = torch._dynamo.config.base_dir
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            shutil.move("repro.py", f"{repro_dir}/{name}_repro.py")
*da0073e9SAndroid Build Coastguard Worker        except OSError as e:
*da0073e9SAndroid Build Coastguard Worker            logging.error("Could not find repro script for model %s", name)
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            logging.info(
*da0073e9SAndroid Build Coastguard Worker                "Repro script for model %s with minified graph saved to %s",
*da0073e9SAndroid Build Coastguard Worker                name,
*da0073e9SAndroid Build Coastguard Worker                repro_dir,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def maybe_preserve_compile_debug(self, name, status):
*da0073e9SAndroid Build Coastguard Worker        if (
*da0073e9SAndroid Build Coastguard Worker            name in CI_PRESERVE_COMPILE_DEBUG
*da0073e9SAndroid Build Coastguard Worker            and status in CI_PRESERVE_COMPILE_DEBUG[name]
*da0073e9SAndroid Build Coastguard Worker        ):
*da0073e9SAndroid Build Coastguard Worker            src_dir = torch._dynamo.utils.get_debug_dir()
*da0073e9SAndroid Build Coastguard Worker            if os.path.isdir(src_dir):
*da0073e9SAndroid Build Coastguard Worker                dbg_dir = os.path.join(
*da0073e9SAndroid Build Coastguard Worker                    os.getcwd(), "test", "debug", "torch_compile_debug"
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                dst_dir = os.path.join(dbg_dir, os.path.basename(src_dir))
*da0073e9SAndroid Build Coastguard Worker                try:
*da0073e9SAndroid Build Coastguard Worker                    os.makedirs(dbg_dir, exist_ok=True)
*da0073e9SAndroid Build Coastguard Worker                    os.rename(src_dir, dst_dir)
*da0073e9SAndroid Build Coastguard Worker                    log.warning("Moved %s to %s", src_dir, dst_dir)
*da0073e9SAndroid Build Coastguard Worker                except OSError:
*da0073e9SAndroid Build Coastguard Worker                    log.exception("Failed to preserve %s", src_dir)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def run_one_model(
*da0073e9SAndroid Build Coastguard Worker        self,
*da0073e9SAndroid Build Coastguard Worker        name,
*da0073e9SAndroid Build Coastguard Worker        model,
*da0073e9SAndroid Build Coastguard Worker        example_inputs,
*da0073e9SAndroid Build Coastguard Worker        optimize_ctx,
*da0073e9SAndroid Build Coastguard Worker        experiment,
*da0073e9SAndroid Build Coastguard Worker        explain=False,
*da0073e9SAndroid Build Coastguard Worker        tag=None,
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        mode = "train" if self.args.training else "eval"
*da0073e9SAndroid Build Coastguard Worker        msg = f"{current_device:4} {mode:5} {current_name:34} "
*da0073e9SAndroid Build Coastguard Worker        if tag:
*da0073e9SAndroid Build Coastguard Worker            msg += f" {tag:26}"
*da0073e9SAndroid Build Coastguard Worker        print(msg, flush=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        start_stats = get_dynamo_stats()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if self.args.accuracy:
*da0073e9SAndroid Build Coastguard Worker            status = self.check_accuracy(
*da0073e9SAndroid Build Coastguard Worker                name, model, example_inputs, optimize_ctx, experiment, tag
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            print(status)
*da0073e9SAndroid Build Coastguard Worker            if status == "fail_accuracy" and self.args.minify:
*da0073e9SAndroid Build Coastguard Worker                self.minify_model(
*da0073e9SAndroid Build Coastguard Worker                    name, model, example_inputs, optimize_ctx, experiment, tag
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker        elif self.args.tolerance:
*da0073e9SAndroid Build Coastguard Worker            status = self.check_tolerance(name, model, example_inputs, optimize_ctx)
*da0073e9SAndroid Build Coastguard Worker            print(status)
*da0073e9SAndroid Build Coastguard Worker        elif self.args.performance:
*da0073e9SAndroid Build Coastguard Worker            status = self.run_performance_test(
*da0073e9SAndroid Build Coastguard Worker                name, model, example_inputs, optimize_ctx, experiment, tag
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            print(status)
*da0073e9SAndroid Build Coastguard Worker        empty_gpu_cache(current_device)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        self.maybe_preserve_compile_debug(name, status)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if self.args.timing:
*da0073e9SAndroid Build Coastguard Worker            from torch._dynamo.utils import op_count, print_time_report
*da0073e9SAndroid Build Coastguard Worker            from torch.utils._stats import simple_call_counter
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            print_time_report()
*da0073e9SAndroid Build Coastguard Worker            stats = "STATS: "
*da0073e9SAndroid Build Coastguard Worker            stats = stats + " | ".join(
*da0073e9SAndroid Build Coastguard Worker                itertools.chain(
*da0073e9SAndroid Build Coastguard Worker                    [f"call_* op count: {op_count}"],
*da0073e9SAndroid Build Coastguard Worker                    (f"{key}:{value}" for key, value in simple_call_counter.items()),
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            print(stats)
*da0073e9SAndroid Build Coastguard Worker        stats = get_dynamo_stats()
*da0073e9SAndroid Build Coastguard Worker        stats.subtract(start_stats)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if explain:
*da0073e9SAndroid Build Coastguard Worker            print(
*da0073e9SAndroid Build Coastguard Worker                f"Dynamo produced {stats['unique_graphs']} graphs "
*da0073e9SAndroid Build Coastguard Worker                f"covering {stats['calls_captured']} ops with "
*da0073e9SAndroid Build Coastguard Worker                f"{stats['graph_breaks']} graph breaks ({stats['unique_graph_breaks']} unique)"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if explain or self.args.log_graph_breaks or self.args.print_graph_breaks:
*da0073e9SAndroid Build Coastguard Worker            filename = f"{output_filename.rstrip('.csv')}_graph_breaks.csv"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def add_double_quotes(x):
*da0073e9SAndroid Build Coastguard Worker                # Delimiter because reason could have comma
*da0073e9SAndroid Build Coastguard Worker                return f'"{x}"'
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            for graph_break in graph_break_reasons:
*da0073e9SAndroid Build Coastguard Worker                reason = add_double_quotes(graph_break.reason)
*da0073e9SAndroid Build Coastguard Worker                user_stack = add_double_quotes(
*da0073e9SAndroid Build Coastguard Worker                    ", ".join([str(x) for x in graph_break.user_stack])
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                output_csv(
*da0073e9SAndroid Build Coastguard Worker                    filename,
*da0073e9SAndroid Build Coastguard Worker                    ["model", "reason", "user_stack"],
*da0073e9SAndroid Build Coastguard Worker                    [current_name, reason, user_stack],
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if self.args.stats:
*da0073e9SAndroid Build Coastguard Worker            Stats.print_summary()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef help(fn):
*da0073e9SAndroid Build Coastguard Worker    return fn.__doc__
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdiff_branch_default = "DIFF-BRANCH-DEFAULT"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef should_diff_branch(args):
*da0073e9SAndroid Build Coastguard Worker    return args.diff_branch != diff_branch_default
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef parse_args(args=None):
*da0073e9SAndroid Build Coastguard Worker    parser = argparse.ArgumentParser()
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--filter", "-k", action="append", help="filter benchmarks with regexp"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--exclude", "-x", action="append", help="filter benchmarks with regexp"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--exclude-exact", action="append", help="filter benchmarks with exact match"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--total-partitions",
*da0073e9SAndroid Build Coastguard Worker        type=int,
*da0073e9SAndroid Build Coastguard Worker        default=1,
*da0073e9SAndroid Build Coastguard Worker        choices=range(1, 10),
*da0073e9SAndroid Build Coastguard Worker        help="Total number of partitions we want to divide the benchmark suite into",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--partition-id",
*da0073e9SAndroid Build Coastguard Worker        type=int,
*da0073e9SAndroid Build Coastguard Worker        default=0,
*da0073e9SAndroid Build Coastguard Worker        help="ID of the benchmark suite partition to be run. Used to divide CI tasks",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--devices", "--device", "-d", action="append", help="cpu or cuda"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument("--device-index", help="CUDA device index")
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--repeat", "-n", type=int, default=30, help="number of timing runs"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    iterations_per_run_help = """
*da0073e9SAndroid Build Coastguard Worker        Run this may iterations for each time measurement. This is mainly used for
*da0073e9SAndroid Build Coastguard Worker        XLA training. We want to run multiple iterations per measurement so the
*da0073e9SAndroid Build Coastguard Worker        tracing and computation for different iteartions can overlap with each
*da0073e9SAndroid Build Coastguard Worker        other. This makes sure we have an accurate xla baseline.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--iterations-per-run", type=int, default=1, help=iterations_per_run_help
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--randomize-input",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Whether to randomize the input values. Dimensions will be kept the same.",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--threads",
*da0073e9SAndroid Build Coastguard Worker        "-t",
*da0073e9SAndroid Build Coastguard Worker        type=int,
*da0073e9SAndroid Build Coastguard Worker        help="number of threads to use for eager and inductor",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--nopython", action="store_true", help="Turn graph breaks into errors"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--no-skip",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="run models that are in the global SKIP list",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--prims-nvfuser", action="store_true", help="user prims + nvfuser backend"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--dump-raw-metrics",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="dump raw timing metrics from speedup experiment",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--log-operator-inputs",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        default=False,
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--channels-last",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        default=False,
*da0073e9SAndroid Build Coastguard Worker        help="use channels last format",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--batch-size", "--batch_size", type=int, help="batch size for benchmarking"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--iterations", type=int, default=2, help="how many iterations to run"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--batch-size-file", type=str, help="String to load batch size from"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument("--cosine", action="store_true", help="use cosine similarity")
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--freezing", action="store_true", help="turn on freezing", default=False
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--ci", action="store_true", help="Flag to tell that its a CI run"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--dashboard", action="store_true", help="Flag to tell that its a Dashboard run"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--skip-fp64-check", action="store_true", help="skip accuracy check using fp64"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--fast", "-f", action="store_true", help="skip slow benchmarks"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--only",
*da0073e9SAndroid Build Coastguard Worker        help="""Run just one model from torchbench. Or
*da0073e9SAndroid Build Coastguard Worker        specify the path and class name of the model in format like:
*da0073e9SAndroid Build Coastguard Worker        --only=path:<MODEL_FILE_PATH>,class:<CLASS_NAME>
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Due to the fact that dynamo changes current working directory,
*da0073e9SAndroid Build Coastguard Worker        the path should be an absolute path.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        The class should have a method get_example_inputs to return the inputs
*da0073e9SAndroid Build Coastguard Worker        for the model. An example looks like
*da0073e9SAndroid Build Coastguard Worker        ```
*da0073e9SAndroid Build Coastguard Worker        class LinearModel(nn.Module):
*da0073e9SAndroid Build Coastguard Worker            def __init__(self):
*da0073e9SAndroid Build Coastguard Worker                super().__init__()
*da0073e9SAndroid Build Coastguard Worker                self.linear = nn.Linear(10, 10)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def forward(self, x):
*da0073e9SAndroid Build Coastguard Worker                return self.linear(x)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def get_example_inputs(self):
*da0073e9SAndroid Build Coastguard Worker                return (torch.randn(2, 10),)
*da0073e9SAndroid Build Coastguard Worker        ```
*da0073e9SAndroid Build Coastguard Worker    """,
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--multiprocess",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Create n processes based on the number of devices (distributed use case).",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--ddp",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Wraps model in DDP before running it, and uses dynamo DDPOptmizer (graph breaks) by default.",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--fsdp",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="""Wraps model in FSDP before running it.
*da0073e9SAndroid Build Coastguard Worker        Doesn't recursively wrap, mainly useful for checking dynamo UnspecNNModule compatibility
*da0073e9SAndroid Build Coastguard Worker    """,
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--optimize-ddp-mode",
*da0073e9SAndroid Build Coastguard Worker        type=str,
*da0073e9SAndroid Build Coastguard Worker        default="ddp_optimizer",
*da0073e9SAndroid Build Coastguard Worker        help="Specify the DDP optimization mode -- the value of torch._dynamo.config.optimize_ddp.",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--distributed-master-port",
*da0073e9SAndroid Build Coastguard Worker        default="6789",
*da0073e9SAndroid Build Coastguard Worker        help="Port to bind for for torch.distributed.  Use the default unless it's conflicting with another user",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--dynamic-shapes",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Runs a dynamic shapes version of the benchmark, if available.",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--propagate-real-tensors",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Capture as much data dependent as you can by unsoundly propagating real tensors",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--dynamic-batch-only",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Only assume batch dimension is dynamic.  Implies --dynamic-shapes",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--specialize-int", action="store_true", help="Run with specialize_int=True."
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--use-eval-mode",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="sets model.eval() to reduce randomness",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--skip-accuracy-check",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="keeps running even when accuracy fails",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--generate-aot-autograd-stats",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Generates AOT Autograd stats like how mnay graphs are sent to AOT",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--inductor-settings",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Use same settings as --inductor for baseline comparisons",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--suppress-errors",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Suppress errors instead of raising them",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--output",
*da0073e9SAndroid Build Coastguard Worker        help="Overrides the output filename",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--output-directory",
*da0073e9SAndroid Build Coastguard Worker        help="Overrides the directory to place output files.",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--disable-output",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Disable writing of output files, e.g., for warm-up runs",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--baseline",
*da0073e9SAndroid Build Coastguard Worker        help="Compare with a prior --output",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--part",
*da0073e9SAndroid Build Coastguard Worker        default=None,
*da0073e9SAndroid Build Coastguard Worker        help="Specify the part of the model to run.",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--export-profiler-trace",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="exports trace of kineto profiler",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--profiler-trace-name",
*da0073e9SAndroid Build Coastguard Worker        "--profiler_trace_name",
*da0073e9SAndroid Build Coastguard Worker        help="Overwrites exported trace name",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--diff-branch",
*da0073e9SAndroid Build Coastguard Worker        default=diff_branch_default,
*da0073e9SAndroid Build Coastguard Worker        help="delta current branch against given branch.",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--tag", default=None, help="Specify a tag to be included in csv files."
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--explain",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="print some graph/op statistics during the run, similar to .explain()",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--stats",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="print graph counter stats",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--use-warm-peak-memory",
*da0073e9SAndroid Build Coastguard Worker        "--use_warm_peak_memory",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Measure peak memory using a warm run to reduce autotuning noise",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--print-memory",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="print extra memory statistics",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--print-compilation-time",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="print compilation latency",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--print-dataframe-summary",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="print dataframe result used for calculating accuracy",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--disable-cudagraphs",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Disables cudagraphs for Inductor",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--disable-split-reductions",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Disables split reductions for Inductor",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--disable-persistent-reductions",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Disables split reductions for Inductor",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--disable-divisible-by-16",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Disables divisible by 16 hint to Triton for Inductor",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--inductor-compile-mode",
*da0073e9SAndroid Build Coastguard Worker        default=None,
*da0073e9SAndroid Build Coastguard Worker        help="torch.compile mode argument for inductor runs.",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--print-graph-breaks",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Show a warning whenever graph break",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--log-graph-breaks",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="log graph breaks in a file",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--trace-on-xla",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Whether to trace the model on XLA or on eager device",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--xla-tolerance",
*da0073e9SAndroid Build Coastguard Worker        type=float,
*da0073e9SAndroid Build Coastguard Worker        default=1e-2,
*da0073e9SAndroid Build Coastguard Worker        help="XLA needs a loose tolerance to pass the correctness check",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--collect-outputs",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="""Whether to collect outputs for training. Set this to true if we
*da0073e9SAndroid Build Coastguard Worker        want to verify the numerical correctness of graidents. But that may
*da0073e9SAndroid Build Coastguard Worker        cause time measurement not accurate""",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--enable-activation-checkpointing",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Enables activation checkpointing for HF models",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument("--timing", action="store_true", help="Emits phase timing")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--progress",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Print n/k models message between each model run.",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--timeout",
*da0073e9SAndroid Build Coastguard Worker        type=int,
*da0073e9SAndroid Build Coastguard Worker        default=2000,
*da0073e9SAndroid Build Coastguard Worker        help="timeout (second) for benchmarking.",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--per_process_memory_fraction",
*da0073e9SAndroid Build Coastguard Worker        type=float,
*da0073e9SAndroid Build Coastguard Worker        default=1,
*da0073e9SAndroid Build Coastguard Worker        help="Set per-process GPU memory fraction (limit) for reducing usable size and reproducing OOMs",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--no-translation-validation",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Disable translation validation for accuracy builds.",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--minify",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Enable minification when failure is below tolerance. Save repro script for each model.",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--compiled-autograd",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Enables compiled autograd on compiled benchmark",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--profile_dynamo_cache_lookup",
*da0073e9SAndroid Build Coastguard Worker        "--profile-dynamo-cache-lookup",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="profiles TorchDynamo cache lookup",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--snapshot-memory",
*da0073e9SAndroid Build Coastguard Worker        "--snapshot_memory",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Enables Memory Snapshot tool for memory deep dives: https://pytorch.org/blog/understanding-gpu-memory-1/",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    group_latency = parser.add_mutually_exclusive_group()
*da0073e9SAndroid Build Coastguard Worker    group_latency.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--cold-start-latency",
*da0073e9SAndroid Build Coastguard Worker        "--cold_start_latency",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Use a fresh triton cachedir when running each model, to force cold-start compile.",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group_latency.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--warm-start-latency",
*da0073e9SAndroid Build Coastguard Worker        "--warm_start_latency",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Run model(s) twice and preseve caches in between to enable a 'warm start' on the 2nd run",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    group_fuser = parser.add_mutually_exclusive_group()
*da0073e9SAndroid Build Coastguard Worker    # --nvfuser is now the default, keep the option to not break scripts
*da0073e9SAndroid Build Coastguard Worker    group_fuser.add_argument("--nvfuser", action="store_true", help=argparse.SUPPRESS)
*da0073e9SAndroid Build Coastguard Worker    group_fuser.add_argument("--nnc", action="store_true", help="enable NNC for GPUs")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    group_prec = parser.add_mutually_exclusive_group()
*da0073e9SAndroid Build Coastguard Worker    group_prec.add_argument("--float16", action="store_true", help="cast model to fp16")
*da0073e9SAndroid Build Coastguard Worker    group_prec.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--bfloat16", action="store_true", help="cast model to bf16"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group_prec.add_argument("--float32", action="store_true", help="cast model to fp32")
*da0073e9SAndroid Build Coastguard Worker    group_prec.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--amp", action="store_true", help="use automatic mixed precision"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    parser.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--amp-dtype",
*da0073e9SAndroid Build Coastguard Worker        choices=("bfloat16", "float16"),
*da0073e9SAndroid Build Coastguard Worker        help="the data type used with automatic mixed precision",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group_printout = parser.add_mutually_exclusive_group()
*da0073e9SAndroid Build Coastguard Worker    group_printout.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--verbose", "-v", action="store_true", help="enable verbose debug printouts"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group_printout.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--quiet", "-q", action="store_true", help="suppress debug printouts"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    group = parser.add_mutually_exclusive_group()
*da0073e9SAndroid Build Coastguard Worker    group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--coverage", action="store_true", help="(default) " + help(coverage_experiment)
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--overhead", action="store_true", help=help(overhead_experiment)
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--speedup-dynamo-ts",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="TorchDynamo frontend with torchscript backend",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--speedup-fx2trt", action="store_true", help=help(speedup_experiment_fx2trt)
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--speedup-fx2trt-fp16",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help=help(speedup_experiment_fx2trt),
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--print-fx",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Print fx traces captured from model",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--print-aten-ops",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Print traces of aten ops captured by AOT autograd",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--inductor",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Measure speedup with TorchInductor",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--quantization",
*da0073e9SAndroid Build Coastguard Worker        choices=[
*da0073e9SAndroid Build Coastguard Worker            "int8dynamic",
*da0073e9SAndroid Build Coastguard Worker            "int8weightonly",
*da0073e9SAndroid Build Coastguard Worker            "int4weightonly",
*da0073e9SAndroid Build Coastguard Worker            "autoquant",
*da0073e9SAndroid Build Coastguard Worker            "noquant",
*da0073e9SAndroid Build Coastguard Worker        ],
*da0073e9SAndroid Build Coastguard Worker        default=None,
*da0073e9SAndroid Build Coastguard Worker        help="Measure speedup of torchao quantization with TorchInductor baseline",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--export",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Measure pass rate with export",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--export-aot-inductor",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Measure pass rate with Export+AOTInductor",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--xla", action="store_true", help="Compare TorchXLA to eager PyTorch"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--torchscript-onnx",
*da0073e9SAndroid Build Coastguard Worker        "--torchscript_onnx",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Measure speedup with TorchScript ONNX, i.e. `torch.onnx.export`",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--dynamo-onnx",
*da0073e9SAndroid Build Coastguard Worker        "--dynamo_onnx",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Measure speedup with Dynamo ONNX, i.e. `torch.onnx.dynamo_export`",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--dynamo-onnx-aot-inline",
*da0073e9SAndroid Build Coastguard Worker        "--dynamo_onnx_aot_inline",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Measure speedup with Dynamo ONNX AOT Inline, i.e. `torch.onnx.dynamo_export`",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--dynamo-onnx-aot-optimize",
*da0073e9SAndroid Build Coastguard Worker        "--dynamo_onnx_aot_optimize",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Measure speedup with Dynamo ONNX w/ ort fusions, i.e. `torch.onnx.dynamo_export`",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--backend",
*da0073e9SAndroid Build Coastguard Worker        choices=torch._dynamo.list_backends(exclude_tags=None),
*da0073e9SAndroid Build Coastguard Worker        help="measure speedup with a given backend",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group.add_argument("--nothing", action="store_true", help=help(null_experiment))
*da0073e9SAndroid Build Coastguard Worker    group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--log-conv-args",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Dump convolution input/weight/bias's shape/stride/dtype and other options to json",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--recompile-profiler",
*da0073e9SAndroid Build Coastguard Worker        "--recompile_profiler",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Run the dynamo recompilation profiler on each model.",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--find-batch-sizes",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="finds the largest batch size that could fit on GPUs",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    mode_group = parser.add_mutually_exclusive_group(required=True)
*da0073e9SAndroid Build Coastguard Worker    mode_group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--accuracy",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Checks accuracy with small batch size and eval mode",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    mode_group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--performance", action="store_true", help="Measures performance speedup"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    mode_group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--tolerance",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="extracts the tolerance for each model with small batch size and eval mode",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    run_mode_group = parser.add_mutually_exclusive_group(required=True)
*da0073e9SAndroid Build Coastguard Worker    run_mode_group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--training",
*da0073e9SAndroid Build Coastguard Worker        action="store_true",
*da0073e9SAndroid Build Coastguard Worker        help="Performs training",
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    run_mode_group.add_argument(
*da0073e9SAndroid Build Coastguard Worker        "--inference", action="store_true", help="Performs inference"
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    return parser.parse_args(args)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef process_entry(rank, runner, original_dir, args):
*da0073e9SAndroid Build Coastguard Worker    args.rank = rank
*da0073e9SAndroid Build Coastguard Worker    with maybe_init_distributed(
*da0073e9SAndroid Build Coastguard Worker        args.init_distributed,
*da0073e9SAndroid Build Coastguard Worker        rank=rank,
*da0073e9SAndroid Build Coastguard Worker        world_size=args.world_size,
*da0073e9SAndroid Build Coastguard Worker        port=args.distributed_master_port,
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        return run(runner, args, original_dir)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef maybe_fresh_cache(args):
*da0073e9SAndroid Build Coastguard Worker    cache_dir_assigned = "TORCHINDUCTOR_CACHE_DIR" in os.environ
*da0073e9SAndroid Build Coastguard Worker    if not cache_dir_assigned and (
*da0073e9SAndroid Build Coastguard Worker        args.cold_start_latency or args.warm_start_latency or args.ci
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        return fresh_inductor_cache()
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        return contextlib.nullcontext()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef main(runner, original_dir=None, args=None):
*da0073e9SAndroid Build Coastguard Worker    if original_dir:
*da0073e9SAndroid Build Coastguard Worker        os.chdir(original_dir)
*da0073e9SAndroid Build Coastguard Worker    args = parse_args() if not args else parse_args(args)
*da0073e9SAndroid Build Coastguard Worker    if args.baseline:
*da0073e9SAndroid Build Coastguard Worker        args.baseline = os.path.abspath(args.baseline)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if should_diff_branch(args):
*da0073e9SAndroid Build Coastguard Worker        import git
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # We do this here so we error out earlier if there's an issue
*da0073e9SAndroid Build Coastguard Worker        repo = git.Repo()
*da0073e9SAndroid Build Coastguard Worker        if repo.is_dirty():
*da0073e9SAndroid Build Coastguard Worker            raise RuntimeError(
*da0073e9SAndroid Build Coastguard Worker                "--diff-branch called on dirty branch. Commit, stash, or reset."
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker        main_branch = repo.active_branch.name
*da0073e9SAndroid Build Coastguard Worker        if main_branch == args.diff_branch:
*da0073e9SAndroid Build Coastguard Worker            raise RuntimeError(
*da0073e9SAndroid Build Coastguard Worker                f"--diff-branch: current branch is same as {args.diff_branch} branch, what are you diffing?"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    with maybe_fresh_cache(args):
*da0073e9SAndroid Build Coastguard Worker        args.init_distributed = args.only and args.multiprocess
*da0073e9SAndroid Build Coastguard Worker        if args.init_distributed:
*da0073e9SAndroid Build Coastguard Worker            # NB: Do NOT query device count before CUDA initialization; we're
*da0073e9SAndroid Build Coastguard Worker            # going to overwrite CUDA_VISIBLE_DEVICES and this will result in
*da0073e9SAndroid Build Coastguard Worker            # https://github.com/pytorch/pytorch/issues/107300
*da0073e9SAndroid Build Coastguard Worker            device_count = torch.cuda.device_count()
*da0073e9SAndroid Build Coastguard Worker            if device_count <= 1:
*da0073e9SAndroid Build Coastguard Worker                log.warning(
*da0073e9SAndroid Build Coastguard Worker                    "The use multiprocess flag is set but there are <= 1 devices available."
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            # multiprocess path
*da0073e9SAndroid Build Coastguard Worker            args.world_size = device_count
*da0073e9SAndroid Build Coastguard Worker            mp.spawn(
*da0073e9SAndroid Build Coastguard Worker                process_entry, args=(runner, original_dir, args), nprocs=device_count
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker        elif args.only and args.warm_start_latency:
*da0073e9SAndroid Build Coastguard Worker            # Warm start mode. Enable FX graph caching and perform back-to-back runs in
*da0073e9SAndroid Build Coastguard Worker            # separate processes (but ensure the inductor cache is preserved across runs).
*da0073e9SAndroid Build Coastguard Worker            env = os.environ.copy()
*da0073e9SAndroid Build Coastguard Worker            env["TORCHINDUCTOR_FX_GRAPH_CACHE"] = "1"
*da0073e9SAndroid Build Coastguard Worker            cmd = [sys.executable] + sys.argv
*da0073e9SAndroid Build Coastguard Worker            cmd.remove("--warm-start-latency")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            print(f"Performing cold-start run for {args.only}")
*da0073e9SAndroid Build Coastguard Worker            warmup_cmd = cmd + ["--repeat=1", "--disable-output"]
*da0073e9SAndroid Build Coastguard Worker            subprocess.check_call(warmup_cmd, timeout=args.timeout, env=env)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            print(f"Performing warm-start run for {args.only}")
*da0073e9SAndroid Build Coastguard Worker            subprocess.check_call(cmd, timeout=args.timeout, env=env)
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            # single process path just uses the main process
*da0073e9SAndroid Build Coastguard Worker            args.world_size = 1
*da0073e9SAndroid Build Coastguard Worker            process_entry(0, runner, original_dir, args)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef write_csv_when_exception(args, name: str, status: str, device=None):
*da0073e9SAndroid Build Coastguard Worker    print(status)
*da0073e9SAndroid Build Coastguard Worker    placeholder_batch_size = 0
*da0073e9SAndroid Build Coastguard Worker    devices = [device] if device is not None else args.devices
*da0073e9SAndroid Build Coastguard Worker    if args.accuracy:
*da0073e9SAndroid Build Coastguard Worker        headers = ["dev", "name", "batch_size", "accuracy"]
*da0073e9SAndroid Build Coastguard Worker        rows = [[device, name, placeholder_batch_size, status] for device in devices]
*da0073e9SAndroid Build Coastguard Worker    elif args.performance:
*da0073e9SAndroid Build Coastguard Worker        headers = ["dev", "name", "batch_size", "speedup", "abs_latency"]
*da0073e9SAndroid Build Coastguard Worker        rows = [[device, name, placeholder_batch_size, 0.0, 0.0] for device in devices]
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        headers = []
*da0073e9SAndroid Build Coastguard Worker        rows = [[device, name, placeholder_batch_size, 0.0] for device in devices]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    for row in rows:
*da0073e9SAndroid Build Coastguard Worker        output_csv(output_filename, headers, row)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef run(runner, args, original_dir=None):
*da0073e9SAndroid Build Coastguard Worker    # Pass the parsed args object to benchmark runner object
*da0073e9SAndroid Build Coastguard Worker    runner.args = args
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    args.filter = args.filter or [r"."]
*da0073e9SAndroid Build Coastguard Worker    args.exclude = args.exclude or [r"^$"]
*da0073e9SAndroid Build Coastguard Worker    args.exclude_exact = args.exclude_exact or []
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.inductor:
*da0073e9SAndroid Build Coastguard Worker        assert args.backend is None
*da0073e9SAndroid Build Coastguard Worker        args.backend = "inductor"
*da0073e9SAndroid Build Coastguard Worker    if args.quantization:
*da0073e9SAndroid Build Coastguard Worker        assert args.backend is None
*da0073e9SAndroid Build Coastguard Worker        args.backend = "torchao"
*da0073e9SAndroid Build Coastguard Worker    if args.dynamic_batch_only:
*da0073e9SAndroid Build Coastguard Worker        args.dynamic_shapes = True
*da0073e9SAndroid Build Coastguard Worker        torch._dynamo.config.assume_static_by_default = True
*da0073e9SAndroid Build Coastguard Worker    if args.dynamic_shapes:
*da0073e9SAndroid Build Coastguard Worker        if not args.dynamic_batch_only:
*da0073e9SAndroid Build Coastguard Worker            torch._dynamo.config.assume_static_by_default = False
*da0073e9SAndroid Build Coastguard Worker    if args.propagate_real_tensors:
*da0073e9SAndroid Build Coastguard Worker        # TODO: Separate flag for data dependent
*da0073e9SAndroid Build Coastguard Worker        torch._dynamo.config.capture_scalar_outputs = True
*da0073e9SAndroid Build Coastguard Worker        torch._dynamo.config.capture_dynamic_output_shape_ops = True
*da0073e9SAndroid Build Coastguard Worker        torch._functorch.config.fake_tensor_propagate_real_tensors = True
*da0073e9SAndroid Build Coastguard Worker    if args.specialize_int:
*da0073e9SAndroid Build Coastguard Worker        torch._dynamo.config.specialize_int = True
*da0073e9SAndroid Build Coastguard Worker    if args.ci:
*da0073e9SAndroid Build Coastguard Worker        if args.accuracy:
*da0073e9SAndroid Build Coastguard Worker            # Run fewer iterations when checking accuracy
*da0073e9SAndroid Build Coastguard Worker            args.repeat = min(args.repeat, 2)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Set translation validation on by default on CI accuracy runs.
*da0073e9SAndroid Build Coastguard Worker            torch.fx.experimental._config.translation_validation = True
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        ci = functools.partial(
*da0073e9SAndroid Build Coastguard Worker            CI, args.backend, training=args.training, dynamic=args.dynamic_shapes
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker    if args.ddp:
*da0073e9SAndroid Build Coastguard Worker        assert args.training, "DDP benchmark requires --training mode"
*da0073e9SAndroid Build Coastguard Worker        torch._dynamo.config.optimize_ddp = args.optimize_ddp_mode
*da0073e9SAndroid Build Coastguard Worker        if args.only == "dlrm":
*da0073e9SAndroid Build Coastguard Worker            log.error(
*da0073e9SAndroid Build Coastguard Worker                "DLRM+DDP is unsupported as it requires sharding the embedding layer separately from DDP"
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            return sys.exit(-1)
*da0073e9SAndroid Build Coastguard Worker    if args.accuracy:
*da0073e9SAndroid Build Coastguard Worker        # Use small batch size. We use >1 batch size to ensure we test
*da0073e9SAndroid Build Coastguard Worker        # batch_norm type of operators that work on batch dims.
*da0073e9SAndroid Build Coastguard Worker        # TODO - Go through the failures for batch size = 2
*da0073e9SAndroid Build Coastguard Worker        if args.batch_size is None:
*da0073e9SAndroid Build Coastguard Worker            if runner.suite_name == "huggingface":
*da0073e9SAndroid Build Coastguard Worker                args.batch_size = 1
*da0073e9SAndroid Build Coastguard Worker            elif runner.suite_name == "torchbench":
*da0073e9SAndroid Build Coastguard Worker                args.batch_size = 4
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                # Larger batch size of TIMM models to have stable batch_norm
*da0073e9SAndroid Build Coastguard Worker                assert runner.suite_name == "timm_models"
*da0073e9SAndroid Build Coastguard Worker                args.batch_size = 8
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Remove sources of randomness
*da0073e9SAndroid Build Coastguard Worker        if runner.suite_name not in ("timm_models", "huggingface"):
*da0073e9SAndroid Build Coastguard Worker            # TODO - Using train mode for timm_models and HF models. Move to train mode for Torchbench as well.
*da0073e9SAndroid Build Coastguard Worker            args.use_eval_mode = True
*da0073e9SAndroid Build Coastguard Worker        inductor_config.fallback_random = True
*da0073e9SAndroid Build Coastguard Worker        if args.only is not None and args.only not in {
*da0073e9SAndroid Build Coastguard Worker            "alexnet",
*da0073e9SAndroid Build Coastguard Worker            "Background_Matting",
*da0073e9SAndroid Build Coastguard Worker            "pytorch_CycleGAN_and_pix2pix",
*da0073e9SAndroid Build Coastguard Worker            "pytorch_unet",
*da0073e9SAndroid Build Coastguard Worker            "Super_SloMo",
*da0073e9SAndroid Build Coastguard Worker            "vgg16",
*da0073e9SAndroid Build Coastguard Worker            # https://github.com/pytorch/pytorch/issues/96724
*da0073e9SAndroid Build Coastguard Worker            "Wav2Vec2ForCTC",
*da0073e9SAndroid Build Coastguard Worker            "Wav2Vec2ForPreTraining",
*da0073e9SAndroid Build Coastguard Worker            "sam",
*da0073e9SAndroid Build Coastguard Worker            "sam_fast",
*da0073e9SAndroid Build Coastguard Worker            "resnet50_quantized_qat",
*da0073e9SAndroid Build Coastguard Worker            "mobilenet_v2_quantized_qat",
*da0073e9SAndroid Build Coastguard Worker        }:
*da0073e9SAndroid Build Coastguard Worker            # some of the models do not support use_deterministic_algorithms
*da0073e9SAndroid Build Coastguard Worker            torch.use_deterministic_algorithms(True)
*da0073e9SAndroid Build Coastguard Worker        os.environ["CUBLAS_WORKSPACE_CONFIG"] = ":4096:8"
*da0073e9SAndroid Build Coastguard Worker        torch.backends.cudnn.deterministic = True
*da0073e9SAndroid Build Coastguard Worker        torch.backends.cudnn.allow_tf32 = False
*da0073e9SAndroid Build Coastguard Worker        torch.backends.cudnn.benchmark = False
*da0073e9SAndroid Build Coastguard Worker        torch.backends.cuda.matmul.allow_tf32 = False
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Remove randomeness when torch manual seed is called
*da0073e9SAndroid Build Coastguard Worker        patch_torch_manual_seed()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Some models e.g. yolov3 assert batch size on n_gpus
*da0073e9SAndroid Build Coastguard Worker        if "CUDA_VISIBLE_DEVICES" not in os.environ and not args.multiprocess:
*da0073e9SAndroid Build Coastguard Worker            args.device_index = "0"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        # Stricter check to disable fallbacks
*da0073e9SAndroid Build Coastguard Worker        args.suppress_errors = False
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.device_index is not None:
*da0073e9SAndroid Build Coastguard Worker        if args.multiprocess:
*da0073e9SAndroid Build Coastguard Worker            print("Cannot specify both --device_index and --multiprocess")
*da0073e9SAndroid Build Coastguard Worker            return sys.exit(-1)
*da0073e9SAndroid Build Coastguard Worker        os.environ["CUDA_VISIBLE_DEVICES"] = args.device_index
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    elif args.performance:
*da0073e9SAndroid Build Coastguard Worker        # Ensure that we test on real scenarios
*da0073e9SAndroid Build Coastguard Worker        args.use_eval_mode = False
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.partition_id > args.total_partitions or args.partition_id < 0:
*da0073e9SAndroid Build Coastguard Worker        print("Invalid partition id")
*da0073e9SAndroid Build Coastguard Worker        return sys.exit(-1)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if not args.devices:
*da0073e9SAndroid Build Coastguard Worker        if torch.cuda.is_available():
*da0073e9SAndroid Build Coastguard Worker            args.devices = ["cuda"]
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            log.warning("torch.cuda.is_available() == False, using CPU")
*da0073e9SAndroid Build Coastguard Worker            args.devices = ["cpu"]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.devices != ["cpu"] and (HAS_CUDA or HAS_XPU):
*da0073e9SAndroid Build Coastguard Worker        global synchronize
*da0073e9SAndroid Build Coastguard Worker        synchronize = torch.cuda.synchronize if HAS_CUDA else torch.xpu.synchronize
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if (
*da0073e9SAndroid Build Coastguard Worker        args.devices == ["cuda"]
*da0073e9SAndroid Build Coastguard Worker        and torch.cuda.get_device_properties(0).total_memory < 25 * 2**30
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        # OOM errors on an RTX 3090 with 24gb RAM
*da0073e9SAndroid Build Coastguard Worker        runner.skip_models.update(
*da0073e9SAndroid Build Coastguard Worker            {
*da0073e9SAndroid Build Coastguard Worker                # torchbench
*da0073e9SAndroid Build Coastguard Worker                "hf_Longformer",
*da0073e9SAndroid Build Coastguard Worker                "timm_nfnet",
*da0073e9SAndroid Build Coastguard Worker                "timm_efficientdet",
*da0073e9SAndroid Build Coastguard Worker            }
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        if args.training:
*da0073e9SAndroid Build Coastguard Worker            runner.skip_models.add("hf_T5")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.nnc:
*da0073e9SAndroid Build Coastguard Worker        torch._C._jit_override_can_fuse_on_cpu(True)
*da0073e9SAndroid Build Coastguard Worker        torch._C._jit_override_can_fuse_on_gpu(True)
*da0073e9SAndroid Build Coastguard Worker        torch._C._jit_set_texpr_fuser_enabled(True)
*da0073e9SAndroid Build Coastguard Worker        torch._C._jit_set_nvfuser_enabled(False)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.threads:
*da0073e9SAndroid Build Coastguard Worker        torch.set_num_threads(args.threads)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.verbose:
*da0073e9SAndroid Build Coastguard Worker        torch._logging.set_logs(dynamo=logging.DEBUG)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.print_graph_breaks:
*da0073e9SAndroid Build Coastguard Worker        torch._logging.set_logs(graph_breaks=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.quiet:
*da0073e9SAndroid Build Coastguard Worker        torch._logging.set_logs(dynamo=logging.ERROR)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    torch._dynamo.config.suppress_errors = args.suppress_errors
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.training:
*da0073e9SAndroid Build Coastguard Worker        runner.model_iter_fn = runner.forward_and_backward_pass
*da0073e9SAndroid Build Coastguard Worker        runner.skip_models.update(runner.skip_not_suitable_for_training_models)
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        runner.model_iter_fn = runner.forward_pass
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.fast:
*da0073e9SAndroid Build Coastguard Worker        runner.skip_models.update(runner.slow_models)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.devices == ["cpu"]:
*da0073e9SAndroid Build Coastguard Worker        runner.skip_models.update(runner.very_slow_models)
*da0073e9SAndroid Build Coastguard Worker        runner.skip_models.update(runner.skip_models_for_cpu)
*da0073e9SAndroid Build Coastguard Worker    elif args.devices == ["cuda"]:
*da0073e9SAndroid Build Coastguard Worker        runner.skip_models.update(runner.skip_models_for_cuda)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if not args.multiprocess:
*da0073e9SAndroid Build Coastguard Worker        runner.skip_models.update(runner.skip_multiprocess_models)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.freezing:
*da0073e9SAndroid Build Coastguard Worker        runner.skip_models.update(runner.skip_models_for_freezing)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.no_skip:
*da0073e9SAndroid Build Coastguard Worker        runner.skip_models.clear()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    experiment = null_experiment
*da0073e9SAndroid Build Coastguard Worker    global current_name, current_device, current_batch_size, output_filename, disable_output, optimize_ctx, current_onnx_compiler
*da0073e9SAndroid Build Coastguard Worker    optimize_ctx = contextlib.nullcontext()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.disable_output:
*da0073e9SAndroid Build Coastguard Worker        disable_output = True
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.overhead:
*da0073e9SAndroid Build Coastguard Worker        optimize_ctx = torch._dynamo.optimize(dummy_fx_compile, nopython=args.nopython)
*da0073e9SAndroid Build Coastguard Worker        experiment = speedup_experiment
*da0073e9SAndroid Build Coastguard Worker        output_filename = "overheads.csv"
*da0073e9SAndroid Build Coastguard Worker    elif args.inductor:
*da0073e9SAndroid Build Coastguard Worker        inductor_config.debug = args.verbose
*da0073e9SAndroid Build Coastguard Worker        if args.threads:
*da0073e9SAndroid Build Coastguard Worker            inductor_config.cpp.threads = args.threads
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        optimize_ctx = functools.partial(
*da0073e9SAndroid Build Coastguard Worker            torch.compile,
*da0073e9SAndroid Build Coastguard Worker            backend="inductor",
*da0073e9SAndroid Build Coastguard Worker            fullgraph=args.nopython,
*da0073e9SAndroid Build Coastguard Worker            mode=args.inductor_compile_mode,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        experiment = speedup_experiment
*da0073e9SAndroid Build Coastguard Worker        output_filename = "inductor.csv"
*da0073e9SAndroid Build Coastguard Worker    elif args.export:
*da0073e9SAndroid Build Coastguard Worker        optimize_ctx = export
*da0073e9SAndroid Build Coastguard Worker        experiment = speedup_experiment
*da0073e9SAndroid Build Coastguard Worker        output_filename = "export.csv"
*da0073e9SAndroid Build Coastguard Worker    elif args.xla:
*da0073e9SAndroid Build Coastguard Worker        (dev,) = args.devices
*da0073e9SAndroid Build Coastguard Worker        os.environ["PJRT_DEVICE"] = {"cuda": "GPU", "cpu": "CPU"}[dev]
*da0073e9SAndroid Build Coastguard Worker        torch._dynamo.mark_dynamic = MagicMock()
*da0073e9SAndroid Build Coastguard Worker        experiment = xla
*da0073e9SAndroid Build Coastguard Worker        output_filename = "xla.csv"
*da0073e9SAndroid Build Coastguard Worker    elif args.torchscript_onnx:
*da0073e9SAndroid Build Coastguard Worker        optimize_ctx = functools.partial(
*da0073e9SAndroid Build Coastguard Worker            optimize_onnx_ctx,
*da0073e9SAndroid Build Coastguard Worker            args.output_directory or ".",
*da0073e9SAndroid Build Coastguard Worker            OnnxModelFromTorchScript,
*da0073e9SAndroid Build Coastguard Worker            copy_before_export=args.performance,  # Accuarcy bench already did deepcopy
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        experiment = speedup_experiment_onnx
*da0073e9SAndroid Build Coastguard Worker        output_filename = "torchscript_onnx.csv"
*da0073e9SAndroid Build Coastguard Worker        current_onnx_compiler = "torchscript"
*da0073e9SAndroid Build Coastguard Worker    elif args.dynamo_onnx:
*da0073e9SAndroid Build Coastguard Worker        optimize_ctx = functools.partial(
*da0073e9SAndroid Build Coastguard Worker            optimize_onnx_ctx,
*da0073e9SAndroid Build Coastguard Worker            args.output_directory or ".",
*da0073e9SAndroid Build Coastguard Worker            OnnxModelFromDynamo,
*da0073e9SAndroid Build Coastguard Worker            dynamic_shapes=args.dynamic_shapes,
*da0073e9SAndroid Build Coastguard Worker            copy_before_export=args.performance,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        experiment = speedup_experiment_onnx
*da0073e9SAndroid Build Coastguard Worker        output_filename = "dynamo_onnx.csv"
*da0073e9SAndroid Build Coastguard Worker        current_onnx_compiler = "dynamo"
*da0073e9SAndroid Build Coastguard Worker    elif args.dynamo_onnx_aot_inline:
*da0073e9SAndroid Build Coastguard Worker        optimize_ctx = functools.partial(
*da0073e9SAndroid Build Coastguard Worker            optimize_onnx_ctx,
*da0073e9SAndroid Build Coastguard Worker            args.output_directory or ".",
*da0073e9SAndroid Build Coastguard Worker            OnnxModelFromDynamoAotInline,
*da0073e9SAndroid Build Coastguard Worker            dynamic_shapes=args.dynamic_shapes,
*da0073e9SAndroid Build Coastguard Worker            copy_before_export=args.performance,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        experiment = speedup_experiment_onnx
*da0073e9SAndroid Build Coastguard Worker        output_filename = "dynamo_onnx_aot_inline.csv"
*da0073e9SAndroid Build Coastguard Worker        current_onnx_compiler = "dynamo"
*da0073e9SAndroid Build Coastguard Worker    elif args.dynamo_onnx_aot_optimize:
*da0073e9SAndroid Build Coastguard Worker        optimize_ctx = functools.partial(
*da0073e9SAndroid Build Coastguard Worker            optimize_onnx_ctx,
*da0073e9SAndroid Build Coastguard Worker            args.output_directory or ".",
*da0073e9SAndroid Build Coastguard Worker            OnnxModelFromDynamoAotOptimize,
*da0073e9SAndroid Build Coastguard Worker            dynamic_shapes=args.dynamic_shapes,
*da0073e9SAndroid Build Coastguard Worker            copy_before_export=args.performance,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        experiment = speedup_experiment_onnx
*da0073e9SAndroid Build Coastguard Worker        output_filename = "dynamo_onnx_aot_optimize.csv"
*da0073e9SAndroid Build Coastguard Worker        current_onnx_compiler = "dynamo"
*da0073e9SAndroid Build Coastguard Worker    elif args.speedup_dynamo_ts:
*da0073e9SAndroid Build Coastguard Worker        optimize_ctx = torch._dynamo.optimize("ts", nopython=args.nopython)
*da0073e9SAndroid Build Coastguard Worker        experiment = speedup_experiment
*da0073e9SAndroid Build Coastguard Worker        output_filename = "speedup_dynamo_ts.csv"
*da0073e9SAndroid Build Coastguard Worker    elif args.prims_nvfuser:
*da0073e9SAndroid Build Coastguard Worker        optimize_ctx = torch._dynamo.optimize("prims_nvfuser", nopython=args.nopython)
*da0073e9SAndroid Build Coastguard Worker        experiment = speedup_experiment
*da0073e9SAndroid Build Coastguard Worker        backend_str = "prims_nvfuser"
*da0073e9SAndroid Build Coastguard Worker        output_filename = f"accuracy_aot_{backend_str}.csv"
*da0073e9SAndroid Build Coastguard Worker    elif args.print_fx:
*da0073e9SAndroid Build Coastguard Worker        optimize_ctx = torch._dynamo.optimize(
*da0073e9SAndroid Build Coastguard Worker            print_fx,
*da0073e9SAndroid Build Coastguard Worker            nopython=args.nopython,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker    elif args.print_aten_ops:
*da0073e9SAndroid Build Coastguard Worker        optimize_ctx = torch._dynamo.optimize(
*da0073e9SAndroid Build Coastguard Worker            print_aten_ops,
*da0073e9SAndroid Build Coastguard Worker            nopython=args.nopython,
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker    elif args.nothing:
*da0073e9SAndroid Build Coastguard Worker        optimize_ctx = nothing
*da0073e9SAndroid Build Coastguard Worker        experiment = speedup_experiment
*da0073e9SAndroid Build Coastguard Worker        output_filename = "nothing.csv"
*da0073e9SAndroid Build Coastguard Worker    elif args.backend or args.export_aot_inductor:
*da0073e9SAndroid Build Coastguard Worker        if args.export_aot_inductor:
*da0073e9SAndroid Build Coastguard Worker            assert not args.training, "AOTInductor only supports inference"
*da0073e9SAndroid Build Coastguard Worker            optimize_ctx = functools.partial(
*da0073e9SAndroid Build Coastguard Worker                export_aot_inductor, device=args.devices[0]
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # AOTInductor doesn't support control flow yet
*da0073e9SAndroid Build Coastguard Worker            runner.skip_models.update(runner.skip_models_due_to_control_flow)
*da0073e9SAndroid Build Coastguard Worker        elif args.backend == "torchao":
*da0073e9SAndroid Build Coastguard Worker            assert "cuda" in args.devices, "Quantization requires CUDA device."
*da0073e9SAndroid Build Coastguard Worker            assert args.bfloat16, "Quantization requires dtype bfloat16."
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                from torchao_backend import setup_baseline, torchao_optimize_ctx
*da0073e9SAndroid Build Coastguard Worker            except ImportError:
*da0073e9SAndroid Build Coastguard Worker                from userbenchmark.dynamo.dynamobench.torchao_backend import (
*da0073e9SAndroid Build Coastguard Worker                    setup_baseline,
*da0073e9SAndroid Build Coastguard Worker                    torchao_optimize_ctx,
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            setup_baseline()
*da0073e9SAndroid Build Coastguard Worker            baseline_ctx = functools.partial(
*da0073e9SAndroid Build Coastguard Worker                torch.compile,
*da0073e9SAndroid Build Coastguard Worker                backend="inductor",
*da0073e9SAndroid Build Coastguard Worker                fullgraph=args.nopython,
*da0073e9SAndroid Build Coastguard Worker                mode=args.inductor_compile_mode,
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            runner.model_iter_fn = baseline_ctx(runner.model_iter_fn)
*da0073e9SAndroid Build Coastguard Worker            optimize_ctx = torchao_optimize_ctx(args.quantization)
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            optimize_ctx = torch._dynamo.optimize(args.backend, nopython=args.nopython)
*da0073e9SAndroid Build Coastguard Worker        experiment = speedup_experiment
*da0073e9SAndroid Build Coastguard Worker        if args.accuracy:
*da0073e9SAndroid Build Coastguard Worker            output_filename = f"accuracy_{args.backend}.csv"
*da0073e9SAndroid Build Coastguard Worker        elif args.tolerance:
*da0073e9SAndroid Build Coastguard Worker            output_filename = f"tolerance_{args.backend}.csv"
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            output_filename = f"speedup_{args.backend}.csv"
*da0073e9SAndroid Build Coastguard Worker    elif args.recompile_profiler:
*da0073e9SAndroid Build Coastguard Worker        output_filename = "recompile_profiler_log.csv"
*da0073e9SAndroid Build Coastguard Worker        experiment = recompile_profiler_experiment
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        optimize_ctx = torch._dynamo.optimize(
*da0073e9SAndroid Build Coastguard Worker            fx_insert_profiling, nopython=args.nopython
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        experiment = coverage_experiment
*da0073e9SAndroid Build Coastguard Worker        output_filename = "coverage.csv"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.inductor or args.backend == "inductor" or args.export_aot_inductor:
*da0073e9SAndroid Build Coastguard Worker        inductor_config.triton.cudagraphs = not args.disable_cudagraphs
*da0073e9SAndroid Build Coastguard Worker        inductor_config.triton.persistent_reductions = (
*da0073e9SAndroid Build Coastguard Worker            not args.disable_persistent_reductions
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        inductor_config.split_reductions = not args.disable_split_reductions
*da0073e9SAndroid Build Coastguard Worker        inductor_config.triton.divisible_by_16 = not args.disable_divisible_by_16
*da0073e9SAndroid Build Coastguard Worker        if args.inference:
*da0073e9SAndroid Build Coastguard Worker            inductor_config.freezing = args.freezing
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    runner.setup_amp()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.output:
*da0073e9SAndroid Build Coastguard Worker        output_filename = args.output
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if output_filename:
*da0073e9SAndroid Build Coastguard Worker        if args.output_directory:
*da0073e9SAndroid Build Coastguard Worker            output_filename = os.path.join(args.output_directory, output_filename)
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            output_filename = os.path.join(
*da0073e9SAndroid Build Coastguard Worker                torch._dynamo.config.base_dir, output_filename
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.find_batch_sizes and args.only:
*da0073e9SAndroid Build Coastguard Worker        for device in args.devices:
*da0073e9SAndroid Build Coastguard Worker            batch_size = runner.batch_size_finder(device, args.only)
*da0073e9SAndroid Build Coastguard Worker            print(args.only, batch_size)
*da0073e9SAndroid Build Coastguard Worker            output_csv(output_filename, [], [args.only, batch_size])
*da0073e9SAndroid Build Coastguard Worker        return
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.export_profiler_trace:
*da0073e9SAndroid Build Coastguard Worker        if args.profiler_trace_name is None:
*da0073e9SAndroid Build Coastguard Worker            if args.backend:
*da0073e9SAndroid Build Coastguard Worker                args.profiler_trace_name = args.backend
*da0073e9SAndroid Build Coastguard Worker            elif args.inductor:
*da0073e9SAndroid Build Coastguard Worker                args.profiler_trace_name = "inductor"
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                args.profiler_trace_name = "profile"
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            args.profiler_trace_name = args.profiler_trace_name
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.no_translation_validation:
*da0073e9SAndroid Build Coastguard Worker        # Overwrite 'translation_validation' config, if specified.
*da0073e9SAndroid Build Coastguard Worker        torch.fx.experimental._config.translation_validation = False
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    experiment = functools.partial(experiment, args, runner.model_iter_fn)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if args.only and should_diff_branch(args):
*da0073e9SAndroid Build Coastguard Worker        import git
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        repo = git.Repo()
*da0073e9SAndroid Build Coastguard Worker        main_branch = repo.active_branch.name
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            # Adding diff-branch again to the args will override previous value
*da0073e9SAndroid Build Coastguard Worker            call_args = (
*da0073e9SAndroid Build Coastguard Worker                [sys.executable] + sys.argv + [f"--diff-branch={diff_branch_default}"]
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            # Run for main branch
*da0073e9SAndroid Build Coastguard Worker            subprocess.check_call(call_args + [f"--tag={main_branch}"])
*da0073e9SAndroid Build Coastguard Worker            # Run for comparison branch
*da0073e9SAndroid Build Coastguard Worker            repo.git.checkout(args.diff_branch)
*da0073e9SAndroid Build Coastguard Worker            subprocess.check_call(call_args + [f"--tag={args.diff_branch}"])
*da0073e9SAndroid Build Coastguard Worker        finally:
*da0073e9SAndroid Build Coastguard Worker            # Go back to main branch
*da0073e9SAndroid Build Coastguard Worker            repo.git.checkout(main_branch)
*da0073e9SAndroid Build Coastguard Worker    elif args.only:
*da0073e9SAndroid Build Coastguard Worker        model_name = args.only
*da0073e9SAndroid Build Coastguard Worker        for device in args.devices:
*da0073e9SAndroid Build Coastguard Worker            batch_size = args.batch_size
*da0073e9SAndroid Build Coastguard Worker            if args.batch_size_file:
*da0073e9SAndroid Build Coastguard Worker                batch_size = read_batch_size_from_file(
*da0073e9SAndroid Build Coastguard Worker                    args, args.batch_size_file, model_name
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            if model_specified_by_path(args.only):
*da0073e9SAndroid Build Coastguard Worker                model, example_inputs = load_model_from_path(args.only)
*da0073e9SAndroid Build Coastguard Worker                name = model.__class__.__name__
*da0073e9SAndroid Build Coastguard Worker                model = model.to(device=device)
*da0073e9SAndroid Build Coastguard Worker                example_inputs = tree_map_only(
*da0073e9SAndroid Build Coastguard Worker                    torch.Tensor, lambda x: x.to(device=device), example_inputs
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                name = model_name
*da0073e9SAndroid Build Coastguard Worker                try:
*da0073e9SAndroid Build Coastguard Worker                    with tqdm(desc="loading model"):
*da0073e9SAndroid Build Coastguard Worker                        extra_args = []
*da0073e9SAndroid Build Coastguard Worker                        if hasattr(args, "rank") and hasattr(args, "world_size"):
*da0073e9SAndroid Build Coastguard Worker                            extra_args += [
*da0073e9SAndroid Build Coastguard Worker                                "--rank",
*da0073e9SAndroid Build Coastguard Worker                                str(args.rank),
*da0073e9SAndroid Build Coastguard Worker                                "--world_size",
*da0073e9SAndroid Build Coastguard Worker                                str(args.world_size),
*da0073e9SAndroid Build Coastguard Worker                            ]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                        if args.part:
*da0073e9SAndroid Build Coastguard Worker                            (
*da0073e9SAndroid Build Coastguard Worker                                device,
*da0073e9SAndroid Build Coastguard Worker                                name,
*da0073e9SAndroid Build Coastguard Worker                                model,
*da0073e9SAndroid Build Coastguard Worker                                example_inputs,
*da0073e9SAndroid Build Coastguard Worker                                batch_size,
*da0073e9SAndroid Build Coastguard Worker                            ) = runner.load_model(
*da0073e9SAndroid Build Coastguard Worker                                device,
*da0073e9SAndroid Build Coastguard Worker                                model_name,
*da0073e9SAndroid Build Coastguard Worker                                batch_size=batch_size,
*da0073e9SAndroid Build Coastguard Worker                                part=args.part,
*da0073e9SAndroid Build Coastguard Worker                                extra_args=extra_args,
*da0073e9SAndroid Build Coastguard Worker                            )
*da0073e9SAndroid Build Coastguard Worker                        else:
*da0073e9SAndroid Build Coastguard Worker                            if args.fsdp:
*da0073e9SAndroid Build Coastguard Worker                                # Always load model on cpu for fsdp
*da0073e9SAndroid Build Coastguard Worker                                # When initializing FSDP, we will use the cuda device if args.cuda is set
*da0073e9SAndroid Build Coastguard Worker                                (
*da0073e9SAndroid Build Coastguard Worker                                    _,
*da0073e9SAndroid Build Coastguard Worker                                    name,
*da0073e9SAndroid Build Coastguard Worker                                    model,
*da0073e9SAndroid Build Coastguard Worker                                    example_inputs,
*da0073e9SAndroid Build Coastguard Worker                                    batch_size,
*da0073e9SAndroid Build Coastguard Worker                                ) = runner.load_model(
*da0073e9SAndroid Build Coastguard Worker                                    "cpu",
*da0073e9SAndroid Build Coastguard Worker                                    model_name,
*da0073e9SAndroid Build Coastguard Worker                                    batch_size=batch_size,
*da0073e9SAndroid Build Coastguard Worker                                    extra_args=extra_args,
*da0073e9SAndroid Build Coastguard Worker                                )
*da0073e9SAndroid Build Coastguard Worker                            else:
*da0073e9SAndroid Build Coastguard Worker                                (
*da0073e9SAndroid Build Coastguard Worker                                    device,
*da0073e9SAndroid Build Coastguard Worker                                    name,
*da0073e9SAndroid Build Coastguard Worker                                    model,
*da0073e9SAndroid Build Coastguard Worker                                    example_inputs,
*da0073e9SAndroid Build Coastguard Worker                                    batch_size,
*da0073e9SAndroid Build Coastguard Worker                                ) = runner.load_model(
*da0073e9SAndroid Build Coastguard Worker                                    device,
*da0073e9SAndroid Build Coastguard Worker                                    model_name,
*da0073e9SAndroid Build Coastguard Worker                                    batch_size=batch_size,
*da0073e9SAndroid Build Coastguard Worker                                    extra_args=extra_args,
*da0073e9SAndroid Build Coastguard Worker                                )
*da0073e9SAndroid Build Coastguard Worker                except Exception as e:
*da0073e9SAndroid Build Coastguard Worker                    import traceback
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                    mode = "train" if args.training else "eval"
*da0073e9SAndroid Build Coastguard Worker                    print(f"{device:4} {mode:5} {name:34} ")
*da0073e9SAndroid Build Coastguard Worker                    print(traceback.format_exc())
*da0073e9SAndroid Build Coastguard Worker                    status = (
*da0073e9SAndroid Build Coastguard Worker                        "model_fail_to_load"
*da0073e9SAndroid Build Coastguard Worker                        if isinstance(e, NotImplementedError)
*da0073e9SAndroid Build Coastguard Worker                        else "eager_fail_to_run"
*da0073e9SAndroid Build Coastguard Worker                    )
*da0073e9SAndroid Build Coastguard Worker                    write_csv_when_exception(args, name, status, device)
*da0073e9SAndroid Build Coastguard Worker                    continue  # bad benchmark implementation
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if args.trace_on_xla:
*da0073e9SAndroid Build Coastguard Worker                xla_dev = xm.xla_device()
*da0073e9SAndroid Build Coastguard Worker                model = model.to(device=xla_dev)
*da0073e9SAndroid Build Coastguard Worker                example_inputs = tree_map_only(
*da0073e9SAndroid Build Coastguard Worker                    torch.Tensor, lambda x: x.to(device=xla_dev), example_inputs
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            current_name = name
*da0073e9SAndroid Build Coastguard Worker            current_device = device
*da0073e9SAndroid Build Coastguard Worker            current_batch_size = batch_size
*da0073e9SAndroid Build Coastguard Worker            set_model_name(name)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Look for stuff that looks like batch size, and mark it dynamic.
*da0073e9SAndroid Build Coastguard Worker            # Better integration would integrate directly with benchmark suite
*da0073e9SAndroid Build Coastguard Worker            # but cannot conveniently do this
*da0073e9SAndroid Build Coastguard Worker            # NB: This must be done late enough so that we don't do more
*da0073e9SAndroid Build Coastguard Worker            # conversions on the inputs
*da0073e9SAndroid Build Coastguard Worker            # NB: Assumes only the first batch-y like dimension is the batch
*da0073e9SAndroid Build Coastguard Worker            marked = False
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            def detect_and_mark_batch(t):
*da0073e9SAndroid Build Coastguard Worker                nonlocal marked
*da0073e9SAndroid Build Coastguard Worker                for i, s in enumerate(t.size()):
*da0073e9SAndroid Build Coastguard Worker                    if s == batch_size:
*da0073e9SAndroid Build Coastguard Worker                        torch._dynamo.mark_dynamic(t, i)
*da0073e9SAndroid Build Coastguard Worker                        marked = True
*da0073e9SAndroid Build Coastguard Worker                        break
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if (
*da0073e9SAndroid Build Coastguard Worker                args.dynamic_batch_only
*da0073e9SAndroid Build Coastguard Worker                and batch_size > 1
*da0073e9SAndroid Build Coastguard Worker                and model_name not in CI_SKIP_DYNAMIC_BATCH_ONLY
*da0073e9SAndroid Build Coastguard Worker            ):
*da0073e9SAndroid Build Coastguard Worker                tree_map_only(torch.Tensor, detect_and_mark_batch, example_inputs)
*da0073e9SAndroid Build Coastguard Worker                assert marked, f"nothing in example_inputs had a dim with {batch_size}"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if args.log_operator_inputs:
*da0073e9SAndroid Build Coastguard Worker                log_operator_inputs(
*da0073e9SAndroid Build Coastguard Worker                    model, example_inputs, runner.model_iter_fn, name, args
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                continue
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            if args.per_process_memory_fraction != 1:
*da0073e9SAndroid Build Coastguard Worker                torch.cuda.set_per_process_memory_fraction(
*da0073e9SAndroid Build Coastguard Worker                    args.per_process_memory_fraction
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            if model_name in DO_NOT_CAST_INPUTS:
*da0073e9SAndroid Build Coastguard Worker                model, _ = runner.cast_based_on_args(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                model, example_inputs = runner.cast_based_on_args(model, example_inputs)
*da0073e9SAndroid Build Coastguard Worker            runner.setup_amp(current_device)
*da0073e9SAndroid Build Coastguard Worker            guard_ctx = contextlib.nullcontext()
*da0073e9SAndroid Build Coastguard Worker            if name in runner.guard_on_nn_module_models:
*da0073e9SAndroid Build Coastguard Worker                guard_ctx = torch._dynamo.config.patch(guard_nn_modules=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            with guard_ctx:
*da0073e9SAndroid Build Coastguard Worker                runner.run_one_model(
*da0073e9SAndroid Build Coastguard Worker                    name,
*da0073e9SAndroid Build Coastguard Worker                    model,
*da0073e9SAndroid Build Coastguard Worker                    example_inputs,
*da0073e9SAndroid Build Coastguard Worker                    optimize_ctx,
*da0073e9SAndroid Build Coastguard Worker                    experiment,
*da0073e9SAndroid Build Coastguard Worker                    explain=args.explain,
*da0073e9SAndroid Build Coastguard Worker                    tag=args.tag,
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker        if args.generate_aot_autograd_stats:
*da0073e9SAndroid Build Coastguard Worker            stats_file = output_filename.split(".csv")[0] + "_stats.csv"
*da0073e9SAndroid Build Coastguard Worker            output_csv(
*da0073e9SAndroid Build Coastguard Worker                stats_file,
*da0073e9SAndroid Build Coastguard Worker                ("dev", "name", "batch_size", "total_aot_graphs", "ok_aot_graphs"),
*da0073e9SAndroid Build Coastguard Worker                [
*da0073e9SAndroid Build Coastguard Worker                    current_device,
*da0073e9SAndroid Build Coastguard Worker                    current_name,
*da0073e9SAndroid Build Coastguard Worker                    current_batch_size,
*da0073e9SAndroid Build Coastguard Worker                    *Stats.aot_summary(),
*da0073e9SAndroid Build Coastguard Worker                ],
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        metrics.purge_old_log_files()
*da0073e9SAndroid Build Coastguard Worker        if output_filename and os.path.exists(output_filename):
*da0073e9SAndroid Build Coastguard Worker            os.unlink(output_filename)
*da0073e9SAndroid Build Coastguard Worker        if original_dir:
*da0073e9SAndroid Build Coastguard Worker            os.chdir(original_dir)
*da0073e9SAndroid Build Coastguard Worker        model_names = list(runner.iter_model_names(args))
*da0073e9SAndroid Build Coastguard Worker        nmodels = len(model_names)
*da0073e9SAndroid Build Coastguard Worker        for i, name in enumerate(model_names):
*da0073e9SAndroid Build Coastguard Worker            current_name = name
*da0073e9SAndroid Build Coastguard Worker            if args.progress:
*da0073e9SAndroid Build Coastguard Worker                print(f"Running model {i+1}/{nmodels}", flush=True)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            try:
*da0073e9SAndroid Build Coastguard Worker                timeout = args.timeout
*da0073e9SAndroid Build Coastguard Worker                if should_diff_branch(args):
*da0073e9SAndroid Build Coastguard Worker                    timeout *= 2
*da0073e9SAndroid Build Coastguard Worker                env = os.environ.copy()
*da0073e9SAndroid Build Coastguard Worker                if args.ci and name in CI_PRESERVE_COMPILE_DEBUG:
*da0073e9SAndroid Build Coastguard Worker                    env["TORCH_COMPILE_DEBUG"] = "1"
*da0073e9SAndroid Build Coastguard Worker                subprocess.check_call(
*da0073e9SAndroid Build Coastguard Worker                    [sys.executable] + sys.argv + [f"--only={name}"],
*da0073e9SAndroid Build Coastguard Worker                    timeout=timeout,
*da0073e9SAndroid Build Coastguard Worker                    env=env,
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            except subprocess.TimeoutExpired:
*da0073e9SAndroid Build Coastguard Worker                write_csv_when_exception(args, name, "timeout")
*da0073e9SAndroid Build Coastguard Worker            except subprocess.CalledProcessError as e:
*da0073e9SAndroid Build Coastguard Worker                print("Run failed with return code: ", e.returncode, file=sys.stderr)
*da0073e9SAndroid Build Coastguard Worker                print("Output: ", e.output, file=sys.stderr)
*da0073e9SAndroid Build Coastguard Worker                print("Error: ", e.stderr, file=sys.stderr)
*da0073e9SAndroid Build Coastguard Worker        print_summary(output_filename, print_dataframe=args.print_dataframe_summary)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef log_operator_inputs(model, example_inputs, model_iter_fn, name, args):
*da0073e9SAndroid Build Coastguard Worker    mode = "training" if args.training else "eval"
*da0073e9SAndroid Build Coastguard Worker    output = os.path.join(os.path.dirname(args.output), f"{name}_{mode}.txt")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # TODO - add option for coalescing inputs over multiple runs
*da0073e9SAndroid Build Coastguard Worker    if os.path.exists(output):
*da0073e9SAndroid Build Coastguard Worker        print(f"Skipping {name}, {output} already exists")
*da0073e9SAndroid Build Coastguard Worker        return
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    print(f"Running {name}")
*da0073e9SAndroid Build Coastguard Worker    try:
*da0073e9SAndroid Build Coastguard Worker        from .microbenchmarks.operator_inp_utils import OperatorInputsMode
*da0073e9SAndroid Build Coastguard Worker    except ImportError:
*da0073e9SAndroid Build Coastguard Worker        from microbenchmarks.operator_inp_utils import OperatorInputsMode
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    operator_mode = OperatorInputsMode()
*da0073e9SAndroid Build Coastguard Worker    fake_tensor_mode = FakeTensorMode()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    with torch._subclasses.fake_tensor.FakeCopyMode(fake_tensor_mode):
*da0073e9SAndroid Build Coastguard Worker        model_fake = copy.deepcopy(model)
*da0073e9SAndroid Build Coastguard Worker        example_inputs_fake = copy.deepcopy(example_inputs)
*da0073e9SAndroid Build Coastguard Worker    try:
*da0073e9SAndroid Build Coastguard Worker        with fake_tensor_mode, operator_mode:
*da0073e9SAndroid Build Coastguard Worker            model_iter_fn(model_fake, example_inputs_fake, collect_outputs=False)
*da0073e9SAndroid Build Coastguard Worker    except Exception as e:
*da0073e9SAndroid Build Coastguard Worker        print(f"{name} failed to run with fake tensors, trying real. Exception: {e}")
*da0073e9SAndroid Build Coastguard Worker        operator_mode = OperatorInputsMode()
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            with operator_mode:
*da0073e9SAndroid Build Coastguard Worker                model_iter_fn(model, example_inputs, collect_outputs=False)
*da0073e9SAndroid Build Coastguard Worker        except Exception as e2:
*da0073e9SAndroid Build Coastguard Worker            print(f"{name} failed to run with real. Exception: {e2}")
*da0073e9SAndroid Build Coastguard Worker            raise
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    print(f"Writing output to {output}")
*da0073e9SAndroid Build Coastguard Worker    operator_mode.log_to_file(output)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerif __name__ == "__main__":
*da0073e9SAndroid Build Coastguard Worker    raise RuntimeError(
*da0073e9SAndroid Build Coastguard Worker        f"You shouldn't run {sys.argv[0]} directly, instead try timm_model.py, torchbench.py or huggingface.py"
*da0073e9SAndroid Build Coastguard Worker    )