models/llama/model.py

*523fa7a6SAndroid Build Coastguard Worker# Copyright (c) Meta Platforms, Inc. and affiliates.
*523fa7a6SAndroid Build Coastguard Worker# All rights reserved.
*523fa7a6SAndroid Build Coastguard Worker#
*523fa7a6SAndroid Build Coastguard Worker# This source code is licensed under the BSD-style license found in the
*523fa7a6SAndroid Build Coastguard Worker# LICENSE file in the root directory of this source tree.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker# pyre-unsafe
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerimport json
*523fa7a6SAndroid Build Coastguard Workerimport os
*523fa7a6SAndroid Build Coastguard Workerfrom typing import Dict, Tuple
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerimport torch
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.examples.models.checkpoint import (
*523fa7a6SAndroid Build Coastguard Worker    get_checkpoint_dtype,
*523fa7a6SAndroid Build Coastguard Worker    get_default_model_resource_dir,
*523fa7a6SAndroid Build Coastguard Worker)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerfrom executorch.examples.models.llama.llama_transformer import ModelArgs, Transformer
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workertry:
*523fa7a6SAndroid Build Coastguard Worker    from .fairseq2 import convert_to_llama_checkpoint
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerexcept ImportError:
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def convert_to_llama_checkpoint(**kwargs):
*523fa7a6SAndroid Build Coastguard Worker        raise NotImplementedError(
*523fa7a6SAndroid Build Coastguard Worker            "Please install fairseq2 with `pip install fairseq2`."
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerfrom ..model_base import EagerModelBase
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerclass Llama2Model(EagerModelBase):
*523fa7a6SAndroid Build Coastguard Worker    def __init__(self, **kwargs):
*523fa7a6SAndroid Build Coastguard Worker        resource_dir = get_default_model_resource_dir(__file__)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # Use single checkpoint file.
*523fa7a6SAndroid Build Coastguard Worker        checkpoint_path = kwargs.get(
*523fa7a6SAndroid Build Coastguard Worker            "checkpoint", resource_dir / "demo_rand_params.pth"
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker        params_path = kwargs.get("params", resource_dir / "demo_config.json")
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # Check if checkpoint_dir was provided for a sharded checkpoint.
*523fa7a6SAndroid Build Coastguard Worker        checkpoint_dir = kwargs.get("checkpoint_dir", None)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        self.use_kv_cache = kwargs.get("use_kv_cache", False)
*523fa7a6SAndroid Build Coastguard Worker        self.use_sdpa_with_kv_cache_op = kwargs.get("use_sdpa_with_kv_cache", False)
*523fa7a6SAndroid Build Coastguard Worker        self.generate_full_logits = kwargs.get("generate_full_logits", False)
*523fa7a6SAndroid Build Coastguard Worker        self.enable_dynamic_shape = kwargs.get("enable_dynamic_shape", False)
*523fa7a6SAndroid Build Coastguard Worker        self.input_prune_map_path = kwargs.get("input_prune_map_path", None)
*523fa7a6SAndroid Build Coastguard Worker        self.output_prune_map_path = kwargs.get("output_prune_map_path", None)
*523fa7a6SAndroid Build Coastguard Worker        self.max_seq_len = kwargs.get("max_seq_len", 128)
*523fa7a6SAndroid Build Coastguard Worker        self.args = kwargs.get("args", None)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # The example is using a dummy small model with random weights for demo purpose only.
*523fa7a6SAndroid Build Coastguard Worker        # Follow the instruction in https://github.com/facebookresearch/llama to download the model.
*523fa7a6SAndroid Build Coastguard Worker        device = "cpu"
*523fa7a6SAndroid Build Coastguard Worker        # flake8: noqa: TOR102
*523fa7a6SAndroid Build Coastguard Worker        cps = []
*523fa7a6SAndroid Build Coastguard Worker        # Load sharded checkpoint.
*523fa7a6SAndroid Build Coastguard Worker        if checkpoint_dir is not None:
*523fa7a6SAndroid Build Coastguard Worker            # Load multiple checkpoint; ignore the single path.
*523fa7a6SAndroid Build Coastguard Worker            checkpoint_path = None
*523fa7a6SAndroid Build Coastguard Worker            for i in range(4):
*523fa7a6SAndroid Build Coastguard Worker                cp_name = f"consolidated.{i}.pth"
*523fa7a6SAndroid Build Coastguard Worker                print(f"Loading {cp_name}")
*523fa7a6SAndroid Build Coastguard Worker                cps.append(
*523fa7a6SAndroid Build Coastguard Worker                    torch.load(
*523fa7a6SAndroid Build Coastguard Worker                        os.path.join(checkpoint_dir, cp_name),
*523fa7a6SAndroid Build Coastguard Worker                        map_location=device,
*523fa7a6SAndroid Build Coastguard Worker                        mmap=True,
*523fa7a6SAndroid Build Coastguard Worker                    )
*523fa7a6SAndroid Build Coastguard Worker                )
*523fa7a6SAndroid Build Coastguard Worker            checkpoint = {}
*523fa7a6SAndroid Build Coastguard Worker            for key in cps[0].keys():
*523fa7a6SAndroid Build Coastguard Worker                if not torch.allclose(cps[0][key], cps[1][key]):
*523fa7a6SAndroid Build Coastguard Worker                    values = (cps[0][key], cps[1][key], cps[2][key], cps[3][key])
*523fa7a6SAndroid Build Coastguard Worker                    if "wo" in key or "w2" in key:
*523fa7a6SAndroid Build Coastguard Worker                        # Concat on dim=1 for "wo" and "w2".
*523fa7a6SAndroid Build Coastguard Worker                        checkpoint[key] = torch.cat(values, dim=1)
*523fa7a6SAndroid Build Coastguard Worker                    else:
*523fa7a6SAndroid Build Coastguard Worker                        # Concat on dim=0 for everything else.
*523fa7a6SAndroid Build Coastguard Worker                        checkpoint[key] = torch.cat(values, dim=0)
*523fa7a6SAndroid Build Coastguard Worker                else:
*523fa7a6SAndroid Build Coastguard Worker                    # Do not duplicate layers shared between each checkpoint.
*523fa7a6SAndroid Build Coastguard Worker                    checkpoint[key] = cps[0][key]
*523fa7a6SAndroid Build Coastguard Worker        # Load single checkpoint.
*523fa7a6SAndroid Build Coastguard Worker        else:
*523fa7a6SAndroid Build Coastguard Worker            checkpoint = torch.load(checkpoint_path, map_location=device, mmap=True)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # If given checkpoint is fairseq, convert to llama checkpoint.
*523fa7a6SAndroid Build Coastguard Worker        fairseq2_checkpoint = kwargs.get("fairseq2", False)
*523fa7a6SAndroid Build Coastguard Worker        if fairseq2_checkpoint:
*523fa7a6SAndroid Build Coastguard Worker            print("Using fairseq2 checkpoint")
*523fa7a6SAndroid Build Coastguard Worker            checkpoint = convert_to_llama_checkpoint(checkpoint=checkpoint)
*523fa7a6SAndroid Build Coastguard Worker        if "model" in checkpoint:
*523fa7a6SAndroid Build Coastguard Worker            # NB: some checkpoint contains a "model" field, which is the actual weights dict
*523fa7a6SAndroid Build Coastguard Worker            checkpoint = checkpoint["model"]
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # Check if user gave a fairseq2 checkpoint unknowingly without specifying --fairseq2.
*523fa7a6SAndroid Build Coastguard Worker        if (not fairseq2_checkpoint) and checkpoint.get(
*523fa7a6SAndroid Build Coastguard Worker            "final_proj.weight", None
*523fa7a6SAndroid Build Coastguard Worker        ) is not None:
*523fa7a6SAndroid Build Coastguard Worker            raise ValueError(
*523fa7a6SAndroid Build Coastguard Worker                """
*523fa7a6SAndroid Build Coastguard Worker************************************************************
*523fa7a6SAndroid Build Coastguard WorkerThis looks like a Fairseq2 checkpoint (based on the presence
*523fa7a6SAndroid Build Coastguard Workerof `final_proj.weight`.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard WorkerYou can import Fairseq2 checkpoints using the --fairseq2
*523fa7a6SAndroid Build Coastguard Workeroption, but --fairseq2 was not specified.  Please verify
*523fa7a6SAndroid Build Coastguard Workerthe checkpoint format to avoid generating faulty models.
*523fa7a6SAndroid Build Coastguard Worker************************************************************
*523fa7a6SAndroid Build Coastguard Worker"""
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # Get checkpoint dtype.
*523fa7a6SAndroid Build Coastguard Worker        self.dtype = get_checkpoint_dtype(checkpoint)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        with open(params_path, "r") as f:
*523fa7a6SAndroid Build Coastguard Worker            params = json.loads(f.read())
*523fa7a6SAndroid Build Coastguard Worker        output_prune_map = None
*523fa7a6SAndroid Build Coastguard Worker        if self.output_prune_map_path is not None:
*523fa7a6SAndroid Build Coastguard Worker            with open(self.output_prune_map_path, "r") as f:
*523fa7a6SAndroid Build Coastguard Worker                output_prune_map = json.load(f)
*523fa7a6SAndroid Build Coastguard Worker            # Change keys from string to int (json only supports string keys).
*523fa7a6SAndroid Build Coastguard Worker            output_prune_map = {int(k): v for (k, v) in output_prune_map.items()}
*523fa7a6SAndroid Build Coastguard Worker        input_prune_map = None
*523fa7a6SAndroid Build Coastguard Worker        if self.input_prune_map_path is not None:
*523fa7a6SAndroid Build Coastguard Worker            with open(self.input_prune_map_path, "r") as f:
*523fa7a6SAndroid Build Coastguard Worker                input_prune_map = json.load(f)
*523fa7a6SAndroid Build Coastguard Worker            # Change keys from string to int (json only supports string keys).
*523fa7a6SAndroid Build Coastguard Worker            input_prune_map = {int(k): v for (k, v) in input_prune_map.items()}
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        model_args: ModelArgs = ModelArgs(
*523fa7a6SAndroid Build Coastguard Worker            max_seq_len=self.max_seq_len,
*523fa7a6SAndroid Build Coastguard Worker            max_batch_size=1,
*523fa7a6SAndroid Build Coastguard Worker            use_kv_cache=self.use_kv_cache,
*523fa7a6SAndroid Build Coastguard Worker            use_sdpa_with_kv_cache_op=self.use_sdpa_with_kv_cache_op,
*523fa7a6SAndroid Build Coastguard Worker            generate_full_logits=self.generate_full_logits,
*523fa7a6SAndroid Build Coastguard Worker            input_prune_map=input_prune_map,
*523fa7a6SAndroid Build Coastguard Worker            output_prune_map=output_prune_map,
*523fa7a6SAndroid Build Coastguard Worker            enable_dynamic_shape=self.enable_dynamic_shape,
*523fa7a6SAndroid Build Coastguard Worker            **params,
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker        if kwargs.get("verbose", False):
*523fa7a6SAndroid Build Coastguard Worker            print("============= weights ================")
*523fa7a6SAndroid Build Coastguard Worker            print("{key} : {weights.numel()} : {weights.size()}")
*523fa7a6SAndroid Build Coastguard Worker            for key, weights in checkpoint.items():
*523fa7a6SAndroid Build Coastguard Worker                print(f"{key} : {weights.numel()} : {weights.size()}")
*523fa7a6SAndroid Build Coastguard Worker            print("============= /weights ================")
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # Within the device="meta" context, tensors that are created do not carry data.
*523fa7a6SAndroid Build Coastguard Worker        # They possess all other metadata a tensor carries such as size, stride, requires_grad.
*523fa7a6SAndroid Build Coastguard Worker        with torch.device("meta"):
*523fa7a6SAndroid Build Coastguard Worker            self.model_ = Transformer(model_args)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        if "int8" in str(checkpoint_path):
*523fa7a6SAndroid Build Coastguard Worker            print("Using int8 weight-only quantization!")
*523fa7a6SAndroid Build Coastguard Worker            # pyre-ignore: Undefined import [21]: Could not find a module corresponding to import `executorch.examples.models.source_transformation.quantize`
*523fa7a6SAndroid Build Coastguard Worker            from ..source_transformation.quantize import WeightOnlyInt8QuantHandler
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker            simple_quantizer = WeightOnlyInt8QuantHandler(self.model_)
*523fa7a6SAndroid Build Coastguard Worker            self.model_ = simple_quantizer.convert_for_runtime()
*523fa7a6SAndroid Build Coastguard Worker        elif "8da4w" in str(checkpoint_path):
*523fa7a6SAndroid Build Coastguard Worker            print("Using int4 weight and int8 dynamic activation quantization!")
*523fa7a6SAndroid Build Coastguard Worker            from torchao.quantization.quant_api import Int8DynActInt4WeightQuantizer
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker            self.model_ = Int8DynActInt4WeightQuantizer()._convert_for_runtime(
*523fa7a6SAndroid Build Coastguard Worker                self.model_
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker        elif hasattr(self.args, "use_spin_quant") and self.args.use_spin_quant:
*523fa7a6SAndroid Build Coastguard Worker            print("Using SPIN quantization.")
*523fa7a6SAndroid Build Coastguard Worker            self._transform_for_pre_quantization(checkpoint, model_args)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker            from .source_transformation.pre_quantization import (
*523fa7a6SAndroid Build Coastguard Worker                sanitize_checkpoint_from_pre_quantization,
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker            sanitize_checkpoint_from_pre_quantization(checkpoint)
*523fa7a6SAndroid Build Coastguard Worker        elif hasattr(self.args, "use_qat") and self.args.use_qat:
*523fa7a6SAndroid Build Coastguard Worker            print("Using QAT quantization.")
*523fa7a6SAndroid Build Coastguard Worker            self._transform_for_pre_quantization(checkpoint, model_args)
*523fa7a6SAndroid Build Coastguard Worker            if hasattr(self.args, "use_lora") and self.args.use_lora:
*523fa7a6SAndroid Build Coastguard Worker                assert model_args.lora_args["rank"] == self.args.use_lora
*523fa7a6SAndroid Build Coastguard Worker                from .source_transformation.lora import (
*523fa7a6SAndroid Build Coastguard Worker                    transform_linear_for_lora_after_quantization,
*523fa7a6SAndroid Build Coastguard Worker                )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker                self.model_ = transform_linear_for_lora_after_quantization(
*523fa7a6SAndroid Build Coastguard Worker                    self.model_,
*523fa7a6SAndroid Build Coastguard Worker                    checkpoint,
*523fa7a6SAndroid Build Coastguard Worker                    self.args.use_lora,
*523fa7a6SAndroid Build Coastguard Worker                )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker            from .source_transformation.pre_quantization import (
*523fa7a6SAndroid Build Coastguard Worker                sanitize_checkpoint_from_pre_quantization,
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker            sanitize_checkpoint_from_pre_quantization(checkpoint)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # assign=True: load params/buffers by assignment instead of performing an in-place copy.
*523fa7a6SAndroid Build Coastguard Worker        # Because we are using device="meta", tensors do not have memory associated with them
*523fa7a6SAndroid Build Coastguard Worker        # and an in-place copy is a no-op. Use assign=True in load_state_dict for this scenario.
*523fa7a6SAndroid Build Coastguard Worker        missing, unexpected = self.model_.load_state_dict(
*523fa7a6SAndroid Build Coastguard Worker            checkpoint,
*523fa7a6SAndroid Build Coastguard Worker            strict=False,
*523fa7a6SAndroid Build Coastguard Worker            assign=True,
*523fa7a6SAndroid Build Coastguard Worker        )  # self.model_ = Transformer(gptconf)
*523fa7a6SAndroid Build Coastguard Worker        if kwargs.get("verbose", False):
*523fa7a6SAndroid Build Coastguard Worker            print("============= missing keys ================")
*523fa7a6SAndroid Build Coastguard Worker            print(missing)
*523fa7a6SAndroid Build Coastguard Worker            print("============= /missing ================")
*523fa7a6SAndroid Build Coastguard Worker            print("============= unexpected keys ================")
*523fa7a6SAndroid Build Coastguard Worker            print(unexpected)
*523fa7a6SAndroid Build Coastguard Worker            print("============= /unexpected ================")
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # Prune the input layer if input_prune_map is provided
*523fa7a6SAndroid Build Coastguard Worker        if input_prune_map is not None:
*523fa7a6SAndroid Build Coastguard Worker            from .source_transformation.prune_vocab import prune_input_vocab
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker            self.model_ = prune_input_vocab(self.model_, input_prune_map)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # Prune the output layer if output_prune_map is provided
*523fa7a6SAndroid Build Coastguard Worker        if output_prune_map is not None:
*523fa7a6SAndroid Build Coastguard Worker            from .source_transformation.prune_vocab import prune_output_vocab
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker            self.model_ = prune_output_vocab(self.model_, output_prune_map)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def get_eager_model(self) -> torch.nn.Module:
*523fa7a6SAndroid Build Coastguard Worker        if self.dtype:
*523fa7a6SAndroid Build Coastguard Worker            # convert to the type of the provided checkpoint
*523fa7a6SAndroid Build Coastguard Worker            # input and output are torch.long, so signature unchanged
*523fa7a6SAndroid Build Coastguard Worker            return self.model_.to(self.dtype)
*523fa7a6SAndroid Build Coastguard Worker        else:
*523fa7a6SAndroid Build Coastguard Worker            # int8 quantization code has some bf16,
*523fa7a6SAndroid Build Coastguard Worker            # switch all to FP32
*523fa7a6SAndroid Build Coastguard Worker            return self.model_.to(torch.float32)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def get_example_inputs(self):
*523fa7a6SAndroid Build Coastguard Worker        if self.use_kv_cache:
*523fa7a6SAndroid Build Coastguard Worker            return self.get_example_inputs_kvcache_sdpa()
*523fa7a6SAndroid Build Coastguard Worker        else:
*523fa7a6SAndroid Build Coastguard Worker            return (
*523fa7a6SAndroid Build Coastguard Worker                torch.tensor(
*523fa7a6SAndroid Build Coastguard Worker                    [[1, 2, 3]], dtype=torch.long
*523fa7a6SAndroid Build Coastguard Worker                ),  # tokens, with kv cache our input token length is always just 1 token.
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    # assumption is the custom op doesnt support dynamic shape right now. It might but its untested so lets first get static shape working
*523fa7a6SAndroid Build Coastguard Worker    def get_example_inputs_kvcache_sdpa(self):
*523fa7a6SAndroid Build Coastguard Worker        if self.enable_dynamic_shape:
*523fa7a6SAndroid Build Coastguard Worker            return (
*523fa7a6SAndroid Build Coastguard Worker                torch.tensor([[2, 3, 4]], dtype=torch.long),
*523fa7a6SAndroid Build Coastguard Worker                torch.tensor([0], dtype=torch.long),
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker        else:
*523fa7a6SAndroid Build Coastguard Worker            return (
*523fa7a6SAndroid Build Coastguard Worker                torch.tensor(
*523fa7a6SAndroid Build Coastguard Worker                    [[1]], dtype=torch.long
*523fa7a6SAndroid Build Coastguard Worker                ),  # tokens, with kv cache our input token length is always just 1 token.
*523fa7a6SAndroid Build Coastguard Worker                torch.tensor(
*523fa7a6SAndroid Build Coastguard Worker                    [0], dtype=torch.long
*523fa7a6SAndroid Build Coastguard Worker                ),  # start_pos, what token of output are we on.
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def _transform_for_pre_quantization(self, checkpoint, model_args):
*523fa7a6SAndroid Build Coastguard Worker        assert hasattr(self.args, "preq_mode"), "preq_mode must be specified"
*523fa7a6SAndroid Build Coastguard Worker        assert self.args.preq_mode in [
*523fa7a6SAndroid Build Coastguard Worker            "8da4w",
*523fa7a6SAndroid Build Coastguard Worker            "8da4w_output_8da8w",
*523fa7a6SAndroid Build Coastguard Worker        ], f"Quantization mode {self.args.preq_mode} is not compatible with SpinQuant."
*523fa7a6SAndroid Build Coastguard Worker        assert hasattr(
*523fa7a6SAndroid Build Coastguard Worker            self.args, "preq_group_size"
*523fa7a6SAndroid Build Coastguard Worker        ), "preq_group_size must be specified"
*523fa7a6SAndroid Build Coastguard Worker        assert hasattr(self.args, "dtype_override"), "dtype_override must be specified"
*523fa7a6SAndroid Build Coastguard Worker        from .source_transformation.pre_quantization import (
*523fa7a6SAndroid Build Coastguard Worker            transform_linear_for_pre_quantization,
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        assert self.args.preq_group_size == model_args.quantization_args["group_size"]
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        mapping = {
*523fa7a6SAndroid Build Coastguard Worker            "fp32": torch.float32,
*523fa7a6SAndroid Build Coastguard Worker            "fp16": torch.float16,
*523fa7a6SAndroid Build Coastguard Worker            "bf16": torch.bfloat16,
*523fa7a6SAndroid Build Coastguard Worker        }
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # Transform the output layer first if needed.
*523fa7a6SAndroid Build Coastguard Worker        if self.args.preq_mode == "8da4w_output_8da8w":
*523fa7a6SAndroid Build Coastguard Worker            from .source_transformation.pre_quantization import (
*523fa7a6SAndroid Build Coastguard Worker                transform_output_linear_for_pre_quantization,
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker            self.model_ = transform_output_linear_for_pre_quantization(
*523fa7a6SAndroid Build Coastguard Worker                module=self.model_,
*523fa7a6SAndroid Build Coastguard Worker                checkpoint=checkpoint,
*523fa7a6SAndroid Build Coastguard Worker                dtype=mapping[self.args.dtype_override],
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        self.model_ = transform_linear_for_pre_quantization(
*523fa7a6SAndroid Build Coastguard Worker            self.model_,
*523fa7a6SAndroid Build Coastguard Worker            checkpoint,
*523fa7a6SAndroid Build Coastguard Worker            self.args.preq_group_size,
*523fa7a6SAndroid Build Coastguard Worker            mapping[self.args.dtype_override],
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        embedding_bit_width, embedding_group_size = None, None
*523fa7a6SAndroid Build Coastguard Worker        if hasattr(self.args, "preq_embedding_quantize"):
*523fa7a6SAndroid Build Coastguard Worker            embedding_bit_width, embedding_group_size = (
*523fa7a6SAndroid Build Coastguard Worker                self.args.preq_embedding_quantize.split(",")
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker            from .source_transformation.pre_quantization import (
*523fa7a6SAndroid Build Coastguard Worker                transform_embedding_for_pre_quantization,
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker            if (
*523fa7a6SAndroid Build Coastguard Worker                embedding_group_size == "none"
*523fa7a6SAndroid Build Coastguard Worker                or embedding_group_size == "None"
*523fa7a6SAndroid Build Coastguard Worker                or embedding_group_size == "0"
*523fa7a6SAndroid Build Coastguard Worker            ):
*523fa7a6SAndroid Build Coastguard Worker                embedding_group_size = None
*523fa7a6SAndroid Build Coastguard Worker            else:
*523fa7a6SAndroid Build Coastguard Worker                embedding_group_size = int(embedding_group_size)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker            self.model_ = transform_embedding_for_pre_quantization(
*523fa7a6SAndroid Build Coastguard Worker                self.model_,
*523fa7a6SAndroid Build Coastguard Worker                checkpoint,
*523fa7a6SAndroid Build Coastguard Worker                mapping[self.args.dtype_override],
*523fa7a6SAndroid Build Coastguard Worker                int(embedding_bit_width),
*523fa7a6SAndroid Build Coastguard Worker                embedding_group_size,
*523fa7a6SAndroid Build Coastguard Worker            )