exir/tests/transformer.py

*523fa7a6SAndroid Build Coastguard Worker# Copyright (c) Meta Platforms, Inc. and affiliates.
*523fa7a6SAndroid Build Coastguard Worker# All rights reserved.
*523fa7a6SAndroid Build Coastguard Worker#
*523fa7a6SAndroid Build Coastguard Worker# This source code is licensed under the BSD-style license found in the
*523fa7a6SAndroid Build Coastguard Worker# LICENSE file in the root directory of this source tree.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerimport math
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerimport torch
*523fa7a6SAndroid Build Coastguard Workerimport torch.nn.functional as F
*523fa7a6SAndroid Build Coastguard Workerfrom torch import nn
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Workerclass EncoderLayer(nn.Module):
*523fa7a6SAndroid Build Coastguard Worker    def __init__(self, embed_dim, num_heads=2):
*523fa7a6SAndroid Build Coastguard Worker        super().__init__()
*523fa7a6SAndroid Build Coastguard Worker        self.embed_dim = embed_dim
*523fa7a6SAndroid Build Coastguard Worker        self.kdim = self.embed_dim
*523fa7a6SAndroid Build Coastguard Worker        self.vdim = self.embed_dim
*523fa7a6SAndroid Build Coastguard Worker        self.k_proj = nn.Linear(self.kdim, embed_dim)
*523fa7a6SAndroid Build Coastguard Worker        self.v_proj = nn.Linear(self.vdim, embed_dim)
*523fa7a6SAndroid Build Coastguard Worker        self.q_proj = nn.Linear(embed_dim, embed_dim)
*523fa7a6SAndroid Build Coastguard Worker        self.out_proj = nn.Linear(embed_dim, embed_dim)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        self.num_heads = num_heads
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        self.self_attn_layer_norm = nn.LayerNorm(self.embed_dim)
*523fa7a6SAndroid Build Coastguard Worker        self.final_layer_norm = nn.LayerNorm(self.embed_dim)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        ffn_embed_dim = (
*523fa7a6SAndroid Build Coastguard Worker            2 * embed_dim
*523fa7a6SAndroid Build Coastguard Worker        )  # for simplicity we just hardcode ffn_embed_dim to be 2x of embed_dim
*523fa7a6SAndroid Build Coastguard Worker        self.fc1 = nn.Linear(embed_dim, ffn_embed_dim)
*523fa7a6SAndroid Build Coastguard Worker        self.fc2 = nn.Linear(ffn_embed_dim, embed_dim)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def forward(self, x):
*523fa7a6SAndroid Build Coastguard Worker        residual = x
*523fa7a6SAndroid Build Coastguard Worker        query = key = value = x
*523fa7a6SAndroid Build Coastguard Worker        x, _ = F.multi_head_attention_forward(
*523fa7a6SAndroid Build Coastguard Worker            query,
*523fa7a6SAndroid Build Coastguard Worker            key,
*523fa7a6SAndroid Build Coastguard Worker            value,
*523fa7a6SAndroid Build Coastguard Worker            self.embed_dim,
*523fa7a6SAndroid Build Coastguard Worker            self.num_heads,
*523fa7a6SAndroid Build Coastguard Worker            q_proj_weight=self.q_proj.weight,
*523fa7a6SAndroid Build Coastguard Worker            k_proj_weight=self.k_proj.weight,
*523fa7a6SAndroid Build Coastguard Worker            v_proj_weight=self.v_proj.weight,
*523fa7a6SAndroid Build Coastguard Worker            out_proj_weight=self.out_proj.weight,
*523fa7a6SAndroid Build Coastguard Worker            out_proj_bias=self.out_proj.bias,
*523fa7a6SAndroid Build Coastguard Worker            add_zero_attn=False,
*523fa7a6SAndroid Build Coastguard Worker            dropout_p=0.0,
*523fa7a6SAndroid Build Coastguard Worker            use_separate_proj_weight=True,
*523fa7a6SAndroid Build Coastguard Worker            in_proj_weight=None,
*523fa7a6SAndroid Build Coastguard Worker            in_proj_bias=None,
*523fa7a6SAndroid Build Coastguard Worker            # is non None value really needed for bias_k, bias_v?
*523fa7a6SAndroid Build Coastguard Worker            bias_k=None,
*523fa7a6SAndroid Build Coastguard Worker            bias_v=None,
*523fa7a6SAndroid Build Coastguard Worker        )
*523fa7a6SAndroid Build Coastguard Worker        x = residual + x
*523fa7a6SAndroid Build Coastguard Worker        x = self.self_attn_layer_norm(x)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        residual = x
*523fa7a6SAndroid Build Coastguard Worker        x = F.relu(self.fc1(x))
*523fa7a6SAndroid Build Coastguard Worker        x = self.fc2(x)
*523fa7a6SAndroid Build Coastguard Worker        x = residual + x
*523fa7a6SAndroid Build Coastguard Worker        x = self.final_layer_norm(x)
*523fa7a6SAndroid Build Coastguard Worker        return x
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker@torch.no_grad()
*523fa7a6SAndroid Build Coastguard Workerclass Transformer(nn.Module):
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker    A simplified implementation of mt_model that does not have all those heavy
*523fa7a6SAndroid Build Coastguard Worker    dependencies but still be similar enough to the original model.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    Suitable to be put in exir end2end tests. E.g., we can use it to ease the
*523fa7a6SAndroid Build Coastguard Worker    testing of memory planning for dynamic shapes on REAL models.
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    Some of the simplifications recorded here:
*523fa7a6SAndroid Build Coastguard Worker    1. the original model will reset the embedding to a 0 vector for padding token.
*523fa7a6SAndroid Build Coastguard Worker       We skip that.
*523fa7a6SAndroid Build Coastguard Worker    2. skip various configurations in the original model. E.g., original model
*523fa7a6SAndroid Build Coastguard Worker       has a config cfg.no_scale_embedding to control if the token embedding
*523fa7a6SAndroid Build Coastguard Worker       should be scaled or not. We just always scale the embedding.
*523fa7a6SAndroid Build Coastguard Worker    """
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def __init__(self, inp_vocab_size=10, model_dim=32, num_encoder_layers=2):
*523fa7a6SAndroid Build Coastguard Worker        super().__init__()
*523fa7a6SAndroid Build Coastguard Worker        self.inp_vocab_size = inp_vocab_size
*523fa7a6SAndroid Build Coastguard Worker        self.model_dim = 32
*523fa7a6SAndroid Build Coastguard Worker        self.token_embed_table = nn.Embedding(self.inp_vocab_size, self.model_dim)
*523fa7a6SAndroid Build Coastguard Worker        self.embed_scale = math.sqrt(self.model_dim)
*523fa7a6SAndroid Build Coastguard Worker        self.encoder_layers = [
*523fa7a6SAndroid Build Coastguard Worker            EncoderLayer(embed_dim=self.model_dim) for _ in range(num_encoder_layers)
*523fa7a6SAndroid Build Coastguard Worker        ]
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def encode(self, src_tokens):
*523fa7a6SAndroid Build Coastguard Worker        # embed = self.token_embed_table(src_tokens) * self.embed_scale # fail in runtime because of lacking broadcasting
*523fa7a6SAndroid Build Coastguard Worker        embed = self.token_embed_table(src_tokens)
*523fa7a6SAndroid Build Coastguard Worker        # TODO: add the support for positional embedding
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        # BxTxC -> TxBxC
*523fa7a6SAndroid Build Coastguard Worker        x = embed.transpose(0, 1)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        for layer in self.encoder_layers:
*523fa7a6SAndroid Build Coastguard Worker            x = layer(x)
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker        return x
*523fa7a6SAndroid Build Coastguard Worker
*523fa7a6SAndroid Build Coastguard Worker    def get_random_inputs(self, method):
*523fa7a6SAndroid Build Coastguard Worker        if method == "encode":
*523fa7a6SAndroid Build Coastguard Worker            seqlen = 10  # TODO: make the sequence length dynamic
*523fa7a6SAndroid Build Coastguard Worker            return torch.randint(
*523fa7a6SAndroid Build Coastguard Worker                low=0,
*523fa7a6SAndroid Build Coastguard Worker                high=self.inp_vocab_size,
*523fa7a6SAndroid Build Coastguard Worker                size=(
*523fa7a6SAndroid Build Coastguard Worker                    1,
*523fa7a6SAndroid Build Coastguard Worker                    seqlen,
*523fa7a6SAndroid Build Coastguard Worker                ),
*523fa7a6SAndroid Build Coastguard Worker            )
*523fa7a6SAndroid Build Coastguard Worker        else:
*523fa7a6SAndroid Build Coastguard Worker            raise AssertionError(f"method {method} is not supported yet")