dnn/training_tf2/diffembed.py

*a58d3d2aSXin Li"""
*a58d3d2aSXin LiModification of Tensorflow's Embedding Layer:
*a58d3d2aSXin Li    1. Not restricted to be the first layer of a model
*a58d3d2aSXin Li    2. Differentiable (allows non-integer lookups)
*a58d3d2aSXin Li        - For non integer lookup, this layer linearly interpolates between the adjacent embeddings in the following way to preserver gradient flow
*a58d3d2aSXin Li            - E = (1 - frac(x))*embed(floor(x)) + frac(x)*embed(ceil(x))
*a58d3d2aSXin Li"""
*a58d3d2aSXin Li
*a58d3d2aSXin Liimport tensorflow as tf
*a58d3d2aSXin Lifrom tensorflow.keras.layers import Layer
*a58d3d2aSXin Li
*a58d3d2aSXin Liclass diff_Embed(Layer):
*a58d3d2aSXin Li    """
*a58d3d2aSXin Li    Parameters:
*a58d3d2aSXin Li        - units: int
*a58d3d2aSXin Li            Dimension of the Embedding
*a58d3d2aSXin Li        - dict_size: int
*a58d3d2aSXin Li            Number of Embeddings to lookup
*a58d3d2aSXin Li        - pcm_init: boolean
*a58d3d2aSXin Li            Initialized for the embedding matrix
*a58d3d2aSXin Li    """
*a58d3d2aSXin Li    def __init__(self, units=128, dict_size = 256, pcm_init = True, initializer = None, **kwargs):
*a58d3d2aSXin Li        super(diff_Embed, self).__init__(**kwargs)
*a58d3d2aSXin Li        self.units = units
*a58d3d2aSXin Li        self.dict_size = dict_size
*a58d3d2aSXin Li        self.pcm_init = pcm_init
*a58d3d2aSXin Li        self.initializer = initializer
*a58d3d2aSXin Li
*a58d3d2aSXin Li    def build(self, input_shape):
*a58d3d2aSXin Li        w_init = tf.random_normal_initializer()
*a58d3d2aSXin Li        if self.pcm_init:
*a58d3d2aSXin Li            w_init = self.initializer
*a58d3d2aSXin Li        self.w = tf.Variable(initial_value=w_init(shape=(self.dict_size, self.units),dtype='float32'),trainable=True)
*a58d3d2aSXin Li
*a58d3d2aSXin Li    def call(self, inputs):
*a58d3d2aSXin Li        alpha = inputs - tf.math.floor(inputs)
*a58d3d2aSXin Li        alpha = tf.expand_dims(alpha,axis = -1)
*a58d3d2aSXin Li        alpha = tf.tile(alpha,[1,1,1,self.units])
*a58d3d2aSXin Li        inputs = tf.cast(inputs,'int32')
*a58d3d2aSXin Li        M = (1 - alpha)*tf.gather(self.w,inputs) + alpha*tf.gather(self.w,tf.clip_by_value(inputs + 1, 0, 255))
*a58d3d2aSXin Li        return M
*a58d3d2aSXin Li
*a58d3d2aSXin Li    def get_config(self):
*a58d3d2aSXin Li        config = super(diff_Embed, self).get_config()
*a58d3d2aSXin Li        config.update({"units": self.units})
*a58d3d2aSXin Li        config.update({"dict_size" : self.dict_size})
*a58d3d2aSXin Li        config.update({"pcm_init" : self.pcm_init})
*a58d3d2aSXin Li        config.update({"initializer" : self.initializer})
*a58d3d2aSXin Li        return config