torch/autograd/graph.py

*da0073e9SAndroid Build Coastguard Worker# mypy: allow-untyped-defs
*da0073e9SAndroid Build Coastguard Workerimport abc
*da0073e9SAndroid Build Coastguard Workerimport collections
*da0073e9SAndroid Build Coastguard Workerimport contextlib
*da0073e9SAndroid Build Coastguard Workerimport functools
*da0073e9SAndroid Build Coastguard Workerimport logging
*da0073e9SAndroid Build Coastguard Workerimport threading
*da0073e9SAndroid Build Coastguard Workerimport weakref
*da0073e9SAndroid Build Coastguard Workerfrom collections import defaultdict, namedtuple
*da0073e9SAndroid Build Coastguard Workerfrom typing import (
*da0073e9SAndroid Build Coastguard Worker    Any,
*da0073e9SAndroid Build Coastguard Worker    Callable,
*da0073e9SAndroid Build Coastguard Worker    cast,
*da0073e9SAndroid Build Coastguard Worker    Deque,
*da0073e9SAndroid Build Coastguard Worker    Dict,
*da0073e9SAndroid Build Coastguard Worker    List,
*da0073e9SAndroid Build Coastguard Worker    Optional,
*da0073e9SAndroid Build Coastguard Worker    Sequence,
*da0073e9SAndroid Build Coastguard Worker    Set,
*da0073e9SAndroid Build Coastguard Worker    Tuple,
*da0073e9SAndroid Build Coastguard Worker    Union,
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport torch
*da0073e9SAndroid Build Coastguard Workerfrom torch.autograd.variable import Variable
*da0073e9SAndroid Build Coastguard Workerfrom torch.utils._python_dispatch import TorchDispatchMode
*da0073e9SAndroid Build Coastguard Workerfrom torch.utils.hooks import RemovableHandle
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerlog = logging.getLogger(__name__)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker__all__ = [
*da0073e9SAndroid Build Coastguard Worker    "saved_tensors_hooks",
*da0073e9SAndroid Build Coastguard Worker    "save_on_cpu",
*da0073e9SAndroid Build Coastguard Worker    "disable_saved_tensors_hooks",
*da0073e9SAndroid Build Coastguard Worker    "register_multi_grad_hook",
*da0073e9SAndroid Build Coastguard Worker    "allow_mutation_on_saved_tensors",
*da0073e9SAndroid Build Coastguard Worker    "Node",
*da0073e9SAndroid Build Coastguard Worker    "GradientEdge",
*da0073e9SAndroid Build Coastguard Worker    "get_gradient_edge",
*da0073e9SAndroid Build Coastguard Worker    "increment_version",
*da0073e9SAndroid Build Coastguard Worker]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass Node(abc.ABC):
*da0073e9SAndroid Build Coastguard Worker    @abc.abstractmethod
*da0073e9SAndroid Build Coastguard Worker    def name(self) -> str:
*da0073e9SAndroid Build Coastguard Worker        r"""Return the name.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Example::
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            >>> import torch
*da0073e9SAndroid Build Coastguard Worker            >>> a = torch.tensor([0., 0., 0.], requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker            >>> b = a.clone()
*da0073e9SAndroid Build Coastguard Worker            >>> assert isinstance(b.grad_fn, torch.autograd.graph.Node)
*da0073e9SAndroid Build Coastguard Worker            >>> print(b.grad_fn.name())
*da0073e9SAndroid Build Coastguard Worker            CloneBackward0
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        ...
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @property
*da0073e9SAndroid Build Coastguard Worker    @abc.abstractmethod
*da0073e9SAndroid Build Coastguard Worker    def next_functions(self) -> Tuple[Tuple[Optional["Node"], int], ...]:
*da0073e9SAndroid Build Coastguard Worker        ...
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @abc.abstractmethod
*da0073e9SAndroid Build Coastguard Worker    def metadata(self) -> dict:
*da0073e9SAndroid Build Coastguard Worker        r"""Return the metadata."""
*da0073e9SAndroid Build Coastguard Worker        ...
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @abc.abstractmethod
*da0073e9SAndroid Build Coastguard Worker    def _register_hook_dict(self, tensor: torch.Tensor) -> None:
*da0073e9SAndroid Build Coastguard Worker        ...
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @abc.abstractmethod
*da0073e9SAndroid Build Coastguard Worker    def register_hook(self, fn: Callable[..., Any]) -> RemovableHandle:
*da0073e9SAndroid Build Coastguard Worker        r"""Register a backward hook.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        The hook will be called every time a gradient with respect to the
*da0073e9SAndroid Build Coastguard Worker        Node is computed. The hook should have the following signature::
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            hook(grad_inputs: Tuple[Tensor], grad_outputs: Tuple[Tensor]) -> Tuple[Tensor] or None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        The hook should not modify its argument, but it can optionally return
*da0073e9SAndroid Build Coastguard Worker        a new gradient which will be used in place of :attr:`grad_inputs`.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        This function returns a handle with a method ``handle.remove()``
*da0073e9SAndroid Build Coastguard Worker        that removes the hook from the module.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        .. note::
*da0073e9SAndroid Build Coastguard Worker            See :ref:`backward-hooks-execution` for more information on how when this hook
*da0073e9SAndroid Build Coastguard Worker            is executed, and how its execution is ordered relative to other hooks.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Example::
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            >>> import torch
*da0073e9SAndroid Build Coastguard Worker            >>> a = torch.tensor([0., 0., 0.], requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker            >>> b = a.clone()
*da0073e9SAndroid Build Coastguard Worker            >>> assert isinstance(b.grad_fn, torch.autograd.graph.Node)
*da0073e9SAndroid Build Coastguard Worker            >>> handle = b.grad_fn.register_hook(lambda gI, gO: (gO[0] * 2,))
*da0073e9SAndroid Build Coastguard Worker            >>> b.sum().backward(retain_graph=True)
*da0073e9SAndroid Build Coastguard Worker            >>> print(a.grad)
*da0073e9SAndroid Build Coastguard Worker            tensor([2., 2., 2.])
*da0073e9SAndroid Build Coastguard Worker            >>> handle.remove() # Removes the hook
*da0073e9SAndroid Build Coastguard Worker            >>> a.grad = None
*da0073e9SAndroid Build Coastguard Worker            >>> b.sum().backward(retain_graph=True)
*da0073e9SAndroid Build Coastguard Worker            >>> print(a.grad)
*da0073e9SAndroid Build Coastguard Worker            tensor([1., 1., 1.])
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        ...
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @abc.abstractmethod
*da0073e9SAndroid Build Coastguard Worker    def register_prehook(self, fn: Callable[..., Any]) -> RemovableHandle:
*da0073e9SAndroid Build Coastguard Worker        r"""Register a backward pre-hook.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        The hook will be called every time a gradient with respect to the
*da0073e9SAndroid Build Coastguard Worker        Node is computed. The hook should have the following signature::
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            hook(grad_outputs: Tuple[Tensor]) -> Tuple[Tensor] or None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        The hook should not modify its argument, but it can optionally return
*da0073e9SAndroid Build Coastguard Worker        a new gradient which will be used in place of :attr:`grad_outputs`.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        This function returns a handle with a method ``handle.remove()``
*da0073e9SAndroid Build Coastguard Worker        that removes the hook from the module.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        .. note::
*da0073e9SAndroid Build Coastguard Worker            See :ref:`backward-hooks-execution` for more information on how when this hook
*da0073e9SAndroid Build Coastguard Worker            is executed, and how its execution is ordered relative to other hooks.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        Example::
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            >>> a = torch.tensor([0., 0., 0.], requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker            >>> b = a.clone()
*da0073e9SAndroid Build Coastguard Worker            >>> assert isinstance(b.grad_fn, torch.autograd.graph.Node)
*da0073e9SAndroid Build Coastguard Worker            >>> handle = b.grad_fn.register_prehook(lambda gI: (gI[0] * 2,))
*da0073e9SAndroid Build Coastguard Worker            >>> b.sum().backward(retain_graph=True)
*da0073e9SAndroid Build Coastguard Worker            >>> print(a.grad)
*da0073e9SAndroid Build Coastguard Worker            tensor([2., 2., 2.])
*da0073e9SAndroid Build Coastguard Worker            >>> handle.remove()
*da0073e9SAndroid Build Coastguard Worker            >>> a.grad = None
*da0073e9SAndroid Build Coastguard Worker            >>> b.sum().backward(retain_graph=True)
*da0073e9SAndroid Build Coastguard Worker            >>> print(a.grad)
*da0073e9SAndroid Build Coastguard Worker            tensor([1., 1., 1.])
*da0073e9SAndroid Build Coastguard Worker        """
*da0073e9SAndroid Build Coastguard Worker        ...
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    @classmethod
*da0073e9SAndroid Build Coastguard Worker    def __subclasshook__(cls, C):
*da0073e9SAndroid Build Coastguard Worker        if cls is Node:
*da0073e9SAndroid Build Coastguard Worker            if (
*da0073e9SAndroid Build Coastguard Worker                C is not None and C is getattr(torch._C._functions, C.__name__, None)
*da0073e9SAndroid Build Coastguard Worker            ) or issubclass(C, torch.autograd.function.BackwardCFunction):
*da0073e9SAndroid Build Coastguard Worker                return True
*da0073e9SAndroid Build Coastguard Worker        return NotImplemented
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _get_grad_fn_or_grad_acc(t):
*da0073e9SAndroid Build Coastguard Worker    if t.requires_grad and t.grad_fn is None:
*da0073e9SAndroid Build Coastguard Worker        with torch.enable_grad():
*da0073e9SAndroid Build Coastguard Worker            return t.view_as(t).grad_fn.next_functions[0][0]
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        return t.grad_fn
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerGradientEdge = namedtuple("GradientEdge", ("node output_nr"))
*da0073e9SAndroid Build Coastguard WorkerGradientEdge.__doc__ = """\
*da0073e9SAndroid Build Coastguard WorkerObject representing a given gradient edge within the autograd graph.
*da0073e9SAndroid Build Coastguard WorkerTo get the gradient edge where a given Tensor gradient will be computed,
*da0073e9SAndroid Build Coastguard Workeryou can do ``edge = autograd.graph.get_gradient_edge(tensor)``.
*da0073e9SAndroid Build Coastguard Worker"""
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef get_gradient_edge(tensor):
*da0073e9SAndroid Build Coastguard Worker    """Get the gradient edge for computing the gradient of the given Tensor.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    In particular, it is equivalent to call
*da0073e9SAndroid Build Coastguard Worker    ``g = autograd.grad(loss, input)`` and ``g = autograd.grad(loss, get_gradient_edge(input))``.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    if not tensor.requires_grad:
*da0073e9SAndroid Build Coastguard Worker        raise RuntimeError(
*da0073e9SAndroid Build Coastguard Worker            "It is not possible to get the gradient edge for a Tensor that does not require gradients"
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker    grad_fn = _get_grad_fn_or_grad_acc(tensor)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # Note that output_nr default to 0 which is the right value
*da0073e9SAndroid Build Coastguard Worker    # for the AccumulateGrad node.
*da0073e9SAndroid Build Coastguard Worker    return GradientEdge(grad_fn, tensor.output_nr)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef increment_version(tensor):
*da0073e9SAndroid Build Coastguard Worker    """Update autograd metadata tracking whether the given Tensor was modified in place.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    This is to enable more accurate error checking within the autograd engine.
*da0073e9SAndroid Build Coastguard Worker    It is already done automatically by PyTorch functions and within custom Function
*da0073e9SAndroid Build Coastguard Worker    when mark_dirty() is called appropriately so you only need to call this explicitly
*da0073e9SAndroid Build Coastguard Worker    if you are doing inplace operation on the Tensor data in a way that Pytorch doesn't
*da0073e9SAndroid Build Coastguard Worker    know about. For example a custom kernel that reads the Tensor data_ptr and modifies
*da0073e9SAndroid Build Coastguard Worker    the memory inplace based on this pointer.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Note that incrementing the version counter multiple times for a single inplace operation
*da0073e9SAndroid Build Coastguard Worker    is not problematic.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    torch._C._increment_version(tensor)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass saved_tensors_hooks:
*da0073e9SAndroid Build Coastguard Worker    """Context-manager that sets a pair of pack / unpack hooks for saved tensors.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Use this context-manager to define how intermediary results of an operation
*da0073e9SAndroid Build Coastguard Worker    should be packed before saving, and unpacked on retrieval.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    In that context, the ``pack_hook`` function will be called everytime an
*da0073e9SAndroid Build Coastguard Worker    operation saves a tensor for backward (this includes intermediary results
*da0073e9SAndroid Build Coastguard Worker    saved using
*da0073e9SAndroid Build Coastguard Worker    :func:`~torch.autograd.function._ContextMethodMixin.save_for_backward` but
*da0073e9SAndroid Build Coastguard Worker    also those recorded by a PyTorch-defined operation). The output of
*da0073e9SAndroid Build Coastguard Worker    ``pack_hook`` is then stored in the computation graph instead of the
*da0073e9SAndroid Build Coastguard Worker    original tensor.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    The ``unpack_hook`` is called when the saved tensor needs to be accessed,
*da0073e9SAndroid Build Coastguard Worker    namely when executing :func:`torch.Tensor.backward()` or
*da0073e9SAndroid Build Coastguard Worker    :func:`torch.autograd.grad()`. It takes as argument the *packed* object
*da0073e9SAndroid Build Coastguard Worker    returned by ``pack_hook`` and should return a tensor which has the same
*da0073e9SAndroid Build Coastguard Worker    content as the original tensor (passed as input to the corresponding
*da0073e9SAndroid Build Coastguard Worker    ``pack_hook``).
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    The hooks should have the following signatures:
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        pack_hook(tensor: Tensor) -> Any
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        unpack_hook(Any) -> Tensor
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    where the return value of ``pack_hook`` is a valid input to ``unpack_hook``.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    In general, you want ``unpack_hook(pack_hook(t))`` to be equal to ``t`` in terms
*da0073e9SAndroid Build Coastguard Worker    of value, size, dtype and device.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Example::
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        >>> # xdoctest: +REQUIRES(env:TORCH_DOCTEST_AUTOGRAD)
*da0073e9SAndroid Build Coastguard Worker        >>> def pack_hook(x):
*da0073e9SAndroid Build Coastguard Worker        ...     print("Packing", x)
*da0073e9SAndroid Build Coastguard Worker        ...     return x
*da0073e9SAndroid Build Coastguard Worker        >>>
*da0073e9SAndroid Build Coastguard Worker        >>> def unpack_hook(x):
*da0073e9SAndroid Build Coastguard Worker        ...     print("Unpacking", x)
*da0073e9SAndroid Build Coastguard Worker        ...     return x
*da0073e9SAndroid Build Coastguard Worker        >>>
*da0073e9SAndroid Build Coastguard Worker        >>> a = torch.ones(5, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        >>> b = torch.ones(5, requires_grad=True) * 2
*da0073e9SAndroid Build Coastguard Worker        >>> with torch.autograd.graph.saved_tensors_hooks(pack_hook, unpack_hook):
*da0073e9SAndroid Build Coastguard Worker        ...     y = a * b
*da0073e9SAndroid Build Coastguard Worker        Packing tensor([1., 1., 1., 1., 1.], requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        Packing tensor([2., 2., 2., 2., 2.], grad_fn=<MulBackward0>)
*da0073e9SAndroid Build Coastguard Worker        >>> y.sum().backward()
*da0073e9SAndroid Build Coastguard Worker        Unpacking tensor([1., 1., 1., 1., 1.], requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        Unpacking tensor([2., 2., 2., 2., 2.], grad_fn=<MulBackward0>)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    .. warning ::
*da0073e9SAndroid Build Coastguard Worker        Performing an inplace operation on the input to either hooks may lead
*da0073e9SAndroid Build Coastguard Worker        to undefined behavior.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    .. warning ::
*da0073e9SAndroid Build Coastguard Worker        Only one pair of hooks is allowed at a time. When recursively nesting this
*da0073e9SAndroid Build Coastguard Worker        context-manager, only the inner-most pair of hooks will be applied.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __init__(
*da0073e9SAndroid Build Coastguard Worker        self,
*da0073e9SAndroid Build Coastguard Worker        pack_hook: Callable[[torch.Tensor], Any],
*da0073e9SAndroid Build Coastguard Worker        unpack_hook: Callable[[Any], torch.Tensor],
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        self.pack_hook = pack_hook
*da0073e9SAndroid Build Coastguard Worker        self.unpack_hook = unpack_hook
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __enter__(self):
*da0073e9SAndroid Build Coastguard Worker        torch._C._autograd._push_saved_tensors_default_hooks(
*da0073e9SAndroid Build Coastguard Worker            self.pack_hook, self.unpack_hook
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __exit__(self, *args: object):
*da0073e9SAndroid Build Coastguard Worker        torch._C._autograd._pop_saved_tensors_default_hooks()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass save_on_cpu(saved_tensors_hooks):
*da0073e9SAndroid Build Coastguard Worker    """Context manager under which tensors saved by the forward pass will be stored on cpu, then retrieved for backward.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    When performing operations within this context manager, intermediary
*da0073e9SAndroid Build Coastguard Worker    results saved in the graph during the forward pass will be moved to CPU,
*da0073e9SAndroid Build Coastguard Worker    then copied back to the original device when needed for the backward pass.
*da0073e9SAndroid Build Coastguard Worker    If the graph was already on CPU, no tensor copy is performed.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Use this context-manager to trade compute for GPU memory usage (e.g.
*da0073e9SAndroid Build Coastguard Worker    when your model doesn't fit in GPU memory during training).
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Args:
*da0073e9SAndroid Build Coastguard Worker        pin_memory (bool): If ``True`` tensors will be saved to CPU pinned memory
*da0073e9SAndroid Build Coastguard Worker                           during packing and copied to GPU asynchronously during unpacking.
*da0073e9SAndroid Build Coastguard Worker                           Defaults to ``False``.
*da0073e9SAndroid Build Coastguard Worker                           Also see :ref:`cuda-memory-pinning`.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Example::
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        >>> # xdoctest: +REQUIRES(env:TORCH_DOCTEST_CUDA)
*da0073e9SAndroid Build Coastguard Worker        >>> # xdoctest: +REQUIRES(env:TORCH_DOCTEST_AUTOGRAD)
*da0073e9SAndroid Build Coastguard Worker        >>> a = torch.randn(5, requires_grad=True, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        >>> b = torch.randn(5, requires_grad=True, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        >>> c = torch.randn(5, requires_grad=True, device="cuda")
*da0073e9SAndroid Build Coastguard Worker        >>>
*da0073e9SAndroid Build Coastguard Worker        >>> def f(a, b, c):
*da0073e9SAndroid Build Coastguard Worker        ...     prod_1 = a * b           # a and b are saved on GPU
*da0073e9SAndroid Build Coastguard Worker        ...     with torch.autograd.graph.save_on_cpu():
*da0073e9SAndroid Build Coastguard Worker        ...         prod_2 = prod_1 * c  # prod_1 and c are saved on CPU
*da0073e9SAndroid Build Coastguard Worker        ...     y = prod_2 * a           # prod_2 and a are saved on GPU
*da0073e9SAndroid Build Coastguard Worker        ...     return y
*da0073e9SAndroid Build Coastguard Worker        >>>
*da0073e9SAndroid Build Coastguard Worker        >>> y = f(a, b, c)
*da0073e9SAndroid Build Coastguard Worker        >>> del a, b, c  # for illustration only
*da0073e9SAndroid Build Coastguard Worker        >>> # the content of a, b, and prod_2 are still alive on GPU
*da0073e9SAndroid Build Coastguard Worker        >>> # the content of prod_1 and c only live on CPU
*da0073e9SAndroid Build Coastguard Worker        >>> y.sum().backward()  # all CPU tensors are moved back to GPU, for backward
*da0073e9SAndroid Build Coastguard Worker        >>> # all intermediary tensors are released (deleted) after the call to backward
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __init__(self, pin_memory=False, device_type="cuda"):
*da0073e9SAndroid Build Coastguard Worker        device_module = getattr(torch, device_type, torch.cuda)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def pack_to_cpu(tensor):
*da0073e9SAndroid Build Coastguard Worker            if not pin_memory:
*da0073e9SAndroid Build Coastguard Worker                return (tensor.device, tensor.cpu())
*da0073e9SAndroid Build Coastguard Worker            packed = torch.empty(
*da0073e9SAndroid Build Coastguard Worker                tensor.size(),
*da0073e9SAndroid Build Coastguard Worker                dtype=tensor.dtype,
*da0073e9SAndroid Build Coastguard Worker                layout=tensor.layout,
*da0073e9SAndroid Build Coastguard Worker                pin_memory=(device_module.is_available() and not tensor.is_sparse),
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            packed.copy_(tensor)
*da0073e9SAndroid Build Coastguard Worker            return (tensor.device, packed)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def unpack_from_cpu(packed):
*da0073e9SAndroid Build Coastguard Worker            device, tensor = packed
*da0073e9SAndroid Build Coastguard Worker            return tensor.to(device, non_blocking=pin_memory)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        super().__init__(pack_to_cpu, unpack_from_cpu)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@contextlib.contextmanager
*da0073e9SAndroid Build Coastguard Workerdef disable_saved_tensors_hooks(error_message):
*da0073e9SAndroid Build Coastguard Worker    """Context-manager that disables the saved tensors default hooks feature.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Useful for if you are creating a feature that does not work with saved
*da0073e9SAndroid Build Coastguard Worker    tensors default hooks.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Args:
*da0073e9SAndroid Build Coastguard Worker        error_message (str): When saved tensors default hooks are used when they
*da0073e9SAndroid Build Coastguard Worker                             have been are disabled, a RuntimeError with this
*da0073e9SAndroid Build Coastguard Worker                             error message gets raised.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Example::
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        >>> # xdoctest: +SKIP(failing)
*da0073e9SAndroid Build Coastguard Worker        >>> message = "saved tensors default hooks are disabled"
*da0073e9SAndroid Build Coastguard Worker        >>> with torch.autograd.graph.disable_saved_tensors_hooks(message):
*da0073e9SAndroid Build Coastguard Worker        ...     # Raises RuntimeError: saved tensors default hooks are disabled
*da0073e9SAndroid Build Coastguard Worker        ...     with torch.autograd.graph.save_on_cpu():
*da0073e9SAndroid Build Coastguard Worker        ...         pass
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    try:
*da0073e9SAndroid Build Coastguard Worker        maybe_prev_message = (
*da0073e9SAndroid Build Coastguard Worker            torch._C._autograd._saved_tensors_hooks_get_disabled_error_message()
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        torch._C._autograd._saved_tensors_hooks_disable(error_message)
*da0073e9SAndroid Build Coastguard Worker        yield
*da0073e9SAndroid Build Coastguard Worker    finally:
*da0073e9SAndroid Build Coastguard Worker        # See NOTE: [disabled_error_message invariant]
*da0073e9SAndroid Build Coastguard Worker        if maybe_prev_message is None:
*da0073e9SAndroid Build Coastguard Worker            torch._C._autograd._saved_tensors_hooks_enable()
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            torch._C._autograd._saved_tensors_hooks_disable(maybe_prev_message)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass _MultiHandle(RemovableHandle):
*da0073e9SAndroid Build Coastguard Worker    handles: Tuple[RemovableHandle, ...]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __init__(self, handles: Tuple[RemovableHandle, ...]):
*da0073e9SAndroid Build Coastguard Worker        self.handles = handles
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def remove(self):
*da0073e9SAndroid Build Coastguard Worker        for handle in self.handles:
*da0073e9SAndroid Build Coastguard Worker            handle.remove()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __getstate__(self):
*da0073e9SAndroid Build Coastguard Worker        return self.handles
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __setstate__(self, state):
*da0073e9SAndroid Build Coastguard Worker        self.handles = state
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef register_multi_grad_hook(
*da0073e9SAndroid Build Coastguard Worker    tensors: Sequence[torch.Tensor],
*da0073e9SAndroid Build Coastguard Worker    fn: Union[
*da0073e9SAndroid Build Coastguard Worker        Callable[[Sequence[Optional[torch.Tensor]]], None],
*da0073e9SAndroid Build Coastguard Worker        Callable[[torch.Tensor], None],
*da0073e9SAndroid Build Coastguard Worker    ],
*da0073e9SAndroid Build Coastguard Worker    *,
*da0073e9SAndroid Build Coastguard Worker    mode: str = "all",
*da0073e9SAndroid Build Coastguard Worker):
*da0073e9SAndroid Build Coastguard Worker    r"""Register a multi-grad backward hook.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    There are two supported modes: ``"all"`` and ``"any"``.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Under the ``"all"`` mode, the hook will be called after gradients with respect to every tensor in
*da0073e9SAndroid Build Coastguard Worker    :attr:`tensors` have been computed. If a tensor is in :attr:`tensors` but
*da0073e9SAndroid Build Coastguard Worker    is not part of the graph, or if a tensor is not needed to compute the gradients
*da0073e9SAndroid Build Coastguard Worker    for any ``inputs`` specified for the current ``.backward()`` or ``.grad()`` call,
*da0073e9SAndroid Build Coastguard Worker    this tensor will be ignored and the hook will not wait for its gradient to be
*da0073e9SAndroid Build Coastguard Worker    computed.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    After every non-ignored tensor's gradient has been computed, :attr:`fn` will be
*da0073e9SAndroid Build Coastguard Worker    called with those gradients. ``None`` will be passed for tensors that did not
*da0073e9SAndroid Build Coastguard Worker    have their gradients computed.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Under the ``"any"`` mode, the hook will be called after the first gradient
*da0073e9SAndroid Build Coastguard Worker    with respect to a tensor in :attr:`tensors` has been computed. The hook
*da0073e9SAndroid Build Coastguard Worker    will be called with that gradient as its argument.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    The hook should not modify its arguments.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    This function returns a handle with a method ``handle.remove()`` that removes the hook.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    .. note::
*da0073e9SAndroid Build Coastguard Worker        See :ref:`backward-hooks-execution` for more information on how when this hook
*da0073e9SAndroid Build Coastguard Worker        is executed, and how its execution is ordered relative to other hooks.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Example::
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        >>> import torch
*da0073e9SAndroid Build Coastguard Worker        >>>
*da0073e9SAndroid Build Coastguard Worker        >>> a = torch.rand(2, 3, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        >>> b = torch.rand(2, 3, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        >>> c = a * b
*da0073e9SAndroid Build Coastguard Worker        >>> d = a * b
*da0073e9SAndroid Build Coastguard Worker        >>>
*da0073e9SAndroid Build Coastguard Worker        >>> def fn(grads):
*da0073e9SAndroid Build Coastguard Worker        ...     print([g is not None for g in grads])
*da0073e9SAndroid Build Coastguard Worker        ...
*da0073e9SAndroid Build Coastguard Worker        >>> torch.autograd.graph.register_multi_grad_hook((a, b, c, d), fn)
*da0073e9SAndroid Build Coastguard Worker        >>>
*da0073e9SAndroid Build Coastguard Worker        >>> c.sum().backward(retain_graph=True)
*da0073e9SAndroid Build Coastguard Worker        [True, True, True, False]
*da0073e9SAndroid Build Coastguard Worker        >>> c.sum().backward(inputs=(a,), retain_graph=True)
*da0073e9SAndroid Build Coastguard Worker        [True, False, True, False]
*da0073e9SAndroid Build Coastguard Worker        >>>
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    supported_modes = ("all", "any")
*da0073e9SAndroid Build Coastguard Worker    if mode not in supported_modes:
*da0073e9SAndroid Build Coastguard Worker        raise ValueError(f"Expects mode to be one of {supported_modes} but got {mode}")
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if mode == "all":
*da0073e9SAndroid Build Coastguard Worker        count: Dict[int, int] = dict()
*da0073e9SAndroid Build Coastguard Worker        nb_calls = None
*da0073e9SAndroid Build Coastguard Worker        buffer: Dict[int, List[Optional[torch.Tensor]]] = dict()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        grad_fns = list(map(_get_grad_fn_or_grad_acc, tensors))
*da0073e9SAndroid Build Coastguard Worker        len_tensors = len(tensors)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def get_inner_hook(idx):
*da0073e9SAndroid Build Coastguard Worker            def inner_hook(grad: torch.Tensor):
*da0073e9SAndroid Build Coastguard Worker                nonlocal count, nb_calls, buffer, fn
*da0073e9SAndroid Build Coastguard Worker                id = torch._C._current_graph_task_id()
*da0073e9SAndroid Build Coastguard Worker                assert (
*da0073e9SAndroid Build Coastguard Worker                    id != -1
*da0073e9SAndroid Build Coastguard Worker                ), "expected this hook to be called inside a backward call"
*da0073e9SAndroid Build Coastguard Worker                count[id] = count.get(id, 0)
*da0073e9SAndroid Build Coastguard Worker                buffer[id] = buffer.get(id, [None] * len_tensors)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                if count[id] == 0:
*da0073e9SAndroid Build Coastguard Worker                    # On the first call, compute the actual nb_calls and buffer
*da0073e9SAndroid Build Coastguard Worker                    nb_calls = sum(torch._C._will_engine_execute_node(g) for g in grad_fns)  # type: ignore[attr-defined]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                buffer[id][idx] = grad
*da0073e9SAndroid Build Coastguard Worker                count[id] += 1
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker                if count[id] == nb_calls:
*da0073e9SAndroid Build Coastguard Worker                    fn = cast(Callable[[Sequence[Optional[torch.Tensor]]], None], fn)
*da0073e9SAndroid Build Coastguard Worker                    fn(buffer[id])
*da0073e9SAndroid Build Coastguard Worker                    del count[id]
*da0073e9SAndroid Build Coastguard Worker                    del buffer[id]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            return inner_hook
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        handles: Tuple[RemovableHandle] = tuple(
*da0073e9SAndroid Build Coastguard Worker            t.register_hook(get_inner_hook(i)) for i, t in enumerate(tensors)
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker    elif mode == "any":
*da0073e9SAndroid Build Coastguard Worker        fn = cast(Callable[[torch.Tensor], None], fn)
*da0073e9SAndroid Build Coastguard Worker        lock = threading.Lock()
*da0073e9SAndroid Build Coastguard Worker        ran_hook: Dict[int, bool] = defaultdict(bool)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        @functools.wraps(fn)
*da0073e9SAndroid Build Coastguard Worker        def wrapped_fn(grad: torch.Tensor):
*da0073e9SAndroid Build Coastguard Worker            nonlocal ran_hook
*da0073e9SAndroid Build Coastguard Worker            id = torch._C._current_graph_task_id()
*da0073e9SAndroid Build Coastguard Worker            assert id != -1, "expected this hook to be called inside a backward call"
*da0073e9SAndroid Build Coastguard Worker            with lock:
*da0073e9SAndroid Build Coastguard Worker                prev, ran_hook[id] = ran_hook[id], True
*da0073e9SAndroid Build Coastguard Worker            if prev:
*da0073e9SAndroid Build Coastguard Worker                return
*da0073e9SAndroid Build Coastguard Worker            fn(grad)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        handles = tuple(
*da0073e9SAndroid Build Coastguard Worker            tensor.register_hook(wrapped_fn)
*da0073e9SAndroid Build Coastguard Worker            for tensor in tensors
*da0073e9SAndroid Build Coastguard Worker            if tensor.requires_grad
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return _MultiHandle(handles)  # type: ignore[possibly-undefined]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker# NOTE [Allow mutation on tensors saved for backward]
*da0073e9SAndroid Build Coastguard Worker#
*da0073e9SAndroid Build Coastguard Worker# 1. Tensor gets saved for backward
*da0073e9SAndroid Build Coastguard Worker#    - remember the python object id and the version of the tensor
*da0073e9SAndroid Build Coastguard Worker#    - remember aliasing information (data_ptr of base + version)
*da0073e9SAndroid Build Coastguard Worker#    - save the original so we control its lifetime
*da0073e9SAndroid Build Coastguard Worker# 2. Any time a tensor gets in-placed
*da0073e9SAndroid Build Coastguard Worker#    - for each tensor aliased to it:
*da0073e9SAndroid Build Coastguard Worker#      - check using its object id and version to see if it has been saved
*da0073e9SAndroid Build Coastguard Worker#      - if it has been saved, clone it
*da0073e9SAndroid Build Coastguard Worker#      - delete the reference to the original
*da0073e9SAndroid Build Coastguard Worker# 3. during backward
*da0073e9SAndroid Build Coastguard Worker#    - if the clone exists, the tensor must've been modified in-place
*da0073e9SAndroid Build Coastguard Worker_allow_mutation_on_saved_tensors_enabled = False
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _get_tid(t) -> Tuple[int, int, int]:
*da0073e9SAndroid Build Coastguard Worker    # FIXME: This is almost definitely a bug.
*da0073e9SAndroid Build Coastguard Worker    if isinstance(
*da0073e9SAndroid Build Coastguard Worker        t,
*da0073e9SAndroid Build Coastguard Worker        (
*da0073e9SAndroid Build Coastguard Worker            torch._subclasses.fake_tensor.FakeTensor,
*da0073e9SAndroid Build Coastguard Worker            torch._subclasses.functional_tensor.FunctionalTensor,
*da0073e9SAndroid Build Coastguard Worker        ),
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        data_ptr = 0
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        data_ptr = t.data_ptr()
*da0073e9SAndroid Build Coastguard Worker    return (id(t), data_ptr, t._version)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _get_sid(t) -> Tuple[int, int]:
*da0073e9SAndroid Build Coastguard Worker    # FIXME: This is almost definitely a bug.
*da0073e9SAndroid Build Coastguard Worker    if isinstance(
*da0073e9SAndroid Build Coastguard Worker        t,
*da0073e9SAndroid Build Coastguard Worker        (
*da0073e9SAndroid Build Coastguard Worker            torch._subclasses.fake_tensor.FakeTensor,
*da0073e9SAndroid Build Coastguard Worker            torch._subclasses.functional_tensor.FunctionalTensor,
*da0073e9SAndroid Build Coastguard Worker        ),
*da0073e9SAndroid Build Coastguard Worker    ):
*da0073e9SAndroid Build Coastguard Worker        data_ptr = 0
*da0073e9SAndroid Build Coastguard Worker    else:
*da0073e9SAndroid Build Coastguard Worker        data_ptr = t.data_ptr()
*da0073e9SAndroid Build Coastguard Worker    return (data_ptr, t._version)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass _Handle:
*da0073e9SAndroid Build Coastguard Worker    pass
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass _swap_with_cloned(saved_tensors_hooks):
*da0073e9SAndroid Build Coastguard Worker    def __init__(self, ctx):
*da0073e9SAndroid Build Coastguard Worker        def pack_hook(t):
*da0073e9SAndroid Build Coastguard Worker            tid = _get_tid(t)
*da0073e9SAndroid Build Coastguard Worker            sid = _get_sid(t)
*da0073e9SAndroid Build Coastguard Worker            # Tensors saved for backward have an entry in _tid_to_weakhandle
*da0073e9SAndroid Build Coastguard Worker            handle: Optional[_Handle] = None
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # Save aliasing information
*da0073e9SAndroid Build Coastguard Worker            ctx.sid_to_tid[sid].add(tid)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            # NB: The same tensor (of the same version) can be saved multiple times
*da0073e9SAndroid Build Coastguard Worker            if tid not in ctx.tid_to_weakhandle:
*da0073e9SAndroid Build Coastguard Worker                handle = _Handle()
*da0073e9SAndroid Build Coastguard Worker                ctx.tid_to_weakhandle[tid] = handle
*da0073e9SAndroid Build Coastguard Worker                ctx.original[handle] = t
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                # Store an additional strong reference to the handle
*da0073e9SAndroid Build Coastguard Worker                handle = ctx.tid_to_weakhandle[tid]
*da0073e9SAndroid Build Coastguard Worker            return handle
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        def unpack_hook(tup):
*da0073e9SAndroid Build Coastguard Worker            handle = tup
*da0073e9SAndroid Build Coastguard Worker            error_msg = (
*da0073e9SAndroid Build Coastguard Worker                "Trying to backward outside of the 'allow_mutation_on_saved_tensors' context"
*da0073e9SAndroid Build Coastguard Worker                "in which the graph was originally recorded."
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            assert _allow_mutation_on_saved_tensors_enabled, error_msg
*da0073e9SAndroid Build Coastguard Worker            if handle in ctx.cloned:
*da0073e9SAndroid Build Coastguard Worker                res = ctx.cloned[handle]
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                assert handle in ctx.original, error_msg
*da0073e9SAndroid Build Coastguard Worker                res = ctx.original[handle]
*da0073e9SAndroid Build Coastguard Worker            return res
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        super().__init__(pack_hook, unpack_hook)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass _CloneArgBeforeMutateMode(TorchDispatchMode):
*da0073e9SAndroid Build Coastguard Worker    def __init__(self, ctx):
*da0073e9SAndroid Build Coastguard Worker        self.ctx = ctx
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def __torch_dispatch__(self, func, types, args=(), kwargs=None):
*da0073e9SAndroid Build Coastguard Worker        kwargs = kwargs or {}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        for idx, arg in enumerate(func._schema.arguments):
*da0073e9SAndroid Build Coastguard Worker            if arg.alias_info is not None and arg.alias_info.is_write:
*da0073e9SAndroid Build Coastguard Worker                t = kwargs["out"] if arg.is_out else args[idx]
*da0073e9SAndroid Build Coastguard Worker                tid = _get_tid(t)
*da0073e9SAndroid Build Coastguard Worker                sid = _get_sid(t)
*da0073e9SAndroid Build Coastguard Worker                ctx = self.ctx
*da0073e9SAndroid Build Coastguard Worker                if sid in ctx.sid_to_tid:
*da0073e9SAndroid Build Coastguard Worker                    for tid in ctx.sid_to_tid[sid]:
*da0073e9SAndroid Build Coastguard Worker                        if tid not in ctx.tid_to_weakhandle:
*da0073e9SAndroid Build Coastguard Worker                            # We know that if tid is in sid_to_tid, then it must also be in
*da0073e9SAndroid Build Coastguard Worker                            # tid_to_weakhandle. However, it is possible for the tensor to be
*da0073e9SAndroid Build Coastguard Worker                            # saved at one point, but cleared by backward before it is modified
*da0073e9SAndroid Build Coastguard Worker                            # in-place. Consider the following example:
*da0073e9SAndroid Build Coastguard Worker                            #
*da0073e9SAndroid Build Coastguard Worker                            # >>> a = torch.randn(2, 3, requires_grad=True).clone()
*da0073e9SAndroid Build Coastguard Worker                            # >>> out = (a**2).sum()
*da0073e9SAndroid Build Coastguard Worker                            # >>> out.backward()
*da0073e9SAndroid Build Coastguard Worker                            # >>> a.sin_()
*da0073e9SAndroid Build Coastguard Worker                            continue
*da0073e9SAndroid Build Coastguard Worker                        handle = ctx.tid_to_weakhandle[tid]
*da0073e9SAndroid Build Coastguard Worker                        if handle in ctx.cloned:
*da0073e9SAndroid Build Coastguard Worker                            # The same exact tensor has been cloned already
*da0073e9SAndroid Build Coastguard Worker                            continue
*da0073e9SAndroid Build Coastguard Worker                        ctx.cloned[handle] = ctx.original[handle].clone()
*da0073e9SAndroid Build Coastguard Worker                        del ctx.original[handle]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        rs = func(*args, **kwargs)
*da0073e9SAndroid Build Coastguard Worker        return rs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerclass _AllowMutationOnSavedContext:
*da0073e9SAndroid Build Coastguard Worker    def __init__(self):
*da0073e9SAndroid Build Coastguard Worker        self.cloned: weakref.WeakKeyDictionary = weakref.WeakKeyDictionary()
*da0073e9SAndroid Build Coastguard Worker        self.original: weakref.WeakKeyDictionary = weakref.WeakKeyDictionary()
*da0073e9SAndroid Build Coastguard Worker        self.tid_to_weakhandle: weakref.WeakValueDictionary = (
*da0073e9SAndroid Build Coastguard Worker            weakref.WeakValueDictionary()
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker        self.sid_to_tid: Dict[Tuple[int, int], Set[Tuple[int, int, int]]] = defaultdict(
*da0073e9SAndroid Build Coastguard Worker            set
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def clear(self):
*da0073e9SAndroid Build Coastguard Worker        self.cloned.clear()
*da0073e9SAndroid Build Coastguard Worker        self.original.clear()
*da0073e9SAndroid Build Coastguard Worker        self.tid_to_weakhandle.clear()
*da0073e9SAndroid Build Coastguard Worker        self.sid_to_tid.clear()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@contextlib.contextmanager
*da0073e9SAndroid Build Coastguard Workerdef allow_mutation_on_saved_tensors():
*da0073e9SAndroid Build Coastguard Worker    """Context manager under which mutating tensors saved for backward is allowed.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Under this context manager, tensors saved for backward are cloned on mutation,
*da0073e9SAndroid Build Coastguard Worker    so the original version can still be used during backward. Normally, mutating a tensor
*da0073e9SAndroid Build Coastguard Worker    saved for backward will result in an error raised when it's used during backward.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    To ensure the correct behavior, both the forward and backward should be run under
*da0073e9SAndroid Build Coastguard Worker    the same context manager.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    returns:
*da0073e9SAndroid Build Coastguard Worker        An _AllowMutationOnSavedContext object storing the state managed by this
*da0073e9SAndroid Build Coastguard Worker        context manager. This object can be useful for debugging purposes. The state
*da0073e9SAndroid Build Coastguard Worker        managed by the context manager is automatically cleared upon exiting.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Example::
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        >>> import torch
*da0073e9SAndroid Build Coastguard Worker        >>> with torch.autograd.graph.allow_mutation_on_saved_tensors():
*da0073e9SAndroid Build Coastguard Worker        ...     # forward
*da0073e9SAndroid Build Coastguard Worker        ...     a = torch.ones(2, 3, requires_grad=True)
*da0073e9SAndroid Build Coastguard Worker        ...     b = a.clone()
*da0073e9SAndroid Build Coastguard Worker        ...     out = (b**2).sum()
*da0073e9SAndroid Build Coastguard Worker        ...     b.sin_()
*da0073e9SAndroid Build Coastguard Worker        ...     # backward
*da0073e9SAndroid Build Coastguard Worker        ...     out.sum().backward()
*da0073e9SAndroid Build Coastguard Worker        ...
*da0073e9SAndroid Build Coastguard Worker        tensor([[0.8415, 0.8415, 0.8415],
*da0073e9SAndroid Build Coastguard Worker                [0.8415, 0.8415, 0.8415]], grad_fn=<SinBackward0>)
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    global _allow_mutation_on_saved_tensors_enabled
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    ctx = _AllowMutationOnSavedContext()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    with _swap_with_cloned(ctx), _CloneArgBeforeMutateMode(ctx):
*da0073e9SAndroid Build Coastguard Worker        try:
*da0073e9SAndroid Build Coastguard Worker            if _allow_mutation_on_saved_tensors_enabled:
*da0073e9SAndroid Build Coastguard Worker                raise RuntimeError(
*da0073e9SAndroid Build Coastguard Worker                    "allow_mutation_on_saved_tensors contexts cannot be nested"
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker            _allow_mutation_on_saved_tensors_enabled = True
*da0073e9SAndroid Build Coastguard Worker            yield ctx
*da0073e9SAndroid Build Coastguard Worker        finally:
*da0073e9SAndroid Build Coastguard Worker            ctx.clear()
*da0073e9SAndroid Build Coastguard Worker            _allow_mutation_on_saved_tensors_enabled = False
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _register_logging_hooks_on_whole_graph(t_outputs: List[torch.Tensor]):
*da0073e9SAndroid Build Coastguard Worker    grad_fns = list(map(_get_grad_fn_or_grad_acc, t_outputs))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def iter_graph(roots):
*da0073e9SAndroid Build Coastguard Worker        if not roots:
*da0073e9SAndroid Build Coastguard Worker            return
*da0073e9SAndroid Build Coastguard Worker        seen = set()
*da0073e9SAndroid Build Coastguard Worker        q: Deque = collections.deque()
*da0073e9SAndroid Build Coastguard Worker        for node in roots:
*da0073e9SAndroid Build Coastguard Worker            if node is not None:
*da0073e9SAndroid Build Coastguard Worker                seen.add(node)
*da0073e9SAndroid Build Coastguard Worker                q.append(node)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        while q:
*da0073e9SAndroid Build Coastguard Worker            node = q.popleft()
*da0073e9SAndroid Build Coastguard Worker            for fn, _idx in node.next_functions:
*da0073e9SAndroid Build Coastguard Worker                if fn in seen or fn is None:
*da0073e9SAndroid Build Coastguard Worker                    continue
*da0073e9SAndroid Build Coastguard Worker                seen.add(fn)
*da0073e9SAndroid Build Coastguard Worker                q.append(fn)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker            yield node
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def fmt(t):
*da0073e9SAndroid Build Coastguard Worker        # Avoid circular import
*da0073e9SAndroid Build Coastguard Worker        from torch.testing._internal.common_utils import dtype_abbrs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        if t is None:
*da0073e9SAndroid Build Coastguard Worker            return "None"
*da0073e9SAndroid Build Coastguard Worker        return f"{dtype_abbrs[t.dtype]}[{', '.join(map(str, t.shape))}]"
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def prehook(grad_outputs):
*da0073e9SAndroid Build Coastguard Worker        node = torch._C._current_autograd_node()
*da0073e9SAndroid Build Coastguard Worker        grad_outputs_str = f"[{','.join(fmt(t) for t in grad_outputs)}]"
*da0073e9SAndroid Build Coastguard Worker        log_str = f"Executing: {node} with grad_outputs: {grad_outputs_str}"
*da0073e9SAndroid Build Coastguard Worker        log.debug(log_str)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    handles = []
*da0073e9SAndroid Build Coastguard Worker    for node in iter_graph(grad_fns):
*da0073e9SAndroid Build Coastguard Worker        handles.append(node.register_prehook(prehook))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def unregister_hooks():
*da0073e9SAndroid Build Coastguard Worker        for handle in handles:
*da0073e9SAndroid Build Coastguard Worker            handle.remove()
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return unregister_hooks
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _engine_run_backward(t_outputs, *args, **kwargs):
*da0073e9SAndroid Build Coastguard Worker    attach_logging_hooks = log.getEffectiveLevel() <= logging.DEBUG
*da0073e9SAndroid Build Coastguard Worker    if attach_logging_hooks:
*da0073e9SAndroid Build Coastguard Worker        unregister_hooks = _register_logging_hooks_on_whole_graph(t_outputs)
*da0073e9SAndroid Build Coastguard Worker    try:
*da0073e9SAndroid Build Coastguard Worker        return Variable._execution_engine.run_backward(  # Calls into the C++ engine to run the backward pass
*da0073e9SAndroid Build Coastguard Worker            t_outputs, *args, **kwargs
*da0073e9SAndroid Build Coastguard Worker        )  # Calls into the C++ engine to run the backward pass
*da0073e9SAndroid Build Coastguard Worker    finally:
*da0073e9SAndroid Build Coastguard Worker        if attach_logging_hooks:
*da0073e9SAndroid Build Coastguard Worker            unregister_hooks()  # type: ignore[possibly-undefined]