torch/distributed/utils.py

*da0073e9SAndroid Build Coastguard Worker# mypy: allow-untyped-defs
*da0073e9SAndroid Build Coastguard Workerimport dataclasses
*da0073e9SAndroid Build Coastguard Workerimport traceback
*da0073e9SAndroid Build Coastguard Workerfrom typing import (
*da0073e9SAndroid Build Coastguard Worker    Any,
*da0073e9SAndroid Build Coastguard Worker    Callable,
*da0073e9SAndroid Build Coastguard Worker    Container,
*da0073e9SAndroid Build Coastguard Worker    Dict,
*da0073e9SAndroid Build Coastguard Worker    List,
*da0073e9SAndroid Build Coastguard Worker    Optional,
*da0073e9SAndroid Build Coastguard Worker    OrderedDict,
*da0073e9SAndroid Build Coastguard Worker    overload,
*da0073e9SAndroid Build Coastguard Worker    Set,
*da0073e9SAndroid Build Coastguard Worker    Tuple,
*da0073e9SAndroid Build Coastguard Worker    TypeVar,
*da0073e9SAndroid Build Coastguard Worker)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerimport torch
*da0073e9SAndroid Build Coastguard Workerimport torch.distributed as dist
*da0073e9SAndroid Build Coastguard Workerfrom torch import nn
*da0073e9SAndroid Build Coastguard Workerfrom torch.nn.parallel._functions import _get_stream
*da0073e9SAndroid Build Coastguard Workerfrom torch.nn.parallel.scatter_gather import _is_namedtuple
*da0073e9SAndroid Build Coastguard Workerfrom torch.nn.utils.rnn import PackedSequence
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker__all__ = []  # type: ignore[var-annotated]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _pack_kwargs(*args: Any, **kwargs: Any) -> Tuple[Tuple[Any, ...], Tuple[str, ...]]:
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    Turn argument list into separate key list and value list (unpack_kwargs does the opposite).
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Inspiration: https://github.com/facebookresearch/fairscale/blob/eeb6684/fairscale/internal/containers.py#L70
*da0073e9SAndroid Build Coastguard Worker    Usage::
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        kwarg_keys, flat_args = pack_kwargs(1, 2, a=3, b=4)
*da0073e9SAndroid Build Coastguard Worker        assert kwarg_keys == ("a", "b")
*da0073e9SAndroid Build Coastguard Worker        assert flat_args == (1, 2, 3, 4)
*da0073e9SAndroid Build Coastguard Worker        args, kwargs = unpack_kwargs(kwarg_keys, flat_args)
*da0073e9SAndroid Build Coastguard Worker        assert args == (1, 2)
*da0073e9SAndroid Build Coastguard Worker        assert kwargs == {"a": 3, "b": 4}
*da0073e9SAndroid Build Coastguard Worker    Returns:
*da0073e9SAndroid Build Coastguard Worker        Tuple[Tuple[Any, ...], Tuple[str, ...]]: The first tuple element gives
*da0073e9SAndroid Build Coastguard Worker        gives both positional args and kwarg values, where the positional args
*da0073e9SAndroid Build Coastguard Worker        proceed kwarg values and kwarg values are ordered consistently with the
*da0073e9SAndroid Build Coastguard Worker        kwarg keys. The second tuple element gives the kwarg keys.
*da0073e9SAndroid Build Coastguard Worker        The second tuple element's length is at most the first tuple element's length.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    kwarg_keys: List[str] = []
*da0073e9SAndroid Build Coastguard Worker    flat_args: List[Any] = list(args)
*da0073e9SAndroid Build Coastguard Worker    for k, v in kwargs.items():
*da0073e9SAndroid Build Coastguard Worker        kwarg_keys.append(k)
*da0073e9SAndroid Build Coastguard Worker        flat_args.append(v)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return tuple(flat_args), tuple(kwarg_keys)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _cast_forward_inputs(
*da0073e9SAndroid Build Coastguard Worker    dtype: Optional[torch.dtype],
*da0073e9SAndroid Build Coastguard Worker    *args: Any,
*da0073e9SAndroid Build Coastguard Worker    **kwargs: Any,
*da0073e9SAndroid Build Coastguard Worker) -> Tuple[Any, Any]:
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    Cast floating point tensors in ``args`` and ``kwargs`` to ``input_dtype``.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    This respects the existing ``requires_grad`` on the tensors.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    if dtype is None:
*da0073e9SAndroid Build Coastguard Worker        return args, kwargs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def cast_fn(x: torch.Tensor) -> torch.Tensor:
*da0073e9SAndroid Build Coastguard Worker        if not torch.is_floating_point(x) or x.dtype == dtype:
*da0073e9SAndroid Build Coastguard Worker            return x
*da0073e9SAndroid Build Coastguard Worker        return x.to(dtype)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return (_apply_to_tensors(cast_fn, args), _apply_to_tensors(cast_fn, kwargs))
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _unpack_kwargs(
*da0073e9SAndroid Build Coastguard Worker    flat_args: Tuple[Any, ...], kwarg_keys: Tuple[str, ...]
*da0073e9SAndroid Build Coastguard Worker) -> Tuple[Tuple[Any, ...], Dict[str, Any]]:
*da0073e9SAndroid Build Coastguard Worker    """See _pack_kwargs."""
*da0073e9SAndroid Build Coastguard Worker    assert len(kwarg_keys) <= len(
*da0073e9SAndroid Build Coastguard Worker        flat_args
*da0073e9SAndroid Build Coastguard Worker    ), f"too many keys {len(kwarg_keys)} vs. {len(flat_args)}"
*da0073e9SAndroid Build Coastguard Worker    if len(kwarg_keys) == 0:
*da0073e9SAndroid Build Coastguard Worker        return flat_args, {}
*da0073e9SAndroid Build Coastguard Worker    args = flat_args[: -len(kwarg_keys)]
*da0073e9SAndroid Build Coastguard Worker    kwargs = dict(zip(kwarg_keys, flat_args[-len(kwarg_keys) :]))
*da0073e9SAndroid Build Coastguard Worker    return args, kwargs
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerS = TypeVar("S", dict, list, tuple)
*da0073e9SAndroid Build Coastguard WorkerT = TypeVar("T", torch.Tensor, PackedSequence)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@overload
*da0073e9SAndroid Build Coastguard Workerdef _recursive_to(
*da0073e9SAndroid Build Coastguard Worker    inputs: S, target_device: torch.device, use_side_stream_for_tensor_copies: bool
*da0073e9SAndroid Build Coastguard Worker) -> List[S]:
*da0073e9SAndroid Build Coastguard Worker    ...
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@overload
*da0073e9SAndroid Build Coastguard Workerdef _recursive_to(
*da0073e9SAndroid Build Coastguard Worker    inputs: T, target_device: torch.device, use_side_stream_for_tensor_copies: bool
*da0073e9SAndroid Build Coastguard Worker) -> Tuple[T]:
*da0073e9SAndroid Build Coastguard Worker    ...
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _recursive_to(inputs, target_device, use_side_stream_for_tensor_copies):
*da0073e9SAndroid Build Coastguard Worker    r"""Recursively moves input to the target_device."""
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def to_map(obj):
*da0073e9SAndroid Build Coastguard Worker        if isinstance(obj, (torch.Tensor, PackedSequence)):
*da0073e9SAndroid Build Coastguard Worker            device = obj.data.device if isinstance(obj, PackedSequence) else obj.device
*da0073e9SAndroid Build Coastguard Worker            if device == target_device:
*da0073e9SAndroid Build Coastguard Worker                return (obj,)
*da0073e9SAndroid Build Coastguard Worker            if not use_side_stream_for_tensor_copies:
*da0073e9SAndroid Build Coastguard Worker                return (obj.to(target_device),)
*da0073e9SAndroid Build Coastguard Worker            else:
*da0073e9SAndroid Build Coastguard Worker                # If the custom module is not registered to torch, stream is not used for acceleration
*da0073e9SAndroid Build Coastguard Worker                device_mod = getattr(torch, device.type, None)
*da0073e9SAndroid Build Coastguard Worker                if device.type == "cpu" or device_mod is None:
*da0073e9SAndroid Build Coastguard Worker                    return (obj.to(target_device),)
*da0073e9SAndroid Build Coastguard Worker                # Perform CPU -> target_device copies in a background stream. This code is
*da0073e9SAndroid Build Coastguard Worker                # motivated from similar logic in torch/nn/parallel/_functions.py
*da0073e9SAndroid Build Coastguard Worker                stream = _get_stream(target_device)
*da0073e9SAndroid Build Coastguard Worker                with device_mod.stream(stream):
*da0073e9SAndroid Build Coastguard Worker                    output = obj.to(target_device)
*da0073e9SAndroid Build Coastguard Worker                # synchronize with the copy stream
*da0073e9SAndroid Build Coastguard Worker                with device_mod.device(target_device.index):
*da0073e9SAndroid Build Coastguard Worker                    current_stream = device_mod.current_stream()
*da0073e9SAndroid Build Coastguard Worker                    # Sync the current stream with the copy stream
*da0073e9SAndroid Build Coastguard Worker                    current_stream.wait_stream(stream)
*da0073e9SAndroid Build Coastguard Worker                    # Ensure tensor memory is not reused until work on
*da0073e9SAndroid Build Coastguard Worker                    # main stream is complete
*da0073e9SAndroid Build Coastguard Worker                    if isinstance(obj, PackedSequence):
*da0073e9SAndroid Build Coastguard Worker                        output.data.record_stream(current_stream)  # type: ignore[arg-type]
*da0073e9SAndroid Build Coastguard Worker                    else:
*da0073e9SAndroid Build Coastguard Worker                        assert isinstance(output, torch.Tensor)
*da0073e9SAndroid Build Coastguard Worker                        output.record_stream(current_stream)  # type: ignore[arg-type]
*da0073e9SAndroid Build Coastguard Worker                return (output,)
*da0073e9SAndroid Build Coastguard Worker        if _is_namedtuple(obj):
*da0073e9SAndroid Build Coastguard Worker            return [type(obj)(*args) for args in zip(*map(to_map, obj))]
*da0073e9SAndroid Build Coastguard Worker        if isinstance(obj, tuple) and len(obj) > 0:
*da0073e9SAndroid Build Coastguard Worker            return list(zip(*map(to_map, obj)))
*da0073e9SAndroid Build Coastguard Worker        if isinstance(obj, list) and len(obj) > 0:
*da0073e9SAndroid Build Coastguard Worker            return [list(i) for i in zip(*map(to_map, obj))]
*da0073e9SAndroid Build Coastguard Worker        if isinstance(obj, dict) and len(obj) > 0:
*da0073e9SAndroid Build Coastguard Worker            return [type(obj)(i) for i in zip(*map(to_map, obj.items()))]
*da0073e9SAndroid Build Coastguard Worker        return [obj]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    # Avoid reference cycle
*da0073e9SAndroid Build Coastguard Worker    try:
*da0073e9SAndroid Build Coastguard Worker        res = to_map(inputs)
*da0073e9SAndroid Build Coastguard Worker    finally:
*da0073e9SAndroid Build Coastguard Worker        to_map = None  # type: ignore[assignment]
*da0073e9SAndroid Build Coastguard Worker    return res
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _p_assert(cond: Any, s: str, raise_assertion_error: bool = True) -> None:
*da0073e9SAndroid Build Coastguard Worker    """Alternate to ``assert`` when in the backward context to print the error message ``s`` since otherwise, it is swallowed."""
*da0073e9SAndroid Build Coastguard Worker    if not cond:
*da0073e9SAndroid Build Coastguard Worker        print(s)
*da0073e9SAndroid Build Coastguard Worker        traceback.print_stack()
*da0073e9SAndroid Build Coastguard Worker        if raise_assertion_error:
*da0073e9SAndroid Build Coastguard Worker            raise AssertionError(s)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _alloc_storage(tensor: torch.Tensor, size: torch.Size) -> None:
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    Allocate storage for ``tensor`` with the given size.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Returns:
*da0073e9SAndroid Build Coastguard Worker        bool: ``True`` if this method allocated storage and ``False`` if the
*da0073e9SAndroid Build Coastguard Worker        storage was already allocated.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker        if not torch.distributed._functional_collectives.is_torchdynamo_compiling():
*da0073e9SAndroid Build Coastguard Worker            already_allocated = tensor._typed_storage()._size() == size.numel()
*da0073e9SAndroid Build Coastguard Worker            if not already_allocated:
*da0073e9SAndroid Build Coastguard Worker                tensor_storage_size = tensor._typed_storage()._size()
*da0073e9SAndroid Build Coastguard Worker                _p_assert(
*da0073e9SAndroid Build Coastguard Worker                    tensor_storage_size == 0,
*da0073e9SAndroid Build Coastguard Worker                    "Tensor storage should have been resized to be 0 but got PLACEHOLDEr",
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                tensor._typed_storage()._resize_(size.numel())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _free_storage(tensor: torch.Tensor):
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    Frees the underlying storage of ``tensor``.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Returns:
*da0073e9SAndroid Build Coastguard Worker        bool: ``True`` if the method freed the storage and ``False`` if the
*da0073e9SAndroid Build Coastguard Worker        storage was already freed.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    with torch.no_grad():
*da0073e9SAndroid Build Coastguard Worker        if not torch.distributed._functional_collectives.is_torchdynamo_compiling():
*da0073e9SAndroid Build Coastguard Worker            already_freed = tensor._typed_storage()._size() == 0
*da0073e9SAndroid Build Coastguard Worker            if not already_freed:
*da0073e9SAndroid Build Coastguard Worker                _p_assert(
*da0073e9SAndroid Build Coastguard Worker                    tensor.storage_offset() == 0,
*da0073e9SAndroid Build Coastguard Worker                    "Freeing a tensor's storage is unsafe when it is not the sole occupant\n"
*da0073e9SAndroid Build Coastguard Worker                    f"storage offset: {tensor.storage_offset()}\n"
*da0073e9SAndroid Build Coastguard Worker                    f"storage size: {tensor._typed_storage()._size()}\n"
*da0073e9SAndroid Build Coastguard Worker                    f"tensor shape: {tensor.shape}",
*da0073e9SAndroid Build Coastguard Worker                )
*da0073e9SAndroid Build Coastguard Worker                tensor._typed_storage()._resize_(0)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerQ = TypeVar("Q")
*da0073e9SAndroid Build Coastguard WorkerR = TypeVar("R", dict, list, tuple, set, OrderedDict, PackedSequence, Any)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@overload
*da0073e9SAndroid Build Coastguard Workerdef _apply_to_tensors(fn: Callable[[torch.Tensor], Q], container: torch.Tensor) -> Q:
*da0073e9SAndroid Build Coastguard Worker    ...
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker@overload
*da0073e9SAndroid Build Coastguard Workerdef _apply_to_tensors(fn: Callable[[torch.Tensor], Any], container: R) -> R:
*da0073e9SAndroid Build Coastguard Worker    ...
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _apply_to_tensors(fn, container):
*da0073e9SAndroid Build Coastguard Worker    """Recursively apply to all tensor in different kinds of container types."""
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    def apply(x):
*da0073e9SAndroid Build Coastguard Worker        if isinstance(x, torch.Tensor):
*da0073e9SAndroid Build Coastguard Worker            return fn(x)
*da0073e9SAndroid Build Coastguard Worker        elif hasattr(x, "__dataclass_fields__"):
*da0073e9SAndroid Build Coastguard Worker            dc = dataclasses.replace(x)
*da0073e9SAndroid Build Coastguard Worker            changes = {
*da0073e9SAndroid Build Coastguard Worker                f.name: apply(getattr(dc, f.name)) for f in dataclasses.fields(dc)
*da0073e9SAndroid Build Coastguard Worker            }
*da0073e9SAndroid Build Coastguard Worker            return dataclasses.replace(dc, **changes)
*da0073e9SAndroid Build Coastguard Worker        elif isinstance(x, OrderedDict):
*da0073e9SAndroid Build Coastguard Worker            od = x.__class__()
*da0073e9SAndroid Build Coastguard Worker            for key, value in x.items():
*da0073e9SAndroid Build Coastguard Worker                od[key] = apply(value)
*da0073e9SAndroid Build Coastguard Worker            return od
*da0073e9SAndroid Build Coastguard Worker        elif isinstance(x, PackedSequence):
*da0073e9SAndroid Build Coastguard Worker            apply(x.data)
*da0073e9SAndroid Build Coastguard Worker            return x
*da0073e9SAndroid Build Coastguard Worker        elif isinstance(x, dict):
*da0073e9SAndroid Build Coastguard Worker            return {key: apply(value) for key, value in x.items()}
*da0073e9SAndroid Build Coastguard Worker        elif _is_namedtuple(x):
*da0073e9SAndroid Build Coastguard Worker            res = (apply(el) for el in x)
*da0073e9SAndroid Build Coastguard Worker            return type(x)(*res)
*da0073e9SAndroid Build Coastguard Worker        elif isinstance(x, (list, tuple, set)):
*da0073e9SAndroid Build Coastguard Worker            return type(x)(apply(el) for el in x)
*da0073e9SAndroid Build Coastguard Worker        else:
*da0073e9SAndroid Build Coastguard Worker            return x
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    return apply(container)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _to_kwargs(
*da0073e9SAndroid Build Coastguard Worker    inputs: Tuple[Any, ...],
*da0073e9SAndroid Build Coastguard Worker    kwargs: Optional[Dict[str, Any]],
*da0073e9SAndroid Build Coastguard Worker    target_device: torch.device,
*da0073e9SAndroid Build Coastguard Worker    use_side_stream_for_tensor_copies: bool,
*da0073e9SAndroid Build Coastguard Worker) -> Tuple[Tuple[Any, ...], Tuple[Dict[str, Any], ...]]:
*da0073e9SAndroid Build Coastguard Worker    moved_inputs = (
*da0073e9SAndroid Build Coastguard Worker        _recursive_to(inputs, target_device, use_side_stream_for_tensor_copies)
*da0073e9SAndroid Build Coastguard Worker        if inputs
*da0073e9SAndroid Build Coastguard Worker        else []
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    moved_kwargs = (
*da0073e9SAndroid Build Coastguard Worker        _recursive_to(kwargs, target_device, use_side_stream_for_tensor_copies)
*da0073e9SAndroid Build Coastguard Worker        if kwargs
*da0073e9SAndroid Build Coastguard Worker        else []
*da0073e9SAndroid Build Coastguard Worker    )
*da0073e9SAndroid Build Coastguard Worker    if len(moved_inputs) < len(moved_kwargs):
*da0073e9SAndroid Build Coastguard Worker        moved_inputs.extend([() for _ in range(len(moved_kwargs) - len(inputs))])
*da0073e9SAndroid Build Coastguard Worker    elif len(moved_kwargs) < len(moved_inputs):
*da0073e9SAndroid Build Coastguard Worker        moved_kwargs.extend([{} for _ in range(len(moved_inputs) - len(moved_kwargs))])
*da0073e9SAndroid Build Coastguard Worker    return tuple(moved_inputs), tuple(moved_kwargs)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _verify_param_shape_across_processes(
*da0073e9SAndroid Build Coastguard Worker    process_group: dist.ProcessGroup,
*da0073e9SAndroid Build Coastguard Worker    tensors: List[torch.Tensor],
*da0073e9SAndroid Build Coastguard Worker    logger: Optional["dist.Logger"] = None,
*da0073e9SAndroid Build Coastguard Worker):
*da0073e9SAndroid Build Coastguard Worker    return dist._verify_params_across_processes(process_group, tensors, logger)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _sync_module_states(
*da0073e9SAndroid Build Coastguard Worker    module: nn.Module,
*da0073e9SAndroid Build Coastguard Worker    process_group: dist.ProcessGroup,
*da0073e9SAndroid Build Coastguard Worker    broadcast_bucket_size: int,
*da0073e9SAndroid Build Coastguard Worker    src: int,
*da0073e9SAndroid Build Coastguard Worker    params_and_buffers_to_ignore: Container[str],
*da0073e9SAndroid Build Coastguard Worker    broadcast_buffers: bool = True,
*da0073e9SAndroid Build Coastguard Worker) -> None:
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    Sync ``module``'s parameters and buffers state.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Syncs ``module``'s parameters and buffers state so that all ranks contain
*da0073e9SAndroid Build Coastguard Worker    the same module state across all ranks. Note that this API assumes that all
*da0073e9SAndroid Build Coastguard Worker    parameter shapes are consistent before running the synchronization. This can
*da0073e9SAndroid Build Coastguard Worker    be checked with ``_verify_param_shape_across_processes``.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    module_states: List[torch.Tensor] = []
*da0073e9SAndroid Build Coastguard Worker    for name, param in module.named_parameters():
*da0073e9SAndroid Build Coastguard Worker        if name not in params_and_buffers_to_ignore:
*da0073e9SAndroid Build Coastguard Worker            module_states.append(param.detach())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    if broadcast_buffers:
*da0073e9SAndroid Build Coastguard Worker        for name, buffer in module.named_buffers():
*da0073e9SAndroid Build Coastguard Worker            if name not in params_and_buffers_to_ignore:
*da0073e9SAndroid Build Coastguard Worker                module_states.append(buffer.detach())
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    _sync_params_and_buffers(process_group, module_states, broadcast_bucket_size, src)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _sync_params_and_buffers(
*da0073e9SAndroid Build Coastguard Worker    process_group: dist.ProcessGroup,
*da0073e9SAndroid Build Coastguard Worker    module_states: List[torch.Tensor],
*da0073e9SAndroid Build Coastguard Worker    broadcast_bucket_size: int,
*da0073e9SAndroid Build Coastguard Worker    src: int,
*da0073e9SAndroid Build Coastguard Worker) -> None:
*da0073e9SAndroid Build Coastguard Worker    """Synchronize ``module_states`` (list of tensors) across all processes by broadcasting them from rank 0."""
*da0073e9SAndroid Build Coastguard Worker    if len(module_states) > 0:
*da0073e9SAndroid Build Coastguard Worker        dist._broadcast_coalesced(
*da0073e9SAndroid Build Coastguard Worker            process_group, module_states, broadcast_bucket_size, src
*da0073e9SAndroid Build Coastguard Worker        )
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _replace_by_prefix(
*da0073e9SAndroid Build Coastguard Worker    state_dict: Dict[str, Any],
*da0073e9SAndroid Build Coastguard Worker    old_prefix: str,
*da0073e9SAndroid Build Coastguard Worker    new_prefix: str,
*da0073e9SAndroid Build Coastguard Worker) -> None:
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    Replace all keys that match a given old_prefix with a new_prefix (in-place).
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker    Usage::
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker        state_dict = {"layer.xyz": torch.tensor(1)}
*da0073e9SAndroid Build Coastguard Worker        replace_by_prefix_(state_dict, "layer.", "module.layer.")
*da0073e9SAndroid Build Coastguard Worker        assert state_dict == {"module.layer.xyz": torch.tensor(1)}
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    if old_prefix == new_prefix:
*da0073e9SAndroid Build Coastguard Worker        raise ValueError("old_prefix and new_prefix must be distinct")
*da0073e9SAndroid Build Coastguard Worker    for key in list(state_dict.keys()):
*da0073e9SAndroid Build Coastguard Worker        if not key.startswith(old_prefix):
*da0073e9SAndroid Build Coastguard Worker            continue
*da0073e9SAndroid Build Coastguard Worker        new_key = new_prefix + key[len(old_prefix) :]
*da0073e9SAndroid Build Coastguard Worker        state_dict[new_key] = state_dict[key]
*da0073e9SAndroid Build Coastguard Worker        del state_dict[key]
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _data_ptr_allocated(tensor: torch.Tensor) -> bool:
*da0073e9SAndroid Build Coastguard Worker    return tensor.untyped_storage().data_ptr() > 0
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerdef _get_root_modules(modules: List[nn.Module]) -> List[nn.Module]:
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    Returns the modules in ``modules`` that are root modules (i.e.
*da0073e9SAndroid Build Coastguard Worker    parent-less) with respect to the set ``modules``. In other words, these
*da0073e9SAndroid Build Coastguard Worker    are the modules in ``modules`` that are the not child of any other
*da0073e9SAndroid Build Coastguard Worker    module in ``modules``.
*da0073e9SAndroid Build Coastguard Worker    """
*da0073e9SAndroid Build Coastguard Worker    root_modules: List[nn.Module] = []
*da0073e9SAndroid Build Coastguard Worker    module_to_modules: Dict[nn.Module, Set[nn.Module]] = {
*da0073e9SAndroid Build Coastguard Worker        module: set(module.modules()) for module in modules
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    for candidate_module in modules:
*da0073e9SAndroid Build Coastguard Worker        is_root_module = True
*da0073e9SAndroid Build Coastguard Worker        for module, _modules in module_to_modules.items():
*da0073e9SAndroid Build Coastguard Worker            is_child_module = (
*da0073e9SAndroid Build Coastguard Worker                candidate_module is not module and candidate_module in _modules
*da0073e9SAndroid Build Coastguard Worker            )
*da0073e9SAndroid Build Coastguard Worker            if is_child_module:
*da0073e9SAndroid Build Coastguard Worker                is_root_module = False
*da0073e9SAndroid Build Coastguard Worker                break
*da0073e9SAndroid Build Coastguard Worker        if is_root_module:
*da0073e9SAndroid Build Coastguard Worker            root_modules.append(candidate_module)
*da0073e9SAndroid Build Coastguard Worker    return root_modules