src/ATen/LegacyBatchingRegistrations.cpp

*da0073e9SAndroid Build Coastguard Worker#include <torch/library.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/ATen.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/LegacyVmapTransforms.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/LegacyBatchedFallback.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/RedispatchFunctions.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/native/ResizeCommon.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/core/IListRef.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/util/irange.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/core/SymIntArrayRef.h>
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker#include <utility>
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workernamespace at {
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// NOTE: [What is a batching rule?]
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// A *batching rule* implements the logic of how to call an operator on inputs
*da0073e9SAndroid Build Coastguard Worker// that have zero or more additional batch dimensions. When one does a vmap, the
*da0073e9SAndroid Build Coastguard Worker// dimension(s) being vmap'ed over get recorded as batch dimensions.
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// For example, vmap(torch.add)(x, y)
*da0073e9SAndroid Build Coastguard Worker// 1. wraps `x` into batched_x = BatchedTensor(x, bdims=[(lvl=1, dim=0)];
*da0073e9SAndroid Build Coastguard Worker// 2. wraps `y` into batched_y = BatchedTensor(y, bdims=[(lvl=1, dim=0)];
*da0073e9SAndroid Build Coastguard Worker// 3. and then runs `torch.add(batched_x, batched_y)`.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// NOTE: [When should I add a batching rule?]
*da0073e9SAndroid Build Coastguard Worker// When you are adding a new operator, you'll need to add a batching rule so
*da0073e9SAndroid Build Coastguard Worker// that vmap can work efficiently with said operator. If you do not, we'll attempt
*da0073e9SAndroid Build Coastguard Worker// to generate a slow fallback for the batching rule.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// NOTE: [How to write batching rules?]
*da0073e9SAndroid Build Coastguard Worker// The signature of a batching rule should look like exactly like the C++ signature
*da0073e9SAndroid Build Coastguard Worker// of its operator.
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// First, see NOTE: [Logical vs physical args] in VmapTransforms.h for terminology.
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// At a high level, what a batching rule does is the following:
*da0073e9SAndroid Build Coastguard Worker// 1. Converts (logical) BatchedTensors to views on physical tensors.
*da0073e9SAndroid Build Coastguard Worker// 2. Converts logical arguments (e.g. dimension indexes, shapes) to physical
*da0073e9SAndroid Build Coastguard Worker//    arguments that correspond to the physical tensors.
*da0073e9SAndroid Build Coastguard Worker// 3. Calls at:: operations on the physical tensors and arguments to produce
*da0073e9SAndroid Build Coastguard Worker//    some physical results.
*da0073e9SAndroid Build Coastguard Worker// 4. Converts physical results back to BatchedTensors.
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// Steps 1, 2, and 4 differ for operators with different batching behaviors. When
*da0073e9SAndroid Build Coastguard Worker// writing a new batching rule, please select a VmapTransform that matches the
*da0073e9SAndroid Build Coastguard Worker// batching behavior of your operation. The VmapTransform provides helper functions
*da0073e9SAndroid Build Coastguard Worker// to do steps (1), (2), and (4).
*da0073e9SAndroid Build Coastguard Worker// (see NOTE: [What is an VmapTransform?] in VmapTransforms.h)
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// Note: [Future plans]
*da0073e9SAndroid Build Coastguard Worker// The API for writing a batching rule isn't stable. In the future, we'd like
*da0073e9SAndroid Build Coastguard Worker// to think about the problem of translating these batching rules to TorchScript.
*da0073e9SAndroid Build Coastguard Worker// Ideally batching rules in eager mode vs TorchScript would look pretty similar,
*da0073e9SAndroid Build Coastguard Worker// if not use the same mechanism. In order to accomplish that we might have to
*da0073e9SAndroid Build Coastguard Worker// do some refactoring.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workernamespace{
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// PyTorch allows operations to specify dim 0 and dim -1 on a scalar tensor.
*da0073e9SAndroid Build Coastguard Workerstatic bool is_allowed_dim_on_scalar_tensor(int64_t dim) {
*da0073e9SAndroid Build Coastguard Worker  return dim == 0 || dim == -1;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor sum_batching_rule(const Tensor& self, OptionalIntArrayRef opt_dims, bool keepdim, std::optional<ScalarType> dtype) {
*da0073e9SAndroid Build Coastguard Worker  if (opt_dims.has_value()) {
*da0073e9SAndroid Build Coastguard Worker    auto dims = opt_dims.value();
*da0073e9SAndroid Build Coastguard Worker    // PyTorch has a special case where sum(scalar_tensor, dim=0) does not fail
*da0073e9SAndroid Build Coastguard Worker    // and instead returns a new scalar tensor (this also happens for dim=-1)
*da0073e9SAndroid Build Coastguard Worker    // If the following happens:
*da0073e9SAndroid Build Coastguard Worker    // >>> x = torch.randn(B0)  # the per-examples are all scalars
*da0073e9SAndroid Build Coastguard Worker    // >>> vmap(partial(torch.sum, dim=0), x)
*da0073e9SAndroid Build Coastguard Worker    // then we replicate the behavior of sum(scalar_tensor, dim=0).
*da0073e9SAndroid Build Coastguard Worker    if (/*logical*/self.dim() == 0 && (dims.empty() || (dims.size() == 1 && is_allowed_dim_on_scalar_tensor(dims[0])))) {
*da0073e9SAndroid Build Coastguard Worker      return self.clone();
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto dims_physical = self_physical.getPhysicalDims(opt_dims);
*da0073e9SAndroid Build Coastguard Worker  auto result = at::sum(self_physical.tensor(), dims_physical, keepdim, dtype);
*da0073e9SAndroid Build Coastguard Worker  return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerbool isPhysicalScalarTensor(const Tensor& logical_tensor) {
*da0073e9SAndroid Build Coastguard Worker  if (logical_tensor.dim() > 0) {
*da0073e9SAndroid Build Coastguard Worker    return false;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  auto* batched = maybeGetBatchedImpl(logical_tensor);
*da0073e9SAndroid Build Coastguard Worker  if (batched) {
*da0073e9SAndroid Build Coastguard Worker    return false;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  return true;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertemplate <typename F, F Func, typename... ExtraArgs>
*da0073e9SAndroid Build Coastguard WorkerTensor binary_pointwise_batching_rule(
*da0073e9SAndroid Build Coastguard Worker    const Tensor& self, const Tensor& other, ExtraArgs... args) {
*da0073e9SAndroid Build Coastguard Worker  if (self.dim() > 0 && other.dim() > 0) {
*da0073e9SAndroid Build Coastguard Worker    auto physical_args = BroadcastingVmapTransform::logicalToPhysical({self, other});
*da0073e9SAndroid Build Coastguard Worker    auto result = Func(physical_args[0].tensor(), physical_args[1].tensor(), args...);
*da0073e9SAndroid Build Coastguard Worker    return physical_args[0].getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  if (isPhysicalScalarTensor(self)) {
*da0073e9SAndroid Build Coastguard Worker    auto other_physical = MultiBatchVmapTransform::logicalToPhysical(other);
*da0073e9SAndroid Build Coastguard Worker    auto result = Func(self, other_physical.tensor(), args...);
*da0073e9SAndroid Build Coastguard Worker    return other_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  if (isPhysicalScalarTensor(other)) {
*da0073e9SAndroid Build Coastguard Worker    auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker    auto result = Func(self_physical.tensor(), other, args...);
*da0073e9SAndroid Build Coastguard Worker    return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // At this point, we know at least one of the operands is a logical Scalar tensor.
*da0073e9SAndroid Build Coastguard Worker  // Here we must emulate TensorIterator's special behavior on Scalars.
*da0073e9SAndroid Build Coastguard Worker  //
*da0073e9SAndroid Build Coastguard Worker  // As a motivating example, consider the following:
*da0073e9SAndroid Build Coastguard Worker  //   x = torch.randn(3, 10)
*da0073e9SAndroid Build Coastguard Worker  //   y = torch.randn(3, dtype=torch.double)
*da0073e9SAndroid Build Coastguard Worker  //   vmap(torch.mul)(torch.randn(3, 10), torch.randn(3, dtype=torch.double))
*da0073e9SAndroid Build Coastguard Worker  //
*da0073e9SAndroid Build Coastguard Worker  // At a per-example level, we are adding FloatTensor[10] and DoubleTensor[];
*da0073e9SAndroid Build Coastguard Worker  // Type Promotion dictates that the result should be FloatTensor[10].
*da0073e9SAndroid Build Coastguard Worker  // This means we cannot directly pass the physical tensors (x and y) to
*da0073e9SAndroid Build Coastguard Worker  // TensorIterator (if we did, it would promote them to DoubleTensor).
*da0073e9SAndroid Build Coastguard Worker  //
*da0073e9SAndroid Build Coastguard Worker  // FIXME(rzou): I didn't want to go down the slippery slope of emulating
*da0073e9SAndroid Build Coastguard Worker  // everything TensorIterator does (it would be better to refactor out the
*da0073e9SAndroid Build Coastguard Worker  // TensorIterator logic). The one thing that this code doesn't handle
*da0073e9SAndroid Build Coastguard Worker  // is cross-device logical scalar tensors.
*da0073e9SAndroid Build Coastguard Worker  //   cpu_tensor = torch.randn(3)
*da0073e9SAndroid Build Coastguard Worker  //   cuda_tensor = torch.randn(3, 10, device='cuda')
*da0073e9SAndroid Build Coastguard Worker  //   vmap(torch.mul)(cpu_tensor, cuda_tensor)
*da0073e9SAndroid Build Coastguard Worker  //
*da0073e9SAndroid Build Coastguard Worker  // At a per-example level, we are adding CPUTensor[] and CUDATensor[10].
*da0073e9SAndroid Build Coastguard Worker  // TensorIterator allows for this cross-device operation because one of the
*da0073e9SAndroid Build Coastguard Worker  // tensors is a Scalar CPU tensor. However, the following code will throw an
*da0073e9SAndroid Build Coastguard Worker  // error in that case. I don't expect to see many use cases for this, so
*da0073e9SAndroid Build Coastguard Worker  // this is probably fine as-is.
*da0073e9SAndroid Build Coastguard Worker  auto logical_self = self;
*da0073e9SAndroid Build Coastguard Worker  auto logical_other = other;
*da0073e9SAndroid Build Coastguard Worker  auto result_type = at::native::result_type(logical_self, logical_other);
*da0073e9SAndroid Build Coastguard Worker  if (logical_self.scalar_type() != result_type) {
*da0073e9SAndroid Build Coastguard Worker    logical_self = logical_self.to(result_type);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  if (logical_other.scalar_type() != result_type) {
*da0073e9SAndroid Build Coastguard Worker    logical_other = logical_other.to(result_type);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  auto physical_args = BroadcastingVmapTransform::logicalToPhysical(
*da0073e9SAndroid Build Coastguard Worker      {std::move(logical_self), std::move(logical_other)});
*da0073e9SAndroid Build Coastguard Worker  auto result = Func(physical_args[0].tensor(), physical_args[1].tensor(), args...);
*da0073e9SAndroid Build Coastguard Worker  return physical_args[0].getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor expand_batching_rule(const Tensor& self, IntArrayRef size, bool implicit) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto size_physical = self_physical.getPhysicalShape(size);
*da0073e9SAndroid Build Coastguard Worker  auto self_physical_dim = self_physical.tensor().dim();
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(self_physical_dim <= static_cast<int64_t>(size_physical.size()),
*da0073e9SAndroid Build Coastguard Worker       "expand: the number of sizes provided (", /*logical*/size.size(), ") ",
*da0073e9SAndroid Build Coastguard Worker       "must be greater or equal to the number of dimensions in the tensor (",
*da0073e9SAndroid Build Coastguard Worker       /*logical dim*/self.dim(), ")");
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  if (self_physical_dim == static_cast<int64_t>(size_physical.size())) {
*da0073e9SAndroid Build Coastguard Worker    auto result = self_physical.tensor().expand(size_physical, implicit);
*da0073e9SAndroid Build Coastguard Worker    return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  TORCH_INTERNAL_ASSERT(self_physical_dim < static_cast<int64_t>(size_physical.size()));
*da0073e9SAndroid Build Coastguard Worker  // Here, we know we are expanding a (logical) tensor to a larger number
*da0073e9SAndroid Build Coastguard Worker  // of dimensions. We have to be careful because we can't call expand directly
*da0073e9SAndroid Build Coastguard Worker  // due to the presence of batch dimensions.
*da0073e9SAndroid Build Coastguard Worker  //
*da0073e9SAndroid Build Coastguard Worker  // As an example, let B0 be a batch dimension and consider expand(Tensor[B0, 3], [2, 3]).
*da0073e9SAndroid Build Coastguard Worker  // The result should be a tensor of size [B0, 2, 3].
*da0073e9SAndroid Build Coastguard Worker  // A physical view of size [B0, 3] can't directly be expanded to size [B0, 2, 3]
*da0073e9SAndroid Build Coastguard Worker  // so the strategy here is to view it first as a tensor of size [B0, 1, 3] and
*da0073e9SAndroid Build Coastguard Worker  // then expand.
*da0073e9SAndroid Build Coastguard Worker  auto self_physical_size = self_physical.tensor().sizes();
*da0073e9SAndroid Build Coastguard Worker  auto extra_dims = size_physical.size() - self_physical_dim;
*da0073e9SAndroid Build Coastguard Worker  VmapDimVector view_shape(size_physical.size(), 1);
*da0073e9SAndroid Build Coastguard Worker  std::copy(self_physical_size.begin(),
*da0073e9SAndroid Build Coastguard Worker            self_physical_size.begin() + self_physical.numBatchDims(),
*da0073e9SAndroid Build Coastguard Worker            view_shape.begin());
*da0073e9SAndroid Build Coastguard Worker  std::copy(self_physical_size.begin() + self_physical.numBatchDims(),
*da0073e9SAndroid Build Coastguard Worker            self_physical_size.end(),
*da0073e9SAndroid Build Coastguard Worker            view_shape.begin() + self_physical.numBatchDims() + extra_dims);
*da0073e9SAndroid Build Coastguard Worker  auto result = self_physical.tensor().view(view_shape).expand(size_physical, implicit);
*da0073e9SAndroid Build Coastguard Worker  return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstd::vector<Tensor> chunk_batching_rule(const Tensor& self, int64_t chunks, int64_t dim) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto dim_physical = self_physical.getPhysicalDim(dim);
*da0073e9SAndroid Build Coastguard Worker  auto result = at::chunk(self_physical.tensor(), chunks, dim_physical);
*da0073e9SAndroid Build Coastguard Worker  self_physical.getPhysicalToLogicalMap().applyInplace(result);
*da0073e9SAndroid Build Coastguard Worker  return result;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor clamp_batching_rule(const Tensor& self, const std::optional<Scalar>& min, const std::optional<Scalar>& max) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto result = at::clamp(self_physical.tensor(), min, max);
*da0073e9SAndroid Build Coastguard Worker  return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor clamp_min_batching_rule(const Tensor& self, const Scalar& min) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto result = at::clamp_min(self_physical.tensor(), min);
*da0073e9SAndroid Build Coastguard Worker  return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor clamp_max_batching_rule(const Tensor& self, const Scalar& max) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto result = at::clamp_max(self_physical.tensor(), max);
*da0073e9SAndroid Build Coastguard Worker  return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstd::vector<Tensor> tensor_split_sections_batching_rule(const Tensor& self, int64_t sections, int64_t dim) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto dim_physical = self_physical.getPhysicalDim(dim);
*da0073e9SAndroid Build Coastguard Worker  auto result = at::tensor_split(self_physical.tensor(), sections, dim_physical);
*da0073e9SAndroid Build Coastguard Worker  self_physical.getPhysicalToLogicalMap().applyInplace(result);
*da0073e9SAndroid Build Coastguard Worker  return result;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstd::vector<Tensor> tensor_split_indices_batching_rule(const Tensor& self, IntArrayRef indices, int64_t dim) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto dim_physical = self_physical.getPhysicalDim(dim);
*da0073e9SAndroid Build Coastguard Worker  auto result = at::tensor_split(self_physical.tensor(), indices, dim_physical);
*da0073e9SAndroid Build Coastguard Worker  self_physical.getPhysicalToLogicalMap().applyInplace(result);
*da0073e9SAndroid Build Coastguard Worker  return result;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor unsqueeze_batching_rule(const Tensor& self, int64_t dim) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  // NB: unsqueeze has some special handling of its `dim` argument so we can't call
*da0073e9SAndroid Build Coastguard Worker  // self_physical.getPhysicalDim directly. In particular, native::unsqueeze
*da0073e9SAndroid Build Coastguard Worker  // wraps the dim to (the logical dimension) + 1, so we need to do that here too.
*da0073e9SAndroid Build Coastguard Worker  // https://github.com/pytorch/pytorch/blob/b623bdeabb0aa8da44285d303246e7f8ac06c2a9/aten/src/ATen/native/TensorShape.cpp#L1413
*da0073e9SAndroid Build Coastguard Worker  auto dim_physical =
*da0073e9SAndroid Build Coastguard Worker      self_physical.numBatchDims() + maybe_wrap_dim(dim, /*logical_dim*/self.dim() + 1);
*da0073e9SAndroid Build Coastguard Worker  auto result = self_physical.tensor().unsqueeze(dim_physical);
*da0073e9SAndroid Build Coastguard Worker  return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor& fill_inplace_scalar_batching_rule(Tensor& self, const Scalar& value) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  self_physical.tensor().fill_(value);
*da0073e9SAndroid Build Coastguard Worker  return self;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor& fill_inplace_tensor_batching_rule(Tensor& self, const Tensor& value) {
*da0073e9SAndroid Build Coastguard Worker  auto value_batched = isBatchedTensor(value);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  if (value_batched) {
*da0073e9SAndroid Build Coastguard Worker    auto physical_args =
*da0073e9SAndroid Build Coastguard Worker      BroadcastingVmapTransform::logicalToPhysical({self, value});
*da0073e9SAndroid Build Coastguard Worker    physical_args[0].tensor().copy_(physical_args[1].tensor());
*da0073e9SAndroid Build Coastguard Worker  } else {
*da0073e9SAndroid Build Coastguard Worker    auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker    self_physical.tensor().fill_(value);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  return self;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor& zero_inplace_batching_rule(Tensor &self) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  self_physical.tensor().zero_();
*da0073e9SAndroid Build Coastguard Worker  return self;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor squeeze_batching_rule(const Tensor& self) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto physical_sizes = self_physical.tensor().sizes();
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Don't squeeze the batch dims!
*da0073e9SAndroid Build Coastguard Worker  VmapDimVector squeezed_sizes;
*da0073e9SAndroid Build Coastguard Worker  int64_t num_batch_dims = self_physical.numBatchDims();
*da0073e9SAndroid Build Coastguard Worker  squeezed_sizes.insert(
*da0073e9SAndroid Build Coastguard Worker      squeezed_sizes.end(),
*da0073e9SAndroid Build Coastguard Worker      physical_sizes.begin(),
*da0073e9SAndroid Build Coastguard Worker      physical_sizes.begin() + num_batch_dims);
*da0073e9SAndroid Build Coastguard Worker  for (auto it = physical_sizes.begin() + num_batch_dims; it != physical_sizes.end(); ++it) {
*da0073e9SAndroid Build Coastguard Worker    if (*it != 1) {
*da0073e9SAndroid Build Coastguard Worker      squeezed_sizes.push_back(*it);
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  auto result = self_physical.tensor().view(squeezed_sizes);
*da0073e9SAndroid Build Coastguard Worker  return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor squeeze_dim_batching_rule(const Tensor& self, int64_t dim) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto dim_physical = self_physical.getPhysicalDim(dim);
*da0073e9SAndroid Build Coastguard Worker  auto result = self_physical.tensor().squeeze(dim_physical);
*da0073e9SAndroid Build Coastguard Worker  return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor squeeze_dims_batching_rule(const Tensor& self, IntArrayRef dims) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto dims_physical = self_physical.getPhysicalDims(dims);
*da0073e9SAndroid Build Coastguard Worker  auto result = self_physical.tensor().squeeze(dims_physical);
*da0073e9SAndroid Build Coastguard Worker  return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor trace_batching_rule(const Tensor& self) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  // Batched Diagonal View
*da0073e9SAndroid Build Coastguard Worker  auto self_diag = at::diagonal(self_physical.tensor(), /*offset*/0, /*dim1*/-2, /*dim2*/-1);
*da0073e9SAndroid Build Coastguard Worker  auto result =  at::sum(self_diag, -1);
*da0073e9SAndroid Build Coastguard Worker  return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor trace_backward_batching_rule(const Tensor& grad, IntArrayRef input_sizes) {
*da0073e9SAndroid Build Coastguard Worker  auto grad_physical = MultiBatchVmapTransform::logicalToPhysical(grad);
*da0073e9SAndroid Build Coastguard Worker  auto grad_input = at::zeros(grad_physical.getPhysicalShape(input_sizes), grad.options());
*da0073e9SAndroid Build Coastguard Worker  // Batched Diagonal View
*da0073e9SAndroid Build Coastguard Worker  auto grad_input_diag = at::diagonal(grad_input, /*offset*/0, /*dim1*/-2, /*dim2*/-1);
*da0073e9SAndroid Build Coastguard Worker  // Append a dimension of size one to the grad output
*da0073e9SAndroid Build Coastguard Worker  auto grad_physical_tensor = grad_physical.tensor().unsqueeze(-1);
*da0073e9SAndroid Build Coastguard Worker  grad_input_diag.copy_(grad_physical_tensor);
*da0073e9SAndroid Build Coastguard Worker  return grad_physical.getPhysicalToLogicalMap().apply(grad_input);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor transpose_int_batching_rule(const Tensor& self, int64_t dim0, int64_t dim1) {
*da0073e9SAndroid Build Coastguard Worker  // PyTorch has a special case where scalar_tensor.transpose(dim0, dim1) works
*da0073e9SAndroid Build Coastguard Worker  // for dim0, dim1 in {0, -1} and returns the scalar tensor. If the following happens:
*da0073e9SAndroid Build Coastguard Worker  // >>> x = torch.randn(B0)  # the per-examples are all scalars
*da0073e9SAndroid Build Coastguard Worker  // >>> vmap(lambda x: x.transpose(0, -1), x)
*da0073e9SAndroid Build Coastguard Worker  // then we replicate this behavior.
*da0073e9SAndroid Build Coastguard Worker  if (/*logical*/self.dim() == 0 && is_allowed_dim_on_scalar_tensor(dim0) &&
*da0073e9SAndroid Build Coastguard Worker      is_allowed_dim_on_scalar_tensor(dim1)) {
*da0073e9SAndroid Build Coastguard Worker    return self;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto dim0_physical = self_physical.getPhysicalDim(dim0);
*da0073e9SAndroid Build Coastguard Worker  auto dim1_physical = self_physical.getPhysicalDim(dim1);
*da0073e9SAndroid Build Coastguard Worker  auto result = self_physical.tensor().transpose(dim0_physical, dim1_physical);
*da0073e9SAndroid Build Coastguard Worker  return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor permute_batching_rule(const Tensor& self, IntArrayRef dims) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto dims_physical = self_physical.getPhysicalDims(dims);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  VmapDimVector all_dims_physical;
*da0073e9SAndroid Build Coastguard Worker  all_dims_physical.reserve(self_physical.tensor().dim());
*da0073e9SAndroid Build Coastguard Worker  for (const auto bdim : c10::irange(self_physical.numBatchDims())) {
*da0073e9SAndroid Build Coastguard Worker    all_dims_physical.push_back(bdim);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  all_dims_physical.insert(
*da0073e9SAndroid Build Coastguard Worker      all_dims_physical.end(),
*da0073e9SAndroid Build Coastguard Worker      dims_physical.begin(),
*da0073e9SAndroid Build Coastguard Worker      dims_physical.end());
*da0073e9SAndroid Build Coastguard Worker  auto result = self_physical.tensor().permute(all_dims_physical);
*da0073e9SAndroid Build Coastguard Worker  return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor select_batching_rule(const Tensor& self, int64_t dim, int64_t index) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto dim_physical = self_physical.getPhysicalDim(dim);
*da0073e9SAndroid Build Coastguard Worker  auto result = self_physical.tensor().select(dim_physical, index);
*da0073e9SAndroid Build Coastguard Worker  return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstatic int64_t getGradInputPhysicalDim(int64_t dim, IntArrayRef input_sizes, int64_t num_batch_dims) {
*da0073e9SAndroid Build Coastguard Worker  return maybe_wrap_dim(dim, input_sizes.size()) + num_batch_dims;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor select_backward_batching_rule(const Tensor& grad, IntArrayRef input_sizes, int64_t dim, int64_t index) {
*da0073e9SAndroid Build Coastguard Worker  auto grad_physical = MultiBatchVmapTransform::logicalToPhysical(grad);
*da0073e9SAndroid Build Coastguard Worker  auto grad_input = at::zeros(grad_physical.getPhysicalShape(input_sizes), grad.options());
*da0073e9SAndroid Build Coastguard Worker  auto physical_dim = getGradInputPhysicalDim(dim, input_sizes, grad_physical.numBatchDims());
*da0073e9SAndroid Build Coastguard Worker  grad_input.select(physical_dim, index).copy_(grad_physical.tensor());
*da0073e9SAndroid Build Coastguard Worker  return grad_physical.getPhysicalToLogicalMap().apply(grad_input);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor slice_batching_rule(
*da0073e9SAndroid Build Coastguard Worker    const Tensor& self,
*da0073e9SAndroid Build Coastguard Worker    int64_t dim,
*da0073e9SAndroid Build Coastguard Worker    std::optional<int64_t> start,
*da0073e9SAndroid Build Coastguard Worker    std::optional<int64_t> end,
*da0073e9SAndroid Build Coastguard Worker    int64_t step) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto dim_physical = self_physical.getPhysicalDim(dim);
*da0073e9SAndroid Build Coastguard Worker  auto result = self_physical.tensor().slice(dim_physical, start, end, step);
*da0073e9SAndroid Build Coastguard Worker  return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor slice_backward_batching_rule(const Tensor& grad, IntArrayRef input_sizes, int64_t dim, int64_t start, int64_t end, int64_t step) {
*da0073e9SAndroid Build Coastguard Worker  auto grad_physical = MultiBatchVmapTransform::logicalToPhysical(grad);
*da0073e9SAndroid Build Coastguard Worker  auto grad_input = at::zeros(grad_physical.getPhysicalShape(input_sizes), grad.options());
*da0073e9SAndroid Build Coastguard Worker  auto physical_dim = getGradInputPhysicalDim(dim, input_sizes, grad_physical.numBatchDims());
*da0073e9SAndroid Build Coastguard Worker  grad_input.slice(physical_dim, start, end, step).copy_(grad_physical.tensor());
*da0073e9SAndroid Build Coastguard Worker  return grad_physical.getPhysicalToLogicalMap().apply(grad_input);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor diagonal_batching_rule(const Tensor& self, int64_t offset, int64_t dim1, int64_t dim2) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto dim1_physical = self_physical.getPhysicalDim(dim1);
*da0073e9SAndroid Build Coastguard Worker  auto dim2_physical = self_physical.getPhysicalDim(dim2);
*da0073e9SAndroid Build Coastguard Worker  auto result = at::diagonal(self_physical.tensor(), offset, dim1_physical, dim2_physical);
*da0073e9SAndroid Build Coastguard Worker  return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor diagonal_backward_batching_rule(const Tensor& grad, IntArrayRef input_sizes, int64_t offset, int64_t dim1, int64_t dim2) {
*da0073e9SAndroid Build Coastguard Worker  auto grad_physical = MultiBatchVmapTransform::logicalToPhysical(grad);
*da0073e9SAndroid Build Coastguard Worker  auto grad_input = at::zeros(grad_physical.getPhysicalShape(input_sizes), grad.options());
*da0073e9SAndroid Build Coastguard Worker  auto dim1_physical = getGradInputPhysicalDim(dim1, input_sizes, grad_physical.numBatchDims());
*da0073e9SAndroid Build Coastguard Worker  auto dim2_physical = getGradInputPhysicalDim(dim2, input_sizes, grad_physical.numBatchDims());
*da0073e9SAndroid Build Coastguard Worker  grad_input.diagonal(offset, dim1_physical, dim2_physical).copy_(grad_physical.tensor());
*da0073e9SAndroid Build Coastguard Worker  return grad_physical.getPhysicalToLogicalMap().apply(grad_input);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor movedim_batching_rule(const Tensor& self, IntArrayRef source, IntArrayRef destination) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto source_physical = self_physical.getPhysicalDims(source);
*da0073e9SAndroid Build Coastguard Worker  auto destination_physical = self_physical.getPhysicalDims(destination);
*da0073e9SAndroid Build Coastguard Worker  auto result = at::movedim(self_physical.tensor(), source_physical, destination_physical);
*da0073e9SAndroid Build Coastguard Worker  return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor reshape_batching_rule(const Tensor& self, IntArrayRef shape) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto shape_physical = self_physical.getPhysicalShape(shape);
*da0073e9SAndroid Build Coastguard Worker  auto result = self_physical.tensor().reshape(shape_physical);
*da0073e9SAndroid Build Coastguard Worker  return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstd::vector<Tensor> split_batching_rule(const Tensor& self, int64_t split_size, int64_t dim) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto dim_physical = self_physical.getPhysicalDim(dim);
*da0073e9SAndroid Build Coastguard Worker  auto result = at::split(self_physical.tensor(), split_size, dim_physical);
*da0073e9SAndroid Build Coastguard Worker  self_physical.getPhysicalToLogicalMap().applyInplace(result);
*da0073e9SAndroid Build Coastguard Worker  return result;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstd::vector<Tensor> split_with_sizes_batching_rule(const Tensor& self, IntArrayRef split_sizes, int64_t dim) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto dim_physical = self_physical.getPhysicalDim(dim);
*da0073e9SAndroid Build Coastguard Worker  auto result = at::split_with_sizes(self_physical.tensor(), split_sizes, dim_physical);
*da0073e9SAndroid Build Coastguard Worker  self_physical.getPhysicalToLogicalMap().applyInplace(result);
*da0073e9SAndroid Build Coastguard Worker  return result;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerstd::vector<Tensor> unbind_batching_rule(const Tensor& self, int64_t dim) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto dim_physical = self_physical.getPhysicalDim(dim);
*da0073e9SAndroid Build Coastguard Worker  auto result = at::unbind(self_physical.tensor(), dim_physical);
*da0073e9SAndroid Build Coastguard Worker  self_physical.getPhysicalToLogicalMap().applyInplace(result);
*da0073e9SAndroid Build Coastguard Worker  return result;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor unfold_batching_rule(const Tensor& self, int64_t dim, int64_t size, int64_t step) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto dim_physical = self_physical.getPhysicalDim(dim);
*da0073e9SAndroid Build Coastguard Worker  auto result = self_physical.tensor().unfold(dim_physical, size, step);
*da0073e9SAndroid Build Coastguard Worker  return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor contiguous_batching_rule(const Tensor& self, MemoryFormat memory_format) {
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(memory_format == MemoryFormat::Contiguous,
*da0073e9SAndroid Build Coastguard Worker      "NYI: Tensor.contiguous(...) inside of vmap for memory_format other ",
*da0073e9SAndroid Build Coastguard Worker      "than torch.contiguous_format");
*da0073e9SAndroid Build Coastguard Worker  auto physical_view = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto result = physical_view.tensor().contiguous(memory_format);
*da0073e9SAndroid Build Coastguard Worker  return physical_view.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor view_batching_rule(const Tensor& self, IntArrayRef size) {
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto size_physical = self_physical.getPhysicalShape(size);
*da0073e9SAndroid Build Coastguard Worker  auto result = self_physical.tensor().view(size_physical);
*da0073e9SAndroid Build Coastguard Worker  return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor view_as_complex_batching_rule(const Tensor& self) {
*da0073e9SAndroid Build Coastguard Worker  // guard against the user passing in a batch of scalar tensors with batch
*da0073e9SAndroid Build Coastguard Worker  // size equal to 2.
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(!self.sizes().empty(), "Input tensor must have one or more dimensions");
*da0073e9SAndroid Build Coastguard Worker  auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto result = at::view_as_complex(self_physical.tensor());
*da0073e9SAndroid Build Coastguard Worker  return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// Checks that the smallest batch stride is greater than the largest example
*da0073e9SAndroid Build Coastguard Worker// stride. This is something we can support but we choose not to because it's
*da0073e9SAndroid Build Coastguard Worker// potentially error prone.
*da0073e9SAndroid Build Coastguard Workerstatic void checkBatchDimsAtFrontInLayout(IntArrayRef physical_strides, int64_t num_batch_dims) {
*da0073e9SAndroid Build Coastguard Worker  auto smallest_batch_stride = std::min_element(
*da0073e9SAndroid Build Coastguard Worker      physical_strides.begin(), physical_strides.begin() + num_batch_dims);
*da0073e9SAndroid Build Coastguard Worker  auto largest_example_stride = std::max_element(
*da0073e9SAndroid Build Coastguard Worker      physical_strides.begin() + num_batch_dims, physical_strides.end());
*da0073e9SAndroid Build Coastguard Worker  if (largest_example_stride == physical_strides.end()) {
*da0073e9SAndroid Build Coastguard Worker    // No example dimensions
*da0073e9SAndroid Build Coastguard Worker    return;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(*smallest_batch_stride >= *largest_example_stride,
*da0073e9SAndroid Build Coastguard Worker    "vmap: Calling Tensor.as_strided is not supported unless the batch dims being ",
*da0073e9SAndroid Build Coastguard Worker    "vmapped over are at the front of the tensor (in memory layout). When they are ",
*da0073e9SAndroid Build Coastguard Worker    "not at the front of the tensor this operation can be error prone so we "
*da0073e9SAndroid Build Coastguard Worker    "actively discourage it; please file us a bug report and/or try to ",
*da0073e9SAndroid Build Coastguard Worker    "express the as_strided operation in terms of PyTorch view operations");
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// given (sizes, strides, storage_offset) returns the maximum location that
*da0073e9SAndroid Build Coastguard Worker// can be indexed (or nullopt if such a location doesn't exist, e.g., tensors
*da0073e9SAndroid Build Coastguard Worker// with zero-size dims).
*da0073e9SAndroid Build Coastguard Workerstatic std::optional<int64_t> maximum_indexable_location(
*da0073e9SAndroid Build Coastguard Worker    IntArrayRef sizes, IntArrayRef strides, int64_t storage_offset) {
*da0073e9SAndroid Build Coastguard Worker  auto result = native::storage_size_for(sizes, strides);
*da0073e9SAndroid Build Coastguard Worker  if (result == 0) {
*da0073e9SAndroid Build Coastguard Worker    return std::nullopt;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  return result + storage_offset;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// Let x be the "first slice" of physical_tensor.
*da0073e9SAndroid Build Coastguard Worker// This checks that the range of possible memory locations accessible by
*da0073e9SAndroid Build Coastguard Worker// x.as_strided(sizes, strides, maybe_storage_offset)
*da0073e9SAndroid Build Coastguard Worker// are within the bounds of possible memory locations accessible by x.
*da0073e9SAndroid Build Coastguard Workerstatic void checkBasicAsStridedValidForSlice(
*da0073e9SAndroid Build Coastguard Worker    const Tensor& physical_tensor,
*da0073e9SAndroid Build Coastguard Worker    int64_t num_batch_dims,
*da0073e9SAndroid Build Coastguard Worker    IntArrayRef sizes,
*da0073e9SAndroid Build Coastguard Worker    IntArrayRef strides,
*da0073e9SAndroid Build Coastguard Worker    std::optional<int64_t> maybe_storage_offset) {
*da0073e9SAndroid Build Coastguard Worker  auto slice_sizes = physical_tensor.sizes().slice(num_batch_dims);
*da0073e9SAndroid Build Coastguard Worker  auto slice_strides = physical_tensor.strides().slice(num_batch_dims);
*da0073e9SAndroid Build Coastguard Worker  auto base_offset = physical_tensor.storage_offset();
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  auto storage_offset = maybe_storage_offset.value_or(base_offset);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  auto max_as_strided_loc = maximum_indexable_location(sizes, strides, storage_offset);
*da0073e9SAndroid Build Coastguard Worker  auto max_slice_loc = maximum_indexable_location(slice_sizes, slice_strides, base_offset);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  if (!max_as_strided_loc.has_value()) {
*da0073e9SAndroid Build Coastguard Worker    return;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  if (!max_slice_loc.has_value()) {
*da0073e9SAndroid Build Coastguard Worker    TORCH_CHECK(false,
*da0073e9SAndroid Build Coastguard Worker        "result = tensor.as_strided(", sizes, ",",  strides, ",", storage_offset, ")",
*da0073e9SAndroid Build Coastguard Worker        "can access memory outside of `tensor`. `tensor` has no storage but the ",
*da0073e9SAndroid Build Coastguard Worker        "passed-in (size, stride, storage_offset) imply a result with some storage. ",
*da0073e9SAndroid Build Coastguard Worker        "This is not supported inside of vmap, please try to rewrite the ",
*da0073e9SAndroid Build Coastguard Worker        "`as_strided` call as a sequence of PyTorch view operations");
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(
*da0073e9SAndroid Build Coastguard Worker      *max_as_strided_loc <= *max_slice_loc && base_offset <= storage_offset,
*da0073e9SAndroid Build Coastguard Worker      "result = tensor.as_strided(", sizes, ",",  strides, ",", storage_offset, ")",
*da0073e9SAndroid Build Coastguard Worker      "can access memory outside of `tensor`. `result` can access some",
*da0073e9SAndroid Build Coastguard Worker      "memory in range [", storage_offset, ", ", *max_as_strided_loc, "], but ",
*da0073e9SAndroid Build Coastguard Worker      "`tensor` can only access some memory in range [", base_offset, ", ",
*da0073e9SAndroid Build Coastguard Worker      *max_slice_loc, "]. This is not supported inside of vmap, please try to",
*da0073e9SAndroid Build Coastguard Worker      "rewrite the `as_strided` call as a sequence of PyTorch view operations");
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor _reshape_alias_batching_rule(const Tensor& self, IntArrayRef sizes, IntArrayRef strides [[maybe_unused]]) {
*da0073e9SAndroid Build Coastguard Worker  return reshape_batching_rule(self, sizes);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor _new_zeros_with_same_feature_meta_batching_rule(
*da0073e9SAndroid Build Coastguard Worker    const Tensor& self,
*da0073e9SAndroid Build Coastguard Worker    const Tensor& other,
*da0073e9SAndroid Build Coastguard Worker    int64_t unused_num_batch_dims) {
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(isBatchedTensor(self) && !isBatchedTensor(other),
*da0073e9SAndroid Build Coastguard Worker    "Only the 'batched grad' use case is supported in PyTorch core.");
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  TORCH_INTERNAL_ASSERT(unused_num_batch_dims == 0,
*da0073e9SAndroid Build Coastguard Worker    "num_batch_dims should not be explicitly passed in because it will be overridden");
*da0073e9SAndroid Build Coastguard Worker  auto self_physical_view = at::MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  const auto& self_physical_tensor = self_physical_view.tensor();
*da0073e9SAndroid Build Coastguard Worker  int64_t num_batch_dims = self_physical_view.numBatchDims();
*da0073e9SAndroid Build Coastguard Worker  checkBatchDimsAtFrontInLayout(self_physical_tensor.strides(), num_batch_dims);
*da0073e9SAndroid Build Coastguard Worker  auto result = at::_new_zeros_with_same_feature_meta(self_physical_tensor, other, num_batch_dims);
*da0073e9SAndroid Build Coastguard Worker  return self_physical_view.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerbool _has_same_storage_numel_batching_rule(const Tensor& self, const Tensor& other) {
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(isBatchedTensor(self) && !isBatchedTensor(other),
*da0073e9SAndroid Build Coastguard Worker    "Only the 'batched grad' use case is supported in PyTorch core.");
*da0073e9SAndroid Build Coastguard Worker  // The _has_same_storage_numel check is skipped if the tangent is a batched
*da0073e9SAndroid Build Coastguard Worker  // tensor because using as_strided to access storage locations not indexable
*da0073e9SAndroid Build Coastguard Worker  // by the input tensor is not supported in vmap
*da0073e9SAndroid Build Coastguard Worker  return true;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// What are the semantics of as_strided inside of vmap?
*da0073e9SAndroid Build Coastguard Worker// y = vmap(lambda x: x.as_strided(sizes, strides, offset))(xs)
*da0073e9SAndroid Build Coastguard Worker// This returns a view on `x`, `y`, such that each y[i] has:
*da0073e9SAndroid Build Coastguard Worker// - sizes: `sizes`
*da0073e9SAndroid Build Coastguard Worker// - strides: `strides`
*da0073e9SAndroid Build Coastguard Worker// - storage_offset: offset + i * x.stride(batch_dim)
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// In other words, it is as if we had treated each x[i] as having storage
*da0073e9SAndroid Build Coastguard Worker// offset equal to xs.offset() and called as_strided(sizes, sizes, offset).
*da0073e9SAndroid Build Coastguard Worker// (that is equivalent to x[i].as_strided(
*da0073e9SAndroid Build Coastguard Worker//    sizes, sizes, offset + x[i].storage_offset() - xs.offset()) for all i)
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// Note that this *may* be different from actually running as_strided
*da0073e9SAndroid Build Coastguard Worker// in a for-loop. This is due to how as_strided takes in `offset` to be
*da0073e9SAndroid Build Coastguard Worker// an *absolute* offset. As an example, consider:
*da0073e9SAndroid Build Coastguard Worker// >>> x = torch.tensor([0., 1., 2., 3., 4.]).as_strided([4], [1], 1)
*da0073e9SAndroid Build Coastguard Worker// >>> z = [x[i].as_strided([1], [1], 1) for i in range(4)]
*da0073e9SAndroid Build Coastguard Worker// Each z[i] is actually the same view on x (z[i] == torch.tensor([1.]))!
*da0073e9SAndroid Build Coastguard Worker// However, we consider the above for-loop comprehension to be a user error:
*da0073e9SAndroid Build Coastguard Worker// a user should have written the following if they wanted to use as_strided
*da0073e9SAndroid Build Coastguard Worker// in a per-sample way:
*da0073e9SAndroid Build Coastguard Worker// >>> z = [x[i].as_strided([1], [1], 1 + x[i].storage_offset() - 1) for i in range(4)]
*da0073e9SAndroid Build Coastguard WorkerTensor as_strided_batching_rule(
*da0073e9SAndroid Build Coastguard Worker    const Tensor& tensor,
*da0073e9SAndroid Build Coastguard Worker    IntArrayRef sizes,
*da0073e9SAndroid Build Coastguard Worker    IntArrayRef strides,
*da0073e9SAndroid Build Coastguard Worker    std::optional<int64_t> storage_offset) {
*da0073e9SAndroid Build Coastguard Worker  auto physical_view = at::MultiBatchVmapTransform::logicalToPhysical(tensor);
*da0073e9SAndroid Build Coastguard Worker  auto num_batch_dims = physical_view.numBatchDims();
*da0073e9SAndroid Build Coastguard Worker  auto physical_sizes = physical_view.getPhysicalShape(sizes);
*da0073e9SAndroid Build Coastguard Worker  const auto& physical_tensor = physical_view.tensor();
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // We can't rely on the physical as_strided call to do this for us because
*da0073e9SAndroid Build Coastguard Worker  // we do some sanity checks on the size/strides before calling into as_strided.
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(sizes.size() == strides.size(),
*da0073e9SAndroid Build Coastguard Worker      "Tensor.as_strided(size, stride, ...): size and stride must have the ",
*da0073e9SAndroid Build Coastguard Worker      "same length! Got size ", sizes, " and stride ", strides);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Sanity checks:
*da0073e9SAndroid Build Coastguard Worker  // 1. All batch dims are at the front in memory layout (not necessary for
*da0073e9SAndroid Build Coastguard Worker  // correctness, but we are worried the user might be doing crazy things)
*da0073e9SAndroid Build Coastguard Worker  // 2. as_strided(sizes, strides, storage_offset + tensor[i].offset() - tensor.offset())
*da0073e9SAndroid Build Coastguard Worker  // is valid for a slice of the input tensor.
*da0073e9SAndroid Build Coastguard Worker  // See Note: [When will the as_strided batching rule fail?] for details.
*da0073e9SAndroid Build Coastguard Worker  checkBatchDimsAtFrontInLayout(physical_tensor.strides(), num_batch_dims);
*da0073e9SAndroid Build Coastguard Worker  checkBasicAsStridedValidForSlice(
*da0073e9SAndroid Build Coastguard Worker      physical_tensor, num_batch_dims, sizes, strides, storage_offset);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // physical_strides = physical tensor's batch strides + (logical) strides
*da0073e9SAndroid Build Coastguard Worker  auto batch_strides = physical_tensor.strides().slice(0, num_batch_dims);
*da0073e9SAndroid Build Coastguard Worker  at::VmapDimVector physical_strides;
*da0073e9SAndroid Build Coastguard Worker  physical_strides.reserve(num_batch_dims + strides.size());
*da0073e9SAndroid Build Coastguard Worker  physical_strides.insert(
*da0073e9SAndroid Build Coastguard Worker      physical_strides.end(), batch_strides.begin(), batch_strides.end());
*da0073e9SAndroid Build Coastguard Worker  physical_strides.insert(
*da0073e9SAndroid Build Coastguard Worker      physical_strides.end(), strides.begin(), strides.end());
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // If zi = xs[i].as_strided(sizes, strides, offset + xs[i].offset() - xs.offset())
*da0073e9SAndroid Build Coastguard Worker  // is valid for all i, then it turns out that
*da0073e9SAndroid Build Coastguard Worker  // xs.as_strided(physical_sizes, physical_strides, offset) always succeeds
*da0073e9SAndroid Build Coastguard Worker  // and creates a tensor y such that each y[i] references the same memory
*da0073e9SAndroid Build Coastguard Worker  // locations as zi. See NOTE: [When will the as_strided batching rule fail?]
*da0073e9SAndroid Build Coastguard Worker  auto result = physical_view.tensor().as_strided(
*da0073e9SAndroid Build Coastguard Worker      physical_sizes, physical_strides, storage_offset);
*da0073e9SAndroid Build Coastguard Worker  return physical_view.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// NOTE: [When will the as_strided batching rule fail?]
*da0073e9SAndroid Build Coastguard Worker// If zi = xs[i].as_strided(sizes, strides, offset + xs[i].offset() - xs.offset())
*da0073e9SAndroid Build Coastguard Worker// is valid for all i, then it turns out that
*da0073e9SAndroid Build Coastguard Worker// xs.as_strided(physical_sizes, physical_strides, offset) always succeeds and
*da0073e9SAndroid Build Coastguard Worker// creates a tensor y such that each y[i] refers to the same memory as zi.
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// Let's say we have xs[i].as_strided(sizes, strides, offset + xs[i].offset() - xs.offset()).
*da0073e9SAndroid Build Coastguard Worker// Furthermore, let's say that as a part of being "valid" this as_strided call
*da0073e9SAndroid Build Coastguard Worker// does not return a result that can index memory not indexable by xs[i].
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// WLOG, assume that there's only one batch dim and it is at the front of the
*da0073e9SAndroid Build Coastguard Worker// `xs` tensor. Let B be the batch size and S be the stride of the batch dim.
*da0073e9SAndroid Build Coastguard Worker// - If the batch dim isn't at the front of the tensor, then we can just move it
*da0073e9SAndroid Build Coastguard Worker// to the front with movedim/permute. This is always valid because it just swaps
*da0073e9SAndroid Build Coastguard Worker// some strides around.
*da0073e9SAndroid Build Coastguard Worker// - This proof also works for tensors with multiple batch dims. We just have to
*da0073e9SAndroid Build Coastguard Worker// do a little accounting:
*da0073e9SAndroid Build Coastguard Worker//   - instead of [B], we'd have [B0, B1, ..., Bk].
*da0073e9SAndroid Build Coastguard Worker//   - instead of [S], we'd have [S0, S1, ..., Sk].
*da0073e9SAndroid Build Coastguard Worker//   - instead of i, we'd have a list of indices [I0, I1, ..., Ik]
*da0073e9SAndroid Build Coastguard Worker//   - instead of S * I, we'd have \sum_{i=0}^k S_i * I_i
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// [Equation 1]
*da0073e9SAndroid Build Coastguard Worker// xs[i].as_strided(sizes, strides, offset + xs[i].offset() - xs.offset()) has:
*da0073e9SAndroid Build Coastguard Worker// - sizes: sizes
*da0073e9SAndroid Build Coastguard Worker// - strides: strides
*da0073e9SAndroid Build Coastguard Worker// - offset: offset + S * i
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// x.as_strided itself checks that:
*da0073e9SAndroid Build Coastguard Worker// - (sizes, strides, offset) are in bounds for `x`'s storage.
*da0073e9SAndroid Build Coastguard Worker// - strides are positive
*da0073e9SAndroid Build Coastguard Worker// - offset is positive
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// Claim 1: if xs[i].as_strided(sizes, strides, offset + xs[i].offset() - xs.offset())
*da0073e9SAndroid Build Coastguard Worker// is valid, then
*da0073e9SAndroid Build Coastguard Worker// ([B] + sizes, [S] + strides, offset + xs.offset()) are in bounds for `xs`'s storage.
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// If we have the claim, then xs.as_strided([B] + sizes, [S] + strides, offset)
*da0073e9SAndroid Build Coastguard Worker// won't error out. So all we need to check is that the memory locations are
*da0073e9SAndroid Build Coastguard Worker// what we expected. See [Hand-wavy proof of Claim 1] for proof (it's not very important)
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// xs.as_strided(physical_sizes, physical_strides, offset) is equivalent to
*da0073e9SAndroid Build Coastguard Worker// xs.as_strided([B] + sizes, [S] + strides, offset)
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// xs.as_strided([B] + sizes, [S] + strides, offset) has:
*da0073e9SAndroid Build Coastguard Worker// - sizes: [B] + sizes
*da0073e9SAndroid Build Coastguard Worker// - strides: [S] + strides
*da0073e9SAndroid Build Coastguard Worker// - offset: offset
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// xs.as_strided([B] + sizes, [S] + strides, offset)[i] has:
*da0073e9SAndroid Build Coastguard Worker// - sizes: sizes
*da0073e9SAndroid Build Coastguard Worker// - strides: strides
*da0073e9SAndroid Build Coastguard Worker// - offset: offset + S * i
*da0073e9SAndroid Build Coastguard Worker// These memory locations are exactly the same as what we got for [Equation 1],
*da0073e9SAndroid Build Coastguard Worker// so the xs.as_strided([B] + sizes, [S] + strides, offset) is valid.
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// [Hand-wavy proof of Claim 1]
*da0073e9SAndroid Build Coastguard Worker// Part of our definition of being valid is that xs[i].as_strided(...)
*da0073e9SAndroid Build Coastguard Worker// must return a tensor that only uses memory indexable by xs[i].
*da0073e9SAndroid Build Coastguard Worker// This means that (sizes, strides, offset + xs[i].offset() - xs.offset()) satisfies:
*da0073e9SAndroid Build Coastguard Worker//    offset + xs[i].offset() - xs.offset() + 1 + \sum_j (sizes[j] - 1) * strides[j]
*da0073e9SAndroid Build Coastguard Worker//    <= xs[i].offset() + 1 + \sum_j (xs[i].size(j) - 1) * xs[i].stride(j)
*da0073e9SAndroid Build Coastguard Worker// (the largest-index memory location of xs[i].as_strided(...) must be \leq
*da0073e9SAndroid Build Coastguard Worker// the largest-index memory location of xs[i])
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// Fiddling that inequality gives us:
*da0073e9SAndroid Build Coastguard Worker//    offset - xs.offset() + 1 + \sum_j (sizes[j] - 1) * strides[j]
*da0073e9SAndroid Build Coastguard Worker//    <= 1 + \sum_j (xs[i].size(j) - 1) * xs[i].stride(j)
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker//    offset - xs.offset() + 1 + (B-1)*S + \sum_j (sizes[j] - 1) * strides[j]
*da0073e9SAndroid Build Coastguard Worker//    <= 1 + (B-1)*S + \sum_j (xs[i].size(j) - 1) * xs[i].stride(j)
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker//    offset - xs.offset() + 1 + (B-1)*S + \sum_j (sizes[j] - 1) * strides[j]
*da0073e9SAndroid Build Coastguard Worker//    <= 1 + \sum_j (xs.size(j) - 1) * xs.stride(j)
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker//    offset + 1 + (B-1)*S + \sum_j (sizes[j] - 1) * strides[j]
*da0073e9SAndroid Build Coastguard Worker//    <= xs.offset() + 1 + \sum_j (xs.size(j) - 1) * xs.stride(j)
*da0073e9SAndroid Build Coastguard Worker// (the largest-index memory location of xs.as_strided(size, stride, offset)
*da0073e9SAndroid Build Coastguard Worker// is \leq than the largest-index memory location of xs)
*da0073e9SAndroid Build Coastguard Worker// Under the assumptions we've made, the lower bound (lowest indexed memory)
*da0073e9SAndroid Build Coastguard Worker// is trivially within the storage.
*da0073e9SAndroid Build Coastguard Worker//
*da0073e9SAndroid Build Coastguard Worker// Therefore ([B] + sizes, [S] + strides, offset) are in bounds for
*da0073e9SAndroid Build Coastguard Worker// `xs`'s storage.
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertemplate <typename F, F Func, typename... ExtraArgs>
*da0073e9SAndroid Build Coastguard WorkerTensor unwrap_and_call(const Tensor& input, ExtraArgs... args) {
*da0073e9SAndroid Build Coastguard Worker  auto* input_batched = unsafeGetBatchedImpl(input);
*da0073e9SAndroid Build Coastguard Worker  auto output_physical = Func(input_batched->value(), args...);
*da0073e9SAndroid Build Coastguard Worker  auto old_bdims = input_batched->bdims();
*da0073e9SAndroid Build Coastguard Worker  return makeBatched(output_physical, BatchDims(old_bdims.begin(), old_bdims.end()));
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertemplate <typename F, F Func, typename... ExtraArgs>
*da0073e9SAndroid Build Coastguard WorkerTensor unwrap_and_call_method(const Tensor& input, ExtraArgs... extra_args) {
*da0073e9SAndroid Build Coastguard Worker  auto* input_batched = unsafeGetBatchedImpl(input);
*da0073e9SAndroid Build Coastguard Worker  auto output_physical = (input_batched->value().*Func)(extra_args...);
*da0073e9SAndroid Build Coastguard Worker  auto old_bdims = input_batched->bdims();
*da0073e9SAndroid Build Coastguard Worker  return makeBatched(output_physical, BatchDims(old_bdims.begin(), old_bdims.end()));
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor pow_scalar_Tensor_batching_rule(const Scalar& other, const Tensor& self) {
*da0073e9SAndroid Build Coastguard Worker  auto* self_batched = unsafeGetBatchedImpl(self);
*da0073e9SAndroid Build Coastguard Worker  auto output_physical = at::pow(other, self_batched->value());
*da0073e9SAndroid Build Coastguard Worker  auto old_bdims = self_batched->bdims();
*da0073e9SAndroid Build Coastguard Worker  return makeBatched(output_physical, BatchDims(old_bdims.begin(), old_bdims.end()));
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor clone_batching_rule(const Tensor& self, std::optional<MemoryFormat> memory_format) {
*da0073e9SAndroid Build Coastguard Worker  // Memory format support is a little tricky because vmap is allowed to move
*da0073e9SAndroid Build Coastguard Worker  // around batch dimensions and some memory formats are rank-dependent.
*da0073e9SAndroid Build Coastguard Worker  // Another weird case is:
*da0073e9SAndroid Build Coastguard Worker  // - a tensor with MemoryFormat::ChannelsLast MUST have 4 dimensions. Do we
*da0073e9SAndroid Build Coastguard Worker  //   allow the user to clone a Tensor with 3 logical dimensions and 1 batch
*da0073e9SAndroid Build Coastguard Worker  //   dim into a ChannelsLast Tensor? What about a Tensor with 3 logical dims
*da0073e9SAndroid Build Coastguard Worker  //   and N>1 batch dims?
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(!memory_format.has_value() || memory_format == MemoryFormat::Preserve
*da0073e9SAndroid Build Coastguard Worker      || memory_format == MemoryFormat::Contiguous,
*da0073e9SAndroid Build Coastguard Worker      "NYI: Tensor.clone(memory_format) inside vmap is only supported with ",
*da0073e9SAndroid Build Coastguard Worker      "memory_format torch.preserve_format or torch.contiguous_format (got ",
*da0073e9SAndroid Build Coastguard Worker      *memory_format, ")");
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  if (memory_format == MemoryFormat::Contiguous) {
*da0073e9SAndroid Build Coastguard Worker    // There is an ambiguity here when the batch dims are not at the front of
*da0073e9SAndroid Build Coastguard Worker    // the tensor.
*da0073e9SAndroid Build Coastguard Worker    // >>> x = torch.randn(3, B0, 5)
*da0073e9SAndroid Build Coastguard Worker    // >>> y = vmap(lambda x: x.clone(torch.contiguous_format), in_dims=1, out_dims=0)(x)
*da0073e9SAndroid Build Coastguard Worker    // >>> y[0].is_contiguous()
*da0073e9SAndroid Build Coastguard Worker    // ???
*da0073e9SAndroid Build Coastguard Worker    // Should we make the whole tensor contiguous, or should we
*da0073e9SAndroid Build Coastguard Worker    // make the non-batch dims contiguous? We've chosen the latter because
*da0073e9SAndroid Build Coastguard Worker    // philosophically vmap hides the batch dims and operates on a per-sample level.
*da0073e9SAndroid Build Coastguard Worker    auto physical_view = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker    auto output_physical = at::clone(physical_view.tensor(), memory_format);
*da0073e9SAndroid Build Coastguard Worker    return physical_view.getPhysicalToLogicalMap().apply(output_physical);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  TORCH_INTERNAL_ASSERT(!memory_format.has_value() || memory_format == MemoryFormat::Preserve);
*da0073e9SAndroid Build Coastguard Worker  auto* self_batched = unsafeGetBatchedImpl(self);
*da0073e9SAndroid Build Coastguard Worker  auto output_physical = at::clone(self_batched->value(), memory_format);
*da0073e9SAndroid Build Coastguard Worker  auto old_bdims = self_batched->bdims();
*da0073e9SAndroid Build Coastguard Worker  return makeBatched(output_physical, BatchDims(old_bdims.begin(), old_bdims.end()));
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// Note [Batching rules for matmul-like operators]
*da0073e9SAndroid Build Coastguard Worker// at::matmul doesn't "de-expand" arguments to get better performance (maybe
*da0073e9SAndroid Build Coastguard Worker// it should). In the batching rules for matmul-like operators (dot, mv, mm),
*da0073e9SAndroid Build Coastguard Worker// we should be careful not to expand any unnecessary dimensions. e.g., if
*da0073e9SAndroid Build Coastguard Worker// only one of the two arguments is a BatchedTensor, then we should try
*da0073e9SAndroid Build Coastguard Worker// not to expand batch dimensions onto the other arg.
*da0073e9SAndroid Build Coastguard WorkerTensor mv_batching_rule(const Tensor& self, const Tensor& other) {
*da0073e9SAndroid Build Coastguard Worker  auto self_batched = isBatchedTensor(self);
*da0073e9SAndroid Build Coastguard Worker  auto other_batched = isBatchedTensor(other);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // A shape checking API would be nice...
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(self.dim() == 2 && other.dim() == 1,
*da0073e9SAndroid Build Coastguard Worker      "mv(self, other): Shape mismatch: expected matrix "
*da0073e9SAndroid Build Coastguard Worker      "(got `self` of size ", self.sizes(), ") ",
*da0073e9SAndroid Build Coastguard Worker      "and vector (got `other` of size ", other.sizes(), ")");
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // See Note [Batching rules for matmul-like operators] for why we have cases
*da0073e9SAndroid Build Coastguard Worker  if (self_batched && !other_batched) {
*da0073e9SAndroid Build Coastguard Worker    auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker    auto result = at::matmul(self_physical.tensor(), other);
*da0073e9SAndroid Build Coastguard Worker    return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  if (!self_batched && other_batched) {
*da0073e9SAndroid Build Coastguard Worker    // self_physical: [L, K], other_physical: [..., K]
*da0073e9SAndroid Build Coastguard Worker    // We view the tensors as [L, K], [..., K, 1], perform matmul to get
*da0073e9SAndroid Build Coastguard Worker    // a tensor of size [..., L, 1], and unsqueeze the last dim.
*da0073e9SAndroid Build Coastguard Worker    auto other_physical = MultiBatchVmapTransform::logicalToPhysical(other);
*da0073e9SAndroid Build Coastguard Worker    auto result = at::matmul(self, other_physical.tensor().unsqueeze(-1));
*da0073e9SAndroid Build Coastguard Worker    return other_physical.getPhysicalToLogicalMap().apply(result.squeeze(-1));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  if (self_batched && other_batched) {
*da0073e9SAndroid Build Coastguard Worker    // self_physical: [..., L, K], other_physical: [..., K]
*da0073e9SAndroid Build Coastguard Worker    // We view the tensors as [..., L, K], [..., K, 1], perform matmul to get
*da0073e9SAndroid Build Coastguard Worker    // a tensor of size [..., L, 1], and unsqueeze the last dim.
*da0073e9SAndroid Build Coastguard Worker    auto physical_args = MultiBatchVmapTransform::logicalToPhysical({self, other});
*da0073e9SAndroid Build Coastguard Worker    auto result = at::matmul(
*da0073e9SAndroid Build Coastguard Worker        physical_args[0].tensor(),
*da0073e9SAndroid Build Coastguard Worker        physical_args[1].tensor().unsqueeze(-1));
*da0073e9SAndroid Build Coastguard Worker    return physical_args[0].getPhysicalToLogicalMap().apply(result.squeeze(-1));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  TORCH_INTERNAL_ASSERT(false, "either self or other must be a BatchedTensor");
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor _make_dual_batching_rule(
*da0073e9SAndroid Build Coastguard Worker  c10::DispatchKeySet ks,
*da0073e9SAndroid Build Coastguard Worker  const Tensor& primal,
*da0073e9SAndroid Build Coastguard Worker  const Tensor& tangent,
*da0073e9SAndroid Build Coastguard Worker  int64_t level
*da0073e9SAndroid Build Coastguard Worker) {
*da0073e9SAndroid Build Coastguard Worker  DispatchKeySet after_batched_keyset =
*da0073e9SAndroid Build Coastguard Worker      DispatchKeySet(DispatchKeySet::FULL_AFTER, c10::DispatchKey::Batched);
*da0073e9SAndroid Build Coastguard Worker  return at::redispatch::_make_dual(ks & after_batched_keyset, primal, tangent, level);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor dot_batching_rule(const Tensor& self, const Tensor& other) {
*da0073e9SAndroid Build Coastguard Worker  auto self_batched = isBatchedTensor(self);
*da0073e9SAndroid Build Coastguard Worker  auto other_batched = isBatchedTensor(other);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(/*logical*/self.dim() == 1 && /*logical*/other.dim() == 1,
*da0073e9SAndroid Build Coastguard Worker      "dot(self, other): Shape mismatch: vector "
*da0073e9SAndroid Build Coastguard Worker      "(got `self` of size ", self.sizes(), ") ",
*da0073e9SAndroid Build Coastguard Worker      "and vector (got `other` of size ", other.sizes(), ")");
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // See Note [Batching rules for matmul-like operators] for why we have cases
*da0073e9SAndroid Build Coastguard Worker  if (self_batched && !other_batched) {
*da0073e9SAndroid Build Coastguard Worker    // self_physical: [..., K], other_physical: [K]
*da0073e9SAndroid Build Coastguard Worker    // View the tensors as [..., 1, K] and [K], perform matmul, and unsqueeze.
*da0073e9SAndroid Build Coastguard Worker    auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker    auto result = at::matmul(self_physical.tensor().unsqueeze(-2), other);
*da0073e9SAndroid Build Coastguard Worker    return self_physical.getPhysicalToLogicalMap().apply(result.squeeze(-1));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  if (!self_batched && other_batched) {
*da0073e9SAndroid Build Coastguard Worker    // self_physical: [K], other_physical: [..., K]
*da0073e9SAndroid Build Coastguard Worker    // View the tensors as [K] and [..., K, 1], perform matmul, and unsqueeze.
*da0073e9SAndroid Build Coastguard Worker    auto other_physical = MultiBatchVmapTransform::logicalToPhysical(other);
*da0073e9SAndroid Build Coastguard Worker    auto result = at::matmul(self, other_physical.tensor().unsqueeze(-1));
*da0073e9SAndroid Build Coastguard Worker    return other_physical.getPhysicalToLogicalMap().apply(result.squeeze(-1));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  if (self_batched && other_batched) {
*da0073e9SAndroid Build Coastguard Worker    // self_physical: [..., K], other_physical: [..., K]
*da0073e9SAndroid Build Coastguard Worker    // View the tensors as [..., 1, K] and [..., K, 1], perform matmul, and unsqueeze.
*da0073e9SAndroid Build Coastguard Worker    auto physical_args = MultiBatchVmapTransform::logicalToPhysical({self, other});
*da0073e9SAndroid Build Coastguard Worker    auto result = at::matmul(
*da0073e9SAndroid Build Coastguard Worker        physical_args[0].tensor().unsqueeze(-2),
*da0073e9SAndroid Build Coastguard Worker        physical_args[1].tensor().unsqueeze(-1));
*da0073e9SAndroid Build Coastguard Worker    return physical_args[0].getPhysicalToLogicalMap().apply(result.squeeze(-1).squeeze(-1));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  TORCH_INTERNAL_ASSERT(false, "either self or other must be a BatchedTensor");
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor bmm_batching_rule(const Tensor& self, const Tensor& other) {
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(/*logical*/self.dim() == 3 && /*logical*/other.dim() == 3,
*da0073e9SAndroid Build Coastguard Worker      "bmm(self, other): Shape mismatch: expected 3D `self` "
*da0073e9SAndroid Build Coastguard Worker      "(got `self` of size ", self.sizes(), ") ",
*da0073e9SAndroid Build Coastguard Worker      "and 3D `other` (got `other` of size ", other.sizes(), ")");
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  auto physical_args = BroadcastingVmapTransform::logicalToPhysical({self, other});
*da0073e9SAndroid Build Coastguard Worker  auto result = at::matmul(physical_args[0].tensor(), physical_args[1].tensor());
*da0073e9SAndroid Build Coastguard Worker  return physical_args[0].getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor mm_batching_rule(const Tensor& self, const Tensor& other) {
*da0073e9SAndroid Build Coastguard Worker  auto self_batched = isBatchedTensor(self);
*da0073e9SAndroid Build Coastguard Worker  auto other_batched = isBatchedTensor(other);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(/*logical*/self.dim() == 2 && /*logical*/other.dim() == 2,
*da0073e9SAndroid Build Coastguard Worker      "mm(self, other): Shape mismatch: expected matrix "
*da0073e9SAndroid Build Coastguard Worker      "(got `self` of size ", self.sizes(), ") ",
*da0073e9SAndroid Build Coastguard Worker      "and matrix (got `other` of size ", other.sizes(), ")");
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // See Note [Batching rules for matmul-like operators] for why we have cases
*da0073e9SAndroid Build Coastguard Worker  if (self_batched && !other_batched) {
*da0073e9SAndroid Build Coastguard Worker    auto self_physical = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker    auto result = at::matmul(self_physical.tensor(), other);
*da0073e9SAndroid Build Coastguard Worker    return self_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  if (!self_batched && other_batched) {
*da0073e9SAndroid Build Coastguard Worker    auto other_physical = MultiBatchVmapTransform::logicalToPhysical(other);
*da0073e9SAndroid Build Coastguard Worker    auto result = at::matmul(self, other_physical.tensor());
*da0073e9SAndroid Build Coastguard Worker    return other_physical.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  if (self_batched && other_batched) {
*da0073e9SAndroid Build Coastguard Worker    auto physical_args = MultiBatchVmapTransform::logicalToPhysical({self, other});
*da0073e9SAndroid Build Coastguard Worker    auto result = at::matmul(physical_args[0].tensor(), physical_args[1].tensor());
*da0073e9SAndroid Build Coastguard Worker    return physical_args[0].getPhysicalToLogicalMap().apply(result.squeeze(-1).squeeze(-1));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  TORCH_INTERNAL_ASSERT(false, "either self or other must be a BatchedTensor");
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor cat_batching_rule(const ITensorListRef& tensors, int64_t dim) {
*da0073e9SAndroid Build Coastguard Worker  auto physical_views = MultiBatchVmapTransform::logicalToPhysical(tensors);
*da0073e9SAndroid Build Coastguard Worker  auto physical_tensors = fmap(
*da0073e9SAndroid Build Coastguard Worker      physical_views, [](const VmapPhysicalView& view) -> Tensor { return view.tensor(); });
*da0073e9SAndroid Build Coastguard Worker  TORCH_INTERNAL_ASSERT(
*da0073e9SAndroid Build Coastguard Worker      !tensors.empty(), "The dispatcher should not have dispatched here otherwise.");
*da0073e9SAndroid Build Coastguard Worker  auto result = at::cat(physical_tensors, physical_views[0].getPhysicalDim(dim));
*da0073e9SAndroid Build Coastguard Worker  return physical_views[0].getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor stack_batching_rule(TensorList tensors, int64_t dim) {
*da0073e9SAndroid Build Coastguard Worker  auto physical_views = MultiBatchVmapTransform::logicalToPhysical(tensors);
*da0073e9SAndroid Build Coastguard Worker  auto physical_tensors = fmap(
*da0073e9SAndroid Build Coastguard Worker      physical_views, [](const VmapPhysicalView& view) -> Tensor { return view.tensor(); });
*da0073e9SAndroid Build Coastguard Worker  TORCH_INTERNAL_ASSERT(
*da0073e9SAndroid Build Coastguard Worker      !tensors.empty(), "The dispatcher should not have dispatched here otherwise.");
*da0073e9SAndroid Build Coastguard Worker  // NB: stack wraps the dimensionality to (logical dim + 1), so we have to
*da0073e9SAndroid Build Coastguard Worker  // manually handle that here.
*da0073e9SAndroid Build Coastguard Worker  auto dim_physical =
*da0073e9SAndroid Build Coastguard Worker      physical_views[0].numBatchDims() + maybe_wrap_dim(dim, /*logical*/tensors[0].dim() + 1);
*da0073e9SAndroid Build Coastguard Worker  auto result = at::stack(physical_tensors, dim_physical);
*da0073e9SAndroid Build Coastguard Worker  return physical_views[0].getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker// I am quite sad that we need to register operators with exploded TensorOptions,
*da0073e9SAndroid Build Coastguard Worker// even though the native:: implementations can use TensorOptions&.
*da0073e9SAndroid Build Coastguard Worker// This also makes it hard to metaprogram: i.e., we can't use
*da0073e9SAndroid Build Coastguard Worker// unwrap_and_call<..., at::to> because at::to takes TensorOptions& (!!)
*da0073e9SAndroid Build Coastguard WorkerTensor to_dtype_layout_batching_rule(
*da0073e9SAndroid Build Coastguard Worker    const Tensor& self,
*da0073e9SAndroid Build Coastguard Worker    std::optional<ScalarType> dtype,
*da0073e9SAndroid Build Coastguard Worker    std::optional<Layout> layout,
*da0073e9SAndroid Build Coastguard Worker    std::optional<Device> device,
*da0073e9SAndroid Build Coastguard Worker    std::optional<bool> pin_memory,
*da0073e9SAndroid Build Coastguard Worker    bool non_blocking, bool copy,
*da0073e9SAndroid Build Coastguard Worker    std::optional<MemoryFormat> memory_format) {
*da0073e9SAndroid Build Coastguard Worker  auto options = TensorOptions()
*da0073e9SAndroid Build Coastguard Worker    .dtype(dtype)
*da0073e9SAndroid Build Coastguard Worker    .layout(layout)
*da0073e9SAndroid Build Coastguard Worker    .device(device)
*da0073e9SAndroid Build Coastguard Worker    .pinned_memory(pin_memory);
*da0073e9SAndroid Build Coastguard Worker  auto* input_batched = unsafeGetBatchedImpl(self);
*da0073e9SAndroid Build Coastguard Worker  auto output_physical = input_batched->value().to(options, non_blocking, copy, memory_format);
*da0073e9SAndroid Build Coastguard Worker  auto old_bdims = input_batched->bdims();
*da0073e9SAndroid Build Coastguard Worker  return makeBatched(output_physical, BatchDims(old_bdims.begin(), old_bdims.end()));
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor new_zeros_batching_rule(
*da0073e9SAndroid Build Coastguard Worker    const Tensor& self,
*da0073e9SAndroid Build Coastguard Worker    IntArrayRef size,
*da0073e9SAndroid Build Coastguard Worker    std::optional<ScalarType> dtype,
*da0073e9SAndroid Build Coastguard Worker    std::optional<Layout> layout,
*da0073e9SAndroid Build Coastguard Worker    std::optional<Device> device,
*da0073e9SAndroid Build Coastguard Worker    std::optional<bool> pin_memory) {
*da0073e9SAndroid Build Coastguard Worker  auto physical_view = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto physical_size = physical_view.getPhysicalShape(size);
*da0073e9SAndroid Build Coastguard Worker  auto options = TensorOptions()
*da0073e9SAndroid Build Coastguard Worker    .dtype(dtype)
*da0073e9SAndroid Build Coastguard Worker    .layout(layout)
*da0073e9SAndroid Build Coastguard Worker    .device(device)
*da0073e9SAndroid Build Coastguard Worker    .pinned_memory(pin_memory);
*da0073e9SAndroid Build Coastguard Worker  auto result = physical_view.tensor().new_zeros(physical_size, options);
*da0073e9SAndroid Build Coastguard Worker  return physical_view.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor new_empty_batching_rule(
*da0073e9SAndroid Build Coastguard Worker    const Tensor& self,
*da0073e9SAndroid Build Coastguard Worker    IntArrayRef size,
*da0073e9SAndroid Build Coastguard Worker    std::optional<ScalarType> dtype,
*da0073e9SAndroid Build Coastguard Worker    std::optional<Layout> layout,
*da0073e9SAndroid Build Coastguard Worker    std::optional<Device> device,
*da0073e9SAndroid Build Coastguard Worker    std::optional<bool> pin_memory) {
*da0073e9SAndroid Build Coastguard Worker  auto physical_view = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto physical_size = physical_view.getPhysicalShape(size);
*da0073e9SAndroid Build Coastguard Worker  auto result = physical_view.tensor().new_empty(physical_size, TensorOptions().dtype(dtype).layout(layout).device(device).pinned_memory(pin_memory));
*da0073e9SAndroid Build Coastguard Worker  return physical_view.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTensor new_empty_strided_batching_rule(
*da0073e9SAndroid Build Coastguard Worker    const Tensor& self,
*da0073e9SAndroid Build Coastguard Worker    IntArrayRef size,
*da0073e9SAndroid Build Coastguard Worker    IntArrayRef stride,
*da0073e9SAndroid Build Coastguard Worker    std::optional<ScalarType> dtype,
*da0073e9SAndroid Build Coastguard Worker    std::optional<Layout> layout,
*da0073e9SAndroid Build Coastguard Worker    std::optional<Device> device,
*da0073e9SAndroid Build Coastguard Worker    std::optional<bool> pin_memory) {
*da0073e9SAndroid Build Coastguard Worker  auto physical_view = MultiBatchVmapTransform::logicalToPhysical(self);
*da0073e9SAndroid Build Coastguard Worker  auto physical_size = physical_view.getPhysicalShape(size);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Let [B0, B1, B2] be the shape of the batch dims. We're going to create
*da0073e9SAndroid Build Coastguard Worker  // the batch dimensions at the front of the tensor (in memory layout),
*da0073e9SAndroid Build Coastguard Worker  // irrespective of whether or not they are actually at the front (in memory layout)
*da0073e9SAndroid Build Coastguard Worker  // in the original `self` tensor. This is because when a user calls
*da0073e9SAndroid Build Coastguard Worker  // `new_empty_strided` in general, the `strides` they provide are for a new
*da0073e9SAndroid Build Coastguard Worker  // tensor and have no relation to the strides of the original tensor.
*da0073e9SAndroid Build Coastguard Worker  //
*da0073e9SAndroid Build Coastguard Worker  // So, the physical shape of the result should be ([B0, B1, B2] + size),
*da0073e9SAndroid Build Coastguard Worker  // but what about the physical strides?
*da0073e9SAndroid Build Coastguard Worker  //
*da0073e9SAndroid Build Coastguard Worker  // We're actually free to pick whatever stride we want:
*da0073e9SAndroid Build Coastguard Worker  // e.g., for size=[5, 3], stride=[0, 1], we could decide to
*da0073e9SAndroid Build Coastguard Worker  // use
*da0073e9SAndroid Build Coastguard Worker  // - physical size: [B0, B1, B2, 5, 3]
*da0073e9SAndroid Build Coastguard Worker  // - physical stride: [9999*B1*B2, 9999*B2, 9999, 0, 1]
*da0073e9SAndroid Build Coastguard Worker  //
*da0073e9SAndroid Build Coastguard Worker  // Let's select some reasonable strides such that:
*da0073e9SAndroid Build Coastguard Worker  // - The batch dims are "contiguous" with respect to each other
*da0073e9SAndroid Build Coastguard Worker  // - if empty_strided(size, stride) would have created a contiguous Tensor,
*da0073e9SAndroid Build Coastguard Worker  // then this new physical Tensor (with batch dims) is also contiguous
*da0073e9SAndroid Build Coastguard Worker  //
*da0073e9SAndroid Build Coastguard Worker  // Let S be the size of the storage if one were to construct a tensor
*da0073e9SAndroid Build Coastguard Worker  // with `size` and `stride` via empty_strided(size, stride).
*da0073e9SAndroid Build Coastguard Worker  // Then the physical sizes/strides should be:
*da0073e9SAndroid Build Coastguard Worker  // - physical size: [B0, B1, B2, 5, 3]
*da0073e9SAndroid Build Coastguard Worker  // - physical stride: [B1 * B2 * S, B2 * S, S, 0, 1]
*da0073e9SAndroid Build Coastguard Worker  auto batch_shape = IntArrayRef(
*da0073e9SAndroid Build Coastguard Worker      physical_view.tensor().sizes().begin(), physical_view.numBatchDims());
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // physical_strides = [B1 * B2 * S, B2 * S, S]
*da0073e9SAndroid Build Coastguard Worker  auto physical_strides = at::detail::defaultStrides(batch_shape);
*da0073e9SAndroid Build Coastguard Worker  TORCH_CHECK(size.size() == stride.size(),
*da0073e9SAndroid Build Coastguard Worker        "new_empty_strided(sizes, strides): dimensionality of sizes (",
*da0073e9SAndroid Build Coastguard Worker        size.size(), ") must match dimensionality of strides (",
*da0073e9SAndroid Build Coastguard Worker        stride.size(), ")");
*da0073e9SAndroid Build Coastguard Worker  auto storage_size = native::storage_size_for(size, stride);
*da0073e9SAndroid Build Coastguard Worker  for (auto& physical_stride : physical_strides) {
*da0073e9SAndroid Build Coastguard Worker    physical_stride *= storage_size;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // physical_strides = [B1 * B2 * S, B2 * S, S] + strides
*da0073e9SAndroid Build Coastguard Worker  physical_strides.insert(physical_strides.end(), stride.begin(), stride.end());
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  auto result = physical_view.tensor().new_empty_strided(
*da0073e9SAndroid Build Coastguard Worker      physical_size, physical_strides, dtype, layout, device, pin_memory);
*da0073e9SAndroid Build Coastguard Worker  return physical_view.getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertemplate <typename F, F Func>
*da0073e9SAndroid Build Coastguard WorkerTensor comparison_pointwise_batching_rule(const Tensor& self, const Tensor& other) {
*da0073e9SAndroid Build Coastguard Worker  auto physical_args = BroadcastingVmapTransform::logicalToPhysical({self, other});
*da0073e9SAndroid Build Coastguard Worker  auto result = Func(physical_args[0].tensor(), physical_args[1].tensor());
*da0073e9SAndroid Build Coastguard Worker  return physical_args[0].getPhysicalToLogicalMap().apply(result);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard WorkerTORCH_LIBRARY_IMPL(_, Batched, m) {
*da0073e9SAndroid Build Coastguard Worker  m.fallback(torch::CppFunction::makeFromBoxedFunction<&batchedTensorForLoopFallback>());
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard WorkerTORCH_LIBRARY_IMPL(aten, Batched, m) {
*da0073e9SAndroid Build Coastguard Worker  // NB: Ideally we would like some operators, like size.int, to "fallthrough"
*da0073e9SAndroid Build Coastguard Worker  // to the underlying implementation. However, because a BatchedTensor is a
*da0073e9SAndroid Build Coastguard Worker  // Tensor wrapper, it only has one dispatch key (Batched) on it. The resolution
*da0073e9SAndroid Build Coastguard Worker  // here is to just directly call the underlying implementation.
*da0073e9SAndroid Build Coastguard Worker  m.impl("size.int", static_cast<int64_t (*)(const Tensor&, int64_t)>(native::size));
*da0073e9SAndroid Build Coastguard Worker  m.impl("_add_batch_dim", native::_add_batch_dim);
*da0073e9SAndroid Build Coastguard Worker  m.impl("_remove_batch_dim", native::_remove_batch_dim);
*da0073e9SAndroid Build Coastguard Worker  m.impl("_make_dual", _make_dual_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("_has_same_storage_numel", _has_same_storage_numel_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("is_same_size", native::is_same_size);
*da0073e9SAndroid Build Coastguard Worker  m.impl("_new_zeros_with_same_feature_meta", _new_zeros_with_same_feature_meta_batching_rule);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  m.impl("sum.dim_IntList", sum_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("is_complex", native::is_complex);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // inplace operations
*da0073e9SAndroid Build Coastguard Worker  m.impl("fill_.Scalar", fill_inplace_scalar_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("fill_.Tensor", fill_inplace_tensor_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("zero_", zero_inplace_batching_rule);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // view operations
*da0073e9SAndroid Build Coastguard Worker  m.impl("as_strided", as_strided_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("chunk", chunk_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("tensor_split.sections", tensor_split_sections_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("tensor_split.indices", tensor_split_indices_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("diagonal", diagonal_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("expand", expand_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("expand_as", native::expand_as); // composite wrt autograd
*da0073e9SAndroid Build Coastguard Worker  m.impl("movedim.intlist", movedim_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("movedim.int", static_cast<Tensor(*)(const Tensor&,int64_t,int64_t)>(native::movedim)); // composite wrt autograd
*da0073e9SAndroid Build Coastguard Worker  // There is another variant of narrow.  However, we don't
*da0073e9SAndroid Build Coastguard Worker  // want to support the other variant yet bc it isn't documented...
*da0073e9SAndroid Build Coastguard Worker  m.impl("narrow", native::narrow_symint); // composite wrt autograd
*da0073e9SAndroid Build Coastguard Worker  m.impl("numpy_T", native::numpy_T);   // composite wrt autograd
*da0073e9SAndroid Build Coastguard Worker  m.impl("matrix_H", native::matrix_H); // composite wrt autograd
*da0073e9SAndroid Build Coastguard Worker  m.impl("mT", native::mT);             // composite wrt autograd
*da0073e9SAndroid Build Coastguard Worker  m.impl("mH", native::mH);             // composite wrt autograd
*da0073e9SAndroid Build Coastguard Worker  m.impl("permute", permute_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("reshape", reshape_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("_reshape_alias", _reshape_alias_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("reshape_as", native::reshape_as); // composite wrt autograd
*da0073e9SAndroid Build Coastguard Worker  m.impl("select.int", select_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("slice.Tensor", slice_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("split.Tensor", split_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("split.sizes", split_with_sizes_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("split_with_sizes", split_with_sizes_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("squeeze", squeeze_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("squeeze.dim", squeeze_dim_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("squeeze.dims", squeeze_dims_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("t", native::t); // composite wrt autograd
*da0073e9SAndroid Build Coastguard Worker  m.impl("trace", trace_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("transpose.int", transpose_int_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("unbind.int", unbind_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("unfold", unfold_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("unsqueeze", unsqueeze_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("view", view_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("view_as", native::view_as); // composite wrt autograd
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // clamp operations
*da0073e9SAndroid Build Coastguard Worker  m.impl("clamp", clamp_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("clamp_min", clamp_min_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("clamp_max", clamp_max_batching_rule);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // unary pointwise, out-of-place, no additional arguments.
*da0073e9SAndroid Build Coastguard Worker#define UNARY_POINTWISE(op) m.impl(#op, \
*da0073e9SAndroid Build Coastguard Worker    unwrap_and_call<Tensor (*)(const Tensor&), at::op>);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(abs);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(acos);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(asin);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(atan);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(ceil);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(cos);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(cosh);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(conj_physical);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(digamma);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(exp);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(expm1);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(floor);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(frac);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(lgamma);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(log);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(log10);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(log1p);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(log2);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(neg);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(reciprocal);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(relu);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(round);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(rsqrt);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(sigmoid);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(sign);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(sin);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(sinh);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(sqrt);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(tan);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(tanh);
*da0073e9SAndroid Build Coastguard Worker  UNARY_POINTWISE(trunc);
*da0073e9SAndroid Build Coastguard Worker#undef UNARY_POINTWISE
*da0073e9SAndroid Build Coastguard Worker#define TO_BATCHING_RULE(name, ...) \
*da0073e9SAndroid Build Coastguard Worker  { \
*da0073e9SAndroid Build Coastguard Worker    using to_type = Tensor(Tensor::*)(__VA_ARGS__) const; \
*da0073e9SAndroid Build Coastguard Worker    m.impl(name, unwrap_and_call_method< \
*da0073e9SAndroid Build Coastguard Worker        to_type, &Tensor::to, __VA_ARGS__>);\
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  TO_BATCHING_RULE("to.device", Device, ScalarType, bool, bool, std::optional<MemoryFormat>)
*da0073e9SAndroid Build Coastguard Worker  TO_BATCHING_RULE("to.dtype", ScalarType, bool, bool, std::optional<MemoryFormat>)
*da0073e9SAndroid Build Coastguard Worker  TO_BATCHING_RULE("to.other", const Tensor&, bool, bool, std::optional<MemoryFormat>)
*da0073e9SAndroid Build Coastguard Worker  m.impl("to.dtype_layout", to_dtype_layout_batching_rule);
*da0073e9SAndroid Build Coastguard Worker#undef TO_BATCHING_RULE
*da0073e9SAndroid Build Coastguard Worker  m.impl("clone", clone_batching_rule);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  using TensorTensorScalarType = Tensor (*)(const Tensor&, const Tensor&, const Scalar&);
*da0073e9SAndroid Build Coastguard Worker  using TensorTensorType = Tensor (*)(const Tensor&, const Tensor&);
*da0073e9SAndroid Build Coastguard Worker  using TensorScalarType = Tensor (*)(const Tensor&, const Scalar&);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker#define BINARY_POINTWISE(op) \
*da0073e9SAndroid Build Coastguard Worker  m.impl(#op".Tensor", binary_pointwise_batching_rule<TensorTensorType, at::op>); \
*da0073e9SAndroid Build Coastguard Worker  m.impl(#op".Scalar", unwrap_and_call<TensorScalarType, at::op, const Scalar&>);
*da0073e9SAndroid Build Coastguard Worker#define BINARY_POINTWISE_VA(op, ...) \
*da0073e9SAndroid Build Coastguard Worker  { \
*da0073e9SAndroid Build Coastguard Worker    using Binop = Tensor (*)(const Tensor&, const Tensor&, __VA_ARGS__); \
*da0073e9SAndroid Build Coastguard Worker    using Unop = Tensor (*)(const Tensor&, const Scalar&, __VA_ARGS__); \
*da0073e9SAndroid Build Coastguard Worker    m.impl(#op".Tensor", binary_pointwise_batching_rule<Binop, at::op, __VA_ARGS__>); \
*da0073e9SAndroid Build Coastguard Worker    m.impl(#op".Scalar", unwrap_and_call<Unop, at::op, const Scalar&, __VA_ARGS__>); \
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  BINARY_POINTWISE_VA(add, const Scalar&);
*da0073e9SAndroid Build Coastguard Worker  BINARY_POINTWISE_VA(sub, const Scalar&);
*da0073e9SAndroid Build Coastguard Worker  BINARY_POINTWISE_VA(rsub, const Scalar&);
*da0073e9SAndroid Build Coastguard Worker  BINARY_POINTWISE(mul);
*da0073e9SAndroid Build Coastguard Worker  BINARY_POINTWISE(div);
*da0073e9SAndroid Build Coastguard Worker  {
*da0073e9SAndroid Build Coastguard Worker    using Binop = Tensor (*)(const Tensor&, const Tensor&, std::optional<c10::string_view>);
*da0073e9SAndroid Build Coastguard Worker    using Unop = Tensor (*)(const Tensor&, const Scalar&, std::optional<c10::string_view>);
*da0073e9SAndroid Build Coastguard Worker    m.impl("div.Tensor_mode", binary_pointwise_batching_rule<Binop, at::div, std::optional<c10::string_view>>);
*da0073e9SAndroid Build Coastguard Worker    m.impl("div.Scalar_mode", unwrap_and_call<Unop, at::div, const Scalar&, std::optional<c10::string_view>>);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // at::pow has three out-of-place overloads
*da0073e9SAndroid Build Coastguard Worker  m.impl("pow.Tensor_Tensor", binary_pointwise_batching_rule<TensorTensorType, at::pow>);
*da0073e9SAndroid Build Coastguard Worker  m.impl("pow.Tensor_Scalar", unwrap_and_call<TensorScalarType, at::pow, const Scalar&>);
*da0073e9SAndroid Build Coastguard Worker  m.impl("pow.Scalar", pow_scalar_Tensor_batching_rule);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  m.impl("sigmoid_backward", binary_pointwise_batching_rule<TensorTensorType, at::sigmoid_backward>);
*da0073e9SAndroid Build Coastguard Worker  m.impl(
*da0073e9SAndroid Build Coastguard Worker      "threshold_backward",
*da0073e9SAndroid Build Coastguard Worker      binary_pointwise_batching_rule<
*da0073e9SAndroid Build Coastguard Worker          TensorTensorScalarType,
*da0073e9SAndroid Build Coastguard Worker          at::threshold_backward,
*da0073e9SAndroid Build Coastguard Worker          const Scalar&>);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // for at::result_type, call the native::result_type implementation.
*da0073e9SAndroid Build Coastguard Worker  // We don't have to do anything special because native::result_type operates
*da0073e9SAndroid Build Coastguard Worker  // on the logical shape of the tensors.
*da0073e9SAndroid Build Coastguard Worker  m.impl("result_type.Tensor", static_cast<ScalarType (*)(const Tensor&, const Tensor&)>(native::result_type));
*da0073e9SAndroid Build Coastguard Worker  m.impl("result_type.Scalar", static_cast<ScalarType (*)(const Tensor&, const Scalar&)>(native::result_type));
*da0073e9SAndroid Build Coastguard Worker  m.impl("result_type.Scalar_Tensor", static_cast<ScalarType (*)(const Scalar&, const Tensor&)>(native::result_type));
*da0073e9SAndroid Build Coastguard Worker  m.impl("result_type.Scalar_Scalar", static_cast<ScalarType (*)(const Scalar&, const Scalar&)>(native::result_type));
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker#undef BINARY_POINTWISE_VA
*da0073e9SAndroid Build Coastguard Worker#undef BINARY_POINTWISE
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker#define TRIVIAL_OP(op) m.impl(#op, \
*da0073e9SAndroid Build Coastguard Worker    unwrap_and_call<Tensor (*)(const Tensor&), at::op>);
*da0073e9SAndroid Build Coastguard Worker  // complex number view operators
*da0073e9SAndroid Build Coastguard Worker  TRIVIAL_OP(imag)
*da0073e9SAndroid Build Coastguard Worker  TRIVIAL_OP(real);
*da0073e9SAndroid Build Coastguard Worker  TRIVIAL_OP(view_as_real);
*da0073e9SAndroid Build Coastguard Worker  TRIVIAL_OP(conj);
*da0073e9SAndroid Build Coastguard Worker  TRIVIAL_OP(_conj);
*da0073e9SAndroid Build Coastguard Worker  TRIVIAL_OP(resolve_conj);
*da0073e9SAndroid Build Coastguard Worker  TRIVIAL_OP(resolve_neg);
*da0073e9SAndroid Build Coastguard Worker  m.impl("view_as_complex", view_as_complex_batching_rule);
*da0073e9SAndroid Build Coastguard Worker#undef TRIVIAL
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // matmul-like operators
*da0073e9SAndroid Build Coastguard Worker  m.impl("mv", mv_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("dot", dot_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("bmm", bmm_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("mm", mm_batching_rule);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // cat/stack
*da0073e9SAndroid Build Coastguard Worker  m.impl("cat", cat_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("stack", stack_batching_rule);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // backward operators
*da0073e9SAndroid Build Coastguard Worker  m.impl("select_backward", select_backward_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("slice_backward", slice_backward_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("trace_backward", trace_backward_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("diagonal_backward", diagonal_backward_batching_rule);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Tensor.new_* operators
*da0073e9SAndroid Build Coastguard Worker  m.impl("new_empty", new_empty_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("new_empty_strided", new_empty_strided_batching_rule);
*da0073e9SAndroid Build Coastguard Worker  m.impl("new_zeros", new_zeros_batching_rule);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  m.impl("contiguous", contiguous_batching_rule);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  // Comparison ops
*da0073e9SAndroid Build Coastguard Worker#define COMPARISON_POINTWISE(op) \
*da0073e9SAndroid Build Coastguard Worker  m.impl(#op".Tensor", comparison_pointwise_batching_rule<TensorTensorType, at::op>); \
*da0073e9SAndroid Build Coastguard Worker  m.impl(#op".Scalar", unwrap_and_call<TensorScalarType, at::op, const Scalar&>);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  COMPARISON_POINTWISE(eq);
*da0073e9SAndroid Build Coastguard Worker  COMPARISON_POINTWISE(gt);
*da0073e9SAndroid Build Coastguard Worker  COMPARISON_POINTWISE(ge);
*da0073e9SAndroid Build Coastguard Worker  COMPARISON_POINTWISE(le);
*da0073e9SAndroid Build Coastguard Worker  COMPARISON_POINTWISE(lt);
*da0073e9SAndroid Build Coastguard Worker  COMPARISON_POINTWISE(ne);
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker#undef COMPARISON_POINTWISE
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker} // namespace at