src/ATen/CPUApplyUtils.h

*da0073e9SAndroid Build Coastguard Worker#pragma once
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker#include <ATen/CollapseDims.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/Parallel.h>
*da0073e9SAndroid Build Coastguard Worker#include <ATen/TensorUtils.h>
*da0073e9SAndroid Build Coastguard Worker#include <c10/util/irange.h>
*da0073e9SAndroid Build Coastguard Worker#include <cstring>
*da0073e9SAndroid Build Coastguard Worker#include <limits>
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workernamespace at {
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker/*
*da0073e9SAndroid Build Coastguard Worker * The basic strategy for apply is as follows:
*da0073e9SAndroid Build Coastguard Worker *
*da0073e9SAndroid Build Coastguard Worker * 1. Starting with the outermost index, loop until we reach a dimension where
*da0073e9SAndroid Build Coastguard Worker * the data is no longer contiguous, i.e. the stride at that dimension is not
*da0073e9SAndroid Build Coastguard Worker * equal to the size of the tensor defined by the outer dimensions. Let's call
*da0073e9SAndroid Build Coastguard Worker * this outer (contiguous) tensor A. Note that if the Tensor is contiguous, then
*da0073e9SAndroid Build Coastguard Worker * A is equal to the entire Tensor. Let's call the inner tensor B.
*da0073e9SAndroid Build Coastguard Worker *
*da0073e9SAndroid Build Coastguard Worker * 2. We loop through the indices in B, starting at its outermost dimension. For
*da0073e9SAndroid Build Coastguard Worker * example, if B is a 2x2 matrix, then we do:
*da0073e9SAndroid Build Coastguard Worker *
*da0073e9SAndroid Build Coastguard Worker * B[0][0]
*da0073e9SAndroid Build Coastguard Worker * B[0][1]
*da0073e9SAndroid Build Coastguard Worker * B[1][0]
*da0073e9SAndroid Build Coastguard Worker * B[1][1]
*da0073e9SAndroid Build Coastguard Worker *
*da0073e9SAndroid Build Coastguard Worker * We set the offset into the underlying storage as (storageOffset + stride_B *
*da0073e9SAndroid Build Coastguard Worker * index_B), i.e. basically we compute the offset into the storage as we would
*da0073e9SAndroid Build Coastguard Worker * normally for a Tensor. But because we are guaranteed the subsequent data is
*da0073e9SAndroid Build Coastguard Worker * contiguous in memory, we can simply loop for sizeof(A) iterations and perform
*da0073e9SAndroid Build Coastguard Worker * the operation, without having to follow the order described by the strides of
*da0073e9SAndroid Build Coastguard Worker * A.
*da0073e9SAndroid Build Coastguard Worker *
*da0073e9SAndroid Build Coastguard Worker * 3. As an optimization, we merge dimensions of A that are contiguous in
*da0073e9SAndroid Build Coastguard Worker * memory. For example, if A is a 3x3x3x3 tensor narrowed from a 3x3x4x3 tensor,
*da0073e9SAndroid Build Coastguard Worker * then the first two dimensions can be merged for the purposes of APPLY,
*da0073e9SAndroid Build Coastguard Worker * reducing the number of nested loops.
*da0073e9SAndroid Build Coastguard Worker */
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerinline Tensor sort_strides(Tensor& tensor_) {
*da0073e9SAndroid Build Coastguard Worker  IntArrayRef strides = tensor_.strides();
*da0073e9SAndroid Build Coastguard Worker  std::vector<int64_t> indices;
*da0073e9SAndroid Build Coastguard Worker  indices.reserve(tensor_.ndimension());
*da0073e9SAndroid Build Coastguard Worker  for (const auto i : c10::irange(tensor_.ndimension())) {
*da0073e9SAndroid Build Coastguard Worker    indices.push_back(i);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  std::sort(indices.begin(), indices.end(), [&strides](int64_t i1, int64_t i2) {
*da0073e9SAndroid Build Coastguard Worker    return strides[i1] > strides[i2];
*da0073e9SAndroid Build Coastguard Worker  });
*da0073e9SAndroid Build Coastguard Worker  Tensor tensor = tensor_.permute(indices);
*da0073e9SAndroid Build Coastguard Worker  return tensor;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertemplate <typename T, int N>
*da0073e9SAndroid Build Coastguard Workerstruct strided_tensor_iter_fixed {
*da0073e9SAndroid Build Coastguard Worker public:
*da0073e9SAndroid Build Coastguard Worker  T* data_ = NULL;
*da0073e9SAndroid Build Coastguard Worker  int64_t dim_ = 0;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  int64_t counter_[N] = {0};
*da0073e9SAndroid Build Coastguard Worker  int64_t sizes_[N] = {0};
*da0073e9SAndroid Build Coastguard Worker  int64_t strides_[N] = {0};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  strided_tensor_iter_fixed(strided_tensor_iter_fixed const&) = delete;
*da0073e9SAndroid Build Coastguard Worker  void operator=(strided_tensor_iter_fixed const& x) = delete;
*da0073e9SAndroid Build Coastguard Worker  strided_tensor_iter_fixed(strided_tensor_iter_fixed&&) = default;
*da0073e9SAndroid Build Coastguard Worker  strided_tensor_iter_fixed(
*da0073e9SAndroid Build Coastguard Worker      Tensor& tensor,
*da0073e9SAndroid Build Coastguard Worker      C10_UNUSED bool sort_strides = false)
*da0073e9SAndroid Build Coastguard Worker      : data_(tensor.data_ptr<T>()) {
*da0073e9SAndroid Build Coastguard Worker    std::memset(counter_, 0, sizeof(int64_t) * N);
*da0073e9SAndroid Build Coastguard Worker    if (tensor.dim() > 0) {
*da0073e9SAndroid Build Coastguard Worker      std::memcpy(
*da0073e9SAndroid Build Coastguard Worker          sizes_, tensor.sizes().data(), tensor.dim() * sizeof(int64_t));
*da0073e9SAndroid Build Coastguard Worker      std::memcpy(
*da0073e9SAndroid Build Coastguard Worker          strides_, tensor.strides().data(), tensor.dim() * sizeof(int64_t));
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    dim_ = std::get<1>(collapse_dims(sizes_, strides_, tensor.ndimension()));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertemplate <typename T>
*da0073e9SAndroid Build Coastguard Workerstruct strided_tensor_iter {
*da0073e9SAndroid Build Coastguard Worker private:
*da0073e9SAndroid Build Coastguard Worker public:
*da0073e9SAndroid Build Coastguard Worker  T* data_ = NULL;
*da0073e9SAndroid Build Coastguard Worker  int64_t dim_;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  std::vector<int64_t> counter_;
*da0073e9SAndroid Build Coastguard Worker  std::vector<int64_t> sizes_;
*da0073e9SAndroid Build Coastguard Worker  std::vector<int64_t> strides_;
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  strided_tensor_iter(strided_tensor_iter const&) = delete;
*da0073e9SAndroid Build Coastguard Worker  void operator=(strided_tensor_iter const& x) = delete;
*da0073e9SAndroid Build Coastguard Worker  strided_tensor_iter(strided_tensor_iter&&) = default;
*da0073e9SAndroid Build Coastguard Worker  strided_tensor_iter(Tensor& tensor)
*da0073e9SAndroid Build Coastguard Worker      : data_(tensor.data_ptr<T>()),
*da0073e9SAndroid Build Coastguard Worker        dim_(tensor.ndimension()),
*da0073e9SAndroid Build Coastguard Worker        counter_(dim_, 0),
*da0073e9SAndroid Build Coastguard Worker        sizes_(tensor.sizes().vec()),
*da0073e9SAndroid Build Coastguard Worker        strides_(tensor.strides().vec()) {
*da0073e9SAndroid Build Coastguard Worker    dim_ = std::get<1>(collapse_dims(sizes_.data(), strides_.data(), dim_));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerinline bool _all_equal_numel(at::ArrayRef<Tensor> tensors) {
*da0073e9SAndroid Build Coastguard Worker  if (tensors.empty())
*da0073e9SAndroid Build Coastguard Worker    return true;
*da0073e9SAndroid Build Coastguard Worker  int64_t all_numel = tensors[0].numel();
*da0073e9SAndroid Build Coastguard Worker  for (const auto i : c10::irange(1, tensors.size())) {
*da0073e9SAndroid Build Coastguard Worker    if (tensors[i].numel() != all_numel)
*da0073e9SAndroid Build Coastguard Worker      return false;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  return true;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerinline std::string _all_equal_numel_error(at::ArrayRef<Tensor> tensors) {
*da0073e9SAndroid Build Coastguard Worker  std::ostringstream oss;
*da0073e9SAndroid Build Coastguard Worker  oss << "inconsistent tensor size, expected ";
*da0073e9SAndroid Build Coastguard Worker  for (size_t i = 0; i < tensors.size() - 1; i++) {
*da0073e9SAndroid Build Coastguard Worker    oss << tensors[i].sizes() << ", ";
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  oss << "and " << tensors[tensors.size() - 1].sizes()
*da0073e9SAndroid Build Coastguard Worker      << " to have the same number of elements, but got ";
*da0073e9SAndroid Build Coastguard Worker  for (size_t i = 0; i < tensors.size() - 1; i++) {
*da0073e9SAndroid Build Coastguard Worker    oss << tensors[i].numel() << ", ";
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  oss << "and " << tensors[tensors.size() - 1].numel()
*da0073e9SAndroid Build Coastguard Worker      << " elements respectively";
*da0073e9SAndroid Build Coastguard Worker  return oss.str();
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerinline bool _apply_preamble(ArrayRef<Tensor> tensors) {
*da0073e9SAndroid Build Coastguard Worker  checkDeviceType("CPU_tensor_apply", tensors, kCPU);
*da0073e9SAndroid Build Coastguard Worker  checkLayout("CPU_tensor_apply", tensors, kStrided);
*da0073e9SAndroid Build Coastguard Worker  if (!_all_equal_numel(tensors))
*da0073e9SAndroid Build Coastguard Worker    AT_ERROR(_all_equal_numel_error(tensors));
*da0073e9SAndroid Build Coastguard Worker  // An empty tensor has no elements
*da0073e9SAndroid Build Coastguard Worker  for (auto& t : tensors)
*da0073e9SAndroid Build Coastguard Worker    if (t.numel() == 0)
*da0073e9SAndroid Build Coastguard Worker      return false;
*da0073e9SAndroid Build Coastguard Worker  return true;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerinline int64_t _max_dim_tensors(ArrayRef<Tensor> tensors) {
*da0073e9SAndroid Build Coastguard Worker  int64_t dim = 0;
*da0073e9SAndroid Build Coastguard Worker  for (auto& t : tensors)
*da0073e9SAndroid Build Coastguard Worker    dim = std::max(dim, t.ndimension());
*da0073e9SAndroid Build Coastguard Worker  return dim;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerinline void iterate(int64_t /*size*/){};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertemplate <typename Arg, typename... Args>
*da0073e9SAndroid Build Coastguard Workerinline void iterate(int64_t size, Arg& iter, Args&... iter_tail) {
*da0073e9SAndroid Build Coastguard Worker  iter.counter_[iter.dim_ - 1] += size;
*da0073e9SAndroid Build Coastguard Worker  iter.data_ = iter.data_ + size * iter.strides_[iter.dim_ - 1];
*da0073e9SAndroid Build Coastguard Worker  iterate(size, iter_tail...);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerinline bool iterate_continue() {
*da0073e9SAndroid Build Coastguard Worker  return true;
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertemplate <typename Arg, typename... Args>
*da0073e9SAndroid Build Coastguard Workerinline bool iterate_continue(Arg& iter, Args&... iter_tail) {
*da0073e9SAndroid Build Coastguard Worker  return iter.counter_[iter.dim_ - 1] < iter.sizes_[iter.dim_ - 1] &&
*da0073e9SAndroid Build Coastguard Worker      iterate_continue(iter_tail...);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerinline int64_t max_iterate_size() {
*da0073e9SAndroid Build Coastguard Worker  return std::numeric_limits<int64_t>::max();
*da0073e9SAndroid Build Coastguard Worker};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertemplate <typename Arg, typename... Args>
*da0073e9SAndroid Build Coastguard Workerinline int64_t max_iterate_size(Arg& iter, Args&... iter_tail) {
*da0073e9SAndroid Build Coastguard Worker  return std::min(
*da0073e9SAndroid Build Coastguard Worker      (iter.sizes_[iter.dim_ - 1] - iter.counter_[iter.dim_ - 1]),
*da0073e9SAndroid Build Coastguard Worker      max_iterate_size(iter_tail...));
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerinline void iterate_overflow(){};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertemplate <typename Arg, typename... Args>
*da0073e9SAndroid Build Coastguard Workerinline void iterate_overflow(Arg& iter, Args&... iter_tail) {
*da0073e9SAndroid Build Coastguard Worker  if (iter.counter_[iter.dim_ - 1] == iter.sizes_[iter.dim_ - 1]) {
*da0073e9SAndroid Build Coastguard Worker    for (int64_t i = iter.dim_ - 1; i > 0; i--) {
*da0073e9SAndroid Build Coastguard Worker      if (iter.counter_[i] == iter.sizes_[i]) {
*da0073e9SAndroid Build Coastguard Worker        iter.counter_[i] = 0;
*da0073e9SAndroid Build Coastguard Worker        iter.counter_[i - 1]++;
*da0073e9SAndroid Build Coastguard Worker        iter.data_ = iter.data_ - (iter.sizes_[i] * iter.strides_[i]) +
*da0073e9SAndroid Build Coastguard Worker            iter.strides_[i - 1];
*da0073e9SAndroid Build Coastguard Worker      }
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  iterate_overflow(iter_tail...);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerinline void forward(int64_t /*offset*/){};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertemplate <typename Arg, typename... Args>
*da0073e9SAndroid Build Coastguard Workerinline void forward(int64_t offset, Arg& iter, Args&... iter_tail) {
*da0073e9SAndroid Build Coastguard Worker  int64_t multi = offset;
*da0073e9SAndroid Build Coastguard Worker  for (int64_t i = iter.dim_ - 1; i >= 0; i--) {
*da0073e9SAndroid Build Coastguard Worker    int64_t inc = multi % iter.sizes_[i];
*da0073e9SAndroid Build Coastguard Worker    multi = multi / iter.sizes_[i];
*da0073e9SAndroid Build Coastguard Worker    iter.data_ = iter.data_ + inc * iter.strides_[i];
*da0073e9SAndroid Build Coastguard Worker    iter.counter_[i] += inc;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  forward(offset, iter_tail...);
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerinline int64_t max_dim() {
*da0073e9SAndroid Build Coastguard Worker  return 0;
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertemplate <typename Arg, typename... Args>
*da0073e9SAndroid Build Coastguard Workerinline int64_t max_dim(Arg& iter, Args&... iter_tail) {
*da0073e9SAndroid Build Coastguard Worker  return std::max(iter.dim_, max_dim(iter_tail...));
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workerinline void apply_op(){};
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertemplate <typename Op, typename... Args>
*da0073e9SAndroid Build Coastguard Workerinline void apply_op(
*da0073e9SAndroid Build Coastguard Worker    int64_t numel,
*da0073e9SAndroid Build Coastguard Worker    int64_t offset,
*da0073e9SAndroid Build Coastguard Worker    const Op& op,
*da0073e9SAndroid Build Coastguard Worker    Args... iters) {
*da0073e9SAndroid Build Coastguard Worker  // For 0-dim tensors
*da0073e9SAndroid Build Coastguard Worker  if (numel == 1 && max_dim(iters...) == 0) {
*da0073e9SAndroid Build Coastguard Worker    op(*iters.data_...);
*da0073e9SAndroid Build Coastguard Worker    return;
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker  if (offset > 0)
*da0073e9SAndroid Build Coastguard Worker    forward(offset, iters...);
*da0073e9SAndroid Build Coastguard Worker  // Splitting this into chunks helps the compiler create faster assembly
*da0073e9SAndroid Build Coastguard Worker  for (int64_t i = 0; i < numel;) {
*da0073e9SAndroid Build Coastguard Worker    for (; iterate_continue(iters...) && i < numel;) {
*da0073e9SAndroid Build Coastguard Worker      op(*iters.data_...);
*da0073e9SAndroid Build Coastguard Worker      iterate(1, iters...);
*da0073e9SAndroid Build Coastguard Worker      i++;
*da0073e9SAndroid Build Coastguard Worker    }
*da0073e9SAndroid Build Coastguard Worker    iterate_overflow(iters...);
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker/*
*da0073e9SAndroid Build Coastguard Worker  Apply a pointwise operator to sequence of tensors
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker  The calling convention for op is a function/functor that takes the same
*da0073e9SAndroid Build Coastguard Worker  number of pointers of type scalar as the number of given tensors. For example,
*da0073e9SAndroid Build Coastguard Worker  to compute a = b * c, op would be of the form:
*da0073e9SAndroid Build Coastguard Worker  [](scalar* a_val, const scalar* b_val, const scalar* c_val) { a_val[0] =
*da0073e9SAndroid Build Coastguard Worker  b_val[0] * c_val[0]; };
*da0073e9SAndroid Build Coastguard Worker*/
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertemplate <typename scalar1, typename scalar2, typename Op>
*da0073e9SAndroid Build Coastguard Workerinline void CPU_tensor_apply2(Tensor tensor1, Tensor tensor2, const Op op) {
*da0073e9SAndroid Build Coastguard Worker  if (!_apply_preamble({tensor1, tensor2}))
*da0073e9SAndroid Build Coastguard Worker    return;
*da0073e9SAndroid Build Coastguard Worker  if (_max_dim_tensors({tensor1, tensor2}) <= 8) {
*da0073e9SAndroid Build Coastguard Worker    apply_op(
*da0073e9SAndroid Build Coastguard Worker        tensor1.numel(),
*da0073e9SAndroid Build Coastguard Worker        0,
*da0073e9SAndroid Build Coastguard Worker        op,
*da0073e9SAndroid Build Coastguard Worker        strided_tensor_iter_fixed<scalar1, 8>(tensor1),
*da0073e9SAndroid Build Coastguard Worker        strided_tensor_iter_fixed<scalar2, 8>(tensor2));
*da0073e9SAndroid Build Coastguard Worker  } else {
*da0073e9SAndroid Build Coastguard Worker    apply_op(
*da0073e9SAndroid Build Coastguard Worker        tensor1.numel(),
*da0073e9SAndroid Build Coastguard Worker        0,
*da0073e9SAndroid Build Coastguard Worker        op,
*da0073e9SAndroid Build Coastguard Worker        strided_tensor_iter<scalar1>(tensor1),
*da0073e9SAndroid Build Coastguard Worker        strided_tensor_iter<scalar2>(tensor2));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertemplate <typename scalar1, typename scalar2, typename scalar3, typename Op>
*da0073e9SAndroid Build Coastguard Workerinline void CPU_tensor_apply3(
*da0073e9SAndroid Build Coastguard Worker    Tensor tensor1,
*da0073e9SAndroid Build Coastguard Worker    Tensor tensor2,
*da0073e9SAndroid Build Coastguard Worker    Tensor tensor3,
*da0073e9SAndroid Build Coastguard Worker    const Op op) {
*da0073e9SAndroid Build Coastguard Worker  if (!_apply_preamble({tensor1, tensor2, tensor3}))
*da0073e9SAndroid Build Coastguard Worker    return;
*da0073e9SAndroid Build Coastguard Worker  if (_max_dim_tensors({tensor1, tensor2, tensor3}) <= 8) {
*da0073e9SAndroid Build Coastguard Worker    apply_op(
*da0073e9SAndroid Build Coastguard Worker        tensor1.numel(),
*da0073e9SAndroid Build Coastguard Worker        0,
*da0073e9SAndroid Build Coastguard Worker        op,
*da0073e9SAndroid Build Coastguard Worker        strided_tensor_iter_fixed<scalar1, 8>(tensor1),
*da0073e9SAndroid Build Coastguard Worker        strided_tensor_iter_fixed<scalar2, 8>(tensor2),
*da0073e9SAndroid Build Coastguard Worker        strided_tensor_iter_fixed<scalar3, 8>(tensor3));
*da0073e9SAndroid Build Coastguard Worker  } else {
*da0073e9SAndroid Build Coastguard Worker    apply_op(
*da0073e9SAndroid Build Coastguard Worker        tensor1.numel(),
*da0073e9SAndroid Build Coastguard Worker        0,
*da0073e9SAndroid Build Coastguard Worker        op,
*da0073e9SAndroid Build Coastguard Worker        strided_tensor_iter<scalar1>(tensor1),
*da0073e9SAndroid Build Coastguard Worker        strided_tensor_iter<scalar2>(tensor2),
*da0073e9SAndroid Build Coastguard Worker        strided_tensor_iter<scalar3>(tensor3));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Workertemplate <
*da0073e9SAndroid Build Coastguard Worker    typename scalar1,
*da0073e9SAndroid Build Coastguard Worker    typename scalar2,
*da0073e9SAndroid Build Coastguard Worker    typename scalar3,
*da0073e9SAndroid Build Coastguard Worker    typename scalar4,
*da0073e9SAndroid Build Coastguard Worker    typename Op>
*da0073e9SAndroid Build Coastguard Workerinline void CPU_tensor_apply4(
*da0073e9SAndroid Build Coastguard Worker    Tensor tensor1,
*da0073e9SAndroid Build Coastguard Worker    Tensor tensor2,
*da0073e9SAndroid Build Coastguard Worker    Tensor tensor3,
*da0073e9SAndroid Build Coastguard Worker    Tensor tensor4,
*da0073e9SAndroid Build Coastguard Worker    const Op op) {
*da0073e9SAndroid Build Coastguard Worker  if (!_apply_preamble({tensor1, tensor2, tensor3, tensor4}))
*da0073e9SAndroid Build Coastguard Worker    return;
*da0073e9SAndroid Build Coastguard Worker  if (_max_dim_tensors({tensor1, tensor2, tensor3, tensor4}) <= 8) {
*da0073e9SAndroid Build Coastguard Worker    apply_op(
*da0073e9SAndroid Build Coastguard Worker        tensor1.numel(),
*da0073e9SAndroid Build Coastguard Worker        0,
*da0073e9SAndroid Build Coastguard Worker        op,
*da0073e9SAndroid Build Coastguard Worker        strided_tensor_iter_fixed<scalar1, 8>(tensor1),
*da0073e9SAndroid Build Coastguard Worker        strided_tensor_iter_fixed<scalar2, 8>(tensor2),
*da0073e9SAndroid Build Coastguard Worker        strided_tensor_iter_fixed<scalar3, 8>(tensor3),
*da0073e9SAndroid Build Coastguard Worker        strided_tensor_iter_fixed<scalar4, 8>(tensor4));
*da0073e9SAndroid Build Coastguard Worker  } else {
*da0073e9SAndroid Build Coastguard Worker    apply_op(
*da0073e9SAndroid Build Coastguard Worker        tensor1.numel(),
*da0073e9SAndroid Build Coastguard Worker        0,
*da0073e9SAndroid Build Coastguard Worker        op,
*da0073e9SAndroid Build Coastguard Worker        strided_tensor_iter<scalar1>(tensor1),
*da0073e9SAndroid Build Coastguard Worker        strided_tensor_iter<scalar2>(tensor2),
*da0073e9SAndroid Build Coastguard Worker        strided_tensor_iter<scalar3>(tensor3),
*da0073e9SAndroid Build Coastguard Worker        strided_tensor_iter<scalar4>(tensor4));
*da0073e9SAndroid Build Coastguard Worker  }
*da0073e9SAndroid Build Coastguard Worker}
*da0073e9SAndroid Build Coastguard Worker
*da0073e9SAndroid Build Coastguard Worker} // namespace at