vixl/src/utils-vixl.cc

*f5c631daSSadaf Ebrahimi// Copyright 2015, VIXL authors
*f5c631daSSadaf Ebrahimi// All rights reserved.
*f5c631daSSadaf Ebrahimi//
*f5c631daSSadaf Ebrahimi// Redistribution and use in source and binary forms, with or without
*f5c631daSSadaf Ebrahimi// modification, are permitted provided that the following conditions are met:
*f5c631daSSadaf Ebrahimi//
*f5c631daSSadaf Ebrahimi//   * Redistributions of source code must retain the above copyright notice,
*f5c631daSSadaf Ebrahimi//     this list of conditions and the following disclaimer.
*f5c631daSSadaf Ebrahimi//   * Redistributions in binary form must reproduce the above copyright notice,
*f5c631daSSadaf Ebrahimi//     this list of conditions and the following disclaimer in the documentation
*f5c631daSSadaf Ebrahimi//     and/or other materials provided with the distribution.
*f5c631daSSadaf Ebrahimi//   * Neither the name of ARM Limited nor the names of its contributors may be
*f5c631daSSadaf Ebrahimi//     used to endorse or promote products derived from this software without
*f5c631daSSadaf Ebrahimi//     specific prior written permission.
*f5c631daSSadaf Ebrahimi//
*f5c631daSSadaf Ebrahimi// THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS CONTRIBUTORS "AS IS" AND
*f5c631daSSadaf Ebrahimi// ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
*f5c631daSSadaf Ebrahimi// WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
*f5c631daSSadaf Ebrahimi// DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE
*f5c631daSSadaf Ebrahimi// FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
*f5c631daSSadaf Ebrahimi// DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
*f5c631daSSadaf Ebrahimi// SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
*f5c631daSSadaf Ebrahimi// CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
*f5c631daSSadaf Ebrahimi// OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
*f5c631daSSadaf Ebrahimi// OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi#include <cstdio>
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi#include "utils-vixl.h"
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahiminamespace vixl {
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi// The default NaN values (for FPCR.DN=1).
*f5c631daSSadaf Ebrahimiconst double kFP64DefaultNaN = RawbitsToDouble(UINT64_C(0x7ff8000000000000));
*f5c631daSSadaf Ebrahimiconst float kFP32DefaultNaN = RawbitsToFloat(0x7fc00000);
*f5c631daSSadaf Ebrahimiconst Float16 kFP16DefaultNaN = RawbitsToFloat16(0x7e00);
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi// Floating-point zero values.
*f5c631daSSadaf Ebrahimiconst Float16 kFP16PositiveZero = RawbitsToFloat16(0x0);
*f5c631daSSadaf Ebrahimiconst Float16 kFP16NegativeZero = RawbitsToFloat16(0x8000);
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi// Floating-point infinity values.
*f5c631daSSadaf Ebrahimiconst Float16 kFP16PositiveInfinity = RawbitsToFloat16(0x7c00);
*f5c631daSSadaf Ebrahimiconst Float16 kFP16NegativeInfinity = RawbitsToFloat16(0xfc00);
*f5c631daSSadaf Ebrahimiconst float kFP32PositiveInfinity = RawbitsToFloat(0x7f800000);
*f5c631daSSadaf Ebrahimiconst float kFP32NegativeInfinity = RawbitsToFloat(0xff800000);
*f5c631daSSadaf Ebrahimiconst double kFP64PositiveInfinity =
*f5c631daSSadaf Ebrahimi    RawbitsToDouble(UINT64_C(0x7ff0000000000000));
*f5c631daSSadaf Ebrahimiconst double kFP64NegativeInfinity =
*f5c631daSSadaf Ebrahimi    RawbitsToDouble(UINT64_C(0xfff0000000000000));
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimibool IsZero(Float16 value) {
*f5c631daSSadaf Ebrahimi  uint16_t bits = Float16ToRawbits(value);
*f5c631daSSadaf Ebrahimi  return (bits == Float16ToRawbits(kFP16PositiveZero) ||
*f5c631daSSadaf Ebrahimi          bits == Float16ToRawbits(kFP16NegativeZero));
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimiuint16_t Float16ToRawbits(Float16 value) { return value.rawbits_; }
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimiuint32_t FloatToRawbits(float value) {
*f5c631daSSadaf Ebrahimi  uint32_t bits = 0;
*f5c631daSSadaf Ebrahimi  memcpy(&bits, &value, 4);
*f5c631daSSadaf Ebrahimi  return bits;
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimiuint64_t DoubleToRawbits(double value) {
*f5c631daSSadaf Ebrahimi  uint64_t bits = 0;
*f5c631daSSadaf Ebrahimi  memcpy(&bits, &value, 8);
*f5c631daSSadaf Ebrahimi  return bits;
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf EbrahimiFloat16 RawbitsToFloat16(uint16_t bits) {
*f5c631daSSadaf Ebrahimi  Float16 f;
*f5c631daSSadaf Ebrahimi  f.rawbits_ = bits;
*f5c631daSSadaf Ebrahimi  return f;
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimifloat RawbitsToFloat(uint32_t bits) {
*f5c631daSSadaf Ebrahimi  float value = 0.0;
*f5c631daSSadaf Ebrahimi  memcpy(&value, &bits, 4);
*f5c631daSSadaf Ebrahimi  return value;
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimidouble RawbitsToDouble(uint64_t bits) {
*f5c631daSSadaf Ebrahimi  double value = 0.0;
*f5c631daSSadaf Ebrahimi  memcpy(&value, &bits, 8);
*f5c631daSSadaf Ebrahimi  return value;
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimiuint32_t Float16Sign(internal::SimFloat16 val) {
*f5c631daSSadaf Ebrahimi  uint16_t rawbits = Float16ToRawbits(val);
*f5c631daSSadaf Ebrahimi  return ExtractUnsignedBitfield32(15, 15, rawbits);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimiuint32_t Float16Exp(internal::SimFloat16 val) {
*f5c631daSSadaf Ebrahimi  uint16_t rawbits = Float16ToRawbits(val);
*f5c631daSSadaf Ebrahimi  return ExtractUnsignedBitfield32(14, 10, rawbits);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimiuint32_t Float16Mantissa(internal::SimFloat16 val) {
*f5c631daSSadaf Ebrahimi  uint16_t rawbits = Float16ToRawbits(val);
*f5c631daSSadaf Ebrahimi  return ExtractUnsignedBitfield32(9, 0, rawbits);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimiuint32_t FloatSign(float val) {
*f5c631daSSadaf Ebrahimi  uint32_t rawbits = FloatToRawbits(val);
*f5c631daSSadaf Ebrahimi  return ExtractUnsignedBitfield32(31, 31, rawbits);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimiuint32_t FloatExp(float val) {
*f5c631daSSadaf Ebrahimi  uint32_t rawbits = FloatToRawbits(val);
*f5c631daSSadaf Ebrahimi  return ExtractUnsignedBitfield32(30, 23, rawbits);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimiuint32_t FloatMantissa(float val) {
*f5c631daSSadaf Ebrahimi  uint32_t rawbits = FloatToRawbits(val);
*f5c631daSSadaf Ebrahimi  return ExtractUnsignedBitfield32(22, 0, rawbits);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimiuint32_t DoubleSign(double val) {
*f5c631daSSadaf Ebrahimi  uint64_t rawbits = DoubleToRawbits(val);
*f5c631daSSadaf Ebrahimi  return static_cast<uint32_t>(ExtractUnsignedBitfield64(63, 63, rawbits));
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimiuint32_t DoubleExp(double val) {
*f5c631daSSadaf Ebrahimi  uint64_t rawbits = DoubleToRawbits(val);
*f5c631daSSadaf Ebrahimi  return static_cast<uint32_t>(ExtractUnsignedBitfield64(62, 52, rawbits));
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimiuint64_t DoubleMantissa(double val) {
*f5c631daSSadaf Ebrahimi  uint64_t rawbits = DoubleToRawbits(val);
*f5c631daSSadaf Ebrahimi  return ExtractUnsignedBitfield64(51, 0, rawbits);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimiinternal::SimFloat16 Float16Pack(uint16_t sign,
*f5c631daSSadaf Ebrahimi                                 uint16_t exp,
*f5c631daSSadaf Ebrahimi                                 uint16_t mantissa) {
*f5c631daSSadaf Ebrahimi  uint16_t bits = (sign << 15) | (exp << 10) | mantissa;
*f5c631daSSadaf Ebrahimi  return RawbitsToFloat16(bits);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimifloat FloatPack(uint32_t sign, uint32_t exp, uint32_t mantissa) {
*f5c631daSSadaf Ebrahimi  uint32_t bits = (sign << 31) | (exp << 23) | mantissa;
*f5c631daSSadaf Ebrahimi  return RawbitsToFloat(bits);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimidouble DoublePack(uint64_t sign, uint64_t exp, uint64_t mantissa) {
*f5c631daSSadaf Ebrahimi  uint64_t bits = (sign << 63) | (exp << 52) | mantissa;
*f5c631daSSadaf Ebrahimi  return RawbitsToDouble(bits);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimiint Float16Classify(Float16 value) {
*f5c631daSSadaf Ebrahimi  uint16_t bits = Float16ToRawbits(value);
*f5c631daSSadaf Ebrahimi  uint16_t exponent_max = (1 << 5) - 1;
*f5c631daSSadaf Ebrahimi  uint16_t exponent_mask = exponent_max << 10;
*f5c631daSSadaf Ebrahimi  uint16_t mantissa_mask = (1 << 10) - 1;
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi  uint16_t exponent = (bits & exponent_mask) >> 10;
*f5c631daSSadaf Ebrahimi  uint16_t mantissa = bits & mantissa_mask;
*f5c631daSSadaf Ebrahimi  if (exponent == 0) {
*f5c631daSSadaf Ebrahimi    if (mantissa == 0) {
*f5c631daSSadaf Ebrahimi      return FP_ZERO;
*f5c631daSSadaf Ebrahimi    }
*f5c631daSSadaf Ebrahimi    return FP_SUBNORMAL;
*f5c631daSSadaf Ebrahimi  } else if (exponent == exponent_max) {
*f5c631daSSadaf Ebrahimi    if (mantissa == 0) {
*f5c631daSSadaf Ebrahimi      return FP_INFINITE;
*f5c631daSSadaf Ebrahimi    }
*f5c631daSSadaf Ebrahimi    return FP_NAN;
*f5c631daSSadaf Ebrahimi  }
*f5c631daSSadaf Ebrahimi  return FP_NORMAL;
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimiunsigned CountClearHalfWords(uint64_t imm, unsigned reg_size) {
*f5c631daSSadaf Ebrahimi  VIXL_ASSERT((reg_size % 8) == 0);
*f5c631daSSadaf Ebrahimi  int count = 0;
*f5c631daSSadaf Ebrahimi  for (unsigned i = 0; i < (reg_size / 16); i++) {
*f5c631daSSadaf Ebrahimi    if ((imm & 0xffff) == 0) {
*f5c631daSSadaf Ebrahimi      count++;
*f5c631daSSadaf Ebrahimi    }
*f5c631daSSadaf Ebrahimi    imm >>= 16;
*f5c631daSSadaf Ebrahimi  }
*f5c631daSSadaf Ebrahimi  return count;
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimiint BitCount(uint64_t value) { return CountSetBits(value); }
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi// Float16 definitions.
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf EbrahimiFloat16::Float16(double dvalue) {
*f5c631daSSadaf Ebrahimi  rawbits_ =
*f5c631daSSadaf Ebrahimi      Float16ToRawbits(FPToFloat16(dvalue, FPTieEven, kIgnoreDefaultNaN));
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahiminamespace internal {
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf EbrahimiSimFloat16 SimFloat16::operator-() const {
*f5c631daSSadaf Ebrahimi  return RawbitsToFloat16(rawbits_ ^ 0x8000);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi// SimFloat16 definitions.
*f5c631daSSadaf EbrahimiSimFloat16 SimFloat16::operator+(SimFloat16 rhs) const {
*f5c631daSSadaf Ebrahimi  return static_cast<double>(*this) + static_cast<double>(rhs);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf EbrahimiSimFloat16 SimFloat16::operator-(SimFloat16 rhs) const {
*f5c631daSSadaf Ebrahimi  return static_cast<double>(*this) - static_cast<double>(rhs);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf EbrahimiSimFloat16 SimFloat16::operator*(SimFloat16 rhs) const {
*f5c631daSSadaf Ebrahimi  return static_cast<double>(*this) * static_cast<double>(rhs);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf EbrahimiSimFloat16 SimFloat16::operator/(SimFloat16 rhs) const {
*f5c631daSSadaf Ebrahimi  return static_cast<double>(*this) / static_cast<double>(rhs);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimibool SimFloat16::operator<(SimFloat16 rhs) const {
*f5c631daSSadaf Ebrahimi  return static_cast<double>(*this) < static_cast<double>(rhs);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimibool SimFloat16::operator>(SimFloat16 rhs) const {
*f5c631daSSadaf Ebrahimi  return static_cast<double>(*this) > static_cast<double>(rhs);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimibool SimFloat16::operator==(SimFloat16 rhs) const {
*f5c631daSSadaf Ebrahimi  if (IsNaN(*this) || IsNaN(rhs)) {
*f5c631daSSadaf Ebrahimi    return false;
*f5c631daSSadaf Ebrahimi  } else if (IsZero(rhs) && IsZero(*this)) {
*f5c631daSSadaf Ebrahimi    // +0 and -0 should be treated as equal.
*f5c631daSSadaf Ebrahimi    return true;
*f5c631daSSadaf Ebrahimi  }
*f5c631daSSadaf Ebrahimi  return this->rawbits_ == rhs.rawbits_;
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimibool SimFloat16::operator!=(SimFloat16 rhs) const { return !(*this == rhs); }
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimibool SimFloat16::operator==(double rhs) const {
*f5c631daSSadaf Ebrahimi  return static_cast<double>(*this) == static_cast<double>(rhs);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf EbrahimiSimFloat16::operator double() const {
*f5c631daSSadaf Ebrahimi  return FPToDouble(*this, kIgnoreDefaultNaN);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf EbrahimiInt64 BitCount(Uint32 value) { return CountSetBits(value.Get()); }
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi}  // namespace internal
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimifloat FPToFloat(Float16 value, UseDefaultNaN DN, bool* exception) {
*f5c631daSSadaf Ebrahimi  uint16_t bits = Float16ToRawbits(value);
*f5c631daSSadaf Ebrahimi  uint32_t sign = bits >> 15;
*f5c631daSSadaf Ebrahimi  uint32_t exponent =
*f5c631daSSadaf Ebrahimi      ExtractUnsignedBitfield32(kFloat16MantissaBits + kFloat16ExponentBits - 1,
*f5c631daSSadaf Ebrahimi                                kFloat16MantissaBits,
*f5c631daSSadaf Ebrahimi                                bits);
*f5c631daSSadaf Ebrahimi  uint32_t mantissa =
*f5c631daSSadaf Ebrahimi      ExtractUnsignedBitfield32(kFloat16MantissaBits - 1, 0, bits);
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi  switch (Float16Classify(value)) {
*f5c631daSSadaf Ebrahimi    case FP_ZERO:
*f5c631daSSadaf Ebrahimi      return (sign == 0) ? 0.0f : -0.0f;
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi    case FP_INFINITE:
*f5c631daSSadaf Ebrahimi      return (sign == 0) ? kFP32PositiveInfinity : kFP32NegativeInfinity;
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi    case FP_SUBNORMAL: {
*f5c631daSSadaf Ebrahimi      // Calculate shift required to put mantissa into the most-significant bits
*f5c631daSSadaf Ebrahimi      // of the destination mantissa.
*f5c631daSSadaf Ebrahimi      int shift = CountLeadingZeros(mantissa << (32 - 10));
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi      // Shift mantissa and discard implicit '1'.
*f5c631daSSadaf Ebrahimi      mantissa <<= (kFloatMantissaBits - kFloat16MantissaBits) + shift + 1;
*f5c631daSSadaf Ebrahimi      mantissa &= (1 << kFloatMantissaBits) - 1;
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi      // Adjust the exponent for the shift applied, and rebias.
*f5c631daSSadaf Ebrahimi      exponent = exponent - shift + (-15 + 127);
*f5c631daSSadaf Ebrahimi      break;
*f5c631daSSadaf Ebrahimi    }
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi    case FP_NAN:
*f5c631daSSadaf Ebrahimi      if (IsSignallingNaN(value)) {
*f5c631daSSadaf Ebrahimi        if (exception != NULL) {
*f5c631daSSadaf Ebrahimi          *exception = true;
*f5c631daSSadaf Ebrahimi        }
*f5c631daSSadaf Ebrahimi      }
*f5c631daSSadaf Ebrahimi      if (DN == kUseDefaultNaN) return kFP32DefaultNaN;
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi      // Convert NaNs as the processor would:
*f5c631daSSadaf Ebrahimi      //  - The sign is propagated.
*f5c631daSSadaf Ebrahimi      //  - The payload (mantissa) is transferred entirely, except that the top
*f5c631daSSadaf Ebrahimi      //    bit is forced to '1', making the result a quiet NaN. The unused
*f5c631daSSadaf Ebrahimi      //    (low-order) payload bits are set to 0.
*f5c631daSSadaf Ebrahimi      exponent = (1 << kFloatExponentBits) - 1;
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi      // Increase bits in mantissa, making low-order bits 0.
*f5c631daSSadaf Ebrahimi      mantissa <<= (kFloatMantissaBits - kFloat16MantissaBits);
*f5c631daSSadaf Ebrahimi      mantissa |= 1 << 22;  // Force a quiet NaN.
*f5c631daSSadaf Ebrahimi      break;
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi    case FP_NORMAL:
*f5c631daSSadaf Ebrahimi      // Increase bits in mantissa, making low-order bits 0.
*f5c631daSSadaf Ebrahimi      mantissa <<= (kFloatMantissaBits - kFloat16MantissaBits);
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi      // Change exponent bias.
*f5c631daSSadaf Ebrahimi      exponent += (-15 + 127);
*f5c631daSSadaf Ebrahimi      break;
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi    default:
*f5c631daSSadaf Ebrahimi      VIXL_UNREACHABLE();
*f5c631daSSadaf Ebrahimi  }
*f5c631daSSadaf Ebrahimi  return RawbitsToFloat((sign << 31) | (exponent << kFloatMantissaBits) |
*f5c631daSSadaf Ebrahimi                        mantissa);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimifloat FPToFloat(double value,
*f5c631daSSadaf Ebrahimi                FPRounding round_mode,
*f5c631daSSadaf Ebrahimi                UseDefaultNaN DN,
*f5c631daSSadaf Ebrahimi                bool* exception) {
*f5c631daSSadaf Ebrahimi  // Only the FPTieEven rounding mode is implemented.
*f5c631daSSadaf Ebrahimi  VIXL_ASSERT((round_mode == FPTieEven) || (round_mode == FPRoundOdd));
*f5c631daSSadaf Ebrahimi  USE(round_mode);
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi  switch (std::fpclassify(value)) {
*f5c631daSSadaf Ebrahimi    case FP_NAN: {
*f5c631daSSadaf Ebrahimi      if (IsSignallingNaN(value)) {
*f5c631daSSadaf Ebrahimi        if (exception != NULL) {
*f5c631daSSadaf Ebrahimi          *exception = true;
*f5c631daSSadaf Ebrahimi        }
*f5c631daSSadaf Ebrahimi      }
*f5c631daSSadaf Ebrahimi      if (DN == kUseDefaultNaN) return kFP32DefaultNaN;
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi      // Convert NaNs as the processor would:
*f5c631daSSadaf Ebrahimi      //  - The sign is propagated.
*f5c631daSSadaf Ebrahimi      //  - The payload (mantissa) is transferred as much as possible, except
*f5c631daSSadaf Ebrahimi      //    that the top bit is forced to '1', making the result a quiet NaN.
*f5c631daSSadaf Ebrahimi      uint64_t raw = DoubleToRawbits(value);
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi      uint32_t sign = raw >> 63;
*f5c631daSSadaf Ebrahimi      uint32_t exponent = (1 << 8) - 1;
*f5c631daSSadaf Ebrahimi      uint32_t payload =
*f5c631daSSadaf Ebrahimi          static_cast<uint32_t>(ExtractUnsignedBitfield64(50, 52 - 23, raw));
*f5c631daSSadaf Ebrahimi      payload |= (1 << 22);  // Force a quiet NaN.
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi      return RawbitsToFloat((sign << 31) | (exponent << 23) | payload);
*f5c631daSSadaf Ebrahimi    }
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi    case FP_ZERO:
*f5c631daSSadaf Ebrahimi    case FP_INFINITE: {
*f5c631daSSadaf Ebrahimi      // In a C++ cast, any value representable in the target type will be
*f5c631daSSadaf Ebrahimi      // unchanged. This is always the case for +/-0.0 and infinities.
*f5c631daSSadaf Ebrahimi      return static_cast<float>(value);
*f5c631daSSadaf Ebrahimi    }
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi    case FP_NORMAL:
*f5c631daSSadaf Ebrahimi    case FP_SUBNORMAL: {
*f5c631daSSadaf Ebrahimi      // Convert double-to-float as the processor would, assuming that FPCR.FZ
*f5c631daSSadaf Ebrahimi      // (flush-to-zero) is not set.
*f5c631daSSadaf Ebrahimi      uint64_t raw = DoubleToRawbits(value);
*f5c631daSSadaf Ebrahimi      // Extract the IEEE-754 double components.
*f5c631daSSadaf Ebrahimi      uint32_t sign = raw >> 63;
*f5c631daSSadaf Ebrahimi      // Extract the exponent and remove the IEEE-754 encoding bias.
*f5c631daSSadaf Ebrahimi      int32_t exponent =
*f5c631daSSadaf Ebrahimi          static_cast<int32_t>(ExtractUnsignedBitfield64(62, 52, raw)) - 1023;
*f5c631daSSadaf Ebrahimi      // Extract the mantissa and add the implicit '1' bit.
*f5c631daSSadaf Ebrahimi      uint64_t mantissa = ExtractUnsignedBitfield64(51, 0, raw);
*f5c631daSSadaf Ebrahimi      if (std::fpclassify(value) == FP_NORMAL) {
*f5c631daSSadaf Ebrahimi        mantissa |= (UINT64_C(1) << 52);
*f5c631daSSadaf Ebrahimi      }
*f5c631daSSadaf Ebrahimi      return FPRoundToFloat(sign, exponent, mantissa, round_mode);
*f5c631daSSadaf Ebrahimi    }
*f5c631daSSadaf Ebrahimi  }
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi  VIXL_UNREACHABLE();
*f5c631daSSadaf Ebrahimi  return value;
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi// TODO: We should consider implementing a full FPToDouble(Float16)
*f5c631daSSadaf Ebrahimi// conversion function (for performance reasons).
*f5c631daSSadaf Ebrahimidouble FPToDouble(Float16 value, UseDefaultNaN DN, bool* exception) {
*f5c631daSSadaf Ebrahimi  // We can rely on implicit float to double conversion here.
*f5c631daSSadaf Ebrahimi  return FPToFloat(value, DN, exception);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimidouble FPToDouble(float value, UseDefaultNaN DN, bool* exception) {
*f5c631daSSadaf Ebrahimi  switch (std::fpclassify(value)) {
*f5c631daSSadaf Ebrahimi    case FP_NAN: {
*f5c631daSSadaf Ebrahimi      if (IsSignallingNaN(value)) {
*f5c631daSSadaf Ebrahimi        if (exception != NULL) {
*f5c631daSSadaf Ebrahimi          *exception = true;
*f5c631daSSadaf Ebrahimi        }
*f5c631daSSadaf Ebrahimi      }
*f5c631daSSadaf Ebrahimi      if (DN == kUseDefaultNaN) return kFP64DefaultNaN;
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi      // Convert NaNs as the processor would:
*f5c631daSSadaf Ebrahimi      //  - The sign is propagated.
*f5c631daSSadaf Ebrahimi      //  - The payload (mantissa) is transferred entirely, except that the top
*f5c631daSSadaf Ebrahimi      //    bit is forced to '1', making the result a quiet NaN. The unused
*f5c631daSSadaf Ebrahimi      //    (low-order) payload bits are set to 0.
*f5c631daSSadaf Ebrahimi      uint32_t raw = FloatToRawbits(value);
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi      uint64_t sign = raw >> 31;
*f5c631daSSadaf Ebrahimi      uint64_t exponent = (1 << 11) - 1;
*f5c631daSSadaf Ebrahimi      uint64_t payload = ExtractUnsignedBitfield64(21, 0, raw);
*f5c631daSSadaf Ebrahimi      payload <<= (52 - 23);           // The unused low-order bits should be 0.
*f5c631daSSadaf Ebrahimi      payload |= (UINT64_C(1) << 51);  // Force a quiet NaN.
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi      return RawbitsToDouble((sign << 63) | (exponent << 52) | payload);
*f5c631daSSadaf Ebrahimi    }
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi    case FP_ZERO:
*f5c631daSSadaf Ebrahimi    case FP_NORMAL:
*f5c631daSSadaf Ebrahimi    case FP_SUBNORMAL:
*f5c631daSSadaf Ebrahimi    case FP_INFINITE: {
*f5c631daSSadaf Ebrahimi      // All other inputs are preserved in a standard cast, because every value
*f5c631daSSadaf Ebrahimi      // representable using an IEEE-754 float is also representable using an
*f5c631daSSadaf Ebrahimi      // IEEE-754 double.
*f5c631daSSadaf Ebrahimi      return static_cast<double>(value);
*f5c631daSSadaf Ebrahimi    }
*f5c631daSSadaf Ebrahimi  }
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi  VIXL_UNREACHABLE();
*f5c631daSSadaf Ebrahimi  return static_cast<double>(value);
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf EbrahimiFloat16 FPToFloat16(float value,
*f5c631daSSadaf Ebrahimi                    FPRounding round_mode,
*f5c631daSSadaf Ebrahimi                    UseDefaultNaN DN,
*f5c631daSSadaf Ebrahimi                    bool* exception) {
*f5c631daSSadaf Ebrahimi  // Only the FPTieEven rounding mode is implemented.
*f5c631daSSadaf Ebrahimi  VIXL_ASSERT(round_mode == FPTieEven);
*f5c631daSSadaf Ebrahimi  USE(round_mode);
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi  uint32_t raw = FloatToRawbits(value);
*f5c631daSSadaf Ebrahimi  int32_t sign = raw >> 31;
*f5c631daSSadaf Ebrahimi  int32_t exponent = ExtractUnsignedBitfield32(30, 23, raw) - 127;
*f5c631daSSadaf Ebrahimi  uint32_t mantissa = ExtractUnsignedBitfield32(22, 0, raw);
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi  switch (std::fpclassify(value)) {
*f5c631daSSadaf Ebrahimi    case FP_NAN: {
*f5c631daSSadaf Ebrahimi      if (IsSignallingNaN(value)) {
*f5c631daSSadaf Ebrahimi        if (exception != NULL) {
*f5c631daSSadaf Ebrahimi          *exception = true;
*f5c631daSSadaf Ebrahimi        }
*f5c631daSSadaf Ebrahimi      }
*f5c631daSSadaf Ebrahimi      if (DN == kUseDefaultNaN) return kFP16DefaultNaN;
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi      // Convert NaNs as the processor would:
*f5c631daSSadaf Ebrahimi      //  - The sign is propagated.
*f5c631daSSadaf Ebrahimi      //  - The payload (mantissa) is transferred as much as possible, except
*f5c631daSSadaf Ebrahimi      //    that the top bit is forced to '1', making the result a quiet NaN.
*f5c631daSSadaf Ebrahimi      uint16_t result = (sign == 0) ? Float16ToRawbits(kFP16PositiveInfinity)
*f5c631daSSadaf Ebrahimi                                    : Float16ToRawbits(kFP16NegativeInfinity);
*f5c631daSSadaf Ebrahimi      result |= mantissa >> (kFloatMantissaBits - kFloat16MantissaBits);
*f5c631daSSadaf Ebrahimi      result |= (1 << 9);  // Force a quiet NaN;
*f5c631daSSadaf Ebrahimi      return RawbitsToFloat16(result);
*f5c631daSSadaf Ebrahimi    }
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi    case FP_ZERO:
*f5c631daSSadaf Ebrahimi      return (sign == 0) ? kFP16PositiveZero : kFP16NegativeZero;
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi    case FP_INFINITE:
*f5c631daSSadaf Ebrahimi      return (sign == 0) ? kFP16PositiveInfinity : kFP16NegativeInfinity;
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi    case FP_NORMAL:
*f5c631daSSadaf Ebrahimi    case FP_SUBNORMAL: {
*f5c631daSSadaf Ebrahimi      // Convert float-to-half as the processor would, assuming that FPCR.FZ
*f5c631daSSadaf Ebrahimi      // (flush-to-zero) is not set.
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi      // Add the implicit '1' bit to the mantissa.
*f5c631daSSadaf Ebrahimi      mantissa += (1 << 23);
*f5c631daSSadaf Ebrahimi      return FPRoundToFloat16(sign, exponent, mantissa, round_mode);
*f5c631daSSadaf Ebrahimi    }
*f5c631daSSadaf Ebrahimi  }
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi  VIXL_UNREACHABLE();
*f5c631daSSadaf Ebrahimi  return kFP16PositiveZero;
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf EbrahimiFloat16 FPToFloat16(double value,
*f5c631daSSadaf Ebrahimi                    FPRounding round_mode,
*f5c631daSSadaf Ebrahimi                    UseDefaultNaN DN,
*f5c631daSSadaf Ebrahimi                    bool* exception) {
*f5c631daSSadaf Ebrahimi  // Only the FPTieEven rounding mode is implemented.
*f5c631daSSadaf Ebrahimi  VIXL_ASSERT(round_mode == FPTieEven);
*f5c631daSSadaf Ebrahimi  USE(round_mode);
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi  uint64_t raw = DoubleToRawbits(value);
*f5c631daSSadaf Ebrahimi  int32_t sign = raw >> 63;
*f5c631daSSadaf Ebrahimi  int64_t exponent = ExtractUnsignedBitfield64(62, 52, raw) - 1023;
*f5c631daSSadaf Ebrahimi  uint64_t mantissa = ExtractUnsignedBitfield64(51, 0, raw);
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi  switch (std::fpclassify(value)) {
*f5c631daSSadaf Ebrahimi    case FP_NAN: {
*f5c631daSSadaf Ebrahimi      if (IsSignallingNaN(value)) {
*f5c631daSSadaf Ebrahimi        if (exception != NULL) {
*f5c631daSSadaf Ebrahimi          *exception = true;
*f5c631daSSadaf Ebrahimi        }
*f5c631daSSadaf Ebrahimi      }
*f5c631daSSadaf Ebrahimi      if (DN == kUseDefaultNaN) return kFP16DefaultNaN;
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi      // Convert NaNs as the processor would:
*f5c631daSSadaf Ebrahimi      //  - The sign is propagated.
*f5c631daSSadaf Ebrahimi      //  - The payload (mantissa) is transferred as much as possible, except
*f5c631daSSadaf Ebrahimi      //    that the top bit is forced to '1', making the result a quiet NaN.
*f5c631daSSadaf Ebrahimi      uint16_t result = (sign == 0) ? Float16ToRawbits(kFP16PositiveInfinity)
*f5c631daSSadaf Ebrahimi                                    : Float16ToRawbits(kFP16NegativeInfinity);
*f5c631daSSadaf Ebrahimi      result |= mantissa >> (kDoubleMantissaBits - kFloat16MantissaBits);
*f5c631daSSadaf Ebrahimi      result |= (1 << 9);  // Force a quiet NaN;
*f5c631daSSadaf Ebrahimi      return RawbitsToFloat16(result);
*f5c631daSSadaf Ebrahimi    }
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi    case FP_ZERO:
*f5c631daSSadaf Ebrahimi      return (sign == 0) ? kFP16PositiveZero : kFP16NegativeZero;
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi    case FP_INFINITE:
*f5c631daSSadaf Ebrahimi      return (sign == 0) ? kFP16PositiveInfinity : kFP16NegativeInfinity;
*f5c631daSSadaf Ebrahimi    case FP_NORMAL:
*f5c631daSSadaf Ebrahimi    case FP_SUBNORMAL: {
*f5c631daSSadaf Ebrahimi      // Convert double-to-half as the processor would, assuming that FPCR.FZ
*f5c631daSSadaf Ebrahimi      // (flush-to-zero) is not set.
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi      // Add the implicit '1' bit to the mantissa.
*f5c631daSSadaf Ebrahimi      mantissa += (UINT64_C(1) << 52);
*f5c631daSSadaf Ebrahimi      return FPRoundToFloat16(sign, exponent, mantissa, round_mode);
*f5c631daSSadaf Ebrahimi    }
*f5c631daSSadaf Ebrahimi  }
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi  VIXL_UNREACHABLE();
*f5c631daSSadaf Ebrahimi  return kFP16PositiveZero;
*f5c631daSSadaf Ebrahimi}
*f5c631daSSadaf Ebrahimi
*f5c631daSSadaf Ebrahimi}  // namespace vixl