test_conformance/conversions/fplib.cpp

*6467f958SSadaf Ebrahimi//
*6467f958SSadaf Ebrahimi// Copyright (c) 2017 The Khronos Group Inc.
*6467f958SSadaf Ebrahimi//
*6467f958SSadaf Ebrahimi// Licensed under the Apache License, Version 2.0 (the "License");
*6467f958SSadaf Ebrahimi// you may not use this file except in compliance with the License.
*6467f958SSadaf Ebrahimi// You may obtain a copy of the License at
*6467f958SSadaf Ebrahimi//
*6467f958SSadaf Ebrahimi//    http://www.apache.org/licenses/LICENSE-2.0
*6467f958SSadaf Ebrahimi//
*6467f958SSadaf Ebrahimi// Unless required by applicable law or agreed to in writing, software
*6467f958SSadaf Ebrahimi// distributed under the License is distributed on an "AS IS" BASIS,
*6467f958SSadaf Ebrahimi// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*6467f958SSadaf Ebrahimi// See the License for the specific language governing permissions and
*6467f958SSadaf Ebrahimi// limitations under the License.
*6467f958SSadaf Ebrahimi//
*6467f958SSadaf Ebrahimi#include <stdint.h>
*6467f958SSadaf Ebrahimi#include <math.h>
*6467f958SSadaf Ebrahimi#include "fplib.h"
*6467f958SSadaf Ebrahimi
*6467f958SSadaf Ebrahimi#if !defined(FLT_MANT_DIG)
*6467f958SSadaf Ebrahimi#define FLT_MANT_DIG    24
*6467f958SSadaf Ebrahimi#endif
*6467f958SSadaf Ebrahimi#define as_float(x)     (*((float *)(&x)))
*6467f958SSadaf Ebrahimi#define as_long(x)      (*((int64_t *)(&x)))
*6467f958SSadaf Ebrahimi
*6467f958SSadaf Ebrahimistatic uint32_t clz(uint64_t value)
*6467f958SSadaf Ebrahimi{
*6467f958SSadaf Ebrahimi    uint32_t num_zeros;
*6467f958SSadaf Ebrahimi
*6467f958SSadaf Ebrahimi    for( num_zeros = 0; num_zeros < (sizeof(uint64_t)*8); num_zeros++)
*6467f958SSadaf Ebrahimi    {
*6467f958SSadaf Ebrahimi        volatile uint64_t v = 0x8000000000000000ull & (value << num_zeros);
*6467f958SSadaf Ebrahimi        if (v) break;
*6467f958SSadaf Ebrahimi    }
*6467f958SSadaf Ebrahimi    return num_zeros;
*6467f958SSadaf Ebrahimi}
*6467f958SSadaf Ebrahimi
*6467f958SSadaf Ebrahimifloat qcom_s64_2_f32(int64_t data, bool sat, roundingMode rnd)
*6467f958SSadaf Ebrahimi{
*6467f958SSadaf Ebrahimi    switch (rnd) {
*6467f958SSadaf Ebrahimi        case qcomRTZ: {
*6467f958SSadaf Ebrahimi            int sign = 0;
*6467f958SSadaf Ebrahimi            if (!data)
*6467f958SSadaf Ebrahimi                return 0.0f;
*6467f958SSadaf Ebrahimi            if (data < 0){
*6467f958SSadaf Ebrahimi                data = - data;
*6467f958SSadaf Ebrahimi                sign = 1;
*6467f958SSadaf Ebrahimi            }
*6467f958SSadaf Ebrahimi            uint32_t    exponent   = (127 + 64 - clz(data) - 1) << (FLT_MANT_DIG - 1); //add 1 for the implied 1.0 in normalized fp32 numbers
*6467f958SSadaf Ebrahimi            int         mantShift  = 40 - clz(data);
*6467f958SSadaf Ebrahimi            uint32_t    mantissa;
*6467f958SSadaf Ebrahimi            if (mantShift >= 0)
*6467f958SSadaf Ebrahimi                mantissa = (uint32_t)((uint64_t)data >> mantShift);
*6467f958SSadaf Ebrahimi            else
*6467f958SSadaf Ebrahimi                mantissa = (uint32_t)((uint64_t)data << -mantShift);
*6467f958SSadaf Ebrahimi            mantissa &= 0x7fffff;//mask off the leading 1
*6467f958SSadaf Ebrahimi
*6467f958SSadaf Ebrahimi            uint32_t result = exponent | mantissa;
*6467f958SSadaf Ebrahimi            if (sign)
*6467f958SSadaf Ebrahimi                result |= 0x80000000;
*6467f958SSadaf Ebrahimi            return as_float(result);
*6467f958SSadaf Ebrahimi            break;
*6467f958SSadaf Ebrahimi        }
*6467f958SSadaf Ebrahimi        case qcomRTE: return (float)(data); break;
*6467f958SSadaf Ebrahimi        case qcomRTP: {
*6467f958SSadaf Ebrahimi            int         sign    = 0;
*6467f958SSadaf Ebrahimi            int         inExact = 0;
*6467f958SSadaf Ebrahimi            uint32_t    f       = 0xdf000000;
*6467f958SSadaf Ebrahimi            if (!data)
*6467f958SSadaf Ebrahimi                return 0.0f;
*6467f958SSadaf Ebrahimi            if (data == 0x8000000000000000)
*6467f958SSadaf Ebrahimi                return as_float(f);
*6467f958SSadaf Ebrahimi            if (data < 0){
*6467f958SSadaf Ebrahimi                data = - data;
*6467f958SSadaf Ebrahimi                sign = 1;
*6467f958SSadaf Ebrahimi            }
*6467f958SSadaf Ebrahimi            uint32_t    exponent    = (127 + 64 - clz(data) - 1) << (FLT_MANT_DIG - 1); //add 1 for the implied 1.0 in normalized fp32 numbers
*6467f958SSadaf Ebrahimi            int         mantShift   = 40 - clz(data);
*6467f958SSadaf Ebrahimi            uint32_t mantissa;
*6467f958SSadaf Ebrahimi            if (mantShift >= 0){
*6467f958SSadaf Ebrahimi                uint64_t temp = (uint64_t)data >> mantShift;
*6467f958SSadaf Ebrahimi                if ((temp << mantShift) != data)
*6467f958SSadaf Ebrahimi                    inExact = 1;
*6467f958SSadaf Ebrahimi                mantissa = (uint32_t)temp;
*6467f958SSadaf Ebrahimi            }
*6467f958SSadaf Ebrahimi            else
*6467f958SSadaf Ebrahimi            {
*6467f958SSadaf Ebrahimi                mantissa = (uint32_t)((uint64_t)data << -mantShift);
*6467f958SSadaf Ebrahimi            }
*6467f958SSadaf Ebrahimi            mantissa &= 0x7fffff;//mask off the leading 1
*6467f958SSadaf Ebrahimi
*6467f958SSadaf Ebrahimi            uint32_t result = exponent | mantissa;
*6467f958SSadaf Ebrahimi            if (sign)
*6467f958SSadaf Ebrahimi                result |= 0x80000000;
*6467f958SSadaf Ebrahimi            if (sign)
*6467f958SSadaf Ebrahimi                return as_float(result); // for negative inputs return rtz results
*6467f958SSadaf Ebrahimi            else
*6467f958SSadaf Ebrahimi            {
*6467f958SSadaf Ebrahimi                if(inExact)
*6467f958SSadaf Ebrahimi                { // for positive inputs return higher next fp
*6467f958SSadaf Ebrahimi                    uint32_t high_float = 0x7f7fffff;
*6467f958SSadaf Ebrahimi                    return nextafterf(as_float(result), as_float(high_float)); // could be simplified with some inc and carry operation
*6467f958SSadaf Ebrahimi                }
*6467f958SSadaf Ebrahimi                else
*6467f958SSadaf Ebrahimi                    return as_float(result);
*6467f958SSadaf Ebrahimi            }
*6467f958SSadaf Ebrahimi        }
*6467f958SSadaf Ebrahimi        break;
*6467f958SSadaf Ebrahimi        case qcomRTN: {
*6467f958SSadaf Ebrahimi            int sign = 0;
*6467f958SSadaf Ebrahimi            int inExact = 0;
*6467f958SSadaf Ebrahimi            uint32_t f = 0xdf000000;
*6467f958SSadaf Ebrahimi            if (!data)
*6467f958SSadaf Ebrahimi                return 0.0f;
*6467f958SSadaf Ebrahimi            if (data == 0x8000000000000000)
*6467f958SSadaf Ebrahimi                return as_float(f);
*6467f958SSadaf Ebrahimi            if (data < 0){
*6467f958SSadaf Ebrahimi                data = - data;
*6467f958SSadaf Ebrahimi                sign = 1;
*6467f958SSadaf Ebrahimi            }
*6467f958SSadaf Ebrahimi            uint32_t    exponent    = (127 + 64 - clz(data) - 1) << (FLT_MANT_DIG - 1); //add 1 for the implied 1.0 in normalized fp32 numbers
*6467f958SSadaf Ebrahimi            int         mantShift   = 40 - clz(data);
*6467f958SSadaf Ebrahimi            uint32_t    mantissa;
*6467f958SSadaf Ebrahimi            if (mantShift >= 0){
*6467f958SSadaf Ebrahimi                uint64_t temp = (uint64_t)data >> mantShift;
*6467f958SSadaf Ebrahimi                if (temp << mantShift != data)
*6467f958SSadaf Ebrahimi                    inExact = 1;
*6467f958SSadaf Ebrahimi                mantissa = (uint32_t)temp;
*6467f958SSadaf Ebrahimi            }
*6467f958SSadaf Ebrahimi            else
*6467f958SSadaf Ebrahimi                mantissa = (uint32_t)((uint64_t)data << -mantShift);
*6467f958SSadaf Ebrahimi            mantissa &= 0x7fffff;//mask off the leading 1
*6467f958SSadaf Ebrahimi
*6467f958SSadaf Ebrahimi            uint32_t result = exponent | mantissa;
*6467f958SSadaf Ebrahimi            if (sign)
*6467f958SSadaf Ebrahimi                result |= 0x80000000;
*6467f958SSadaf Ebrahimi            if (!sign)
*6467f958SSadaf Ebrahimi                return as_float(result); // for positive inputs return RTZ result
*6467f958SSadaf Ebrahimi            else{
*6467f958SSadaf Ebrahimi                if(inExact){ // for negative inputs find the lower next fp number
*6467f958SSadaf Ebrahimi                    uint32_t low_float = 0xff7fffff;
*6467f958SSadaf Ebrahimi                    return nextafterf(as_float(result), as_float(low_float)); // could be simplified with some inc and carry operation
*6467f958SSadaf Ebrahimi                }
*6467f958SSadaf Ebrahimi                else
*6467f958SSadaf Ebrahimi                    return as_float(result);
*6467f958SSadaf Ebrahimi            }
*6467f958SSadaf Ebrahimi        }
*6467f958SSadaf Ebrahimi        case qcomRoundingModeCount: {
*6467f958SSadaf Ebrahimi            break; // Avoid build error for unhandled enum value
*6467f958SSadaf Ebrahimi        }
*6467f958SSadaf Ebrahimi    }
*6467f958SSadaf Ebrahimi    return 0.0f;
*6467f958SSadaf Ebrahimi}
*6467f958SSadaf Ebrahimi
*6467f958SSadaf Ebrahimifloat qcom_u64_2_f32(uint64_t data, bool sat, roundingMode rnd)
*6467f958SSadaf Ebrahimi{
*6467f958SSadaf Ebrahimi    switch (rnd) {
*6467f958SSadaf Ebrahimi        case qcomRTZ: {
*6467f958SSadaf Ebrahimi            if (!data)
*6467f958SSadaf Ebrahimi                return 0.0f;
*6467f958SSadaf Ebrahimi            uint32_t    exponent    = (127 + 64 - clz(data) - 1) << (FLT_MANT_DIG - 1); //add 1 for the implied 1.0 in normalized fp32 numbers
*6467f958SSadaf Ebrahimi            int         mantShift   = 40 - clz(data);
*6467f958SSadaf Ebrahimi            uint32_t    mantissa;
*6467f958SSadaf Ebrahimi            if (mantShift >= 0)
*6467f958SSadaf Ebrahimi                mantissa = (uint32_t)(data >> mantShift);
*6467f958SSadaf Ebrahimi            else
*6467f958SSadaf Ebrahimi                mantissa = (uint32_t)(data << -mantShift);
*6467f958SSadaf Ebrahimi            mantissa &= 0x7fffff;//mask off the leading 1
*6467f958SSadaf Ebrahimi
*6467f958SSadaf Ebrahimi            uint32_t result = exponent | mantissa;
*6467f958SSadaf Ebrahimi            return as_float(result);
*6467f958SSadaf Ebrahimi            break;
*6467f958SSadaf Ebrahimi        }
*6467f958SSadaf Ebrahimi        case qcomRTE: return (float)(data); break;
*6467f958SSadaf Ebrahimi        case qcomRTP: {
*6467f958SSadaf Ebrahimi            int inExact = 0;
*6467f958SSadaf Ebrahimi            if (!data)
*6467f958SSadaf Ebrahimi                return 0.0f;
*6467f958SSadaf Ebrahimi            uint32_t    exponent    = (127 + 64 - clz(data) - 1) << (FLT_MANT_DIG - 1); //add 1 for the implied 1.0 in normalized fp32 numbers
*6467f958SSadaf Ebrahimi            int         mantShift   = 40 - clz(data);
*6467f958SSadaf Ebrahimi            uint32_t    mantissa;
*6467f958SSadaf Ebrahimi            if (mantShift >= 0){
*6467f958SSadaf Ebrahimi                uint64_t temp = data >> mantShift;
*6467f958SSadaf Ebrahimi                if (temp << mantShift != data)
*6467f958SSadaf Ebrahimi                    inExact = 1;
*6467f958SSadaf Ebrahimi                mantissa = (uint32_t)temp;
*6467f958SSadaf Ebrahimi            }
*6467f958SSadaf Ebrahimi            else
*6467f958SSadaf Ebrahimi                mantissa = (uint32_t)(data << -mantShift);
*6467f958SSadaf Ebrahimi            mantissa &= 0x7fffff;//mask off the leading 1
*6467f958SSadaf Ebrahimi
*6467f958SSadaf Ebrahimi            uint32_t result = exponent | mantissa;
*6467f958SSadaf Ebrahimi            if(inExact){ // for positive inputs return higher next fp
*6467f958SSadaf Ebrahimi                uint32_t high_float = 0x7f7fffff;
*6467f958SSadaf Ebrahimi                return nextafterf(as_float(result), as_float(high_float)); // could be simplified with some inc and carry operation
*6467f958SSadaf Ebrahimi            }
*6467f958SSadaf Ebrahimi            else
*6467f958SSadaf Ebrahimi                return as_float(result);
*6467f958SSadaf Ebrahimi        }
*6467f958SSadaf Ebrahimi        case qcomRTN: {
*6467f958SSadaf Ebrahimi            int inExact = 0;
*6467f958SSadaf Ebrahimi            if (!data)
*6467f958SSadaf Ebrahimi                return 0.0f;
*6467f958SSadaf Ebrahimi            uint32_t  exponent    = (127 + 64 - clz(data) - 1) << (FLT_MANT_DIG - 1); //add 1 for the implied 1.0 in normalized fp32 numbers
*6467f958SSadaf Ebrahimi            int       mantShift   = 40 - clz(data);
*6467f958SSadaf Ebrahimi            uint32_t  mantissa;
*6467f958SSadaf Ebrahimi            if (mantShift >= 0){
*6467f958SSadaf Ebrahimi                uint64_t temp = (uint64_t)data >> mantShift;
*6467f958SSadaf Ebrahimi                if (temp << mantShift != data)
*6467f958SSadaf Ebrahimi                    inExact = 1;
*6467f958SSadaf Ebrahimi                mantissa = (uint32_t)temp;
*6467f958SSadaf Ebrahimi            }
*6467f958SSadaf Ebrahimi            else
*6467f958SSadaf Ebrahimi                mantissa = (uint32_t)((uint64_t)data << -mantShift);
*6467f958SSadaf Ebrahimi            mantissa &= 0x7fffff;//mask off the leading 1
*6467f958SSadaf Ebrahimi
*6467f958SSadaf Ebrahimi            uint32_t result = exponent | mantissa;
*6467f958SSadaf Ebrahimi            return as_float(result); // for positive inputs return RTZ result
*6467f958SSadaf Ebrahimi        }
*6467f958SSadaf Ebrahimi        case qcomRoundingModeCount: {
*6467f958SSadaf Ebrahimi            break; // Avoid build error for unhandled enum value
*6467f958SSadaf Ebrahimi        }
*6467f958SSadaf Ebrahimi    }
*6467f958SSadaf Ebrahimi    return 0.0f;
*6467f958SSadaf Ebrahimi}