pl/math/v_sincos_common.h

*412f47f9SXin Li/*
*412f47f9SXin Li * Core approximation for double-precision vector sincos
*412f47f9SXin Li *
*412f47f9SXin Li * Copyright (c) 2023, Arm Limited.
*412f47f9SXin Li * SPDX-License-Identifier: MIT OR Apache-2.0 WITH LLVM-exception
*412f47f9SXin Li */
*412f47f9SXin Li
*412f47f9SXin Li#include "v_math.h"
*412f47f9SXin Li#include "poly_advsimd_f64.h"
*412f47f9SXin Li
*412f47f9SXin Listatic const struct v_sincos_data
*412f47f9SXin Li{
*412f47f9SXin Li  float64x2_t sin_poly[7], cos_poly[6], pio2[3];
*412f47f9SXin Li  float64x2_t inv_pio2, shift, range_val;
*412f47f9SXin Li} v_sincos_data = {
*412f47f9SXin Li  .inv_pio2 = V2 (0x1.45f306dc9c882p-1),
*412f47f9SXin Li  .pio2 = { V2 (0x1.921fb50000000p+0), V2 (0x1.110b460000000p-26),
*412f47f9SXin Li	    V2 (0x1.1a62633145c07p-54) },
*412f47f9SXin Li  .shift = V2 (0x1.8p52),
*412f47f9SXin Li  .sin_poly = { /* Computed using Remez in [-pi/2, pi/2].  */
*412f47f9SXin Li	        V2 (-0x1.555555555547bp-3), V2 (0x1.1111111108a4dp-7),
*412f47f9SXin Li		V2 (-0x1.a01a019936f27p-13), V2 (0x1.71de37a97d93ep-19),
*412f47f9SXin Li		V2 (-0x1.ae633919987c6p-26), V2 (0x1.60e277ae07cecp-33),
*412f47f9SXin Li		V2 (-0x1.9e9540300a1p-41) },
*412f47f9SXin Li  .cos_poly = { /* Computed using Remez in [-pi/4, pi/4].  */
*412f47f9SXin Li	        V2 (0x1.555555555554cp-5), V2 (-0x1.6c16c16c1521fp-10),
*412f47f9SXin Li		V2 (0x1.a01a019cbf62ap-16), V2 (-0x1.27e4f812b681ep-22),
*412f47f9SXin Li		V2 (0x1.1ee9f152a57cdp-29), V2 (-0x1.8fb131098404bp-37) },
*412f47f9SXin Li  .range_val = V2 (0x1p23), };
*412f47f9SXin Li
*412f47f9SXin Listatic inline uint64x2_t
*412f47f9SXin Licheck_ge_rangeval (float64x2_t x, const struct v_sincos_data *d)
*412f47f9SXin Li{
*412f47f9SXin Li  return vcagtq_f64 (x, d->range_val);
*412f47f9SXin Li}
*412f47f9SXin Li
*412f47f9SXin Li/* Double-precision vector function allowing calculation of both sin and cos in
*412f47f9SXin Li   one function call, using shared argument reduction and separate polynomials.
*412f47f9SXin Li   Largest observed error is for sin, 3.22 ULP:
*412f47f9SXin Li   v_sincos_sin (0x1.d70eef40f39b1p+12) got -0x1.ffe9537d5dbb7p-3
*412f47f9SXin Li				       want -0x1.ffe9537d5dbb4p-3.  */
*412f47f9SXin Listatic inline float64x2x2_t
*412f47f9SXin Liv_sincos_inline (float64x2_t x, const struct v_sincos_data *d)
*412f47f9SXin Li{
*412f47f9SXin Li  /* q = nearest integer to 2 * x / pi.  */
*412f47f9SXin Li  float64x2_t q = vsubq_f64 (vfmaq_f64 (d->shift, x, d->inv_pio2), d->shift);
*412f47f9SXin Li  int64x2_t n = vcvtq_s64_f64 (q);
*412f47f9SXin Li
*412f47f9SXin Li  /* Use q to reduce x to r in [-pi/4, pi/4], by:
*412f47f9SXin Li     r = x - q * pi/2, in extended precision.  */
*412f47f9SXin Li  float64x2_t r = x;
*412f47f9SXin Li  r = vfmsq_f64 (r, q, d->pio2[0]);
*412f47f9SXin Li  r = vfmsq_f64 (r, q, d->pio2[1]);
*412f47f9SXin Li  r = vfmsq_f64 (r, q, d->pio2[2]);
*412f47f9SXin Li
*412f47f9SXin Li  float64x2_t r2 = r * r, r3 = r2 * r, r4 = r2 * r2;
*412f47f9SXin Li
*412f47f9SXin Li  /* Approximate sin(r) ~= r + r^3 * poly_sin(r^2).  */
*412f47f9SXin Li  float64x2_t s = v_pw_horner_6_f64 (r2, r4, d->sin_poly);
*412f47f9SXin Li  s = vfmaq_f64 (r, r3, s);
*412f47f9SXin Li
*412f47f9SXin Li  /* Approximate cos(r) ~= 1 - (r^2)/2 + r^4 * poly_cos(r^2).  */
*412f47f9SXin Li  float64x2_t c = v_pw_horner_5_f64 (r2, r4, d->cos_poly);
*412f47f9SXin Li  c = vfmaq_f64 (v_f64 (-0.5), r2, c);
*412f47f9SXin Li  c = vfmaq_f64 (v_f64 (1), r2, c);
*412f47f9SXin Li
*412f47f9SXin Li  /* If odd quadrant, swap cos and sin.  */
*412f47f9SXin Li  uint64x2_t swap = vtstq_s64 (n, v_s64 (1));
*412f47f9SXin Li  float64x2_t ss = vbslq_f64 (swap, c, s);
*412f47f9SXin Li  float64x2_t cc = vbslq_f64 (swap, s, c);
*412f47f9SXin Li
*412f47f9SXin Li  /* Fix signs according to quadrant.
*412f47f9SXin Li     ss = asdouble(asuint64(ss) ^ ((n       & 2) << 62))
*412f47f9SXin Li     cc = asdouble(asuint64(cc) & (((n + 1) & 2) << 62)).  */
*412f47f9SXin Li  uint64x2_t sin_sign
*412f47f9SXin Li      = vshlq_n_u64 (vandq_u64 (vreinterpretq_u64_s64 (n), v_u64 (2)), 62);
*412f47f9SXin Li  uint64x2_t cos_sign = vshlq_n_u64 (
*412f47f9SXin Li      vandq_u64 (vreinterpretq_u64_s64 (vaddq_s64 (n, v_s64 (1))), v_u64 (2)),
*412f47f9SXin Li      62);
*412f47f9SXin Li  ss = vreinterpretq_f64_u64 (
*412f47f9SXin Li      veorq_u64 (vreinterpretq_u64_f64 (ss), sin_sign));
*412f47f9SXin Li  cc = vreinterpretq_f64_u64 (
*412f47f9SXin Li      veorq_u64 (vreinterpretq_u64_f64 (cc), cos_sign));
*412f47f9SXin Li
*412f47f9SXin Li  return (float64x2x2_t){ ss, cc };
*412f47f9SXin Li}