n64: replace cmath functions with arch-specific intrinsics

invertego · LukeUsher · commit fbc921ade9cc · 2022-10-19T09:21:04.000+01:00
We cannot rely on specific status flags being set by C standard math
functions.
diff --git a/ares/n64/cpu/algorithms.cpp b/ares/n64/cpu/algorithms.cpp
@@ -0,0 +1,142 @@
+template <typename T>
+auto CPU::roundNearest(f32 f) -> T {
+#if defined(ARCHITECTURE_ARM64)
+  u32 rnd = fenv.getRound();
+  fenv.setRound(float_env::toNearest);
+  T d = vrndns_f32(f);
+  fenv.setRound(rnd);
+  return d;
+#elif defined(ARCHITECTURE_AMD64)
+  __m128 t = _mm_set_ss(f);
+  t = _mm_round_ss(t, t, _MM_FROUND_TO_NEAREST_INT);
+  return _mm_cvtss_f32(t);
+#else
+  return lround(f);
+#endif
+}
+
+template <typename T>
+auto CPU::roundNearest(f64 f) -> T {
+#if defined(ARCHITECTURE_ARM64)
+  u32 rnd = fenv.getRound();
+  fenv.setRound(float_env::toNearest);
+  float64x1_t vf = {f};
+  T d = vrndn_f64(vf)[0];
+  fenv.setRound(rnd);
+  return d;
+#elif defined(ARCHITECTURE_AMD64)
+  __m128d t = _mm_set_sd(f);
+  t = _mm_round_sd(t, t, _MM_FROUND_TO_NEAREST_INT);
+  return _mm_cvtsd_f64(t);
+#else
+  return llround(f);
+#endif
+}
+
+template <typename T>
+auto CPU::roundCeil(f32 f) -> T {
+#if defined(ARCHITECTURE_AMD64)
+  __m128 t = _mm_set_ss(f);
+  t = _mm_round_ss(t, t, _MM_FROUND_TO_POS_INF);
+  return _mm_cvtss_f32(t);
+#else
+  return ceil(f);
+#endif
+}
+
+template <typename T>
+auto CPU::roundCeil(f64 f) -> T {
+#if defined(ARCHITECTURE_AMD64)
+  __m128d t = _mm_set_sd(f);
+  t = _mm_round_sd(t, t, _MM_FROUND_TO_POS_INF);
+  return _mm_cvtsd_f64(t);
+#else
+  return ceil(f);
+#endif
+}
+
+template<typename T>
+auto CPU::roundCurrent(f32 f) -> T {
+#if defined(ARCHITECTURE_AMD64)
+  auto t = _mm_set_ss(f);
+  t = _mm_round_ss(t, t, _MM_FROUND_CUR_DIRECTION);
+  return _mm_cvtss_f32(t);
+#else
+  return lrint(f);
+#endif
+}
+
+template<typename T>
+auto CPU::roundCurrent(f64 f) -> T {
+#if defined(ARCHITECTURE_AMD64)
+  auto t = _mm_set_sd(f);
+  t = _mm_round_sd(t, t, _MM_FROUND_CUR_DIRECTION);
+  return _mm_cvtsd_f64(t);
+#else
+  return llrint(f);
+#endif
+}
+
+template <typename T>
+auto CPU::roundFloor(f32 f) -> T {
+#if defined(ARCHITECTURE_AMD64)
+  __m128 t = _mm_set_ss(f);
+  t = _mm_round_ss(t, t, _MM_FROUND_TO_NEG_INF);
+  return _mm_cvtss_f32(t);
+#else
+  return floor(f);
+#endif
+}
+
+template <typename T>
+auto CPU::roundFloor(f64 f) -> T {
+#if defined(ARCHITECTURE_AMD64)
+  __m128d t = _mm_set_sd(f);
+  t = _mm_round_sd(t, t, _MM_FROUND_TO_NEG_INF);
+  return _mm_cvtsd_f64(t);
+#else
+  return floor(f);
+#endif
+}
+
+template <typename T>
+auto CPU::roundTrunc(f32 f) -> T {
+#if defined(ARCHITECTURE_AMD64)
+  __m128 t = _mm_set_ss(f);
+  t = _mm_round_ss(t, t, _MM_FROUND_TO_ZERO);
+  return _mm_cvtss_f32(t);
+#else
+  return trunc(f);
+#endif
+}
+
+template <typename T>
+auto CPU::roundTrunc(f64 f) -> T {
+#if defined(ARCHITECTURE_AMD64)
+  __m128d t = _mm_set_sd(f);
+  t = _mm_round_sd(t, t, _MM_FROUND_TO_ZERO);
+  return _mm_cvtsd_f64(t);
+#else
+  return trunc(f);
+#endif
+}
+
+auto CPU::squareRoot(f32 f) -> f32 {
+#if defined(ARCHITECTURE_AMD64)
+  __m128 t = _mm_set_ss(f);
+  t = _mm_sqrt_ss(t);
+  return _mm_cvtss_f32(t);
+#else
+  return sqrt(f);
+#endif
+}
+
+auto CPU::squareRoot(f64 f) -> f64 {
+#if defined(ARCHITECTURE_AMD64)
+  __m128d t = _mm_set_sd(f);
+  t = _mm_sqrt_sd(t, t);
+  return _mm_cvtsd_f64(t);
+#else
+  return sqrt(f);
+#endif
+}
diff --git a/ares/n64/cpu/cpu.cpp b/ares/n64/cpu/cpu.cpp
@@ -8,6 +8,7 @@ CPU cpu;
 #include "tlb.cpp"
 #include "memory.cpp"
 #include "exceptions.cpp"
+#include "algorithms.cpp"
 #include "interpreter.cpp"
 #include "interpreter-ipu.cpp"
 #include "interpreter-scc.cpp"
diff --git a/ares/n64/cpu/cpu.hpp b/ares/n64/cpu/cpu.hpp
@@ -344,6 +344,20 @@ struct CPU : Thread {
     u64 pc;  //program counter
   } ipu;
 
+  //algorithms.cpp
+  template<typename T> auto roundNearest(f32 f) -> T;
+  template<typename T> auto roundNearest(f64 f) -> T;
+  template<typename T> auto roundCeil(f32 f) -> T;
+  template<typename T> auto roundCeil(f64 f) -> T;
+  template<typename T> auto roundCurrent(f32 f) -> T;
+  template<typename T> auto roundCurrent(f64 f) -> T;
+  template<typename T> auto roundFloor(f32 f) -> T;
+  template<typename T> auto roundFloor(f64 f) -> T;
+  template<typename T> auto roundTrunc(f32 f) -> T;
+  template<typename T> auto roundTrunc(f64 f) -> T;
+  auto squareRoot(f32 f) -> f32;
+  auto squareRoot(f64 f) -> f64;
+
   //interpreter-ipu.cpp
   auto ADD(r64& rd, cr64& rs, cr64& rt) -> void;
   auto ADDI(r64& rt, cr64& rs, s16 imm) -> void;
@@ -657,8 +671,6 @@ struct CPU : Thread {
   auto fpuClearCause() -> void;
   template<typename DST, typename SF>
   auto fpuCheckInputConv(SF& f) -> bool;
-  template <typename T> auto roundeven(f32 f) -> T;
-  template <typename T> auto roundeven(f64 f) -> T;
 
   auto BC1(bool value, bool likely, s16 imm) -> void;
   auto CFC1(r64& rt, u8 rd) -> void;
diff --git a/ares/n64/cpu/interpreter-fpu.cpp b/ares/n64/cpu/interpreter-fpu.cpp