Ryo-not-rio
diff --git a/‎aten/src/ATen/cpu/vec/functional_base.h
Lines changed: 2 additions & 2 deletions b/‎aten/src/ATen/cpu/vec/functional_base.h
Lines changed: 2 additions & 2 deletions
diff --git a/‎aten/src/ATen/cpu/vec/sve/vec_double.h
Lines changed: 1 addition & 2 deletions b/‎aten/src/ATen/cpu/vec/sve/vec_double.h
Lines changed: 1 addition & 2 deletions
diff --git a/‎aten/src/ATen/cpu/vec/sve/vec_float_2.h
Lines changed: 3 additions & 4 deletions b/‎aten/src/ATen/cpu/vec/sve/vec_float_2.h
Lines changed: 3 additions & 4 deletions
diff --git a/‎aten/src/ATen/cpu/vec/sve/vec_int.h
Lines changed: 1 addition & 2 deletions b/‎aten/src/ATen/cpu/vec/sve/vec_int.h
Lines changed: 1 addition & 2 deletions
diff --git a/‎aten/src/ATen/cpu/vec/sve/vec_qint.h
Lines changed: 6 additions & 6 deletions b/‎aten/src/ATen/cpu/vec/sve/vec_qint.h
Lines changed: 6 additions & 6 deletions
diff --git a/‎aten/src/ATen/cpu/vec/vec128/vec128_float_neon.h
Lines changed: 13 additions & 26 deletions b/‎aten/src/ATen/cpu/vec/vec128/vec128_float_neon.h
Lines changed: 13 additions & 26 deletions
diff --git a/‎aten/src/ATen/cpu/vec/vec_base.h
Lines changed: 46 additions & 6 deletions b/‎aten/src/ATen/cpu/vec/vec_base.h
Lines changed: 46 additions & 6 deletions
diff --git a/‎aten/src/ATen/cpu/vec/vec_convert.h
Lines changed: 1 addition & 1 deletion b/‎aten/src/ATen/cpu/vec/vec_convert.h
Lines changed: 1 addition & 1 deletion
diff --git a/‎aten/src/ATen/cpu/vec/vec_mask.h
Lines changed: 9 additions & 5 deletions b/‎aten/src/ATen/cpu/vec/vec_mask.h
Lines changed: 9 additions & 5 deletions
diff --git a/‎aten/src/ATen/cpu/vec/vec_n.h
Lines changed: 1 addition & 1 deletion b/‎aten/src/ATen/cpu/vec/vec_n.h
Lines changed: 1 addition & 1 deletion
@@ -18,9 +18,9 @@ inline scalar_t vec_reduce_all(
   scalar_t acc_arr[Vec::size()];
   acc_vec.store(acc_arr);
   for (const auto i : c10::irange(1, size)) {
-    std::array<scalar_t, Vec::size()> acc_arr_next = {0};
+    scalar_t acc_arr_next[Vec::size()] = {0};
     acc_arr_next[0] = acc_arr[i];
-    Vec acc_vec_next = Vec::loadu(acc_arr_next.data());
+    Vec acc_vec_next = Vec::loadu(acc_arr_next);
     acc_vec = vec_fun(acc_vec, acc_vec_next);
   }
   acc_vec.store(acc_arr);
 
@@ -47,8 +47,7 @@ template <> class Vectorized<double> {
   operator svfloat64_t() const {
     return values;
   }
-  template <uint64_t mask>
-  static Vectorized<double> blend(const Vectorized<double>& a, const Vectorized<double>& b) {
+  static Vectorized<double> blend(const Vectorized<double>& a, const Vectorized<double>& b, const uint64_t mask) {
     // Build an array of flags: each element is 1 if the corresponding bit in 'mask' is set, 0 otherwise.
     __at_align__ int64_t flag_arr[size()];
     for (int i = 0; i < size(); i++) {
 
@@ -37,8 +37,8 @@ template <> class Vectorized<float> {
 
   using value_type = float;
   using size_type = int;
-  static inline constexpr size_type size() {
-    return SVE_FLOAT_VEC_SIZE;
+  static inline size_type size() {
+    return svcntw();
   }
   inline Vectorized() {}
   inline Vectorized(const float val) {
@@ -84,8 +84,7 @@ template <> class Vectorized<float> {
     return result;
   }
 
-  template <uint64_t mask>
-  static inline Vectorized<float> blend(const Vectorized<float>& a, const Vectorized<float>& b) {
+  static inline Vectorized<float> blend(const Vectorized<float>& a, const Vectorized<float>& b, const uint64_t mask) {
     // Build an array of flags: each element is 1 if the corresponding bit in 'mask' is set, 0 otherwise.
     __at_align__ int32_t flag_arr[size()];
     for (int i = 0; i < size(); i++) {
 
@@ -42,8 +42,7 @@ public:
   operator svint##bit##_t() const {                                                                     \
     return values;                                                                                      \
   }                                                                                                     \
-  template <uint64_t mask>                                                                                      \
-  static Vectorized<int##bit##_t> blend(const Vectorized<int##bit##_t>& a, const Vectorized<int##bit##_t>& b) { \
+  static Vectorized<int##bit##_t> blend(const Vectorized<int##bit##_t>& a, const Vectorized<int##bit##_t>& b, const uint64_t mask) { \
     __at_align__ int##bit##_t flag_arr[size()];                                                                 \
     for (int i = 0; i < size(); ++i) {                                                                          \
       flag_arr[i] = (i < 64 && (mask & (1ULL << i))) ? 1 : 0;                                                   \
 
@@ -193,7 +193,7 @@ struct Vectorized<c10::qint32> : public VectorizedQuantizedConverter<
       int32_t zero_point,
       float inverse_scale) {
     std::array<value_type, size()> qvals;
-    std::array<float, float_num_vecs() * Vectorized<float>::size()> float_vals;
+    float float_vals[float_num_vecs() * Vectorized<float>::size()];
 
     for (int i = 0; i < float_num_vecs(); ++i) {
       rhs[i].store(&float_vals[i * Vectorized<float>::size()], Vectorized<float>::size());
@@ -202,7 +202,7 @@ struct Vectorized<c10::qint32> : public VectorizedQuantizedConverter<
     at::native::quantize_vec<c10::qint32, /*precision=*/32>(
         scale,
         zero_point,
-        float_vals.data(),
+        float_vals,
         (c10::qint32*)qvals.data(),
         Vectorized<float>::size() * float_num_vecs());
 
@@ -337,7 +337,7 @@ struct Vectorized<c10::qint8> : public VectorizedQuantizedConverter<
       int32_t zero_point,
       float inverse_scale) {
     std::array<value_type, size()> qvals;
-    std::array<float, float_num_vecs() * Vectorized<float>::size()> float_vals;
+    float float_vals[float_num_vecs() * Vectorized<float>::size()];
 
     for (int i = 0; i < float_num_vecs(); ++i) {
       rhs[i].store(&float_vals[i * Vectorized<float>::size()], Vectorized<float>::size());
@@ -346,7 +346,7 @@ struct Vectorized<c10::qint8> : public VectorizedQuantizedConverter<
     at::native::quantize_vec<c10::qint8>(
         scale,
         zero_point,
-        float_vals.data(),
+        float_vals,
         (c10::qint8*)qvals.data(),
         Vectorized<float>::size() * float_num_vecs());
 
@@ -476,7 +476,7 @@ struct Vectorized<c10::quint8> : public VectorizedQuantizedConverter<
       int32_t zero_point,
       float inverse_scale) {
     std::array<value_type, size()> qvals;
-    std::array<float, float_num_vecs() * Vectorized<float>::size()> float_vals;
+    float float_vals[float_num_vecs() * Vectorized<float>::size()];
 
     for (int i = 0; i < float_num_vecs(); ++i) {
       rhs[i].store(&float_vals[i * Vectorized<float>::size()], Vectorized<float>::size());
@@ -485,7 +485,7 @@ struct Vectorized<c10::quint8> : public VectorizedQuantizedConverter<
     at::native::quantize_vec<c10::quint8>(
         scale,
         zero_point,
-        float_vals.data(),
+        float_vals,
         (c10::quint8*)qvals.data(),
         Vectorized<float>::size() * float_num_vecs());
 
 
@@ -41,24 +41,12 @@ inline namespace CPU_CAPABILITY {
 #define USE_SLEEF(sleef_code, non_sleef_code) non_sleef_code
 #endif
 
-template<int index, bool mask_val>
-struct BlendRegs {
-  static float32x4_t impl(
-    const float32x4_t& a, const float32x4_t& b, float32x4_t& res);
-};
-
-template<int index>
-struct BlendRegs<index, true>{
-  static float32x4_t impl(
-      const float32x4_t& a, const float32x4_t& b, float32x4_t& res) {
-    return vsetq_lane_f32(vgetq_lane_f32(b, index), res, index);
-  }
-};
-
 template<int index>
-struct BlendRegs<index, false>{
+struct BlendRegs{
   static float32x4_t impl(
-      const float32x4_t& a, const float32x4_t& b, float32x4_t& res) {
+      const float32x4_t& a, const float32x4_t& b, float32x4_t& res, bool mask_val) {
+    if (mask_val)
+      return vsetq_lane_f32(vgetq_lane_f32(b, index), res, index);
     return vsetq_lane_f32(vgetq_lane_f32(a, index), res, index);
   }
 };
@@ -81,21 +69,20 @@ template <> class Vectorized<float> {
   operator float32x4_t() const {
     return values;
   }
-  template <int64_t mask>
-  static Vectorized<float> blend(const Vectorized<float>& a, const Vectorized<float>& b) {
+  static Vectorized<float> blend(const Vectorized<float>& a, const Vectorized<float>& b, const int64_t mask) {
     Vectorized<float> vec;
     vec.values =
-      BlendRegs<0, (mask & 0x01)!=0>::impl(
-          a.values, b.values, vec.values);
+      BlendRegs<0>::impl(
+          a.values, b.values, vec.values, (mask & 0x01)!=0);
     vec.values =
-      BlendRegs<1, (mask & 0x02)!=0>::impl(
-          a.values, b.values, vec.values);
+      BlendRegs<1>::impl(
+          a.values, b.values, vec.values, (mask & 0x02)!=0);
     vec.values =
-      BlendRegs<2, (mask & 0x04)!=0>::impl(
-          a.values, b.values, vec.values);
+      BlendRegs<2>::impl(
+          a.values, b.values, vec.values, (mask & 0x04)!=0);
     vec.values =
-      BlendRegs<3, (mask & 0x08)!=0>::impl(
-          a.values, b.values, vec.values);
+      BlendRegs<3>::impl(
+          a.values, b.values, vec.values, (mask & 0x08)!=0);
     return vec;
   }
   static Vectorized<float> blendv(const Vectorized<float>& a, const Vectorized<float>& b,
 
@@ -182,8 +182,7 @@ struct Vectorized {
   auto as_bytes() const -> const char* {
     return reinterpret_cast<const char*>(values);
   }
-  template <int64_t mask_>
-  static Vectorized<T> blend(const Vectorized<T>& a, const Vectorized<T>& b) {
+  static Vectorized<T> blend(const Vectorized<T>& a, const Vectorized<T>& b, const int64_t mask_) {
     int64_t mask = mask_;
     Vectorized vector;
     for (const auto i : c10::irange(size())) {
@@ -1013,7 +1012,7 @@ template <int64_t scale = 1, typename T = void>
 std::enable_if_t<scale == 1 || scale == 2 || scale == 4 || scale == 8, Vectorized<T>>
 inline mask_gather(const Vectorized<T>& src, T const* base_addr,
                    const Vectorized<int_same_size_t<T>>& vindex, Vectorized<T>& mask) {
-  static constexpr int size = Vectorized<T>::size();
+  static const int size = Vectorized<T>::size();
   T src_arr[size];
   int_same_size_t<T> mask_arr[size];  // use int type so we can logical and
   int_same_size_t<T> index_arr[size];
@@ -1097,7 +1096,7 @@ inline Vectorized<T> convert_to_fp_of_same_size(const Vectorized<IntType>& src)
 //       returns:                       Vectorized<float>   = {a0, a1, a2, a3, a4, a5, a6, a7}
 //                                      Vectorized<float>   = {b0, b1, b2, b3, b4, b5, b6, b7}
 template <typename T>
-inline std::enable_if_t<Vectorized<T>::size() % 2 == 0, std::pair<Vectorized<T>, Vectorized<T>>>
+inline std::enable_if_t<true, std::pair<Vectorized<T>, Vectorized<T>>>
 deinterleave2(const Vectorized<T>& a, const Vectorized<T>& b) {
   static constexpr int size = Vectorized<T>::size();
   static constexpr int half_size = size / 2;
@@ -1116,6 +1115,26 @@ deinterleave2(const Vectorized<T>& a, const Vectorized<T>& b) {
   return std::make_pair(Vectorized<T>::loadu(static_cast<void*>(buffer1)),
                         Vectorized<T>::loadu(static_cast<void*>(buffer2)));
 }
+// template <typename T>
+// inline std::enable_if_t<Vectorized<T>::size() % 2 == 0, std::pair<Vectorized<T>, Vectorized<T>>>
+// deinterleave2(const Vectorized<T>& a, const Vectorized<T>& b) {
+//   static constexpr int size = Vectorized<T>::size();
+//   static constexpr int half_size = size / 2;
+//   T a_arr[size];
+//   T b_arr[size];
+//   T buffer1[size];
+//   T buffer2[size];
+//   a.store(static_cast<void*>(a_arr));
+//   b.store(static_cast<void*>(b_arr));
+//   for (const auto i : c10::irange(half_size)) {
+//     buffer1[i] = a_arr[i * 2];
+//     buffer1[half_size + i] = b_arr[i * 2];
+//     buffer2[i] = a_arr[i * 2 + 1];
+//     buffer2[half_size + i] = b_arr[i * 2 + 1];
+//   }
+//   return std::make_pair(Vectorized<T>::loadu(static_cast<void*>(buffer1)),
+//                         Vectorized<T>::loadu(static_cast<void*>(buffer2)));
+// }
 
 // inverse operation of deinterleave2
 // Example inputs for AVX512:
@@ -1129,7 +1148,7 @@ deinterleave2(const Vectorized<T>& a, const Vectorized<T>& b) {
 //       returns:            Vectorized<float>   = {a0, b0, a1, b1, a2, b2, a3, b3}
 //                           Vectorized<float>   = {a4, b4, a5, b5, a6, b6, a7, b7}
 template <typename T>
-inline std::enable_if_t<Vectorized<T>::size() % 2 == 0, std::pair<Vectorized<T>, Vectorized<T>>>
+inline std::enable_if_t<true, std::pair<Vectorized<T>, Vectorized<T>>>
 interleave2(const Vectorized<T>& a, const Vectorized<T>& b) {
   static constexpr int size = Vectorized<T>::size();
   static constexpr int half_size = size / 2;
@@ -1149,6 +1168,27 @@ interleave2(const Vectorized<T>& a, const Vectorized<T>& b) {
                         Vectorized<T>::loadu(static_cast<void*>(buffer2)));
 }
 
+// template <typename T>
+// inline std::enable_if_t<Vectorized<T>::size() % 2 == 0, std::pair<Vectorized<T>, Vectorized<T>>>
+// interleave2(const Vectorized<T>& a, const Vectorized<T>& b) {
+//   static constexpr int size = Vectorized<T>::size();
+//   static constexpr int half_size = size / 2;
+//   T a_arr[size];
+//   T b_arr[size];
+//   T buffer1[size];
+//   T buffer2[size];
+//   a.store(static_cast<void*>(a_arr));
+//   b.store(static_cast<void*>(b_arr));
+//   for (const auto i : c10::irange(half_size)) {
+//     buffer1[i * 2] = a_arr[i];
+//     buffer1[i * 2 + 1] = b_arr[i];
+//     buffer2[i * 2] = a_arr[half_size + i];
+//     buffer2[i * 2 + 1] = b_arr[half_size + i];
+//   }
+//   return std::make_pair(Vectorized<T>::loadu(static_cast<void*>(buffer1)),
+//                         Vectorized<T>::loadu(static_cast<void*>(buffer2)));
+// }
+
 template <typename src_T, typename dst_T>
 inline void convert(const src_T *src, dst_T *dst, int64_t n) {
 #ifndef _MSC_VER
@@ -1163,7 +1203,7 @@ inline void convert(const src_T *src, dst_T *dst, int64_t n) {
 
 template <typename T>
 inline Vectorized<T> flip(const Vectorized<T> & data) {
-  static constexpr int size = Vectorized<T>::size();
+  static const int size = Vectorized<T>::size();
   T output[size];
   T buffer[size];
   data.store(static_cast<void*>(buffer));
 
@@ -15,7 +15,7 @@ template <
 struct VecConvert {
   static inline VectorizedN<dst_t, dst_n> apply(
       const VectorizedN<src_t, src_n>& src) {
-    constexpr int count = std::min(
+    const int count = std::min(
         VectorizedN<src_t, src_n>::size(), VectorizedN<dst_t, dst_n>::size());
     __at_align__ src_t src_buf[VectorizedN<src_t, src_n>::size()];
     src.store(src_buf);
 
@@ -2,6 +2,8 @@
 
 #include <ATen/cpu/vec/vec_base.h>
 #include <ATen/cpu/vec/vec_n.h>
+
+#include <cassert>
 namespace at::vec {
 inline namespace CPU_CAPABILITY {
 
@@ -38,9 +40,9 @@ struct VecMaskLoad {
   static inline VectorizedN<data_t, data_n> apply(
       const data_t* ptr,
       const VecMask<mask_t, mask_n>& vec_mask) {
-    constexpr typename VecMask<mask_t, mask_n>::size_type size =
+    const typename VecMask<mask_t, mask_n>::size_type size =
         VecMask<mask_t, mask_n>::size();
-    static_assert(VectorizedN<data_t, data_n>::size() >= size);
+    assert((VectorizedN<data_t, data_n>::size() >= size));
     __at_align__ data_t data[size];
     __at_align__ mask_t mask[size];
     auto mask_ = VectorizedN<mask_t, mask_n>(vec_mask);
@@ -127,7 +129,7 @@ class VecMask {
   template <typename U, int L>
   static VecMask<T, N> from(const VectorizedN<U, L>& b_vec) {
     __at_align__ U b_buf[size()];
-    if constexpr (size() >= VectorizedN<U, L>::size()) {
+    if (size() >= VectorizedN<U, L>::size()) {
       b_vec.store(b_buf);
       for (int i = VectorizedN<U, L>::size(); i < size(); i++) {
         b_buf[i] = static_cast<U>(0);
@@ -230,16 +232,18 @@ class VecMask {
   template <
       typename U,
       int L,
-      std::enable_if_t<L >= 2 && VectorizedN<U, L>::size() >= size(), int> = 0>
+      std::enable_if_t<L >= 2, int> = 0>
   VectorizedN<U, L> loadu(const U* ptr) const {
+    assert((VectorizedN<U, L>::size() >= size()));
     return VecMaskLoad<U, L, T, N>::apply(ptr, *this);
   }
 
   template <
       typename U,
       int L,
-      std::enable_if_t<L == 1 && Vectorized<U>::size() >= size(), int> = 0>
+      std::enable_if_t<L == 1, int> = 0>
   Vectorized<U> loadu(const U* ptr) const {
+    assert((Vectorized<U>::size() >= size()));
     return VecMaskLoad<U, L, T, N>::apply(ptr, *this);
   }
 };
 
@@ -28,7 +28,7 @@ class VectorizedN {
   using size_type = int;
 
   static constexpr size_type size_T = sizeof(T);
-  static constexpr size_type size() {
+  static size_type size() {
     return Vectorized<T>::size() * N;
   }
Original file line number	Diff line number	Diff line change
`@@ -28,7 +28,7 @@ class VectorizedN {`
`28`	`28`	`using size_type = int;`
`29`	`29`
`30`	`30`	`static constexpr size_type size_T = sizeof(T);`
`31`		`- static constexpr size_type size() {`
	`31`	`+ static size_type size() {`
`32`	`32`	`return Vectorized<T>::size() * N;`
`33`	`33`	`}`
`34`	`34`