PaddlePaddle
diff --git a/‎_typos.toml
Lines changed: 2 additions & 14 deletions b/‎_typos.toml
Lines changed: 2 additions & 14 deletions
diff --git a/‎cmake/external/xpu.cmake
Lines changed: 13 additions & 9 deletions b/‎cmake/external/xpu.cmake
Lines changed: 13 additions & 9 deletions
diff --git a/‎paddle/cinn/hlir/dialect/operator/transforms/pd_to_cinn_pass.cc
Lines changed: 12 additions & 2 deletions b/‎paddle/cinn/hlir/dialect/operator/transforms/pd_to_cinn_pass.cc
Lines changed: 12 additions & 2 deletions
diff --git a/‎paddle/common/flags.cc
Lines changed: 2 additions & 2 deletions b/‎paddle/common/flags.cc
Lines changed: 2 additions & 2 deletions
diff --git a/‎paddle/fluid/eager/autograd_meta.h
Lines changed: 1 addition & 1 deletion b/‎paddle/fluid/eager/autograd_meta.h
Lines changed: 1 addition & 1 deletion
diff --git a/‎paddle/fluid/framework/framework.proto
Lines changed: 5 additions & 5 deletions b/‎paddle/fluid/framework/framework.proto
Lines changed: 5 additions & 5 deletions
diff --git a/‎paddle/fluid/framework/ir/lock_free_optimize_pass.h
Lines changed: 1 addition & 1 deletion b/‎paddle/fluid/framework/ir/lock_free_optimize_pass.h
Lines changed: 1 addition & 1 deletion
diff --git a/‎paddle/fluid/framework/op_registry.h
Lines changed: 2 additions & 2 deletions b/‎paddle/fluid/framework/op_registry.h
Lines changed: 2 additions & 2 deletions
diff --git a/‎paddle/fluid/framework/shape_inference.h
Lines changed: 2 additions & 2 deletions b/‎paddle/fluid/framework/shape_inference.h
Lines changed: 2 additions & 2 deletions
diff --git a/‎paddle/fluid/framework/var_desc.cc
Lines changed: 20 additions & 20 deletions b/‎paddle/fluid/framework/var_desc.cc
Lines changed: 20 additions & 20 deletions
@@ -12,6 +12,8 @@ extend-exclude = [
 anc = 'anc'
 arange = "arange"
 astroid = 'astroid'
+Clas = 'Clas'
+clen = 'clen'
 dout = "dout"
 eles = 'eles'
 grad = "grad"
@@ -60,10 +62,6 @@ cann = 'cann'
 vart = 'vart'
 checkings = 'checkings'
 childs = 'childs'
-Chunck = 'Chunck'
-clen = 'clen'
-Clas = 'Clas'
-clas = 'clas'
 compability = 'compability'
 compatiblity = 'compatiblity'
 Compitable = 'Compitable'
@@ -136,13 +134,6 @@ defind = 'defind'
 defeine = 'defeine'
 defition = 'defition'
 defination = 'defination'
-delet = 'delet'
-dependecies = 'dependecies'
-dependecy = 'dependecy'
-decprecated = 'decprecated'
-derivated = 'derivated'
-descripor = 'descripor'
-deserailize = 'deserailize'
 Destory = 'Destory'
 DEIVCE = 'DEIVCE'
 dictionnary = 'dictionnary'
@@ -422,7 +413,6 @@ fo = 'fo'
 offets = 'offets'
 offseted = 'offseted'
 OLT = 'OLT'
-olny = 'olny'
 pn = 'pn'
 Operants = 'Operants'
 operants = 'operants'
@@ -441,13 +431,11 @@ orginal = 'orginal'
 onces = 'onces'
 outter = 'outter'
 outpus = 'outpus'
-outputing = 'outputing'
 outout = 'outout'
 ouput = 'ouput'
 outpout = 'outpout'
 ouptut = 'ouptut'
 Ouput = 'Ouput'
-ouside = 'ouside'
 overriden = 'overriden'
 Overide = 'Overide'
 overide = 'overide'
 
@@ -22,6 +22,7 @@ set(XPU_API_LIB_NAME "libxpuapi.so")
 set(XPU_RT_LIB_NAME "libxpurt.so")
 set(XPU_CUDA_LIB_NAME "libxpucuda.so")
 set(XPU_CUDA_RT_LIB_NAME "libcudart.so")
+set(XPU_ML_LIB_NAME "libxpuml.so")
 set(XPU_XFT_LIB_NAME "libxft.so")
 set(XPU_XPTI_LIB_NAME "libxpti.so")
 set(XPU_XBLAS_LIB_NAME "libxpu_blas.so")
@@ -31,7 +32,7 @@ set(XPU_XPUDNN_LIB_NAME "libxpu_dnn.so")
 if(NOT DEFINED XPU_XHPC_BASE_DATE)
   set(XPU_XHPC_BASE_DATE "dev/20241127")
 endif()
-set(XPU_XCCL_BASE_VERSION "3.0.0.5") # For XRE5
+set(XPU_XCCL_BASE_VERSION "3.0.1.1") # For XRE5
 if(NOT DEFINED XPU_XFT_BASE_VERSION)
   set(XPU_XFT_BASE_VERSION "20230602")
 endif()
@@ -146,6 +147,7 @@ set(XPU_XBLAS_LIB "${XPU_LIB_DIR}/${XPU_XBLAS_LIB_NAME}")
 set(XPU_RT_LIB "${XPU_LIB_DIR}/${XPU_RT_LIB_NAME}")
 set(XPU_CUDA_LIB "${XPU_LIB_DIR}/${XPU_CUDA_LIB_NAME}")
 set(XPU_CUDA_RT_LIB "${XPU_LIB_DIR}/${XPU_CUDA_RT_LIB_NAME}")
+set(XPU_ML_LIB "${XPU_LIB_DIR}/${XPU_ML_LIB_NAME}")
 set(XPU_XFA_LIB "${XPU_LIB_DIR}/${XPU_XFA_LIB_NAME}")
 set(XPU_XPUDNN_LIB "${XPU_LIB_DIR}/${XPU_XPUDNN_LIB_NAME}")
 
@@ -190,6 +192,7 @@ if(WITH_XPU_XRE5)
     BUILD_BYPRODUCTS ${XPU_XFA_LIB}
     BUILD_BYPRODUCTS ${XPU_RT_LIB}
     BUILD_BYPRODUCTS ${XPU_CUDA_RT_LIB}
+    BUILD_BYPRODUCTS ${XPU_ML_LIB}
     BUILD_BYPRODUCTS ${XPU_BKCL_LIB})
 else()
   ExternalProject_Add(
@@ -221,12 +224,6 @@ set_property(TARGET shared_xpuapi PROPERTY IMPORTED_LOCATION "${XPU_API_LIB}")
 # for cc_library(xxx SRCS xxx.c DEPS xpulib)
 generate_dummy_static_lib(LIB_NAME "xpulib" GENERATOR "xpu.cmake")
 
-if(WITH_XPU_XRE5)
-  target_link_libraries(xpulib ${XPU_API_LIB} ${XPU_RT_LIB} ${XPU_CUDA_RT_LIB})
-else()
-  target_link_libraries(xpulib ${XPU_API_LIB} ${XPU_RT_LIB})
-endif()
-
 if(WITH_XPU_XFT)
   message(STATUS "Compile with XPU XFT!")
   add_definitions(-DPADDLE_WITH_XPU_XFT)
@@ -272,13 +269,20 @@ if(WITH_XPU_XRE5)
     xpulib
     ${XPU_RT_LIB}
     ${XPU_CUDA_RT_LIB}
-    ${XPU_BKCL_LIB}
     ${XPU_XBLAS_LIB}
     ${XPU_API_LIB}
     ${XPU_XFA_LIB}
     ${XPU_XPUDNN_LIB})
 else()
-  target_link_libraries(xpulib ${XPU_RT_LIB} ${XPU_BKCL_LIB} ${XPU_API_LIB})
+  target_link_libraries(xpulib ${XPU_RT_LIB} ${XPU_API_LIB})
+endif()
+
+if(WITH_XPU_BKCL)
+  if(WITH_XPU_XRE5)
+    target_link_libraries(xpulib ${XPU_ML_LIB} ${XPU_BKCL_LIB})
+  else()
+    target_link_libraries(xpulib ${XPU_BKCL_LIB})
+  endif()
 endif()
 
 add_dependencies(xpulib ${XPU_PROJECT})
 
@@ -969,8 +969,18 @@ class FullWithTensorOpPattern
                   .result(0);
     }
 
-    auto out =
-        rewriter.Build<paddle::dialect::ExpandOp>(value, shape).result(0);
+    const auto &out = [&]() -> pir::Value {
+      const auto &out_type =
+          op->result(0).type().dyn_cast<paddle::dialect::DenseTensorType>();
+      if (out_type.dims().size() == 0) {
+        const auto &dtype =
+            op->attribute<paddle::dialect::DataTypeAttribute>("dtype").data();
+        return rewriter
+            .Build<paddle::dialect::FullOp>(std::vector<int64_t>{}, 0.0, dtype)
+            .result(0);
+      }
+      return rewriter.Build<paddle::dialect::ExpandOp>(value, shape).result(0);
+    }();
 
     rewriter.ReplaceAllUsesWith(op.result(0), out);
 
 
@@ -1521,8 +1521,8 @@ PHI_DEFINE_EXPORTED_bool(use_shm_cache,
  * Since Version: 2.6.2
  * Value Range: bool, default=false
  * Example:
- * Note: . If True, mmap_allocator will use file descripor to open shared memory
- * operation.
+ * Note: . If True, mmap_allocator will use file descriptor to open shared
+ * memory operation.
  */
 PHI_DEFINE_EXPORTED_bool(dataloader_use_file_descriptor,
                          false,
 
@@ -56,7 +56,7 @@ using AbstractAutogradMeta = paddle::AbstractAutogradMeta;
  *
  * **/
 
-// No other AutogradMeta class should be derivated from AbstractAutogradMeta.
+// No other AutogradMeta class should be derived from AbstractAutogradMeta.
 // It's only used by
 class AutogradMeta : public AbstractAutogradMeta {
  public:
 
@@ -195,19 +195,19 @@ message VarType {
   }
   optional TensorDesc selected_rows = 2;
 
-  message LoDTensorDesc {
+  message DenseTensorDesc {
     required TensorDesc tensor = 1;
     optional int32 lod_level = 2 [ default = 0 ];
   }
-  optional LoDTensorDesc lod_tensor = 3;
+  optional DenseTensorDesc dense_tensor = 3;
 
-  message LoDTensorArrayDesc {
+  message DenseTensorArrayDesc {
     required TensorDesc tensor = 1;
     optional int32 lod_level = 2 [ default = 0 ];
   }
-  optional LoDTensorArrayDesc tensor_array = 4;
+  optional DenseTensorArrayDesc tensor_array = 4;
 
-  message ReaderDesc { repeated LoDTensorDesc lod_tensor = 1; }
+  message ReaderDesc { repeated DenseTensorDesc dense_tensor = 1; }
   optional ReaderDesc reader = 5;
 
   message Tuple { repeated Type element_type = 1; }
 
@@ -30,7 +30,7 @@ class Graph;
 
 /*
  * Remove the sum op of all gradients of the backward op.
- * And remove the dependecies of the optimizer related to the
+ * And remove the dependencies of the optimizer related to the
  * same backward op.
  *
  * Before this pass:
 
@@ -61,8 +61,8 @@ class OpVersionMap_OpVersionPair;
 class ProgramDesc;
 class VarDesc;
 class VarType;
-class VarType_LoDTensorArrayDesc;
-class VarType_LoDTensorDesc;
+class VarType_DenseTensorArrayDesc;
+class VarType_DenseTensorDesc;
 class VarType_ReaderDesc;
 class VarType_TensorDesc;
 class VarType_Tuple;
 
@@ -41,8 +41,8 @@ class OpVersionMap_OpVersionPair;
 class ProgramDesc;
 class VarDesc;
 class VarType;
-class VarType_LoDTensorArrayDesc;
-class VarType_LoDTensorDesc;
+class VarType_DenseTensorArrayDesc;
+class VarType_DenseTensorDesc;
 class VarType_ReaderDesc;
 class VarType_TensorDesc;
 class VarType_Tuple;
 
@@ -58,11 +58,11 @@ void VarDesc::SetShape(const std::vector<int64_t> &dims) {
 void VarDesc::SetTensorDescNum(size_t num) {
   switch (desc_.type().type()) {
     case proto::VarType::READER: {
-      auto *lod_tensors_ptr =
-          desc_.mutable_type()->mutable_reader()->mutable_lod_tensor();
-      lod_tensors_ptr->Clear();
+      auto *dense_tensors_ptr =
+          desc_.mutable_type()->mutable_reader()->mutable_dense_tensor();
+      dense_tensors_ptr->Clear();
       for (size_t i = 0; i < num; ++i) {
-        lod_tensors_ptr->Add();
+        dense_tensors_ptr->Add();
       }
       return;
     } break;
@@ -78,7 +78,7 @@ void VarDesc::SetTensorDescNum(size_t num) {
 size_t VarDesc::GetTensorDescNum() const {
   switch (desc_.type().type()) {
     case proto::VarType::READER:
-      return desc_.type().reader().lod_tensor_size();
+      return desc_.type().reader().dense_tensor_size();
       break;
     default:
       PADDLE_THROW(
@@ -162,7 +162,7 @@ std::vector<proto::VarType::Type> VarDesc::GetDataTypes() const {
 void VarDesc::SetLoDLevel(int32_t lod_level) {
   switch (desc_.type().type()) {
     case proto::VarType::DENSE_TENSOR:
-      desc_.mutable_type()->mutable_lod_tensor()->set_lod_level(lod_level);
+      desc_.mutable_type()->mutable_dense_tensor()->set_lod_level(lod_level);
       break;
     case proto::VarType::DENSE_TENSOR_ARRAY:
       desc_.mutable_type()->mutable_tensor_array()->set_lod_level(lod_level);
@@ -187,9 +187,9 @@ void VarDesc::SetLoDLevels(const std::vector<int32_t> &multiple_lod_level) {
   switch (desc_.type().type()) {
     case proto::VarType::READER: {
       size_t i = 0;
-      for (auto &lod_tensor :
-           *desc_.mutable_type()->mutable_reader()->mutable_lod_tensor()) {
-        lod_tensor.set_lod_level(multiple_lod_level[i++]);
+      for (auto &dense_tensor :
+           *desc_.mutable_type()->mutable_reader()->mutable_dense_tensor()) {
+        dense_tensor.set_lod_level(multiple_lod_level[i++]);
       }
     } break;
     default:
@@ -203,7 +203,7 @@ void VarDesc::SetLoDLevels(const std::vector<int32_t> &multiple_lod_level) {
 int32_t VarDesc::GetLoDLevel() const {
   switch (desc_.type().type()) {
     case proto::VarType::DENSE_TENSOR:
-      return desc_.type().lod_tensor().lod_level();
+      return desc_.type().dense_tensor().lod_level();
     case proto::VarType::DENSE_TENSOR_ARRAY:
       return desc_.type().tensor_array().lod_level();
     default:
@@ -217,9 +217,9 @@ std::vector<int32_t> VarDesc::GetLoDLevels() const {
   std::vector<int32_t> res;
   switch (desc_.type().type()) {
     case proto::VarType::READER:
-      res.reserve(desc_.type().reader().lod_tensor_size());
-      for (auto &lod_tensor : desc_.type().reader().lod_tensor()) {
-        res.push_back(lod_tensor.lod_level());
+      res.reserve(desc_.type().reader().dense_tensor_size());
+      for (auto &dense_tensor : desc_.type().reader().dense_tensor()) {
+        res.push_back(dense_tensor.lod_level());
       }
       return res;
       break;
@@ -243,7 +243,7 @@ const proto::VarType::TensorDesc &VarDesc::tensor_desc() const {
     case proto::VarType::SELECTED_ROWS:
       return desc_.type().selected_rows();
     case proto::VarType::DENSE_TENSOR:
-      return desc_.type().lod_tensor().tensor();
+      return desc_.type().dense_tensor().tensor();
     case proto::VarType::DENSE_TENSOR_ARRAY:
       return desc_.type().tensor_array().tensor();
     case proto::VarType::STRINGS:
@@ -268,8 +268,8 @@ std::vector<proto::VarType::TensorDesc> VarDesc::tensor_descs() const {
   res.reserve(GetTensorDescNum());
   switch (desc_.type().type()) {
     case proto::VarType::READER:
-      for (const auto &lod_tensor : desc_.type().reader().lod_tensor()) {
-        res.push_back(lod_tensor.tensor());
+      for (const auto &dense_tensor : desc_.type().reader().dense_tensor()) {
+        res.push_back(dense_tensor.tensor());
       }
       return res;
     default:
@@ -292,7 +292,7 @@ proto::VarType::TensorDesc *VarDesc::mutable_tensor_desc() {
     case proto::VarType::SELECTED_ROWS:
       return desc_.mutable_type()->mutable_selected_rows();
     case proto::VarType::DENSE_TENSOR:
-      return desc_.mutable_type()->mutable_lod_tensor()->mutable_tensor();
+      return desc_.mutable_type()->mutable_dense_tensor()->mutable_tensor();
     case proto::VarType::DENSE_TENSOR_ARRAY:
       return desc_.mutable_type()->mutable_tensor_array()->mutable_tensor();
     case proto::VarType::STRINGS:
@@ -323,9 +323,9 @@ std::vector<proto::VarType::TensorDesc *> VarDesc::mutable_tensor_descs() {
   res.reserve(GetTensorDescNum());
   switch (desc_.type().type()) {
     case proto::VarType::READER:
-      for (auto &lod_tensor :
-           *desc_.mutable_type()->mutable_reader()->mutable_lod_tensor()) {
-        res.push_back(lod_tensor.mutable_tensor());
+      for (auto &dense_tensor :
+           *desc_.mutable_type()->mutable_reader()->mutable_dense_tensor()) {
+        res.push_back(dense_tensor.mutable_tensor());
       }
       return res;
     default:
Original file line number	Diff line number	Diff line change
`@@ -56,7 +56,7 @@ using AbstractAutogradMeta = paddle::AbstractAutogradMeta;`
`56`	`56`	`*`
`57`	`57`	`* **/`
`58`	`58`
`59`		`-// No other AutogradMeta class should be derivated from AbstractAutogradMeta.`
	`59`	`+// No other AutogradMeta class should be derived from AbstractAutogradMeta.`
`60`	`60`	`// It's only used by`
`61`	`61`	`class AutogradMeta : public AbstractAutogradMeta {`
`62`	`62`	`public:`
Original file line number	Diff line number	Diff line change
`@@ -30,7 +30,7 @@ class Graph;`
`30`	`30`
`31`	`31`	`/*`
`32`	`32`	`* Remove the sum op of all gradients of the backward op.`
`33`		`- * And remove the dependecies of the optimizer related to the`
	`33`	`+ * And remove the dependencies of the optimizer related to the`
`34`	`34`	`* same backward op.`
`35`	`35`	`*`
`36`	`36`	`* Before this pass:`