test

zhengruifeng · zhengruifeng · commit e2ab5d50aa43 · 2025-07-01T10:09:24.000+08:00
diff --git a/core/src/main/scala/org/apache/spark/api/python/PythonRunner.scala b/core/src/main/scala/org/apache/spark/api/python/PythonRunner.scala
@@ -70,6 +70,7 @@ private[spark] object PythonEvalType {
   // Arrow UDFs
   val SQL_SCALAR_ARROW_UDF = 250
   val SQL_SCALAR_ARROW_ITER_UDF = 251
+  val SQL_GROUPED_AGG_ARROW_UDF = 252
 
   val SQL_TABLE_UDF = 300
   val SQL_ARROW_TABLE_UDF = 301
@@ -101,6 +102,7 @@ private[spark] object PythonEvalType {
     // Arrow UDFs
     case SQL_SCALAR_ARROW_UDF => "SQL_SCALAR_ARROW_UDF"
     case SQL_SCALAR_ARROW_ITER_UDF => "SQL_SCALAR_ARROW_ITER_UDF"
+    case SQL_GROUPED_AGG_ARROW_UDF => "SQL_GROUPED_AGG_ARROW_UDF"
   }
 }
 
diff --git a/python/pyspark/sql/connect/udf.py b/python/pyspark/sql/connect/udf.py
@@ -280,13 +280,14 @@ def register(
                 PythonEvalType.SQL_SCALAR_PANDAS_ITER_UDF,
                 PythonEvalType.SQL_SCALAR_ARROW_ITER_UDF,
                 PythonEvalType.SQL_GROUPED_AGG_PANDAS_UDF,
+                PythonEvalType.SQL_GROUPED_AGG_ARROW_UDF,
             ]:
                 raise PySparkTypeError(
                     errorClass="INVALID_UDF_EVAL_TYPE",
                     messageParameters={
                         "eval_type": "SQL_BATCHED_UDF, SQL_ARROW_BATCHED_UDF, "
-                        "SQL_SCALAR_PANDAS_UDF, SQL_SCALAR_PANDAS_ITER_UDF or "
-                        "SQL_GROUPED_AGG_PANDAS_UDF"
+                        "SQL_SCALAR_PANDAS_UDF, SQL_SCALAR_PANDAS_ITER_UDF, "
+                        "SQL_GROUPED_AGG_PANDAS_UDF or SQL_GROUPED_AGG_ARROW_UDF"
                     },
                 )
             self.sparkSession._client.register_udf(
diff --git a/python/pyspark/sql/pandas/_typing/__init__.pyi b/python/pyspark/sql/pandas/_typing/__init__.pyi
@@ -63,6 +63,7 @@ GroupedMapUDFTransformWithStateInitStateType = Literal[214]
 # Arrow UDFs
 ArrowScalarUDFType = Literal[250]
 ArrowScalarIterUDFType = Literal[251]
+ArrowGroupedAggUDFType = Literal[252]
 
 class ArrowVariadicScalarToScalarFunction(Protocol):
     def __call__(self, *_: pyarrow.Array) -> pyarrow.Array: ...
diff --git a/python/pyspark/sql/pandas/functions.py b/python/pyspark/sql/pandas/functions.py
@@ -48,6 +48,8 @@ class ArrowUDFType:
 
     SCALAR_ITER = PythonEvalType.SQL_SCALAR_ARROW_ITER_UDF
 
+    GROUPED_AGG = PythonEvalType.SQL_GROUPED_AGG_ARROW_UDF
+
 
 def arrow_udf(f=None, returnType=None, functionType=None):
     return vectorized_udf(f, returnType, functionType, "arrow")
diff --git a/python/pyspark/sql/pandas/typehints.py b/python/pyspark/sql/pandas/typehints.py
@@ -27,6 +27,7 @@
         PandasGroupedAggUDFType,
         ArrowScalarUDFType,
         ArrowScalarIterUDFType,
+        ArrowGroupedAggUDFType,
     )
 
 
@@ -38,6 +39,7 @@ def infer_eval_type(
     "PandasGroupedAggUDFType",
     "ArrowScalarUDFType",
     "ArrowScalarIterUDFType",
+    "ArrowGroupedAggUDFType",
 ]:
     """
     Infers the evaluation type in :class:`pyspark.util.PythonEvalType` from
@@ -175,6 +177,13 @@ def infer_eval_type(
         and not check_tuple_annotation(return_annotation)
     )
 
+    # pa.Array, ... -> Any
+    is_array_agg = all(a == pa.Array for a in parameters_sig) and (
+        return_annotation != pa.Array
+        and not check_iterator_annotation(return_annotation)
+        and not check_tuple_annotation(return_annotation)
+    )
+
     if is_series_or_frame:
         return PandasUDFType.SCALAR
     elif is_arrow_array:
@@ -185,6 +194,8 @@ def infer_eval_type(
         return ArrowUDFType.SCALAR_ITER
     elif is_series_or_frame_agg:
         return PandasUDFType.GROUPED_AGG
+    elif is_array_agg:
+        return ArrowUDFType.GROUPED_AGG
     else:
         raise PySparkNotImplementedError(
             errorClass="UNSUPPORTED_SIGNATURE",
diff --git a/python/pyspark/sql/udf.py b/python/pyspark/sql/udf.py
@@ -655,13 +655,14 @@ def register(
                 PythonEvalType.SQL_SCALAR_ARROW_UDF,
                 PythonEvalType.SQL_SCALAR_PANDAS_ITER_UDF,
                 PythonEvalType.SQL_GROUPED_AGG_PANDAS_UDF,
+                PythonEvalType.SQL_GROUPED_AGG_ARROW_UDF,
             ]:
                 raise PySparkTypeError(
                     errorClass="INVALID_UDF_EVAL_TYPE",
                     messageParameters={
                         "eval_type": "SQL_BATCHED_UDF, SQL_ARROW_BATCHED_UDF, "
-                        "SQL_SCALAR_PANDAS_UDF, SQL_SCALAR_PANDAS_ITER_UDF or "
-                        "SQL_GROUPED_AGG_PANDAS_UDF"
+                        "SQL_SCALAR_PANDAS_UDF, SQL_SCALAR_PANDAS_ITER_UDF, "
+                        "SQL_GROUPED_AGG_PANDAS_UDF or SQL_GROUPED_AGG_ARROW_UDF"
                     },
                 )
             source_udf = _create_udf(
diff --git a/python/pyspark/util.py b/python/pyspark/util.py
@@ -67,6 +67,7 @@
         GroupedMapUDFTransformWithStateInitStateType,
         ArrowScalarUDFType,
         ArrowScalarIterUDFType,
+        ArrowGroupedAggUDFType,
     )
     from pyspark.sql._typing import (
         SQLArrowBatchedUDFType,
@@ -651,6 +652,7 @@ class PythonEvalType:
     # Arrow UDFs
     SQL_SCALAR_ARROW_UDF: "ArrowScalarUDFType" = 250
     SQL_SCALAR_ARROW_ITER_UDF: "ArrowScalarIterUDFType" = 251
+    SQL_GROUPED_AGG_ARROW_UDF: "ArrowGroupedAggUDFType" = 252
 
     SQL_TABLE_UDF: "SQLTableUDFType" = 300
     SQL_ARROW_TABLE_UDF: "SQLArrowTableUDFType" = 301
diff --git a/python/pyspark/worker.py b/python/pyspark/worker.py
@@ -796,6 +796,25 @@ def wrapped(*series):
     )
 
 
+def wrap_grouped_agg_arrow_udf(f, args_offsets, kwargs_offsets, return_type, runner_conf):
+    func, args_kwargs_offsets = wrap_kwargs_support(f, args_offsets, kwargs_offsets)
+
+    arrow_return_type = to_arrow_type(
+        return_type, prefers_large_types=use_large_var_types(runner_conf)
+    )
+
+    def wrapped(*series):
+        import pyarrow as pa
+
+        result = func(*series)
+        return pa.array([result])
+
+    return (
+        args_kwargs_offsets,
+        lambda *a: (wrapped(*a), arrow_return_type),
+    )
+
+
 def wrap_window_agg_pandas_udf(
     f, args_offsets, kwargs_offsets, return_type, runner_conf, udf_index
 ):
@@ -974,6 +993,7 @@ def read_single_udf(pickleSer, infile, eval_type, runner_conf, udf_index, profil
         # The below doesn't support named argument, but shares the same protocol.
         PythonEvalType.SQL_SCALAR_PANDAS_ITER_UDF,
         PythonEvalType.SQL_SCALAR_ARROW_ITER_UDF,
+        PythonEvalType.SQL_GROUPED_AGG_ARROW_UDF,
     ):
         args_offsets = []
         kwargs_offsets = {}
@@ -1070,6 +1090,10 @@ def read_single_udf(pickleSer, infile, eval_type, runner_conf, udf_index, profil
         return wrap_grouped_agg_pandas_udf(
             func, args_offsets, kwargs_offsets, return_type, runner_conf
         )
+    elif eval_type == PythonEvalType.SQL_GROUPED_AGG_ARROW_UDF:
+        return wrap_grouped_agg_arrow_udf(
+            func, args_offsets, kwargs_offsets, return_type, runner_conf
+        )
     elif eval_type == PythonEvalType.SQL_WINDOW_AGG_PANDAS_UDF:
         return wrap_window_agg_pandas_udf(
             func, args_offsets, kwargs_offsets, return_type, runner_conf, udf_index
@@ -1815,6 +1839,7 @@ def read_udfs(pickleSer, infile, eval_type):
         PythonEvalType.SQL_MAP_ARROW_ITER_UDF,
         PythonEvalType.SQL_GROUPED_MAP_PANDAS_UDF,
         PythonEvalType.SQL_GROUPED_AGG_PANDAS_UDF,
+        PythonEvalType.SQL_GROUPED_AGG_ARROW_UDF,
         PythonEvalType.SQL_WINDOW_AGG_PANDAS_UDF,
         PythonEvalType.SQL_GROUPED_MAP_PANDAS_UDF_WITH_STATE,
         PythonEvalType.SQL_GROUPED_MAP_ARROW_UDF,
@@ -1911,6 +1936,7 @@ def read_udfs(pickleSer, infile, eval_type):
         elif eval_type in (
             PythonEvalType.SQL_SCALAR_ARROW_UDF,
             PythonEvalType.SQL_SCALAR_ARROW_ITER_UDF,
+            PythonEvalType.SQL_GROUPED_AGG_ARROW_UDF,
         ):
             # Arrow cast for type coercion is disabled by default
             ser = ArrowStreamArrowUDFSerializer(timezone, safecheck, _assign_cols_by_name, False)
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/PythonUDF.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/PythonUDF.scala
@@ -120,11 +120,10 @@ case class PythonUDAF(
     dataType: DataType,
     children: Seq[Expression],
     udfDeterministic: Boolean,
+    evalType: Int,
     resultId: ExprId = NamedExpression.newExprId)
   extends UnevaluableAggregateFunc with PythonFuncExpression {
 
-  override def evalType: Int = PythonEvalType.SQL_GROUPED_AGG_PANDAS_UDF
-
   override def sql(isDistinct: Boolean): String = {
     val distinct = if (isDistinct) "DISTINCT " else ""
     s"$name($distinct${children.mkString(", ")})"
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/execution/SparkStrategies.scala b/sql/core/src/main/scala/org/apache/spark/sql/execution/SparkStrategies.scala
@@ -644,7 +644,7 @@ abstract class SparkStrategies extends QueryPlanner[SparkPlan] {
 
       case PhysicalAggregation(groupingExpressions, aggExpressions, resultExpressions, child)
           if aggExpressions.forall(_.aggregateFunction.isInstanceOf[PythonUDAF]) =>
-        Seq(execution.python.AggregateInPandasExec(
+        Seq(execution.python.ArrowAggregatePythonExec(
           groupingExpressions,
           aggExpressions,
           resultExpressions,
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/execution/python/ArrowAggregatePythonExec.scala b/sql/core/src/main/scala/org/apache/spark/sql/execution/python/ArrowAggregatePythonExec.scala
@@ -22,7 +22,7 @@ import java.io.File
 import scala.collection.mutable.ArrayBuffer
 
 import org.apache.spark.{JobArtifactSet, SparkEnv, TaskContext}
-import org.apache.spark.api.python.{ChainedPythonFunctions, PythonEvalType}
+import org.apache.spark.api.python.ChainedPythonFunctions
 import org.apache.spark.rdd.RDD
 import org.apache.spark.sql.catalyst.InternalRow
 import org.apache.spark.sql.catalyst.expressions._
@@ -42,11 +42,12 @@ import org.apache.spark.util.Utils
  * finally the executor evaluates any post-aggregation expressions and join the result with the
  * grouped key.
  */
-case class AggregateInPandasExec(
+case class ArrowAggregatePythonExec(
     groupingExpressions: Seq[NamedExpression],
     aggExpressions: Seq[AggregateExpression],
     resultExpressions: Seq[NamedExpression],
-    child: SparkPlan)
+    child: SparkPlan,
+    evalType: Int)
   extends UnaryExecNode with PythonSQLMetrics {
 
   override val output: Seq[Attribute] = resultExpressions.map(_.toAttribute)
@@ -173,7 +174,7 @@ case class AggregateInPandasExec(
 
       val columnarBatchIter = new ArrowPythonWithNamedArgumentRunner(
         pyFuncs,
-        PythonEvalType.SQL_GROUPED_AGG_PANDAS_UDF,
+        evalType,
         argMetas,
         aggInputSchema,
         sessionLocalTimeZone,
@@ -216,3 +217,17 @@ case class AggregateInPandasExec(
     newIter
   }
 }
+
+object ArrowAggregatePythonExec {
+  def apply(
+      groupingExpressions: Seq[NamedExpression],
+      aggExpressions: Seq[AggregateExpression],
+      resultExpressions: Seq[NamedExpression],
+      child: SparkPlan): ArrowAggregatePythonExec = {
+    val evalTypes = aggExpressions.map(_.aggregateFunction.asInstanceOf[PythonUDAF].evalType)
+    assert(evalTypes.distinct.size == 1,
+      "All aggregate functions must have the same eval type in ArrowAggregatePythonExec")
+    new ArrowAggregatePythonExec(
+      groupingExpressions, aggExpressions, resultExpressions, child, evalTypes.head)
+  }
+}
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/execution/python/UserDefinedPythonFunction.scala b/sql/core/src/main/scala/org/apache/spark/sql/execution/python/UserDefinedPythonFunction.scala
@@ -50,7 +50,8 @@ case class UserDefinedPythonFunction(
         || pythonEvalType ==PythonEvalType.SQL_ARROW_BATCHED_UDF
         || pythonEvalType == PythonEvalType.SQL_SCALAR_PANDAS_UDF
         || pythonEvalType == PythonEvalType.SQL_GROUPED_AGG_PANDAS_UDF
-        || pythonEvalType == PythonEvalType.SQL_SCALAR_ARROW_UDF) {
+        || pythonEvalType == PythonEvalType.SQL_SCALAR_ARROW_UDF
+        || pythonEvalType == PythonEvalType.SQL_GROUPED_AGG_ARROW_UDF) {
       /*
        * Check if the named arguments:
        * - don't have duplicated names
@@ -61,8 +62,9 @@ case class UserDefinedPythonFunction(
       throw QueryCompilationErrors.namedArgumentsNotSupported(name)
     }
 
-    if (pythonEvalType == PythonEvalType.SQL_GROUPED_AGG_PANDAS_UDF) {
-      PythonUDAF(name, func, dataType, e, udfDeterministic)
+    if (pythonEvalType == PythonEvalType.SQL_GROUPED_AGG_PANDAS_UDF
+      || pythonEvalType == PythonEvalType.SQL_GROUPED_AGG_ARROW_UDF) {
+      PythonUDAF(name, func, dataType, e, udfDeterministic, pythonEvalType)
     } else {
       PythonUDF(name, func, dataType, e, pythonEvalType, udfDeterministic)
     }

Original file line number	Diff line number	Diff line change
`@@ -70,6 +70,7 @@ private[spark] object PythonEvalType {`
`70`	`70`	`// Arrow UDFs`
`71`	`71`	`val SQL_SCALAR_ARROW_UDF = 250`
`72`	`72`	`val SQL_SCALAR_ARROW_ITER_UDF = 251`
	`73`	`+ val SQL_GROUPED_AGG_ARROW_UDF = 252`
`73`	`74`
`74`	`75`	`val SQL_TABLE_UDF = 300`
`75`	`76`	`val SQL_ARROW_TABLE_UDF = 301`
`@@ -101,6 +102,7 @@ private[spark] object PythonEvalType {`
`101`	`102`	`// Arrow UDFs`
`102`	`103`	`case SQL_SCALAR_ARROW_UDF => "SQL_SCALAR_ARROW_UDF"`
`103`	`104`	`case SQL_SCALAR_ARROW_ITER_UDF => "SQL_SCALAR_ARROW_ITER_UDF"`
	`105`	`+ case SQL_GROUPED_AGG_ARROW_UDF => "SQL_GROUPED_AGG_ARROW_UDF"`
`104`	`106`	`}`
`105`	`107`	`}`
`106`	`108`