fix the bug of revert the null issue in Sum and also the Average UDAF

chenghao-intel · chenghao-intel · commit b539baf87993 · 2015-03-27T09:40:34.000-07:00
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/aggregates.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/aggregates.scala
@@ -413,6 +413,8 @@ case class Sum(child: Expression, distinct: Boolean = false)
   @transient var arg: MutableLiteral = _
   @transient var sum: Add = _
 
+  lazy val DEFAULT_VALUE = Cast(Literal(0, IntegerType), dataType).eval()
+
   override def initialBoundReference(buffers: Seq[BoundReference]) = {
     aggr = buffers(0)
     arg = MutableLiteral(null, dataType)
@@ -431,6 +433,10 @@ case class Sum(child: Expression, distinct: Boolean = false)
         arg.value = argument
         buf(aggr) = sum.eval(buf)
       }
+    } else {
+      if (buf.isNullAt(aggr)) {
+        buf(aggr) = DEFAULT_VALUE
+      }
     }
   }
 
diff --git a/sql/hive/src/main/scala/org/apache/spark/sql/hive/hiveUdfs.scala b/sql/hive/src/main/scala/org/apache/spark/sql/hive/hiveUdfs.scala
@@ -261,7 +261,6 @@ private[hive] case class HiveGenericUdaf(
   // Initialize (reinitialize) the aggregation buffer
   override def reset(buf: MutableRow): Unit = {
     val buffer = evaluator.getNewAggregationBuffer
-      .asInstanceOf[GenericUDAFEvaluator.AbstractAggregationBuffer]
     evaluator.reset(buffer)
     // This is a hack, we never use the mutable row as buffer, but define our own buffer,
     // which is set as the first element of the buffer
@@ -276,27 +275,27 @@ private[hive] case class HiveGenericUdaf(
     }.toArray
 
     evaluator.iterate(
-      buf.getAs[GenericUDAFEvaluator.AbstractAggregationBuffer](bound.ordinal),
+      buf.getAs[GenericUDAFEvaluator.AggregationBuffer](bound.ordinal),
       args)
   }
 
   // Merge 2 aggregation buffer, and write back to the later one
   override def merge(value: Row, buf: MutableRow): Unit = {
-    val buffer = buf.getAs[GenericUDAFEvaluator.AbstractAggregationBuffer](bound.ordinal)
+    val buffer = buf.getAs[GenericUDAFEvaluator.AggregationBuffer](bound.ordinal)
     evaluator.merge(buffer, wrap(value.get(bound.ordinal), bufferObjectInspector))
   }
 
   @deprecated
   override def terminatePartial(buf: MutableRow): Unit = {
-    val buffer = buf.getAs[GenericUDAFEvaluator.AbstractAggregationBuffer](bound.ordinal)
+    val buffer = buf.getAs[GenericUDAFEvaluator.AggregationBuffer](bound.ordinal)
     // this is for serialization
     buf(bound) = unwrap(evaluator.terminatePartial(buffer), bufferObjectInspector)
   }
 
   // Output the final result by feeding the aggregation buffer
   override def terminate(input: Row): Any = {
     unwrap(evaluator.terminate(
-      input.getAs[GenericUDAFEvaluator.AbstractAggregationBuffer](bound.ordinal)),
+      input.getAs[GenericUDAFEvaluator.AggregationBuffer](bound.ordinal)),
       objectInspector)
   }
 }

Original file line number	Diff line number	Diff line change
`@@ -413,6 +413,8 @@ case class Sum(child: Expression, distinct: Boolean = false)`
`413`	`413`	`@transient var arg: MutableLiteral = _`
`414`	`414`	`@transient var sum: Add = _`
`415`	`415`
	`416`	`+ lazy val DEFAULT_VALUE = Cast(Literal(0, IntegerType), dataType).eval()`
	`417`	`+`
`416`	`418`	`override def initialBoundReference(buffers: Seq[BoundReference]) = {`
`417`	`419`	`aggr = buffers(0)`
`418`	`420`	`arg = MutableLiteral(null, dataType)`
`@@ -431,6 +433,10 @@ case class Sum(child: Expression, distinct: Boolean = false)`
`431`	`433`	`arg.value = argument`
`432`	`434`	`buf(aggr) = sum.eval(buf)`
`433`	`435`	`}`
	`436`	`+ } else {`
	`437`	`+ if (buf.isNullAt(aggr)) {`
	`438`	`+ buf(aggr) = DEFAULT_VALUE`
	`439`	`+ }`
`434`	`440`	`}`
`435`	`441`	`}`
`436`	`442`