track life cycle of broadcast

Davies Liu · Davies Liu · commit f0a31217ed7d · 2015-02-04T09:54:38.000-08:00
diff --git a/python/pyspark/rdd.py b/python/pyspark/rdd.py
@@ -2247,12 +2247,12 @@ def _jrdd(self):
 
         command = (self.func, profiler, self._prev_jrdd_deserializer,
                    self._jrdd_deserializer)
-        pickled_command, broadcast_vars, env, includes = _prepare_for_python_RDD(self.ctx, command)
+        pickled_cmd, bvars, env, includes = _prepare_for_python_RDD(self.ctx, command, self)
         python_rdd = self.ctx._jvm.PythonRDD(self._prev_jrdd.rdd(),
-                                             bytearray(pickled_command),
+                                             bytearray(pickled_cmd),
                                              env, includes, self.preservesPartitioning,
                                              self.ctx.pythonExec,
-                                             broadcast_vars, self.ctx._javaAccumulator)
+                                             bvars, self.ctx._javaAccumulator)
         self._jrdd_val = python_rdd.asJavaRDD()
 
         if profiler:
diff --git a/python/pyspark/sql.py b/python/pyspark/sql.py
@@ -1276,13 +1276,13 @@ def registerFunction(self, name, f, returnType=StringType()):
         func = lambda _, it: imap(lambda x: f(*x), it)
         ser = AutoBatchedSerializer(PickleSerializer())
         command = (func, None, ser, ser)
-        pickled_command, broadcast_vars, env, includes = _prepare_for_python_RDD(self._sc, command)
+        pickled_cmd, bvars, env, includes = _prepare_for_python_RDD(self._sc, command, self)
         self._ssql_ctx.udf().registerPython(name,
-                                            bytearray(pickled_command),
+                                            bytearray(pickled_cmd),
                                             env,
                                             includes,
                                             self._sc.pythonExec,
-                                            broadcast_vars,
+                                            bvars,
                                             self._sc._javaAccumulator,
                                             returnType.json())
 
@@ -2540,6 +2540,7 @@ class UserDefinedFunction(object):
     def __init__(self, func, returnType):
         self.func = func
         self.returnType = returnType
+        self._broadcast = None
         self._judf = self._create_judf()
 
     def _create_judf(self):
@@ -2548,13 +2549,18 @@ def _create_judf(self):
         ser = AutoBatchedSerializer(PickleSerializer())
         command = (func, None, ser, ser)
         sc = SparkContext._active_spark_context
-        pickled_command, broadcast_vars, env, includes = _prepare_for_python_RDD(sc, command)
+        pickled_command, broadcast_vars, env, includes = _prepare_for_python_RDD(sc, command, self)
         ssql_ctx = sc._jvm.SQLContext(sc._jsc.sc())
         jdt = ssql_ctx.parseDataType(self.returnType.json())
         judf = sc._jvm.Dsl.pythonUDF(f.__name__, bytearray(pickled_command), env, includes,
                                      sc.pythonExec, broadcast_vars, sc._javaAccumulator, jdt)
         return judf
 
+    def __del__(self):
+        if self._broadcast is not None:
+            self._broadcast.unpersist()
+            self._broadcast = None
+
     def __call__(self, *cols):
         sc = SparkContext._active_spark_context
         jcols = ListConverter().convert([_to_java_column(c) for c in cols],