randomSplit()

Davies Liu · Davies Liu · commit 41fce544cadc · 2014-11-10T15:54:20.000-08:00
diff --git a/core/src/main/scala/org/apache/spark/api/python/PythonRDD.scala b/core/src/main/scala/org/apache/spark/api/python/PythonRDD.scala
@@ -757,6 +757,19 @@ private[spark] object PythonRDD extends Logging {
       converted.saveAsHadoopDataset(new JobConf(conf))
     }
   }
+
+  /**
+   * A helper to convert java.util.List[Double] into Array[Double]
+   * @param list
+   * @return
+   */
+  def listToArrayDouble(list: JList[Double]): Array[Double] = {
+    val r = new Array[Double](list.size)
+    list.zipWithIndex.foreach {
+      case (v, i) => r(i) = v
+    }
+    r
+  }
 }
 
 private
diff --git a/python/pyspark/rdd.py b/python/pyspark/rdd.py
@@ -316,6 +316,34 @@ def sample(self, withReplacement, fraction, seed=None):
         assert fraction >= 0.0, "Negative fraction value: %s" % fraction
         return self.mapPartitionsWithIndex(RDDSampler(withReplacement, fraction, seed).func, True)
 
+    def randomSplit(self, weights, seed=None):
+        """
+        Randomly splits this RDD with the provided weights.
+
+        :param weights: weights for splits, will be normalized if they don't sum to 1
+        :param seed: random seed
+        :return: split RDDs in an list
+
+        >>> rdd = sc.parallelize(range(10), 1)
+        >>> rdd1, rdd2, rdd3 = rdd.randomSplit([0.4, 0.6, 1.0], 11)
+        >>> rdd1.collect()
+        [3, 6]
+        >>> rdd2.collect()
+        [0, 5, 7]
+        >>> rdd3.collect()
+        [1, 2, 4, 8, 9]
+        """
+        ser = BatchedSerializer(PickleSerializer(), 1)
+        rdd = self._reserialize(ser)
+        jweights = ListConverter().convert([float(w) for w in weights],
+                                           self.ctx._gateway._gateway_client)
+        jweights = self.ctx._jvm.PythonRDD.listToArrayDouble(jweights)
+        if seed is None:
+            jrdds = rdd._jrdd.randomSplit(jweights)
+        else:
+            jrdds = rdd._jrdd.randomSplit(jweights, seed)
+        return [RDD(jrdd, self.ctx, ser) for jrdd in jrdds]
+
     # this is ported from scala/spark/RDD.scala
     def takeSample(self, withReplacement, num, seed=None):
         """

Original file line number	Diff line number	Diff line change
`@@ -757,6 +757,19 @@ private[spark] object PythonRDD extends Logging {`
`757`	`757`	`converted.saveAsHadoopDataset(new JobConf(conf))`
`758`	`758`	`}`
`759`	`759`	`}`
	`760`	`+`
	`761`	`+ /**`
	`762`	`+ * A helper to convert java.util.List[Double] into Array[Double]`
	`763`	`+ * @param list`
	`764`	`+ * @return`
	`765`	`+ */`
	`766`	`+ def listToArrayDouble(list: JList[Double]): Array[Double] = {`
	`767`	`+ val r = new Array[Double](list.size)`
	`768`	`+ list.zipWithIndex.foreach {`
	`769`	`+ case (v, i) => r(i) = v`
	`770`	`+ }`
	`771`	`+ r`
	`772`	`+ }`
`760`	`773`	`}`
`761`	`774`
`762`	`775`	`private`