add scala doc

xusliebana · xusliebana · commit 3f5236433a34 · 2021-11-10T17:40:53.000+01:00
diff --git a/src/main/scala/com/johnsnowlabs/nlp/HasMultipleInputAnnotationCols.scala b/src/main/scala/com/johnsnowlabs/nlp/HasMultipleInputAnnotationCols.scala
@@ -16,16 +16,20 @@
 
 package com.johnsnowlabs.nlp
 
-import com.johnsnowlabs.nlp.AnnotatorType.CHUNK
-import org.apache.spark.ml.param.{Params, StringArrayParam}
-import org.apache.spark.sql.types.StructType
-
+/**
+ * Trait  used to create annotators with input columns of variable length.
+ * */
 trait HasMultipleInputAnnotationCols extends HasInputAnnotationCols {
 
+  /** Annotator reference id. The Annotator type is the same for any of the input columns*/
   val inputAnnotatorType: String
 
   lazy override val inputAnnotatorTypes: Array[String] = getInputCols.map(_ =>inputAnnotatorType)
 
+  /**
+    * Columns that contain annotations necessary to run this annotator
+    * AnnotatorType is the same for all input columns in that annotator.
+    */
   override def  setInputCols(value: Array[String]): this.type = {
     set(inputCols, value)
   }
diff --git a/src/test/scala/com/johnsnowlabs/nlp/annotators/multipleannotations/MultiAnnotationsSpec.scala b/src/test/scala/com/johnsnowlabs/nlp/annotators/multipleannotations/MultiAnnotationsSpec.scala
@@ -1,18 +1,17 @@
 package com.johnsnowlabs.nlp.annotators.multipleannotations
 
-import com.johnsnowlabs.nlp.annotators.sbd.pragmatic.SentenceDetector
-import com.johnsnowlabs.nlp.{ContentProvider, DocumentAssembler, LightPipeline, RecursivePipeline, SparkAccessor}
-import com.johnsnowlabs.nlp.annotators.{TextMatcher, Tokenizer}
-import com.johnsnowlabs.nlp.util.io.ReadAs
+import com.johnsnowlabs.nlp.{DocumentAssembler, LightPipeline, SparkAccessor}
 import com.johnsnowlabs.tags.FastTest
 import org.apache.spark.ml.Pipeline
 import org.scalatest.flatspec.AnyFlatSpec
+import com.johnsnowlabs.nlp.Annotation
+import org.junit.Assert.assertEquals
 
-class MultiannotationsSpec  extends AnyFlatSpec {
+class MultiAnnotationsSpec  extends AnyFlatSpec {
   import SparkAccessor.spark.implicits._
 
   "An multiple anootator chunks" should "transform data " taggedAs FastTest in {
-    val data = SparkAccessor.spark.sparkContext.parallelize(Seq("Example text")).toDS().toDF("text")
+      val data = SparkAccessor.spark.sparkContext.parallelize(Seq("Example text")).toDS().toDF("text")
 
     val documentAssembler = new DocumentAssembler()
       .setInputCol("text")
@@ -26,7 +25,7 @@ class MultiannotationsSpec  extends AnyFlatSpec {
       .setInputCol("text")
       .setOutputCol("document3")
 
-    val multipleColumns = new MultiColumnApproach().setInputCols("document","document2","document3").setOutputCol("merge")
+    val multipleColumns = new MultiColumnApproach().setInputCols("document","document2","document3").setOutputCol("multiple_document")
 
     val pipeline = new Pipeline()
       .setStages(Array(
@@ -38,11 +37,13 @@ class MultiannotationsSpec  extends AnyFlatSpec {
 
     val pipelineModel = pipeline.fit(data)
 
-    pipelineModel.transform(data).show(truncate = false)
+    val annotations = Annotation.collect(pipelineModel.transform(data),"multiple_document").flatten
+    assertEquals(annotations.length,3)
 
     val result = new LightPipeline(pipelineModel).annotate("My document")
 
-    println(result)
+
+    assertEquals(result("multiple_document").size,3)
 
   }
 
diff --git a/src/test/scala/com/johnsnowlabs/nlp/annotators/multipleannotations/MultiColumnApproach.scala b/src/test/scala/com/johnsnowlabs/nlp/annotators/multipleannotations/MultiColumnApproach.scala
@@ -13,23 +13,17 @@ class MultiColumnApproach(override val uid: String) extends AnnotatorApproach[Mu
   override val description: String = "Example multiple columns"
 
   /**
-   * Input annotator types: CHUNK
+   * Input annotator types: DOCUMEN
    *
-   * @group anno
    */
   override val outputAnnotatorType: AnnotatorType = DOCUMENT
   /**
-   * Output annotator types: CHUNK, CHUNK
+   * Output annotator type:DOCUMENT
    *
-   * @group anno
    */
   override val inputAnnotatorType: AnnotatorType = DOCUMENT
 
 
-  /** whether to merge overlapping matched chunks. Defaults to true
-   *
-   * @group param
-   * */
 
   override def train(dataset: Dataset[_], recursivePipeline: Option[PipelineModel]): MultiColumnsModel = {
 
diff --git a/src/test/scala/com/johnsnowlabs/nlp/annotators/multipleannotations/MultiColumnsModel.scala b/src/test/scala/com/johnsnowlabs/nlp/annotators/multipleannotations/MultiColumnsModel.scala
@@ -11,28 +11,18 @@ class MultiColumnsModel(override val uid: String) extends AnnotatorModel[MultiCo
 
   def this() = this(Identifiable.randomUID("MERGE"))
 
-
   /**
-   * Input annotator types: CHUNK
-   *
-   * @group anno
-   */
+    * Input annotator types: DOCUMEN
+    *
+    */
   override val outputAnnotatorType: AnnotatorType = DOCUMENT
-
-
   /**
-   * Multiple columns
-   *
-   * @group anno
-   */
+    * Output annotator type:DOCUMENT
+    *
+    */
+  override val inputAnnotatorType: AnnotatorType = DOCUMENT
 
-  override val inputAnnotatorType: String = DOCUMENT
 
-  /**
-   * Merges columns of chunk Annotations while considering false positives and replacements.
-   * @param annotations a Sequence of chunks to merge
-   * @return a Sequence of Merged CHUNK Annotations
-   */
   override def annotate(annotations: Seq[Annotation]): Seq[Annotation] = {
     annotations
   }