Make sure that start and end tags for empty texts are counted
For each text, no matter if empty or not, there will be one
start and end tag count in the unigrams.
Change-Id: I9fe769ea3d8a7de7b078499f33a611a7ba4bac4d
diff --git a/src/test/resources/simple.conllu b/src/test/resources/simple.conllu
index 2e52539..5a907cc 100644
--- a/src/test/resources/simple.conllu
+++ b/src/test/resources/simple.conllu
@@ -1,17 +1,31 @@
-# text_id = TST_TST.00000
+# text_id = TST_TST.00001
+# empty texts are expected to count
+
+# text_id = TST_TST.00002
1 ich ich PPER PPER _ _ _ _ 1
2 bin sein VAFIN VAFIN _ _ _ _ 1.000000
3 alex alex NE NE _ _ _ _ 0.565630
4 . . $. $. _ _ _ _ 1.000000
-# text_id = TST_TST.00001
+# text_id = TST_TST.00003
1 alex alex NE NE _ _ _ _ 0.565630
2 bin sein VAFIN VAFIN _ _ _ _ 1.000000
3 ich ich PPER PPER _ _ _ _ 1
4 . . $. $. _ _ _ _ 1.000000
-# text_id = TST_TST.00002
+# text_id = TST_TST.00004
+# make sure that an empty text header does no harm
+
+# text_id = TST_TST.00005
1 ich ich PPER PPER _ _ _ _ 1
2 heiße heißen VAFIN VAFIN _ _ _ _ 1.000000
3 alex alex NE NE _ _ _ _ 0.565630
4 . . $. $. _ _ _ _ 1.000000
+
+# text_id = TST_TST.00006
+# make sure that an empty text header does no harm
+
+# text_id = TST_TST.00007
+# in the unigrams we should have 7 start and end tags
+
+
diff --git a/src/test/resources/simple_1gram_padded.freq b/src/test/resources/simple_1gram_padded.freq
index 54522cb..b2f1b31 100644
--- a/src/test/resources/simple_1gram_padded.freq
+++ b/src/test/resources/simple_1gram_padded.freq
@@ -1,6 +1,6 @@
+«END» 7
+«START» 7
. 3
-«END» 3
-«START» 3
alex 3
ich 3
bin 2
diff --git a/src/test/resources/simple_1lpgram_padded.freq b/src/test/resources/simple_1lpgram_padded.freq
index ff8c4f7..117e0e3 100644
--- a/src/test/resources/simple_1lpgram_padded.freq
+++ b/src/test/resources/simple_1lpgram_padded.freq
@@ -1,7 +1,7 @@
+«END» «END» «STARTEND» 7
+«START» «START» «STARTEND» 7
. . $. 3
alex alex NE 3
ich ich PPER 3
-«END» «END» «STARTEND» 3
-«START» «START» «STARTEND» 3
bin sein VAFIN 2
heiße heißen VAFIN 1
diff --git a/src/test/resources/simple_2gram_padded.freq b/src/test/resources/simple_2gram_padded.freq
index ba04a3a..d7786fa 100644
--- a/src/test/resources/simple_2gram_padded.freq
+++ b/src/test/resources/simple_2gram_padded.freq
@@ -1,9 +1,9 @@
+«END» «END» 7
+«START» «START» 7
+«START» «END» 4
. «END» 3
-«END» «END» 3
-«START» «START» 3
-«START» ich 2
alex . 2
-«START» alex 1
+«START» ich 2
alex bin 1
bin alex 1
bin ich 1
@@ -11,3 +11,4 @@
ich . 1
ich bin 1
ich heiße 1
+«START» alex 1
diff --git a/src/test/resources/simple_2lpgram_padded.freq b/src/test/resources/simple_2lpgram_padded.freq
index 7b1bd84..a8e5212 100644
--- a/src/test/resources/simple_2lpgram_padded.freq
+++ b/src/test/resources/simple_2lpgram_padded.freq
@@ -1,6 +1,7 @@
+«END» «END» «STARTEND» «END» «END» «STARTEND» 7
+«START» «START» «STARTEND» «START» «START» «STARTEND» 7
+«START» «START» «STARTEND» «END» «END» «STARTEND» 4
. . $. «END» «END» «STARTEND» 3
-«END» «END» «STARTEND» «END» «END» «STARTEND» 3
-«START» «START» «STARTEND» «START» «START» «STARTEND» 3
alex alex NE . . $. 2
«START» «START» «STARTEND» ich ich PPER 2
alex alex NE bin sein VAFIN 1
diff --git a/src/test/resources/simple_3gram_padded.freq b/src/test/resources/simple_3gram_padded.freq
index f54eede..0cc14fc 100644
--- a/src/test/resources/simple_3gram_padded.freq
+++ b/src/test/resources/simple_3gram_padded.freq
@@ -1,12 +1,10 @@
+«END» «END» «END» 7
+«START» «START» «START» 7
+«START» «END» «END» 4
+«START» «START» «END» 4
. «END» «END» 3
-«END» «END» «END» 3
-«START» «START» «START» 3
-«START» «START» ich 2
alex . «END» 2
-«START» «START» alex 1
-«START» alex bin 1
-«START» ich bin 1
-«START» ich heiße 1
+«START» «START» ich 2
alex bin ich 1
bin alex . 1
bin ich . 1
@@ -14,3 +12,7 @@
ich . «END» 1
ich bin alex 1
ich heiße alex 1
+«START» alex bin 1
+«START» ich bin 1
+«START» ich heiße 1
+«START» «START» alex 1
diff --git a/src/test/resources/simple_3lpgram_padded.freq b/src/test/resources/simple_3lpgram_padded.freq
index 19b899c..3ccb2b1 100644
--- a/src/test/resources/simple_3lpgram_padded.freq
+++ b/src/test/resources/simple_3lpgram_padded.freq
@@ -1,6 +1,8 @@
+«END» «END» «STARTEND» «END» «END» «STARTEND» «END» «END» «STARTEND» 7
+«START» «START» «STARTEND» «START» «START» «STARTEND» «START» «START» «STARTEND» 7
+«START» «START» «STARTEND» «END» «END» «STARTEND» «END» «END» «STARTEND» 4
+«START» «START» «STARTEND» «START» «START» «STARTEND» «END» «END» «STARTEND» 4
. . $. «END» «END» «STARTEND» «END» «END» «STARTEND» 3
-«END» «END» «STARTEND» «END» «END» «STARTEND» «END» «END» «STARTEND» 3
-«START» «START» «STARTEND» «START» «START» «STARTEND» «START» «START» «STARTEND» 3
alex alex NE . . $. «END» «END» «STARTEND» 2
«START» «START» «STARTEND» «START» «START» «STARTEND» ich ich PPER 2
alex alex NE bin sein VAFIN ich ich PPER 1