Make sure that start and end tags for empty texts are counted

For each text, no matter if empty or not, there will be one
start and end tag count in the unigrams.

Change-Id: I9fe769ea3d8a7de7b078499f33a611a7ba4bac4d
diff --git a/src/test/resources/simple.conllu b/src/test/resources/simple.conllu
index 2e52539..5a907cc 100644
--- a/src/test/resources/simple.conllu
+++ b/src/test/resources/simple.conllu
@@ -1,17 +1,31 @@
-# text_id = TST_TST.00000
+# text_id = TST_TST.00001
+# empty texts are expected to count
+
+# text_id = TST_TST.00002
 1	ich	ich	PPER	PPER	_	_	_	_	1
 2	bin	sein	VAFIN	VAFIN	_	_	_	_	1.000000
 3	alex	alex	NE	NE	_	_	_	_	0.565630
 4	.	.	$.	$.	_	_	_	_	1.000000
 
-# text_id = TST_TST.00001
+# text_id = TST_TST.00003
 1	alex	alex	NE	NE	_	_	_	_	0.565630
 2	bin	sein	VAFIN	VAFIN	_	_	_	_	1.000000
 3	ich	ich	PPER	PPER	_	_	_	_	1
 4	.	.	$.	$.	_	_	_	_	1.000000
 
-# text_id = TST_TST.00002
+# text_id = TST_TST.00004
+# make sure that an empty text header does no harm
+
+# text_id = TST_TST.00005
 1	ich	ich	PPER	PPER	_	_	_	_	1
 2	heiße	heißen	VAFIN	VAFIN	_	_	_	_	1.000000
 3	alex	alex	NE	NE	_	_	_	_	0.565630
 4	.	.	$.	$.	_	_	_	_	1.000000
+
+# text_id = TST_TST.00006
+# make sure that an empty text header does no harm
+
+# text_id = TST_TST.00007
+# in the unigrams we should have 7 start and end tags
+
+
diff --git a/src/test/resources/simple_1gram_padded.freq b/src/test/resources/simple_1gram_padded.freq
index 54522cb..b2f1b31 100644
--- a/src/test/resources/simple_1gram_padded.freq
+++ b/src/test/resources/simple_1gram_padded.freq
@@ -1,6 +1,6 @@
+«END»	7
+«START»	7
 .	3
-«END»	3
-«START»	3
 alex	3
 ich	3
 bin	2
diff --git a/src/test/resources/simple_1lpgram_padded.freq b/src/test/resources/simple_1lpgram_padded.freq
index ff8c4f7..117e0e3 100644
--- a/src/test/resources/simple_1lpgram_padded.freq
+++ b/src/test/resources/simple_1lpgram_padded.freq
@@ -1,7 +1,7 @@
+«END»	«END»	«STARTEND»	7
+«START»	«START»	«STARTEND»	7
 .	.	$.	3
 alex	alex	NE	3
 ich	ich	PPER	3
-«END»	«END»	«STARTEND»	3
-«START»	«START»	«STARTEND»	3
 bin	sein	VAFIN	2
 heiße	heißen	VAFIN	1
diff --git a/src/test/resources/simple_2gram_padded.freq b/src/test/resources/simple_2gram_padded.freq
index ba04a3a..d7786fa 100644
--- a/src/test/resources/simple_2gram_padded.freq
+++ b/src/test/resources/simple_2gram_padded.freq
@@ -1,9 +1,9 @@
+«END»	«END»	7
+«START»	«START»	7
+«START»	«END»	4
 .	«END»	3
-«END»	«END»	3
-«START»	«START»	3
-«START»	ich	2
 alex	.	2
-«START»	alex	1
+«START»	ich	2
 alex	bin	1
 bin	alex	1
 bin	ich	1
@@ -11,3 +11,4 @@
 ich	.	1
 ich	bin	1
 ich	heiße	1
+«START»	alex	1
diff --git a/src/test/resources/simple_2lpgram_padded.freq b/src/test/resources/simple_2lpgram_padded.freq
index 7b1bd84..a8e5212 100644
--- a/src/test/resources/simple_2lpgram_padded.freq
+++ b/src/test/resources/simple_2lpgram_padded.freq
@@ -1,6 +1,7 @@
+«END»	«END»	«STARTEND»	«END»	«END»	«STARTEND»	7
+«START»	«START»	«STARTEND»	«START»	«START»	«STARTEND»	7
+«START»	«START»	«STARTEND»	«END»	«END»	«STARTEND»	4
 .	.	$.	«END»	«END»	«STARTEND»	3
-«END»	«END»	«STARTEND»	«END»	«END»	«STARTEND»	3
-«START»	«START»	«STARTEND»	«START»	«START»	«STARTEND»	3
 alex	alex	NE	.	.	$.	2
 «START»	«START»	«STARTEND»	ich	ich	PPER	2
 alex	alex	NE	bin	sein	VAFIN	1
diff --git a/src/test/resources/simple_3gram_padded.freq b/src/test/resources/simple_3gram_padded.freq
index f54eede..0cc14fc 100644
--- a/src/test/resources/simple_3gram_padded.freq
+++ b/src/test/resources/simple_3gram_padded.freq
@@ -1,12 +1,10 @@
+«END»	«END»	«END»	7
+«START»	«START»	«START»	7
+«START»	«END»	«END»	4
+«START»	«START»	«END»	4
 .	«END»	«END»	3
-«END»	«END»	«END»	3
-«START»	«START»	«START»	3
-«START»	«START»	ich	2
 alex	.	«END»	2
-«START»	«START»	alex	1
-«START»	alex	bin	1
-«START»	ich	bin	1
-«START»	ich	heiße	1
+«START»	«START»	ich	2
 alex	bin	ich	1
 bin	alex	.	1
 bin	ich	.	1
@@ -14,3 +12,7 @@
 ich	.	«END»	1
 ich	bin	alex	1
 ich	heiße	alex	1
+«START»	alex	bin	1
+«START»	ich	bin	1
+«START»	ich	heiße	1
+«START»	«START»	alex	1
diff --git a/src/test/resources/simple_3lpgram_padded.freq b/src/test/resources/simple_3lpgram_padded.freq
index 19b899c..3ccb2b1 100644
--- a/src/test/resources/simple_3lpgram_padded.freq
+++ b/src/test/resources/simple_3lpgram_padded.freq
@@ -1,6 +1,8 @@
+«END»	«END»	«STARTEND»	«END»	«END»	«STARTEND»	«END»	«END»	«STARTEND»	7
+«START»	«START»	«STARTEND»	«START»	«START»	«STARTEND»	«START»	«START»	«STARTEND»	7
+«START»	«START»	«STARTEND»	«END»	«END»	«STARTEND»	«END»	«END»	«STARTEND»	4
+«START»	«START»	«STARTEND»	«START»	«START»	«STARTEND»	«END»	«END»	«STARTEND»	4
 .	.	$.	«END»	«END»	«STARTEND»	«END»	«END»	«STARTEND»	3
-«END»	«END»	«STARTEND»	«END»	«END»	«STARTEND»	«END»	«END»	«STARTEND»	3
-«START»	«START»	«STARTEND»	«START»	«START»	«STARTEND»	«START»	«START»	«STARTEND»	3
 alex	alex	NE	.	.	$.	«END»	«END»	«STARTEND»	2
 «START»	«START»	«STARTEND»	«START»	«START»	«STARTEND»	ich	ich	PPER	2
 alex	alex	NE	bin	sein	VAFIN	ich	ich	PPER	1