Initial import from private/Ingestion
Change-Id: I96f428c440ef301384de6d7ef2e348df7d729816
diff --git a/src/main/java/de/ids_mannheim/korap/tokenizer/Span.java b/src/main/java/de/ids_mannheim/korap/tokenizer/Span.java
new file mode 100644
index 0000000..f83b9db
--- /dev/null
+++ b/src/main/java/de/ids_mannheim/korap/tokenizer/Span.java
@@ -0,0 +1,344 @@
+package de.ids_mannheim.korap.tokenizer;
+
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements. See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License. You may obtain a copy of the License at
+ *
+ * http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+
+import java.io.Serializable;
+import java.util.Objects;
+
+
+/**
+ * Class for storing start and end integer offsets.
+ *
+ */
+public class Span implements Comparable<Span>, Serializable {
+
+ private final int start;
+ private final int end;
+ private final double prob;//default is 0
+ private final String type;
+
+ /**
+ * Initializes a new Span Object. Sets the prob to 0 as default.
+ *
+ * @param s start of span.
+ * @param e end of span, which is +1 more than the last element in the span.
+ * @param type the type of the span
+ */
+ public Span(int s, int e, String type) {
+ this(s, e, type, 0d);
+ }
+
+ /**
+ * Initializes a new Span Object.
+ *
+ * @param s start of span.
+ * @param e end of span, which is +1 more than the last element in the span.
+ * @param type the type of the span
+ * @param prob probability of span.
+ */
+ public Span(int s, int e, String type, double prob) {
+
+ if (s < 0) {
+ throw new IllegalArgumentException("start index must be zero or greater: " + s);
+ }
+ if (e < 0) {
+ throw new IllegalArgumentException("end index must be zero or greater: " + e);
+ }
+ if (s > e) {
+ throw new IllegalArgumentException(
+ "start index must not be larger than end index: " + "start=" + s + ", end=" + e);
+ }
+
+ start = s;
+ end = e;
+ this.prob = prob;
+ this.type = type;
+ }
+
+ /**
+ * Initializes a new Span Object. Sets the prob to 0 as default
+ *
+ * @param s start of span.
+ * @param e end of span.
+ */
+ public Span(int s, int e) {
+ this(s, e, null, 0d);
+ }
+
+ /**
+ *
+ * @param s the start of the span (the token index, not the char index)
+ * @param e the end of the span (the token index, not the char index)
+ * @param prob
+ */
+ public Span(int s, int e, double prob) {
+ this(s, e, null, prob);
+ }
+
+ /**
+ * Initializes a new Span object with an existing Span which is shifted by an
+ * offset.
+ *
+ * @param span
+ * @param offset
+ */
+ public Span(Span span, int offset) {
+ this(span.start + offset, span.end + offset, span.getType(), span.getProb());
+ }
+
+ /**
+ * Creates a new immutable span based on an existing span, where the existing span did not include the prob
+ * @param span the span that has no prob or the prob is incorrect and a new Span must be generated
+ * @param prob the probability of the span
+ */
+ public Span(Span span, double prob) {
+ this(span.start, span.end, span.getType(), prob);
+ }
+
+ /**
+ * Return the start of a span.
+ *
+ * @return the start of a span.
+ *
+ */
+ public int getStart() {
+ return start;
+ }
+
+ /**
+ * Return the end of a span.
+ *
+ * Note: that the returned index is one past the actual end of the span in the
+ * text, or the first element past the end of the span.
+ *
+ * @return the end of a span.
+ *
+ */
+ public int getEnd() {
+ return end;
+ }
+
+ /**
+ * Retrieves the type of the span.
+ *
+ * @return the type or null if not set
+ */
+ public String getType() {
+ return type;
+ }
+
+ /**
+ * Returns the length of this span.
+ *
+ * @return the length of the span.
+ */
+ public int length() {
+ return end - start;
+ }
+
+ /**
+ * Returns true if the specified span is contained by this span. Identical
+ * spans are considered to contain each other.
+ *
+ * @param s The span to compare with this span.
+ *
+ * @return true is the specified span is contained by this span; false otherwise.
+ */
+ public boolean contains(Span s) {
+ return start <= s.getStart() && s.getEnd() <= end;
+ }
+
+ /**
+ * Returns true if the specified index is contained inside this span. An index
+ * with the value of end is considered outside the span.
+ *
+ * @param index the index to test with this span.
+ *
+ * @return true if the span contains this specified index; false otherwise.
+ */
+ public boolean contains(int index) {
+ return start <= index && index < end;
+ }
+
+ /**
+ * Returns true if the specified span is the begin of this span and the
+ * specified span is contained in this span.
+ *
+ * @param s The span to compare with this span.
+ *
+ * @return true if the specified span starts with this span and is contained
+ * in this span; false otherwise
+ */
+ public boolean startsWith(Span s) {
+ return getStart() == s.getStart() && contains(s);
+ }
+
+ /**
+ * Returns true if the specified span intersects with this span.
+ *
+ * @param s The span to compare with this span.
+ *
+ * @return true is the spans overlap; false otherwise.
+ */
+ public boolean intersects(Span s) {
+ int sstart = s.getStart();
+ //either s's start is in this or this' start is in s
+ return this.contains(s) || s.contains(this) || getStart() <= sstart && sstart < getEnd()
+ || sstart <= getStart() && getStart() < s.getEnd();
+ }
+
+ /**
+ * Returns true is the specified span crosses this span.
+ *
+ * @param s The span to compare with this span.
+ *
+ * @return true is the specified span overlaps this span and contains a
+ * non-overlapping section; false otherwise.
+ */
+ public boolean crosses(Span s) {
+ int sstart = s.getStart();
+ //either s's start is in this or this' start is in s
+ return !this.contains(s) && !s.contains(this)
+ && (getStart() <= sstart && sstart < getEnd() || sstart <= getStart() && getStart() < s.getEnd());
+ }
+
+ /**
+ * Retrieves the string covered by the current span of the specified text.
+ *
+ * @param text
+ *
+ * @return the substring covered by the current span
+ */
+ public CharSequence getCoveredText(CharSequence text) {
+ if (getEnd() > text.length()) {
+ throw new IllegalArgumentException("The span " + toString()
+ + " is outside the given text which has length " + text.length() + "!");
+ }
+
+ return text.subSequence(getStart(), getEnd());
+ }
+
+ /**
+ * Compares the specified span to the current span.
+ */
+ public int compareTo(Span s) {
+ if (getStart() < s.getStart()) {
+ return -1;
+ } else if (getStart() == s.getStart()) {
+ if (getEnd() > s.getEnd()) {
+ return -1;
+ } else if (getEnd() < s.getEnd()) {
+ return 1;
+ } else {
+ // compare the type
+ if (getType() == null && s.getType() == null) {
+ return 0;
+ } else if (getType() != null && s.getType() != null) {
+ // use type lexicography order
+ return getType().compareTo(s.getType());
+ } else if (getType() != null) {
+ return -1;
+ }
+ return 1;
+ }
+ } else {
+ return 1;
+ }
+ }
+
+ /**
+ * Generates a hash code of the current span.
+ */
+ @Override
+ public int hashCode() {
+ return Objects.hash(getStart(), getEnd(), getType());
+ }
+
+ /**
+ * Checks if the specified span is equal to the current span.
+ */
+ @Override
+ public boolean equals(Object o) {
+ if (o == this) {
+ return true;
+ }
+
+ if (o instanceof Span) {
+ Span s = (Span) o;
+
+ return getStart() == s.getStart() && getEnd() == s.getEnd() && Objects.equals(getType(), s.getType());
+ }
+
+ return false;
+ }
+
+ /**
+ * Generates a human readable string.
+ */
+ @Override
+ public String toString() {
+ StringBuilder toStringBuffer = new StringBuilder(15);
+ toStringBuffer.append("[");
+ toStringBuffer.append(getStart());
+ toStringBuffer.append("..");
+ toStringBuffer.append(getEnd());
+ toStringBuffer.append(")");
+ if (getType() != null) {
+ toStringBuffer.append(" ");
+ toStringBuffer.append(getType());
+ }
+
+ return toStringBuffer.toString();
+ }
+
+ /**
+ * Converts an array of {@link Span}s to an array of {@link String}s.
+ *
+ * @param spans
+ * @param s
+ * @return the strings
+ */
+ public static String[] spansToStrings(Span[] spans, CharSequence s) {
+ String[] tokens = new String[spans.length];
+
+ for (int si = 0, sl = spans.length; si < sl; si++) {
+ tokens[si] = spans[si].getCoveredText(s).toString();
+ }
+
+ return tokens;
+ }
+
+ public static String[] spansToStrings(Span[] spans, String[] tokens) {
+ String[] chunks = new String[spans.length];
+ StringBuilder cb = new StringBuilder();
+ for (int si = 0, sl = spans.length; si < sl; si++) {
+ cb.setLength(0);
+ for (int ti = spans[si].getStart(); ti < spans[si].getEnd(); ti++) {
+ cb.append(tokens[ti]).append(" ");
+ }
+ chunks[si] = cb.substring(0, cb.length() - 1);
+ }
+ return chunks;
+ }
+
+ public double getProb() {
+ return prob;
+ }
+
+}
diff --git a/src/main/jflex/de/ids_mannheim/korap/tokenizer/KorAPTokenizerImpl.jflex b/src/main/jflex/de/ids_mannheim/korap/tokenizer/KorAPTokenizerImpl.jflex
new file mode 100644
index 0000000..06ce453
--- /dev/null
+++ b/src/main/jflex/de/ids_mannheim/korap/tokenizer/KorAPTokenizerImpl.jflex
@@ -0,0 +1,569 @@
+package de.ids_mannheim.korap.tokenizer;
+/**
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements. See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License. You may obtain a copy of the License at
+ *
+ * http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+/**
+ Modifications
+ Copyright 2014 David Hall
+
+ Licensed under the Apache License, Version 2.0 (the "License")
+ you may not use this file except in compliance with the License.
+ You may obtain a copy of the License at
+
+ http://www.apache.org/licenses/LICENSE-2.0
+
+ Unless required by applicable law or agreed to in writing, software
+ distributed under the License is distributed on an "AS IS" BASIS,
+ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ See the License for the specific language governing permissions and
+ limitations under the License.
+*/
+/**
+ Further Modifications
+ Copyright 2016 Marc Kupietz
+
+ Licensed under the Apache License, Version 2.0 (the "License")
+ you may not use this file except in compliance with the License.
+ You may obtain a copy of the License at
+
+ http://www.apache.org/licenses/LICENSE-2.0
+
+ Unless required by applicable law or agreed to in writing, software
+ distributed under the License is distributed on an "AS IS" BASIS,
+ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ See the License for the specific language governing permissions and
+ limitations under the License.
+*/
+
+import java.io.BufferedReader;
+import java.io.StringReader;
+import java.io.InputStreamReader;
+import java.lang.StringBuffer;
+import java.util.ArrayList;
+import java.util.List;
+import Span;
+%%
+
+/**
+* Based on the Epic tokenizer (https://github.com/dlwh/epic)
+* ... which is ...
+* Based on Lucene's StandardTokenizerImpl, but heavily modified.
+*/
+%class KorAPTokenizerImpl
+%unicode
+%public
+// %implements opennlp.tools.tokenize.Tokenizer
+%type Span
+%function getNextToken
+%char
+
+%{
+
+ public boolean xmlEcho = false;
+ public boolean normalize = false;
+ public boolean debug = false;
+ private long startOffset = 0;
+ private int tokenId = 0;
+ private StringBuffer bounds = null;
+
+ public KorAPTokenizerImpl() {
+ this.zzReader = null;
+ }
+
+ public String[] tokenize(String s) {
+ Span[] spans;
+ int i;
+ String[] tokens;
+
+ spans = tokenizePos(s);
+ tokens = new String[spans.length];
+ for(i=0; i<spans.length; i++) {
+ tokens[i]=spans[i].getType();
+ }
+ return tokens;
+ }
+
+ public Span[] tokenizePos(String s) {
+ Span token;
+ int i=0;
+ List<Span> list = new ArrayList<Span>();
+ tokenId=0;
+ yyreset(new StringReader(s));
+ try {
+ while(!this.zzAtEOF) {
+ token = this.getNextToken();
+ if(token != null) {
+ list.add(token);
+ }
+ }
+ } catch (java.io.IOException e) {
+ System.out.println("IO error scanning "+s);
+ System.out.println(e);
+ }
+ return(list.toArray(new Span[list.size()]));
+ }
+
+ public int[] tokenizeMilestones(String s) {
+ Span[] spans;
+ int i;
+ int[] milestones;
+
+ spans = tokenizePos(s);
+ milestones = new int[2*spans.length];
+ for(i=0; i<spans.length; i++) {
+ milestones[i*2]=spans[i].getStart();
+ milestones[i*2+1]=spans[i].getEnd();
+ }
+ return milestones;
+ }
+
+ public final int yychar() {
+ return yychar;
+ }
+
+ final Span currentToken() {
+ return currentToken(yytext());
+ }
+
+ final Span currentToken(String normalizedValue) {
+ String value;
+ long lengthDiff=0;
+
+ if(normalize) {
+ value = normalizedValue;
+ } else {
+ value = yytext();
+ lengthDiff = value.length() - value.codePointCount(0, value.length());
+ }
+ if(startOffset > yychar || startOffset < 0) { // how can this happen?
+ startOffset = 0;
+ }
+ long from = (yychar-startOffset),
+ to = (yychar-startOffset+yylength()-lengthDiff);
+ if(xmlEcho) {
+ System.out.println("<span id=\"t_"+tokenId+"\" from=\""+from+"\" to=\"" + to + "\"/>\n"+value);
+ }
+ startOffset += lengthDiff;
+ tokenId++;
+ if(bounds != null) {
+ if(debug) {
+ System.err.println(from+"-"+to+":"+ value);
+ }
+ bounds.append(from+" "+to+" ");
+ }
+ return new Span((int)from, (int)to, value);
+ }
+
+ final void fileEnd() {
+ startOffset = yychar+yylength();
+ tokenId=0;
+ if(bounds != null && !xmlEcho) {
+ System.out.println(bounds.toString());
+ bounds.setLength(0);
+ }
+ }
+
+ final Span xmlPassage() {
+ if(xmlEcho) {
+ String dings = yytext();
+ if(dings.indexOf("<text")>=0 ) {
+ startOffset = yychar+yylength();
+ tokenId=0;
+ }
+ System.out.println(dings.replaceAll("[\n\r]+",""));
+ return null;
+ } else {
+ return currentToken();
+ }
+ }
+
+ final void zipArchive() {
+ String name;
+ String matched = yytext();
+ int start = 10;
+ name = matched.substring(start, matched.length() - 1);
+ System.out.println("<archive name=\"" + name + "\"/>");
+ }
+
+ final void zippedFile() {
+ String name;
+ String matched = yytext();
+ int start = 13;
+ name = matched.substring(start, matched.length() - 3);
+ System.out.println("<file name=\"" + name + "\"/>");
+ }
+
+ public static void main(String argv[]) {
+ int args=argv.length;
+ int j=0;
+ boolean xmlout = false;
+ boolean normalize = false;
+
+ for (int i = 0; i < argv.length && argv[i].indexOf("-") == 0; i++) {
+ if(argv[i].equals("-ktt")) { // act as a tokenizer for KorAP TreeTagger
+ xmlout=true;
+ } else if(argv[i].equals("-n")) { // do some normailization
+ normalize=true;
+ }
+ j++;
+ }
+
+ for (int i = j; i < argv.length || (i == j && argv.length == j); i++) {
+ KorAPTokenizerImpl scanner = null;
+ String fn = (argv.length > j ? argv[i] : "/dev/stdin");
+ try {
+ scanner = new KorAPTokenizerImpl(new BufferedReader(new java.io.FileReader(fn)));
+ scanner.bounds = new StringBuffer(1280000);
+ scanner.xmlEcho=xmlout;
+ scanner.normalize=normalize;
+ while ( !scanner.zzAtEOF ) { scanner.getNextToken(); }
+ }
+ catch (java.io.FileNotFoundException e) {
+ System.out.println("File not found : \""+fn+"\"");
+ }
+ catch (java.io.IOException e) {
+ System.out.println("IO error scanning file \""+fn+"\"");
+ System.out.println(e);
+ }
+ catch (Exception e) {
+ System.out.println("Unexpected exception:");
+ e.printStackTrace();
+ }
+ }
+ }
+
+
+%}
+
+THAI = [\u0E00-\u0E59]
+
+// basic word: a sequence of digits & letters (includes Thai to enable ThaiAnalyzer to function)
+ALPHANUM = ({LETTER}|{THAI}|[:digit:]|_)+
+
+// case insensitivity is useful sometimes
+a = [aA]
+b = [bB]
+c = [cC]
+d = [dD]
+e = [eE]
+f = [fF]
+g = [gG]
+h = [hH]
+i = [iI]
+j = [jJ]
+k = [kK]
+l = [lL]
+m = [mM]
+n = [nN]
+o = [oO]
+p = [pP]
+q = [qQ]
+r = [rR]
+s = [sS]
+t = [tT]
+u = [uU]
+v = [vV]
+w = [wW]
+x = [xX]
+y = [yY]
+z = [zZ]
+
+ALPHA = ({LETTER}|¨)+
+
+NEWLINE = [\n\r]
+
+// acronyms: U.S.A., I.B.M., etc.
+// use a post-filter to remove dots
+ABBRNYM = {LETTER} "." ({LETTER} ".")+
+
+ACRONYM_DEP = {ALPHANUM} "." ({ALPHANUM} ".")+
+
+// hostname
+HOST = ({ALPHANUM}|"-"){4,15} ((".") ({ALPHANUM}|"-"){2,16})+
+
+EMDASH = (--|---|[\u2014\u2015\u2e3a\u2e3b\ufe58]+)
+
+DASH = ([\-\u2011\u2012\u2013\u2e1a\ufe63\uff0d])
+
+SLASH = [⁄∕//]
+
+
+// url
+
+// url spec lifted from Lucene
+
+// URL and E-mail syntax specifications:
+//
+// RFC-952: DOD INTERNET HOST TABLE SPECIFICATION
+// RFC-1035: DOMAIN NAMES - IMPLEMENTATION AND SPECIFICATION
+// RFC-1123: Requirements for Internet Hosts - Application and Support
+// RFC-1738: Uniform Resource Locators (URL)
+// RFC-3986: Uniform Resource Identifier (URI): Generic Syntax
+// RFC-5234: Augmented BNF for Syntax Specifications: ABNF
+// RFC-5321: Simple Mail Transfer Protocol
+// RFC-5322: Internet Message Format
+
+// http://code.ohloh.net/file?fid=wEylHt__FppVh8Ub_GTsx__CTK4&cid=d0f5PFFYrnk&s=UAX29URLEmailTokenizerImpl&filterChecked=true&fp=473333&mp,=1&ml=1&me=1&md=1&projSelected=true#L0
+
+DomainLabel = [A-Za-z0-9] ([-A-Za-z0-9]* [A-Za-z0-9])?
+DomainNameLoose = {DomainLabel} (("."|"[dot]") {DomainLabel})*
+
+IPv4DecimalOctet = "0"{0,2} [0-9] | "0"? [1-9][0-9] | "1" [0-9][0-9] | "2" ([0-4][0-9] | "5" [0-5])
+IPv4Address = {IPv4DecimalOctet} ("." {IPv4DecimalOctet}){3}
+IPv6Hex16Bit = [0-9A-Fa-f]{1,4}
+IPv6LeastSignificant32Bits = {IPv4Address} | ({IPv6Hex16Bit} ":" {IPv6Hex16Bit})
+IPv6Address = ({IPv6Hex16Bit} ":"){6} {IPv6LeastSignificant32Bits}
+ | "::" ({IPv6Hex16Bit} ":"){5} {IPv6LeastSignificant32Bits}
+ | {IPv6Hex16Bit}? "::" ({IPv6Hex16Bit} ":"){4} {IPv6LeastSignificant32Bits}
+ | (({IPv6Hex16Bit} ":"){0,1} {IPv6Hex16Bit})? "::" ({IPv6Hex16Bit} ":"){3} {IPv6LeastSignificant32Bits}
+ | (({IPv6Hex16Bit} ":"){0,2} {IPv6Hex16Bit})? "::" ({IPv6Hex16Bit} ":"){2} {IPv6LeastSignificant32Bits}
+ | (({IPv6Hex16Bit} ":"){0,3} {IPv6Hex16Bit})? "::" {IPv6Hex16Bit} ":" {IPv6LeastSignificant32Bits}
+ | (({IPv6Hex16Bit} ":"){0,4} {IPv6Hex16Bit})? "::" {IPv6LeastSignificant32Bits}
+ | (({IPv6Hex16Bit} ":"){0,5} {IPv6Hex16Bit})? "::" {IPv6Hex16Bit}
+ | (({IPv6Hex16Bit} ":"){0,6} {IPv6Hex16Bit})? "::"
+
+URIunreserved = [-._~A-Za-z0-9]
+URIpercentEncoded = "%" [0-9A-Fa-f]{2}
+URIsubDelims = [!$&\'()*+,;=]
+URIloginSegment = ({URIunreserved} | {URIpercentEncoded} | {URIsubDelims})*
+URIlogin = {URIloginSegment} (":" {URIloginSegment})? "@"
+URIquery = "?" ({URIunreserved} | {URIpercentEncoded} | {URIsubDelims} | [:@/?])*
+URIfragment = "#" ({URIunreserved} | {URIpercentEncoded} | {URIsubDelims} | [:@/?])*
+URIport = ":" [0-9]{1,5}
+URIhostStrict = ("[" {IPv6Address} "]") | {IPv4Address}
+URIhostLoose = ("[" {IPv6Address} "]") | {IPv4Address} | {DomainNameLoose}
+
+URIauthorityStrict = {URIhostStrict} {URIport}?
+URIauthorityLoose = {URIlogin}? {URIhostLoose} {URIport}?
+
+HTTPsegment = ({URIunreserved} | {URIpercentEncoded} | [;:@&=])*
+HTTPpath = ("/" {HTTPsegment})*
+HTTPscheme = [hH][tT][tT][pP][sS]? "://"
+HTTPurlFull = {HTTPscheme} {URIauthorityLoose} {HTTPpath}? {URIquery}? {URIfragment}?
+// {HTTPurlNoScheme} excludes {URIlogin}, because it could otherwise accept e-mail addresses
+HTTPurlNoScheme = {URIauthorityStrict} {HTTPpath}? {URIquery}? {URIfragment}?
+HTTPurl = {HTTPurlFull} | {HTTPurlNoScheme}
+
+FTPorFILEsegment = ({URIunreserved} | {URIpercentEncoded} | [?:@&=])*
+FTPorFILEpath = "/" {FTPorFILEsegment} ("/" {FTPorFILEsegment})*
+FTPtype = ";" [tT][yY][pP][eE] "=" [aAiIdD]
+FTPscheme = [fF][tT][pP] "://"
+FTPurl = {FTPscheme} {URIauthorityLoose} {FTPorFILEpath} {FTPtype}? {URIfragment}?
+
+FILEscheme = [fF][iI][lL][eE] "://"
+FILEurl = {FILEscheme} {URIhostLoose}? {FTPorFILEpath} {URIfragment}?
+
+URL = {HTTPurl} | {FTPurl} | {FILEurl}
+
+EMAILquotedString = [\"] ([\u0001-\u0008\u000B\u000C\u000E-\u0021\u0023-\u005B\u005D-\u007E] | [\\] [\u0000-\u007F])* [\"]
+EMAILatomText = [A-Za-z0-9!#$%&\'*+-/=?\^_`{|}~]
+EMAILlabel = {EMAILatomText}+ | {EMAILquotedString}
+EMAILlocalPart = {EMAILlabel} ("." {EMAILlabel})*
+EMAILdomainLiteralText = {ALPHANUM}|{DomainNameLoose}
+//EMAILdomainLiteralText = ([\u0001-\u0008\u000B\u000C\u000E-\u005A\u005E-\u007F]|[\\][\u0000-\u007F])*{ALPHANUM}
+// DFA minimization allows {IPv6Address} and {IPv4Address} to be included
+// in the {EMAILbracketedHost} definition without incurring any size penalties,
+// since {EMAILdomainLiteralText} recognizes all valid IP addresses.
+// The IP address regexes are included in {EMAILbracketedHost} simply as a
+// reminder that they are acceptable bracketed host forms.
+EMAILbracketedHost = "["? ({EMAILdomainLiteralText}+ | {IPv4Address} | [iI][pP][vV] "6:" {IPv6Address}) "]"?
+EMAIL = {EMAILlocalPart} ("@"|"["at"]") ({EMAILbracketedHost})
+
+ // {ALPHANUM} "://" {HOST} (ALPHANUM|\/)*
+// URL = ({ALPHA}({ALPHANUM}|-)+:(/{1,3}|[a-z0-9%])|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}/)([^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:'".,<>?«»“”‘’]))
+
+
+// floating point, serial, model numbers, ip addresses, etc.
+// every other segment must have at least one digit
+NUM = ({ALPHANUM} {P} {HAS_DIGIT}
+ | {HAS_DIGIT} {P} {ALPHANUM}
+ | {ALPHANUM} ({P} {HAS_DIGIT} {P} {ALPHANUM})+
+ | {HAS_DIGIT} ({P} {ALPHANUM} {P} {HAS_DIGIT})+
+ | {ALPHANUM} {P} {HAS_DIGIT} ({P} {ALPHANUM} {P} {HAS_DIGIT})+
+ | {HAS_DIGIT} {P} {ALPHANUM} ({P} {HAS_DIGIT} {P} {ALPHANUM})+)
+
+
+/* floating point literals */
+DoubleLiteral = ({FLit1}|{FLit2}|{FLit3}) {Exponent}?
+
+FLit1 = [0-9]+ \. [0-9]*
+FLit2 = \. [0-9]+
+FLit3 = [0-9]+
+Exponent = [eE] [+-]? [0-9]+
+
+// punctuation
+P = ("_"|"-"|"."|",")|{SLASH}
+
+Q = [’\'`]
+
+PUNCT = ({P}|{Q}|[?!@#$%\^&*_:;\]\[\"»«\202\204\206\207\213\221\222\223\224\225\226\227\233])
+
+// at least one digit
+HAS_DIGIT = ({LETTER}|[:digit:])* [:digit:] ({LETTER}|[:digit:])*
+
+
+LETTER = ([:letter:]|¨)
+
+ENGLISH_CLITIC = ({Q}(ll|d|ve|s|re|LL|D|VE|S|RE|m|M|n|N|[eE][mM])?|[nN]{Q}[Tt])
+
+FRENCH_CLITIC = (-t-elles?|-t-ils?|-t-on|-ce|-elles?|-ils?|-je|-la|-les?|-leur|-lui|-mêmes?|-m\'|-moi|-nous|-on|-toi|-tu|-t\'|-vous|-en|-y|-ci|-là)
+
+IRISH_O = [Oo]{Q}
+
+FRENCH_INIT_CLITIC = ([dcjlmnstDCJLNMST]\'|[Qq]u\'|[Jj]usqu\'|[Ll]orsqu\')
+
+CLITIC = ({ENGLISH_CLITIC}|{FRENCH_CLITIC})
+
+INIT_CLITIC = ({FRENCH_INIT_CLITIC})
+
+POLISH_CONDITIONAL_CLITIC = (by)
+
+POLISH_CONDITIONAL_ENDING = (m|ś|śmy|ście)?
+
+POLISH_PAST_ENDING_1 = (ś|śmy|ście)
+POLISH_PAST_ENDING_2 = ([mś]?|śmy|ście)
+
+WHITESPACE = \s
+
+ENDMARKER = (\n?\003\n)
+XML = <(\/text|\?xml|\?xml-model|\/?raw_text|\/?metadata) ?[^\003\n>]{0,100}>
+
+EMOTICON = ( [<>]?[BX;8:=][o\-\']?[DdPp()\/3>oO*]+|<\/?3+|ಠ_ಠ|\(-.-\)|\(T_T\)|\(♥_♥\)|\)\':|\)-:|\(-:|\)=|\)o:|\)x|:\'C|:\/|:<|:C|:[|=\(|=\)|=D|=P|>:|D\':|D:|\:|]:|x\(|\^\^|o.O|oO|\\{o}\/|\\m\/|:;\)\)|_\)\)|\*_\*|._.|:wink:|>_<|\*<:-\)|[:;]\)|[;;]" "\))
+
+OMISSIONWORD = ({LETTER}+\*\*+{LETTER}*|{LETTER}+\*{LETTER}+|{LETTER}+[\'`]{LETTER}+)
+
+EXTENSION = (html|htm|doc|docx|pdf|jpg|mp3|mp4|ogg|png|avi|txt|xls|xml|aac|DOC|DOCX|GIF|JPG|JPEG)
+FNAME = (({LETTER}:[\\/])?|\/)?({LETTER}+|[\\_/-])+\.{EXTENSION}
+
+PLUSAMPERSAND = (&|'|>|&K|<|&M|"|&RQ|\+Ale|\+ALe|\+Anima|\+APD|\+co|\+Co|\+GF\+|\+Leif|\+Strang|\+Teamgeist|A&A|A&E|A&F|A&M|A&O|A&P|A&R|A&V|A&W|A\+\+|A\+\+\+|A\+E|A\+f|AAC\+|ABC&D|AC\+|AD&D|AE&E|AES\+F|AEW&C|AFM\+E|AGTL\+|Altenpflege\+ProPflege|Analyse\+kritik|anlagen\+verfahren|ANT\+|Anynet\+|Applus\+|Arch\+|ARCH\+|ART\+COM|AS&P|ASC\+T|ASEAN\+|Asis&t|AT&L|AT&S|AT&SF|AT&T|ATV\+|Auer\+Weber|Auer\+Weber\+Assoziierte|Axis&Allies|B&B|B&C|B&F|B&G|B&H|B&I|B&K|B&M|B&MTJR|B&NES|B&O|B&Q|B&R|B&T|B&V|B&W|B\+B|B\+R|B\+T|Baby&Co|Bayern\+|BB&T|BD\+|Beast\+|BEAST\+|Beck\+Schubert|Belle&Sebastian|BFE\+|BG\+BRG|BIBEL\+ORIENT|Bild\+Funk|Binder\+Co|Blohm\+Voss|Blood\+|Blut\+Eisen|BM&F|BM&FBovespa|Bolles\+Wilson|Bottega\+Ehrhardt|Brangs\+Heinrich|BRF\+|Briner\+Kern|BUCH&media|Burghardt\+Schmidt|bus\+bahn|C&A|C&C|C&D|C&L|C&M|C&O|C&P|C&R|C&S|C&T|C&W|C\+\+|C\+\+Builder|C\+c|C\+C|C\+M\+B|Ca\+\+|Cafe\+co|Cafe\+Co|Canal\+|Cantata\+\+|CB&I|CC&G|CCC&StL|CD&E|CD&V|CD\+DVD|CD\+G|CDIA\+|Celtic\+|Cendres\+M|Chage&Aska|Chage&Asuka|Channel\+smile|Charm\+\+|Chip&Chap|CI&CEQ|CI\+|Click&Buy|Cocl&Seff|Com&Com|COM\+|Comicplus\+|COR&FJA|CS&S|CT&T|ctc\+\+|Ctrl\+Alt\+Del|CTRL\+ALT\+DEL|Cube\+|Cyfra\+|CYFRA\+|D&A|D&AD|D&b|D&B|D&D|D&G|D&O|D&RGW|D&S|D&W|D\+Q|DAB\+|DACH\+HOLZ|DAML\+OIL|DBM&T|Dc\+\+|DC\+\+|DDDBM&T|Despe&Siga|DF&S|Digital\+|DirectConnect\+\+|Dissing\+Weitling|DL\+NT|DLSW\+|Do&Co|Dok&Deb|Dorma\+kaba|DP&L|Drm\+|DRM\+|DTS\+\+|DU&ICH|DVD\+R|Dvd\+rw|DVD\+RW|E&a|E&N|E&Y|E\+|E\+e|E\+h|E\+H|EAAC\+|Ebert\+Jacobi|ECO\+|EG&G|Eigen\+Art|Eins\+Alles|Electromobility\+|En\+|Endress\+Hauser|Erasmus\+|ES&T|ETV\+|EV\+|Eve&rave|Every\+|F&A|F&B|F&E|F&F|F&K|F\+F|F\+U|Familie&Co|FAT\+|Film\+|FILM\+SCHULE|Fischer\+Kr|Fix\+Foxi|FLUXUS\+|FMHL\+|Form\+zweck|fuhrpark\+management|G&B|G&D|G&IF|G&L|G&V|G\+\+|G\+H|G\+J|G\+tt|GC&CS|GDI\+|ge\+her|GG&L|Go\+|GO\+|Google\+|Goran\+Vujic|GRAF\+ZYX|Gruner\+Jahr|Gtk\+|GTK\+|GTL\+|GTX\+|Guide\+|H&BC|H&H|H&K|H&M|h&m|H&N|H&R|H&S|H\+BEDV|H\+H|H\+N|H\+S|Haase&band|Hahn\+Kolb|HAHN\+KOLB|Hasta\+Coda|Haubitz&Zoche|Haubitz\+Zoche|HBCI\+|HD\+|Health&Care|Heim\+Handwerk|Heute\+|HFS\+|hne\+Nagel|HSPA\+|HT&L|HTML\+TIME|Huber\+Suhner|Hunger&Seide|I&A|I&K|I&Q|I&u|I&U|I\+D|I\+R|Ich\+Ich|ID&T|Idee\+spiel|Ihp\+|II\+|IIc\+|III\+|IK\+|In&phone|In&Phone|info\+|Interkama\+|IT&Production|J&B|J&D|J&J|J&M|J&P|J&S|J&T|J\+\+|J\+S|Jazz\+Az|Jenna\+Ron|Johnson&Johnson|JU\+TE|Jugend\+Sport|Jugend\+Technik|Jump&Run|K&k|K&K|K&L|K&M|K&N|K&R|K&S|K&U|K\+\+|K\+A|K\+H|K\+K|k\+Metal|K\+R|K\+S|K\+W|Kai\+Sven|Kaiser\+Kraft|KAISER\+KRAFT|Kino&Co|KINO&CO|Kino\+|Kirche\+Leben|Klassik&JazzMagazin|Kurz&F|L&B|L&C|L&M|L&N|L&P|L&S|L\+R|L\+T|Lancia\+Voyager|Landis\+Gyr|LB&SCR|Leader\+|LEADER\+|Lederer\+Ragnarsd|Leicht&Cross|Lenord\+Bauer|Leslie\+Lohman|Libsigc\+\+|Life&Style|LIFE\+|Light\+Building|Lippmann\+Rau|LISA\+|Lords&Knights|LT&SR|Lussi\+Halter|M&A|M&B|M&D|M&G|M&i|M&I|M&M|M&Ms|M&N|M&S|M&T|M\+a|M\+C|M\+M|M\+O|M\+s|M\+S|M\+W|Maildir\+\+|Mann\+Hummel|Markt\+Technik|Means\+\+|Melodie&Rhythmus|Metadata\+|Miles&more|Milk\+|Mining\+geo|Mix&Genest|mmerly\+Frey|Monet\+|Motion\+picture|MPP\+|MS&D|MS&L|MStP&SSM|Music&Voice|N&CRR|N&ER|n&gut|N&R|N&W|N\+M|Na\+|NADHH\+|Nah&gut|Natur\+kosmos|natur\+mensch|Nc\+|NI&Co|nig\+Neurath|Nike\+iPod|Nintendogs\+Cats|Notepad\+\+|NYW&B|O&K|O&L|O&M|Ola\+|OMNeT\+\+|ORFsport\+|Ost\+Front|P&A|P&C|P&E|P&G|P&I|P&ID|P&L|P&M|P&O|P&P|P&R|P&T|P&TLuxembourg|P&W|P\+M|P\+R|P\+S|PAL\+|Pan&Scan|Papier&Stift|Park&Charge|Park&Rail|Park&Ride|Park&Suites|PB&J|Peek&Cloppenburg|Pen&Paper|Pepperl&Fuchs|Pepperl\+Fuchs|Peste&Sida|PG&E|Pirelli&C|Pittel\+Brausewetter|Plug&play|Plus\+|POB&A|Pol&is|POL&IS|POLO\+|Poses\+\+|PP&P|Pratt&Whitney|Princess\+|Prius\+|Procter&Gamble|Prozac\+|PS&P|Pur\+|Q&A|Q&Q|Q\+Q|Quanta\+|R&A|R&B|R&D|R&ER|R&F|R&G|R&I|R&M|R&Q|R&R|R&S|R\+C|R\+S|R\+V|Rail&Fly|REDD\+|Reise&Touristik|Relax\+ng|RF&P|Richter\+Frenzel|Rio\+|Rohde&Schwarz|RT\+|Run&Dine|S&B|S&D|S&G|S&H|S&K|S&M|S&P|S&T|S&w|S&W|S\+D|S\+G|S\+T|S\+U|Sales&Services|Sam&Max|Schedule\+|Schiff&Hafen|Schlund\+Partner|Schmelzle\+Partner|Schmidt\+Clemens|science\+business|Science\+Business|sd&m|Sd&m|Sdr\+|Serve&Volley|Severin\+K|SiMPLE\+\+|SMS&park|SMW\+|Soap&Skin|Solo\+|Spar\+Kreditbank|Spar\+Leihkasse|speed\+|Speed\+|Spoga\+gafa|SPORT\+|Sport\+Technik|SS\+|St&H|St&Z|Standard&Poor|Standard&Poors|Station&Service|Steib\+Steib|Stil&Stadt|Strategy&|Strg\+Alt\+Entf|StrongDC\+\+|Such&Find|Sumol\+Compal|SVS&E|SVWZ\+|SW&S|Swift\+|SXGA\+|T&D|T&L|T&N|T&T|T\+A|T\+T|TACACS\+|Tanz&FolkFest|Taylor&Francis|text\+kritik|TEXT\+KRITIK|textil\+mode|Timidity\+\+|TMRM\+|Toni&Guy|toon\+|Touch&Travel|Track\+|Trends\+More|TT&C|TT&R|ttir\+Oei|TV\+Synchron|U&D|U\+\+|U\+F|Ultimate\+\+|Urban&Fischer|URW\+\+|USC&GS|UTC\+|V&A|V&R|V&S|V&W|Valentien\+Valentien|VC\+\+|VF\+|Vieweg\+Teubner|VISEO\+|Vision\+Technik|VisualDSP\+\+|VIVA\+|VL&D|Vorschau\+R|Vorster&Gr|VT&MA|W&B|W&F|W&G|W&H|W&p|W&V|W&W|WB\+|Wein\+Markt|Wienstroth&Hammans|Winkler\+D|Wirtschaft\+Markt|WP&YR|WS&P|WSXGA\+|WXGA\+|X\+\+|X\+Y|Xbase\+\+|XHTML\+SMIL|Y&R|Y&T|Yin&Yang|Yotsuba&|Young&Queer|Z\+W|Zeidler&Wimmel|Zinc&Germanium)
+
+TWITTER_HANDLE = @{ALPHA}{ALPHANUM}?
+TWITTER_HASHTAG = #{ALPHANUM}
+
+// blocks of question marks and exclamation marks are one token
+LONG_END_PUNCT = [?!][?!1]+
+
+WORD = ({IRISH_O}?{ALPHANUM}+|[Qq]ur{Q}an)
+
+// pragmas used for anonymization etc.
+PRAGMA = \[_[A-Z\-]+_\]
+
+// Use the same abbreviations as the IDS sentence splitter /takes 30min to compile)
+// cat /usr/local/res/SatzEnde.abb8bit | recode latin1..utf8 | perl -wne \'chomp; $a .= "$1|" if(/^\+([^.]{1,}$)/); BEGIN {$a="";}; END {chop $a; print "SEABBREV=($a)\n"}\' > abbr
+SEABBR = (A|AAnw|AAnz|ABC-Dir|ABest|ABez|ABgm|ABl|ABlAllKdtr|ABlEurGem|ABlSch|ADAnw|ADOSt|ADSp|ADir|AGDir|AGPräs|AGr|AH-Rdschr|AHKABl|ARSt|ASchr|ASekr|ASp|ASt|AT-Ang|AVNot|AVVFStr|AVers|AVfg|AVorm|Aa|Ab|AbGes|Abb|Abbl|Abbr|Abd|Abdr|Abf|Abfl|Abfr|Abg|Abgn|Abh|AbhSch|Abhd|Abhn|Abit|Abk|Abl|Abn|Abr|Abrd|Abs|Abschl|Abschn|Abschr|Absp|Abspr|Abst|Abstr|Abt|Abtlg|Abtlgn|Abtn|Abtr|Abw|Abz|Abzw|Ac|Acc|Add|Adh|Adj|Adm|Admst|Adr|Adv|Aero|Aeron|Afgh|Afr|Ag|Aggr|Agit|Agm|Agr|Agt|Agtr|Ah|Ahg|Ahp|Amerik|Amtm|Ang|Anh|Anm|Anst|Anw|Ap|Apg|Apl|Apok|Apokr|Apoth|App|Appl|Appos|Appr|Approb|Approx|Apr|Aq|Aqll|Aqr|Ar|Arab|Arb|ArbEins|ArbGEntsch|ArbVerm|Arbf|Arbg|ArblFürs|ArblVers|Arbn|Arbtg|Arch|ArchAss|ArchDir|Archvl|Arg|Arith|Ariz|Ark|Arp|Arpegg|Arr|Arret|Ars|Art|Asb|Aschr|Asp|Asph|Ass|AssPr|Assist|Assyr|Ast|Asth|Astr|Astrol|Astron|Astrophot|Asz|At|Atl|Atm|Att|Attr|Aubew|Aud|Audiogr|Audiom|Auf|Aufb|AufbewBest|Auff|Aufg|Aufh|AufhBek|AufhBest|AufhVorschr|AufhVschr|Aufk|Aufkl|Aufl|Aufn|Aufr|Aufs|Aufsch|Aufschl|Aufschr|Aufst|Auft|Auftlg|Auftr|Aufw|Aufz|Aug|Ausb|Ausbild|Ausf|AusfAnw|AusfBek|AusfBest|AusfErl|AusfFörd|Ausg|Ausgest|Ausgl|AusglSt|Aush|Ausk|Ausl|Ausn|Ausr|Auss|Aussch|Ausschl|Ausspr|Ausst|Ausstatt|Ausstattg|Aust|Austr|Austral|Ausv|Ausverk|Ausw|AuswBeh|Ausz|Aut|Autogr|Autom|Auton|Außenst|Ave|Aw|Az|B|BAArbVerm|BAAss|BABl|BADir|BAInsp|BAOInsp|BAOSekr|BASt|BAaz|BAnw|BArch|BAss|BAssess|BAssist|BAvAv|BBBI|BBauBI|BBed|BBeir|BBev|BDIr|BDiAnw|BDr|BELFMBl|BFMBl|BFStr|BGBI|BGHSt|BGOArch|BGSt|BGr|BHGr|BI|BII|BIIckp|BIerSt|BInsp|BJPl|BKBI|BMAt|BMAusw|BMFa|BMGes|BMSchatz|BMVg|BMVt|BMVtdg|BMWBl|BMWi|BMWo|BOAmtm|BOKraft|BOSekr|BOStrab|BPMin|BPatGer|BPol|BPr|BPrSt|BR-Beschl|BR-Best|BRDrucks|BReg|BSch|BSt|BStAnz|BStBI|BTDrucks|BTr|BVBI|BVST|BVSt|BVers|BVersBl|BVorst|BWGBI|BWGoD-Ausl|BWKGAusl|BWMBl|BZBl|BZKom|Ba|BaI|BaII|BaIt|Bacc|Bach|Bahngel|Bahnw|Bakk|Bakt|Bal|Bald|Band|BankBev|Banz|Bapt|Bar|Barb|Barbest|Bark|Barmh|Barpr|Barv|Barverk|Barz|Barzahl|Bas|Bast|Bat|BatI|BauAss|BauAssess|BauDir|BauI|BauIng|Bauaufs|Bauausf|Baubeschr|Baudir|Bauf|Baufiazg|Baufzg|Baugel|Baugen|Bauges|Baugest|Bauk|Baultg|BaupI|Baupfl|Baupol|Baupr|Bautechn|Bautr|Bauverw|Bauw|Bav|Bay|BayBSVFIn|BayBSVJu|BayObLGSt|BayStAnz|BayVerf|Baz|Bb|Bbd|Bbf|Bbl|Bch|Bchst|Bd|Bd--R|BdGes|BdSt|Bdch|Bdchn|Bde|Bdg|Bdr|Bdtg|Bdu|Bdw|Bea|Beamt|Bearb|Bed|Bef|BefSt|Befh|Befr|Beg|BegI|Begl|Begr|Beh|Beibl|Beig|Beigel|Beih|BeihGr|Beil|Bein|Beir|Beis|Beisp|Beist|Beitr|Beiw|Bek|Bekl|Bel|Belg|Bem|Ben|Ber|Berat|Bergass|Bergb|Bergdir|Berging|Bergm|Bergw|Berl|Berufsber|Berufsgen|Bes|BesGr|Besch|BeschSt|Beschl|Beschr|Beschw|Bespr|Best|Bestr|Bet|Betr|Beub|Beurl|Bev|BevoIIm|Bew|Bez|BezABl|BezFürsVerb|Bf|BfArb|Bfg|Bfh|Bfst|Bg|Bgb|Bge|Bgl|Bgld|Bgm|Bgmstr|Bgr|Bgrz|Bgw|Bh|Bhdl|Bhdlg|Bhf|Bhm|Bi|BiI|BiSt|Bib|Bibl|BiblI|Bild|Bill|BillRichtl|Bio|Biogr|Biol|Bisch|Bist|Bit|Bk|BkI|Bkg|Bkm|Bkt|Bkz|Bl|Bld|Bldg|Blickw|Blk|Bln|Blst|Blvd|Blz|Bm|Bmstr|Bn|Bol|Bor|Bot|Botsch|Bp|Br|BrABI|BrMilReg|Brandm|Brandmstr|Brandsch|Brandvers|Branntw|Bras|Brat|Brauiug|Braum|Braumstr|Braur|Braust|Brennst|Bret|Brev|Briefm|Brieft|Briefw|Brill|Brit|Brk|Brm|Brosch|Brt|Bs|Bschr|Bsg|Bsp|Bspr|Bst|Bstg|Bstlg|Bt|Btl|Btm|Btr|BtrOAufs|Btrg|Bttr|Bu|BuIg|BuRi|Buchdr|Buchf|Buchh|Buchhdl|Buchhdlg|Buchst|Bull|Bur|Bvh|Bvt|Bw|Bwg|By|Byz|Bz|BzBm|BzSekr|Bzl|Bzn|Bü|Bürg|Bürgm|Bürgmstr|Bürgsch|C|Ca|CaIIf|CaIv|Cabr|Can|Cant|Cap|Capt|Car|Carm|Cath|Cb|Cd|Cdr|CeIl|Cel|Celloph|Cels|Cemb|Cent|Cert|Ceyl|Ch|ChBPr|ChIr|Cham|Champ|Char|Chefdir|Chefing|Chefkorr|Chefp|Chefpil|Chefpl|Chefred|Chefsekr|Chem|Chemot|Chemoth|Chin|Chir|Chol|Chor|Chq|Chr|Christ|Chron|Chronogr|Cic|Cie|Cist|Cl|Cnt|Cntr|Co|Col|Coll|Colleg|Colo|Com|Comm|Comp|Conc|Conf|Confr|Cons|Cont|Conv|Cop|Corp|Corr|Coul|Coup|Cour|Court|Cous|Cout|Cpt|Cr|Cruz|Ct|Ctr|Cud|D|DAnw|DBest|DCG|DDevErkl|DDr|DOGer|DRAnz|DRPa|DRpfl|DRspr|DStBl|DStZtg|DVBl|DVerwBl|DVfg|DVorschr|DWo|DWohn|Dachg|Dachorg|Dachverb|Dak|Dalm|Dankb|Darl|Darst|Dat|Db|Dbd|Dbl|Dchs|Dct|Dd|Def|Deg|Dek|Dekl|Dekr|Dekur|Del|Deleg|Delinq|Dem|Denkm|Denkschr|Dep|Depos|Depr|Dept|Deput|Der|Derm|Desinf|Desint|Deskr|Desp|Dess|Dest|Desz|Det|Deut|Dev|DevKErkl|Devot|Dez|Df|DfBest|Dg|Dgt|Di|Diab|Diag|Diagn|Diagr|Diak|Dial|Diam|Did|Dienstanw|Dienstber|Dienstpfl|Dienststd|Diff|Diffam|Dil|Dim|Dipl|Dir|Disc|Dish|Disk|Diskr|Disp|Dist|DiszStr|DiszVerf|Div|Dkfm|Dkm|Dl|Dm|Dmr|Do|Dok|Dokt|Dolm|Dom|DoppBestAbk|Doppelz|Dos|Doz|Dp|Dpf|Dpfm|Dpp|Dpt|Dptr|Dr|Drchf|Drchfl|Drchg|Drcks|Dres|Drgt|Drog|Drp|Drs|Drucks|Drucksp|Dst|DtVerwBl|Dtl|Dtld|Dtz|Dtzd|DuVerf|Dubl|Dupl|Durchf|DurchfBest|Durchl|Durchm|Durchschl|Durchschn|Durchst|Durchw|Dvst|Dw|Dyn|Dz|Dzd|Dzt|Dzw|Dän|E|E-Nr|E-Rdschr|E-Schw|E-Str|E-Techn|EB-St|EBek|EGr|EHMietv|EPl|EPr|ESt|Eb|Ebf|Ebst|Ebt|Ec|Eccl|Econ|Ecuad|Ecuador|Ed|Ef|Eff|Egb|Egbd|Egbde|Egbdf|Ehel|Ehf|Ehm|Ehrl|Ehrw|Ehz|Ehzg|Ehzgin|Ehzgn|Ehzgt|Ehzgtm|Eiazelpr|Eichm|Eichmstr|Eidg|Eidgen|Eif|Eigenkap|Eigent|Eigenw|Eign|Eigt|Eilb|Eilg|Eilzust|Einb|Einbauschr|Einbd|Einbr|Eindr|Einf|Einfl|Eing|Eingem|Eingl|Eingr|Einh|Eink|Einl|Einn|Einr|Eins|Einschl|Einschr|Einspr|Einst|Eint|Eintr|Einv|Einvern|Einverst|Einw|Einz|Einzelh|Einzelz|Einzlg|Eisenb|Eisenbr|Eisentr|Eish|Ek|Ekuad|Ekuador|El|Elektr|Elektrotechn|Elev|Ell|Els|Em|Emb|Emgld|Emgldsch|Emp|Empf|En|Endst|Eng|Engl|Ent|Entd|Enteig|Enteign|Enth|Entl|Entn|Ents|Entsch|Entschl|Entspr|Entst|Entw|Entz|Enz|Enzykl|Ep|Epid|Epig|Epigr|Epil|Epis|Episk|Eq|Er|Erb|Erbf|Erbl|Erbsch|ErbschSt|Erbschl|Erbt|Erdg|Erf|Erfr|Erg|ErgBek|ErgBest|ErgVschr|Ergeb|Erh|Erk|Erkl|Erkr|Erl|Erm|Ern|Err|Ers|Ersch|Erschl|Erschw|Erst|Erstatt|Erstauff|Erstausg|Erstaust|Erstkl|Erstp|Erstr|Ert|Ertr|Erw|Erz|Erzb|Erzh|Erzhzg|Esk|Esot|Esp|Espr|Estl|Esttg|Et|Etg|Ethn|Etr|Etym|Euph|Eur|EurArch|Eutf|Ev|Evang|Ew|Ewr|Ex|Exek|Exerz|Exh|Exk|Exkl|Exp|Exped|Exper|Expl|Expr|Ext|Extr|Exz|Ez|Ezg|Eßl|F|FAVorst|FArb|FAss|FGDir|FIex|FIgze|FIp|FIugb|FIugh|FIugsIch|FLSt|FLdw|FMBl|FMin|FNr|FPräs|FPräsSt|FRef|FSt|Fa|Fabr|Fachb|Fachber|Fachbibl|Fachl|Fachlit|Fachsch|Fag|Fahrber|Fahrerl|Fahrw|Fahrz|Fak|Faks|Fallsch|Fam|Fan|Fanf|Fas|Fasch|Fasz|Fav|Fb|Fbd|Fbf|Fbl|Fbr|Fbz|Fd|Fdg|Fdw|Fe|FeIdp|FeIngeh|Febr|Feing|Feinmech|Feldm|Feldw|Fem|Ferm|Fernl|Fernltg|Fernr|Fernschr|Festg|Festpr|Festst|FeststKl|Feuerbest|FeuerschSt|Feuerw|Feuevers|Ffl|Ffr|Fg|Fgbz|Fgd|Fgn|Fgr|Fgst|Fh|Fhr|Fhrw|Fhrz|Fhrzge|Fi|Fig|Fil|Fin|FinAss|FinGPräs|FinMin|FinVertr|Firm|Fj|Fk|Fkta|Fl|Flachdr|Flb|Flbl|Flg|Flgz|Flk|Fllg|Flugb|Flugbew|Flugz|Flw|Flzg|Flzge|Fm|Fn|FoArch|FoMstr|Fod|Fol|Ford|Form|Formal|Forsch|Forstw|Forstwiss|Fortf|Forts|Fot|Fotogr|Fp|Fpl|Fr|FrMilReg|Fragm|Frakt|Franz|Frbr|Frdh|Frdlkt|Frdw|Frdz|FrdzI|FreIgr|FreIw|Freg|Freih|Freim|Freist|Freiw|Freiz|Freizt|Fremdst|Fremdw|Freq|Frfr|Frgt|Frh|Frhf|Frhr|Fris|Frk|Frl|Frm|Frq|Frspr|Frst|Frw|Frwk|Frz|Frzb|Frzt|Frzzbd|Fs|Fsch|Fsch-Jg|Fschr|Fspr|Fss|Fst|Fstg|Fstm|Ft|FtSt|Ftg|FuAnl|FuAss|FuGer|FuSpr|FuSt|FuVerb|Fua|Fugr|FundSAnw|Funkm|Funkt|Fur|Furd|Furn|Furtschr|Fut|Fußn|Fw|Fwb|Fwk|Fz|Fzb|Fzbd|Fzgn|Fzw|Fü|Fürs|G|GABl|GAss|GBVfg|GBeh|GBl|GESt|GG|GHSp|GI|GISchr|GInsp|GKl|GMBl|GSekr|GSt|GSv|GVBl|GVOBl|GVerg|Ga|Gal|Gall|Galv|Gam|Gar|Gard|Garm|Garn|Gas|Gasm|Gastr|Gasw|Gatt|Gav|Gaz|Gb|Gbd|Gbg|Gbl|Gbm|Gbo|Gbrm|Gbst|Gbt|Gd|Gdbgr|Gdbgre|Gde|Gdm|Geb|GebOStrVerk|GebOZeug|Gebl|Gebr|Gebrm|Ged|Gef|Gefdg|Gefg|Gefgach|Gefl|Gefr|Geg|Geh|Gel|Gelbf|Gem|GemSt|GemVerb|Gen|GenAktVfg|Gend|Geod|Geogr|Geol|Geom|Gep|Ger|GerAss|GerRef|GerSchr|Germ|Ges|Gesch|GeschOBReg|GeschVPl|Geschl|Geschw|Gest|Getr|Gew|GewGer|GewOSekr|GewSt|GewStAusglGea|Gez|Gf|Gfge|Gfgs|Gfgsch|Gfl|Gfsch|Gft|Gg|Ggs|Ggw|Ggzg|Gh|Ghg|Ghgt|Ghl|Ghrz|Ghrzgt|Ghz|Ghzg|Ghzgt|Gibr|Gk|Gkde|Gl|Gld|Glde|Gldr|Gled|Glfl|Glgew|Gln|Glstr|Gmde|Gmk|Gn|Go|Gouv|Gr|GrESt|GrErwSt|GrSSt|GrSt|Graa|Grad|Grat|Grav|Grchl|Grd|GrdESt|GrdErwSt|GrdSt|Grdb|Grdf|Grdfl|Grdfr|Grdg|Grdl|Grdlstg|Grdr|Grds|Grdst|GrdstVerkBek|Grdw|Grdwsp|Grdz|Grdzg|Greg|Grfsch|Grhdl|Grhdlg|Grhzg|Grhzgt|Griech|Grim|Grkfm|Grld|Grst|Grundst|Gruudw|Grv|Grz|Gs|Gsch|Gschf|Gsdtr|Gsdtsch|Gsg|Gsge|Gst|Gstb|Gstr|Gstw|Gt|Gtb|Gttg|Gu|Guat|Guay|Guer|Guth|Gvb|Gvz|Gw|GwOSekr|GwSt|Gwb|Gymn|Gyn|Gynäk|Gzl|Gzld|Gzln|Gzn|Gzpgt|Gär|Gült|H|HASt|HAnst|HArb|HAusg|HBAbt|HBBl|HBl|HDv|HEinn|HF-Verschw|HFSt|HFürsSt|HGBl|HGSt|HGr|HKl|HPflVers|HPl|HReg|HRegVfg|HSt|HVBl|HVStd|HVers|HVertr|HVerw|Ha|HaIbf|HaagEhescheidAbk|HaagEheschlAbk|HaagIPRAbk|HaagNeutrAbk|HaagZPAbk|Hab|Habil|Habsb|Haf|Haftentsch|Haftg|Haftpfl|Hagiogr|Halbj|Halbs|Halt|Ham|Handb|Handbed|Handl|Handschr|Handw|Handwb|Harm|Harp|Haub|HausBlVf|Hausbes|Hausgeh|Haush|Hausm|Hausr|Hausverw|Hausw|Hausz|HauszSt|Hav|Hb|Hbd|Hbf|Hbg|Hbhf|Hbj|Hbl|Hbschr|Hd|Hda|Hdb|Hdbr|Hdgr|Hdhbg|Hdl|HdlAbk|Hdlbg|Hdlg|Hdn|Hdschr|Hdt|Hdtsch|Hdtschft|Hdw|Hdwb|Hdz|HeiIst|Heilpr|Heilw|Heimatl|Heimk|Heiml|Heimw|HelIen|Helg|Heliugr|Helv|Herg|Herk|Herm|Herst|Heur|Hex|Hexam|Hf|Hfn|Hfr|Hfrz|Hfrzbd|Hft|Hftg|Hfw|Hfz|Hg|Hgb|Hgbf|Hger|Hgl|Hgr|Hi|Hiaterl|Hind|Hins|Hinterg|Hintergr|Hinterh|Hinw|Hist|Hj|Hjschr|Hl|Hld|Hldbd|Hldr|Hlg|Hlk|Hll|Hln|Hlnbd|Hlwd|Hm|Ho|Hochf|Hochsch|Hochstbel|Hochstgeschw|Hochstgew|Hochstpr|Hochstst|Hochw|Hofl|Hoh|Holl|Hom|Hon|Honor|Honorat|Hor|Hosp|Hot|Hott|Hp|Hperg|Hpergbd|Hpfl|Hpgt|Hpt|Hptb|Hptbd|Hptl|Hptm|Hptq|Hpts|Hptsch|Hptst|Hptverw|Hptw|Hptwm|Hr|Hrg|Hrn|Hrsg|Hrst|Hrzg|Hrzgt|Hs|Hschr|Hse|Hsh|Hsp|Hss|Hst|Htl|Htp|Htwl|Hubbr|Hubr|Hubschr|Hum|Hund|Hw|Hwb|Hwg|Hwm|Hy|Hyaz|Hydr|Hydrogr|Hydrol|Hygr|Hygrom|Hyp|HypD|Hypn|Hypot|Hypoth|Hz|Hzbl|Hzg|Hzgt|Hzgtm|Hzt|Hztm|Hzw|I|IIIustr|IIb|IIbit|IIt|IKrk|IRTU|Ia|Iad|Iadep|Iam|Iandsch|Iandw|Iangfr|Ibd|Ibdg|Id|Ident|Idschl|IeIbI|Iect|Iegg|Ill|Illum|Im|ImIt|Imm|Immatr|Immob|Imp|Imper|Imperf|Impf|Impr|InI|InIt|Ind|Indet|Indiff|Indik|Indiskr|Indiskret|Indisp|Indiv|Indog|Indon|Inf|Infl|Inform|Ing|Ingl|Ingr|Inh|Init|Inj|Ink|Inkomp|Inkons|Inkonv|Inkorp|Inkrafttr|Inq|Ins|InsI|Inschr|Insp|Instr|Int|Integr|Inter|Interj|Interl|Interp|Interpr|Interv|Inton|Intr|Introd|Introsp|Inv|Invent|Io|Ioc|Irh|Irl|Irrl|Is|Isl|Isol|Isr|It|Iudon|Iukons|Iukorp|Iur|Iü|J|JAmtm|JBer|JBl|JD|JInsp|JMBl|JOIasp|JOSekr|JPfl|JVerw|JVw|Jagdh|Jagdw|Jahrb|Jahresber|Jahresz|Jahrg|Jahrt|Jam|Jan|Jap|Jb|Jbb|Jber|Jberr|Jg|Jgd|Jgdl|Jgg|Jh|Jhb|Jhdt|Jhg|Jhgg|Jhh|Jhrb|Jhrg|Jhtsd|Jhtsde|Journ|Jr|Jt|Jtg|Jtsd|Jub|Jug|Jugosl|Jul|Jun|Jur|Just|Juw|Jähgh|K|K-Pr|KABl|KAnw|KD|KGI|KGPräs|KGer|KHl|KHld|KHldr|KId|KIl|KIw|KKhs|KPr|KRBef|KRDir|KRProkl|KSt|KaPflSt|Kab|Kad|Kaj|Kal|Kalf|Kam|Kamb|Kan|Kand|Kans|Kap|KapSt|KapVG|Kapl|Kapt|Kar|Kard|Kart|Kas|Kass|Kast|Kat|Kath|Kaufm|Kaus|Kaut|Kav|Kb|Kblg|Kbrm|Kde|Kdg|Kdgg|Kdo|Kdos|Kdr|Kdre|Kds|Ke|Kea|Kennz|Ker|Kf|KfSt|Kffr|Kfm|Kfz-Anh|Kfz-Gew|Kfz-Hdl|Kfz-Mech|Kfz-Vers|Kfz-Zut|Kg|Kgf|Kgl|Kgn|Kgr|Kh|Khdw|Khf|KiSt|Kiesb|Kinderg|KirchGem|KirchSt|Kis|Kj|Kjm|Kjmstr|Kl|Klar|Klarh|Klass|Klassif|Klav|Klin|Klkw|Klär|Kmdo|Kmdr|Kmdt|Kmdtr|Kn|Ko|Koh|Kok|Kol|Koll|Kolp|Komb|Komf|Komm|Komp|Kompl|Kond|Konf|Konfl|Konfr|Kongl|Kongr|Konj|Konjug|Konjunkt|Konkl|Konkr|Kons|Konsekr|Konseq|Konserv|Konsist|Konsp|Konst|Konstr|Kont|Kontr|Kontrap|Konz|Koord|Kop|Kopr|Koprod|Korp|Korref|Korrep|Kos|Kost|Kot|Kotft|Koup|Koupt|Kp|Kpf|Kpie|Kpl|Kplm|Kpm|Kpmstr|Kpn|Kpsch|Kpt|Kr|Kradf|Kreish|Krem|Krf|Krh|Krhs|Krht|Krim|Krist|Krkhs|Krkschw|Krkw|Ks|Kschr|Ksgr|Kt|Ktg|Ktn|Kto|Ktr|Kts|KuVV|Kub|Kueff|Kult|Kum|Kumpr|Kunk|Kunstgesch|Kunsthist|Kunstm|Kunstst|Kunstw|Kunv|Kur|Kurf|Kurft|Kurh|Kurp|Kurpf|Kurresp|Kursw|Kursz|Kurt|Kurzarb|Kurzber|Kurzgesch|Kurzschl|Kurzschr|Kurzw|Kw|Kwf|Ky|Kyffh|Kz|Kze|Kzf|Kzl|Kä|Käm|Kü|Künd|Kürl|Kürz|L|LAbg|LBI|LBez|LD|LDv|LGBez|LGBl|LGDir|LGPräs|LGer|LGr|LHFürsSt|LIg|LIt|LItt|LKZSt|LL|LNr|LPol|LReg|LSt|LT-Präs|LTGO|LVf|LVfg|La|Lab|Lad|Ladest|Laf|Lag|Landk|Landkr|Landr|Landsch|Landstr|Landw|Langob|Laut|Laz|Lb|Ld|LdGerDir|LdR|Ldbd|Ldg|Ldgr|Ldk|Ldkr|Ldpr|Ldr|Ldrb|Ldrr|Ldsch|Ldstr|Ldtg|Ldw|Leb|Led|Leg|Legg|Lehrg|Lehrj|Lehrl|Leibr|Leit|Leitart|Leitd|Leitf|Leitl|Leits|Lekt|Les|Leserbr|Lev|Lexikogr|Lf|Lfb|Lfzt|Lg|Lgg|Lgn|Lhr|Lhs|Lhwg|Lhz|Li|Liag|Lib|Libr|Lic|Lief|Liefersch|Lig|Ligg|Lim|Lin|Liq|Lit|Lith|Litt|Liz|Lj|Lkr|Lkt|Lm|Lok|LondSchAbk|Los|Loschgeb|Lsg|Lsgg|Lsp|Lstg|Lstr|Lt|LtSt|Ltm|Ltn|Ltq|Ltr|Ltspr|Lu|Luftfed|Lum|Lux|Luz|Lw|LwVG|Lwbdb|Lwd|Lwg|Lyz|Lz|M|MA|MABl|MCh|MDv|MG|MRBef|MSch|MSchr|MVBl|Maa|Mad|Madr|Mag|Magn|Magy|Maj|Mak|Makl|Makr|Mall|Man|Mand|Mar|MarO|Marg|Marktfl|Marm|Mas|Masch|Mask|Mass|Mat|Math|Matr|Matth|Max|May|Maz|Maßn|Mbull|Mchron|Md|Mdt|Me|Mech|Med|Meg|Mehrz|Mel|Meld|Met|Metalik|Meth|Mex|Mf|MfI|Mg|Mgf|Mgl|Mgr|Mh|Mhe|Mhm|Mi|Mia|Mich|Mij|Mill|Min|MinBl|MinBlFin|MinDgt|MinDir|MinDirig|MinEntschl|MinErl|Miner|Minn|Mio|Miss|Miss-St|Misz|Mitben|Mitbest|Mitbew|Mitgl|Mithg|Mitt|MittBl|Mittelfr|Mittelw|Mittw|Mitw|Mixt|Mißb|Mißbr|Mißf|Mißh|Mißhdlg|Mißtr|Mj|Mjr|Mjrt|Mk|Mkfs|Mkg|Mkgr|Mkt|Mktg|Ml|Mld|Mldg|Mlle|Mlles|Mng|Mngr|Mngt|Mo|Moag|Mob|Mobilm|Mobm|Moh|Mol|Mom|Mon|Monatsh|Monog|Monogr|Monok|Monot|Monstr|Mont|Mor|Morb|Mos|Mosk|Mot|Mp|Mr|Mrd|Mrg|Mrh|Mrs|Mrz|Ms|Msch|Mschg|Mschr|Msgr|Mskr|Mss|Mst|Mstb|Mstg|Mstr|Mt|Mte|Mthm|Mtl|Mtr|Mts|Mttl|Mtv|Mu|MuII|MuVBl|Mua|Mud|Mun|Munol|Must|Mw|MwSt|Mx|Myk|Myst|Myth|Mz|Mzg|Mzs|Mzss|Mzst|Mztschr|Mzz|Mühew|N|NBL|NFI|NIchterf|NIederl|NIhII|NIkar|NIv|NTP|Nachb|Nachdr|Nacherz|Nachf|Nachgeb|Nachh|Nachk|Nachl|Nachm|Nachs|Nachtr|Nachw|Nachz|Nat|Nationalsoz|Natr|Nav|Nb|Nbf|Nbfl|Nbk|Nchf|Nchfr|Nd|NdI|NdIg|Ndr|Ndrh|Nds|Ndschr|Neb|Nebens|Nebent|Nebr|Neg|Neolitk|Neuf|Neugl|Neugr|Neuinsz|Neur|Neureg|Neurnl|Neutr|Neuw|Nf|Nff|Nfg|Nfgr|Ngl|Nicar|Nig|Nm|Nn|No|Nom|Nomenkl|Nonp|Norm|Not|Notaufn|Notausg|Notbeh|Notbr|Notd|Notgeb|Notgem|Noth|Notl|Notpf|Notst|Notverb|Nov|Nr|Nrh|Nrn|Ns|Nsch|Nschr|Nsp|Ntf|Ntfg|Ntr|NtzIstg|Ntzg|Ntzl|Num|Nutbel|Nvkn|Nzhlg|Näh|Nüt|O|OB|OFPräs|OGer|OGst|OKBDir|OKrDir|OLGPr|OLGPräs|OLGSt|OLGer|OLt|OLtg|ORVDir|ORh|OStDir|OVGer|OVerk|OVermDir|Ob|ObGer|Obb|Oberfr|Oberg|Oberh|Oberpf|Oberpr|Oberpräs|Obf|Obfr|Obgfr|Obl|Oblt|Obltg|Obm|Odw|Oe|Off|Offz|Ofr|Ofw|Ohz|Ohzg|Okk|Okkl|Okl|Okla|Okt|Ol|Omn|On|Op|Opt|Or|Orat|Orch|Ord|Ordn|Oreg|Org|OrgSta|Orient|Orig|Orn|Orth|Ortskl|Osch|Ostd|Ostfr|Ott|Ouv|Oxf|Oxh|Oxyd|Oz|P|PDir|PDv|PNr|PP|Pa|Pag|Pak|Pal|Pall|Pan|Pap|Papr|Part|Parz|Pass|Past|Pat|PatAnw|PatGer|Path|Patr|Pav|Pbd|Pck|Pckg|Pd|Ped|Pen|Pens|Pent|Per|Perf|Perg|Perm|Pers|PersWiPl|Pet|Pf|Pfl|Pfr|Pg|Pgl|Pgn|Pgt|Ph|Pharm|Phil|Philantr|Philh|Philharm|Philol|Philos|Phon|Phonol|Phonom|Phonotyp|Photogr|Photomont|Photum|Phys|Physiol|Pi|Pil|Pk|Pkg|Pkt|Pkte|Pl|Plant|Pln|Plur|Plv|Pol|Polyg|Polygr|Polym|Pop|Port|Porz|Pos|PostGNov|Postf|Postwz|Pp|Ppb|Ppbd|Ppl|Pr|PrSchAaw|Praem|Prakt|Prf|Prfg|Prim|Prior|Priv|Probl|Prod|Prof|Progn|Progr|Proj|Prok|Prokl|Prol|Prom|Pron|Prop|Pros|Prosp|Prost|Prot|Prov|Pruf|Pruz|Prz|Präd|Präf|Präl|Präm|Präp|Präs|Prät|Prüfz|Ps|Pseud|Pst|Psych|Psychol|Psychop|Psychosom|Psychother|Pt|Ptr|Publ|Pul|Pulyn|Pus|Puss|Putp|Pz|Päd|Q|Qmstr|Qt|Qu|Quadr|Qual|Quant|Quar|Quart|Quat|Quitt|Quäst|R|R-Mitgl|RABI|RAmtm|RAnw|RBDir|RBRef|RBauDir|RBm|RBz|RDir|RGBI|RGeh|RGwOSekr|RI|RIVASt|RSch|RT|RZAnw|Rab|Raff|Rak|Randb|Randbem|Rb|Rbl|Rd|RdErl|RdV|Rdbr|Rdf|Rdfr|Rdn|Rdsch|Rdschr|Re|Rec|Rechtspr|Rechtsspr|Red|Redupl|Ref|Refl|Reg|RegI|Regt|Reimp|Rein|Reiseg|Reisegep|Reiseges|Reisek|Rekr|Rel|Rem|Ren|Reorg|Rep|Repr|Res|Resign|Resoz|Resp|Ress|Rest|Restr|Ret|Rev|Rez|Rf|Rfn|Rfnr|Rfs|Rfz|Rg|Rgl|Rgstr|Rgt|Rh|Rhj|Rhld|Richtl|Rim|Riv|Rj|Rk|Rkt|Rm|Ro|Rontg|Rot|Rp|Rpr|Rr|Rs|Rsb|Rschr|Rsl|Rspr|Rsz|Rt|Rtm|Rtn|Ruf-Nr|Rum|Rundf|Rvj|Rzpt|Rzs|Rzt|Rückg|Rückl|Rückp|Rücks|Rücksp|Rückst|Rückv|Rückvers|Rückz|S|SDevErkl|SI|SOCist|SS|SSt|Sa|Sab|Sachb|Sachbearb|Sachv|Sachverst|Sachw|Sakr|Sal|Salp|Salzst|Samml|San|Sanat|Sb|Sbb|Sbd|Sbst|Sc|Sch|Schallpl|Schatzm|Schdsch|Schdsr|Schdsv|Schdsverf|Schem|SchenkSt|SchiRegVfg|Schiedsr|Schiffb|SchiffsRegVfg|Schl|Schm|Schmp|Schn|Schnp|Schp|Schr|Schriftf|Schriftl|Schrifts|Schriftst|Schubf|Schuldverschr|Schutzz|Schußw|Schw|Schwerb|Schwerbeh|Scr|Sdbd|Sdg|Sdp|Sdr|Sdz|Sdzt|Se|Seef|Seeh|Seek|Seels|Seem|Seevers|Seew|Sek|Sekr|Sekt|Selbstf|Sen|SenDir|SenDirig|Send|SeosetH|Sep|Sept|Seq|Ser|Settlement|Seus|Sez|Sfk|Sfl|Sgt|Sh|Shb|Sib|Sich|Sichtv|Sichtw|Sig|Sign|Sim|Sinf|Sing|Sir|Sit|Sittl|Sk|Skand|Skdt|Skt|Slg|Slgn|Slow|Sm|So|Sol|Son|Sopr|Sort|Soupr|Sout|Souv|Soz|Sozw|Sp|Spark|Spd|Sped|Spek|Spez|Spfr|Spfrde|Spielb|Spielz|Spir|Spk|Spl|Spr|Sprachw|Sprachwiss|Sprd|Sprdr|Sprk|Sps|Spvg|Spvgg|Spw|Sr|Ss|Sskr|St|StKl|StRegBek|Stab|Stad|Staf|Stat|StatGes|Stb|Stckpr|Stckz|Std|Stdg|Stdn|Steig|Stell|Sten|Stg|Stgm|Stift|Still|Stip|Stj|Stk|Stkr|Stm|Stmb|Stmk|Stn|Stp|Stpfl|Stpl|Str|StrRegBek|Strafr|Strafs|Strat|Sts|Stud|StudDir|Stv|Stw|Subd|Subj|Subskr|Subst|Subtr|Subv|Sup|Suppl|Susp|Swk|Synd|Sz|Szgm|T|TIIg|TO|TVAufz|TVz|Ta|Tab|Tabl|Taf|Talm|Tam|Tamb|Tang|Tans|Tant|Tar|TarReg|Tax|Tbl|Tct|Td|Tdr|Tech|Techn|TeeSt|Teel|Teilfin|Teilh|Teiln|Teilz|Tel|Telegr|Temp|Tend|Tenn|Term|Termin|Terr|Tert|Tf|Tfl|Tflg|Tflw|Tg|Tgb|Tgbl|Tgt|Tgw|Th|Theat|Therm|Thw|Thür|Ti|Tit|Tk|Tkr|Tkst|Tl|Tle|Tln|TnangReg|Tog|Toil|Tom|Tonn|Top|Torp|Totp|Tp|Tr|TrIg|TrIk|Trad|Trag|Tragf|Tragkr|Tranap|Trans|TransI|Transf|Transkr|TrauspI|Trbst|Trem|Trfg|TrgI|Trgf|Trgkr|Trib|Tromp|Trp|Trsf|Trsp|TruppVtg|Ts|Tschb|Tschft|Tsd|Tsp|Tu|Tug|Tun|Tunes|Turb|Turn|Tw|Twregrk|Typ|Tz|Tüb|U|U-BeIh|UFr|UGr|UIt|USt|UZg|UZwGBw|Ubr|Uffz|Ufr|Ufw|Ufwg|Ug|Ukr|UmI|Umarb|Umb|Umbr|Umd|Umdr|Umf|Umg|Umgr|Umk|Umkr|Umr|Ums|UmsSt|Umsch|Umst|Umw|UnI-Kl|Unf|Univ|Unk|Unt|Unterbr|Unterfr|Unterg|Unterh|Unterm|Untern|Unterred|Unters|Untersch|Unterz|Unz|Unzufr|Unzul|Uoffz|Up|Urh|Urk|Url|Urs|Urspr|Urt|Urug|Ut|Uw|Uwdlg|Uwk|V|VAnw|VAnz|VBI|VBef|VBeh|VIBest|VIschr|VIsk|VOBl|VOSch|VPr|VPräs|VSt|VVg|VWI|Va|Val|Var|Vb|Vbb|Vbd|Vbdg|Vbem|Ver|VerSt|Veranl|Verb|Verbdg|Verbr|Verd|Vereinb|Verf|Verfg|Verg|Verges|Vergl|Vergn|VergnSt|Vergr|Verh|Verj|Verk|Verkl|Verl|Verm|VermDir|VermInsp|VermOInsp|VermSt|Verp|Verpfl|Verschl|VerstG|Vertr|Verz|Vet|Vf|Vfg|Vg|Vgach|Vgg|Vgl|Vgr|Vgt|Vhdlg|Vhw|Vis|Vit|Vj|Vjber|Vjh|Vjs|Vjschr|Vk|VkBI|Vkde|Vkf|Vkfl|VlBek|VlVorschr|VlVschr|Vlg|Vm|Vn|VoIIstrBef|VoIIstrGkI|Vok|Vollm|Vollstr|Vollz|VorE|Vorarb|Vorb|Vorbed|Vorbeh|Vorbem|Vorber|Vorbest|Vordr|Vorentsch|Vorentw|Vorf|Vorg|Vorj|Vork|Vorl|Vorm|Vorn|Vorp|Vorr|Vors|Vorsch|Vorst|Vortr|Vorw|Vorz|Vp|Vpfl|Vrg|Vrm|Vrz|Vrzs|Vschr|Vst|Vstdg|Vstg|Vt|VtSt|Vtdg|Vtr|VuIIstrKI|Vulg|Vurschr|Vw|VwKG|VwVfg|Vwwt|Vz|Vzg|Vzge|Vzw|W|WAbk|WArb|WBEG|WDIr|WDSen|WGSch|WPVertr|WSt|WStr|WZBl|Wa|Wachst|Wachtm|Wag|Wahlb|Wahlber|Wash|Wb|WbI|Wber|Wbs|WdKl|Wdg|Wdh|Wdhlg|Wdst|Web|Wegeg|Wegf|Wegl|Weiastr|Weim|Weis|Werkst|Wertp|Westf|Westm|Wf|Wfl|Wgdr|Wgl|Wh|Wha|Whg|Whga|Wi|Wirtsch|Wiss|Witt|Wj|Wk|Wkg|Wkm|Wkmstr|Wkr|Wkst|Wkz|Wkzg|Wm|Wo|Wp|Wpl|Wrkg|Ws|Wschr|Wst|Wstr|Wtb|Wtg|Wv|Wvb|Wvz|Ww|Wwe|Wwr|Wy|Wyo|Wz|Wzg|X|Y|Z|ZAbfSt|ZBl|ZFSt|ZGKom|ZIe|ZIg|ZIv|ZSch|ZSekr|ZSprSt|ZSt|ZTar|Zahl|Zahlm|Zahlst|Zbl|Zchg|Zchn|Zdg|Zdh|Zdw|Zeitl|Zeitschr|Zeitw|Zellst|Zentr|Zers|Zerschl|Zerst|Zerstr|Zf|Zfg|Zgf|Zgh|Zgn|Zi|Ziff|Zig|Zim|Zit|ZivAnw|Zk|Zkft|Zl|Zm|Zn|Zool|Zr|Zs|ZsIzg|Zschr|Zsfg|Zshg|Zss|Zst|Zstg|Zt|ZtIn|Ztg|Ztgn|Ztl|Ztm|Ztn|Ztr|Ztrhzg|Ztschr|Ztw|Zub|Zubr|Zuf|Zugew|Zul|Zus|Zusch|Zuschr|Zust|ZustV|Zut|Zuw|Zw|Zündw|a|aIIg|aT-AnlV|aa|abbl|abbr|abbrev|abds|abg|abgeI|abgedr|abgef|abgeg|abgeh|abgek|abger|abges|abgeschl|abgest|abh|abk|abl|abn|abr|abs|abschl|abst|abstr|abug|abw|abz|abzgI|acc|accad|accel|ad|adb|adj|adm|ado|adv|advs|ae|aengl|aequ|aero|aeron|aet|aeuz|aff|affet|afgh|afr|afranz|afries|afrik|afrk|afrz|afränk|ag|agIfrz|agIt|agb|agerm|agr|ags|agz|ahd|ai|al|allg|anbefr|ang|ao|aotgedr|apI|apers|apok|app|appass|appr|approb|approx|apr|apukr|aq|ar|arab|aram|arch|arg|argent|arith|arom|arp|arpegg|arr|arret|art|aruss|as|asI|asIaw|asIh|aserb|asph|ass|assyr|ast|astr|astrol|astron|asym|asyn|asynd|asyuchr|asächs|at|atI|athl|atm|attr|audiom|aufgef|aufh|aufr|aufw|ausI|ausbez|ausg|ausgeg|ausgegl|ausgel|ausgen|ausges|ausgesch|ausgeschl|ausgest|ausgew|ausgez|auskpfl|ausr|ausschl|austr|austral|ausw|aut|auth|autogr|auton|autor|außerger|av|avdp|avest|avu|aw|awdt|awsl|b|baak|bab|bad|bakt|ball|balt|band|bank|bapt|barb|baschk|baschkir|bauf|baupol|bautechn|bayr|bd|bds|bdt|bdtd|bearb|bed|bef|befr|begl|begr|beh|beif|beig|beigeh|beih|beil|beisp|beisph|beispw|bek|bel|belg|bem|ben|beob|ber|berat|berf|berfl|bergefr|bergm|berl|berschl|bersek|bes|besch|beschI|beschr|besp|bespr|best|bestr|betr|bettl|beurl|bev|bevollm|bevrecht|bew|bez|bezb|bezgl|bezw|bf|bfgd|bfgn|bfl|bfrk|bgl|bgr|bgrzt|bh|bhm|bhut|bhutan|bianendt|bibl|bil|bild|bildl|biogr|biol|birm|bisch|bischofl|bisl|bisw|bl|blg|boh|bol|boliv|bot|br|bras|bret|brev|brill|brit|brl|brn|brosch|brschw|brschwg|brt|bräunl|brün|bs|bschr|bsd|bsds|bsph|bspw|bt|btechn|bto|btto|bu|buah|buchst|bur|burg|burm|bus|bvr|bvt|bwf|bwgl|byz|bz|bzf|bzgl|bztl|bzw|bürg|c|ca|cad|cal|calv|camer|cand|cant|cap|capp|caps|capt|carc|cath|cd|cent|cert|cet|ceyl|cf|cfr|ch|chald|cham|chang|char|chem|chiff|chiffr|chil|chin|chir|chol|chq|chr|christl|chrom|chron|chronogr|churw|circ|cl|col|coll|collab|colloq|com|comm|compr|con|conc|cond|conf|coop|cop|coq|cor|corp|corr|cour|cpt|cr|cresc|crt|ct|cts|cud|cult|cur|curr|cutt|cv|cwt|d|dab|dad|daf|dag|dagest|dah|dalm|dam|dan|dankwtw|dargel|dargest|darl|dass|dat|dav|dazw|dch|ddt|deb|dec|decoct|decr|decresc|def|deg|degr|dek|dekl|del|deleg|delin|dem|demn|demz|demzuf|depr|dergl|derj|derm|ders|des|desgI|desgl|desinf|desint|deskr|desp|dess|dest|desz|det|dez|dfg|dgl|dgt|diab|diag|diakr|dial|diam|did|dieI|dienstl|dienstpfl|diesI|diesbez|diess|diff|diffam|dig|dil|dim|dimin|dip|dipt|dir|dish|disj|disk|diskr|disp|diss|dist|distr|disz|div|dkl|dkwtw|do|dok|doktr|dom|dominik|donnerst|dopp|dorth|dos|dpp|dr|drlg|ds|dspr|dstl|dt|dto|du|dub|duminikan|durchl|durchschu|durchw|dyn|dz|dzt|dztg|dän|e|ea|eb|ebd|ebenf|ebf|ebn|ec|econ|ecuad|ecuadur|ed|edd|ef|eff|eh|ehd|ehed|ehel|ehem|ehrl|ehrw|eiaf|eidg|eidgen|eig|eigenh|eigent|eigentl|eigh|eigtl|einb|einbez|eind|eindr|eindrgl|eing|einged|eingedr|eingef|eingeg|eingegl|eingel|eingem|einger|eingesch|eingeschl|{e}eingetr|eingez|eingl|einh|einkstpfl|einl|eins|einschl|einschr|einsp|einst|einstm|einstr|eint|eintr|einverl|einverst|einw|einwdfr|einz|eisenh|eisenverarb|ek|ekuad|ekuador|el|elektr|elektromech|elektromot|elektrumagn|ell|elmag|els|em|emer|empf|endg|energ|eng|engl|ent|entb|entd|enteign|entf|entg|entgges|entgl|enth|entl|entn|ents|entsch|entschl|entspr|entst|entw|enz|enzykl|eo|ep|epid|epigr|epik|epil|erI|erachwgl|erb|erbl|erd|erf|erfdl|erfdlf|erfdlfs|erford|erforderlf|erforderlfs|erg|erh|erk|erkl|erkr|erl|erm|ern|err|ers|ersch|erschl|erschw|erstg|erstgen|erstkl|erstm|ert|ertr|erw|erwähnw|erz|erzb|erzbisch|esk|esot|espr|espress|est|estab|estn|etc|ethn|etr|etw|etym|euph|euphem|eur|europ|euteig|ev|evgl|evt|evtl|ew|ex|exDiv|exalt|exc|exempl|exerz|exh|exk|exkl|exot|exp|expl|expon|expr|ext|exterr|extr|exz|exzept|f|fIn|fahrb|fak|fakt|fallw|fam|fan|farb|farbl|fasch|fasz|fav|fbg|fdl|fe|fec|fem|ferm|fernschr|fernschrftl|feuerg|feuergef|ff|ffd|filt|fin|finn|finnl|firm|fisk|fk|fl|flekt|flex|flg|fluor|fmdl|foI|foIg|fod|fol|folg|forest|form|fortgef|fortges|fortis|fortl|fortschr|forz|fotogr|fps|fr|frag|fragl|fragm|fragw|frank|franz|frb|frbl|frdl|frdsch|frdschtl|frdspr|frdsprl|freig|freih|freiw|freiz|fremdl|fremdspr|fremdsprl|frfr|frger|frgm|frh|frhtl|fries|friesl|fris|fristger|frnhd|fro|frstl|frt|frtr|frw|frz|frzg|fschrl|fstI|ft|ftgn|fud|funkt|furn|fus|fw|fwd|g|gIas|gIeichl|gaI|gaIl|gabun|gal|gall|galv|gar|gastr|gb|gbd|gbr|gds|ge|geIbI|geIeg|geIgg|geb|gebd|gebh|gebl|gebr|ged|gef|gefl|gefr|geg|gegr|geh|geistl|gek|gel|gelt|gem|gen|geod|geogr|geol|geom|geophys|geopol|georg|geoz|gep|gepfl|gepl|gepr|ger|germ|ges|gesch|geschfd|geschl|geschm|geschn|geschr|gesp|gespr|gest|gestr|get|getr|gew|gez|gezw|gf|gfg|gfl|gg|ggI|ggb|ggbfs|ggez|ggf|ggfs|gglb|ggr|ggs|ggz|ghan|gk|gl|gleichld|gleichlfd|gleichltd|gleichn|gleichz|gls|glt|gltd|glz|glzd|gm|gms|got|gp|gpr|gr|grad|gram|gramm|gran|graph|grat|grav|graz|grch|grfl|grhzgI|griech|grus|grusin|gsch|gschftl|gschr|gschtl|gschu|gspr|gstr|gt|guat|guatemaIt|guay|guin|gumm|gymn|gyn|gynäk|gz|gzj|gäI|gütI|h|hKfn-gBr|ha|haas|hab|habil|habsb|haftb|haftpfl|hagiogr|hait|halb|halbj|halbjhg|halbjhl|haltb|ham|hamb|handgeschl|handgeschr|handgest|handgew|handl|handschr|hann|harm|harml|haupts|haus|hausw|hb|hbfl|hbg|hbst|hbstg|hbstl|hd|hdbr|hdgeschl|hdgest|hdgew|hdgm|hdgr|hdgrfl|hdl|hdschr|hdt|hebr|heimatl|heiml|heir|helg|helv|herg|hergest|herm|herv|herz|herzgl|hess|heth|hett|heur|hex|hg|hgb|hgd|hgg|hgm|hind|hindust|hingew|hinr|hins|hint|hinterhltg|hinterlstg|hinth|hisp|hist|hiuw|hj|hl|hlg|hochd|hochst|hochw|hohtl|holl|holländ|holst|hon|hond|hondur|hor|horiz|hort|hott|hptpl|hpts|hptw|hr|hrg|hrsg|hs|hsl|ht|hum|hy|hybr|hydr|hydrogr|hydrol|hydrom|hydromech|hyg|hygrosk|hyp|hyperb|hypfr|hypn|hypoth|hypt|hzb|hzgl|i|iac|iakomm|ib|ibd|id|ident|idg|ill|illum|illus|illustr|im|imit|imm|impr|imst|in|ina|inbegr|indekl|indisk|indiskr|indiv|indogerm|inf|infl|inform|inhaft|init|inkl|innerl|inoff|inq|inquis|ins|insbes|insg|insgeh|insges|insp|instr|int|integr|inter|interk|interm|intern|interpr|interr|interrog|interv|intr|intrm|introsp|introv|intrv|inv|invent|inw|inwf|inww|inzw|ir|irak|iran|ird|irg|irr|irrat|irreg|irrev|is|isl|islam|isländ|isol|isr|it|ital|itell|iter|itr|j|jak|jakut|jap|jem|jemen|jens|jew|jfr|jg|jgdfd|jgdfr|jidd|jmd|jmdm|jmdn|jnr|jord|jordaa|jr|jug|jugosl|jun|jur|jüd|k|kI|kIIn|kIass|kInderl|kais|kal|kalend|kalm|kalmück|kamb|kamer|kan|kanad|kand|kant|kap|karIb|karoI|kart|kast|kat|kath|kaufm|kaus|kdb|kdt|kelt|ken|kennz|ker|kf|kfm|kfr|kgI|kh|kin|kind|kindl|kirg|kl|klf|kmd|kmdt|kmfr|koh|kol|kolp|kolumb|kom|komb|komf|komm|komp|kompl|kompr|kond|konf|konfl|konfr|kong|kongol|kongr|konj|konjug|konjunkt|konk|konkr|kons|konsekr|konserv|konsp|konst|konstr|kont|kontr|kontrap|konvert|konz|koop|koord|kop|kor|korean|korp|korrep|korresp|kot|kouseq|kpl|kr|krfr|krist|krit|krk|krzfr|ksIaw|ksl|kstl|kt|kuI|kub|kuban|kull|kult|kunsek|kunsthist|kunv|kurfl|kurhess|kurpf|kurs|kurzfr|kuw|kv|kw|kymr|kz|kzfg|kzfr|kzfrg|kzh|künstl|l|lak|langob|laot|larg|lb|ldw|leIbh|led|leg|leichtl|leichts|leipz|leit|leitd|let|lett|letztw|lev|lexikogr|lfd|lfde|lg|lgd|lgfr|li|lib|liban|liber|lim|lin|ling|liq|lit|liter|litgesch|lith|lks|loal|lobw|log|lok|lomb|long|lothr|luftd|luftgef|luftgek|luth|lux|lyr|lün|m|ma|maI|mad|madag|magn|mai|mak|maked|makr|mandsch|mar|marc|mark|marm|marokk|martan|mas|masc|masch|maschr|maschtechn|mask|mass|mat|math|maur|mauret|max|maz|mazed|maßg|maßgeb|maßgebl|md|mdal|mdls|mdse|me|meas|mech|meckl|med|mehrj|meistb|mel|melan|melanch|meldepfl|meludr|merc|metall|metaphys|meteor|meth|metverarb|mex|mexikan|mfr|mfranz|mfrk|mfrs|mfrz|mfränk|mfs|mgr|mgriech|mhd|mi|miltechn|min|mind|minderj|mindj|misc|mitget|mitt|mitteld|mitteldt|mittelfr|mittw|mißbr|mj|mk|mkr|mlat|mnd|mndd|mndl|mnl|mob|mobl|mod|mog|mogl|moh|moham|mohammed|mol|mom|mong|mongol|monog|monogr|monok|monol|mont|mor|morg|morph|mos|mosk|mosl|mot|mpers|mrh|mschr|mst|msth|mstl|mtl|mts|mttl|mu|mult|multilat|mus|mut|mutl|mw|mx|myk|myst|myth|n|na|nachdr|nachm|nachst|nachtlg|nachtr|nachwsl|nad|nam|nat|natdem|natfarb|natsoz|natur|naut|nd|ndd|ndl|ndrd|ndrh|ndrl|nds|ndt|ne|neap|neb|nebeus|nebl|neg|nem|nengl|neof|neofasch|neuhebr|neur|neurol|neurot|neuseel|neutat|neutest|neutr|neuw|nf|nfrz|ngr|nhbr|nhd|nhebr|nicar|nicarag|niederl|niem|nig|niger|nigr|nihil|nikar|nikarag|nirg|nl|nlat|nm|nmtl|nnI|nno|nnurd|no|nom|not|notw|npl|nplm|nt|nto|nukl|num|nung|nutl|nw|nwd|nzl|näml|o|ob|obb|obd|oberd|oberh|obfr|obfrk|obgl|obj|obl|oblig|oc|od|oec|off|offiz|offtl|offz|ofrs|oh|ok|okk|okon|okonom|ol|old|oldenb|omn|ono|op|or|orch|ord|org|orient|orig|orn|orth|ortl|oso|ostd|ostdt|osterr|ostfr|ostidg|oxdd|oxyd|oz|ozs|p|pa|paed|pag|pak|pakist|pal|pan|panam|panar|par|parl|parlam|parlament|parz|pass|past|pat|path|patr|pd|per|perf|perm|pers|peruan|pf|pg|pharm|phil|philanthr|philat|philh|philharm|philipp|philol|philos|phon|phonol|phosph|photugr|phys|physiogn|physiol|picc|pinx|pizz|pkg|pl|plak|planm|plm|plotzl|pnxt|poet|pol|polit|poln|polyg|polym|polyn|pop|port|pos|post|posth|postw|pp|ppa|ppb|ppd|ppt|pr|prakt|prbw|prim|prinz|priv|pro|prob|probl|proc|prod|prof|progr|prom|pron|prop|proph|pros|prot|prov|prox|prubw|präd|prädik|präm|präp|präs|psych|psyched|psychiat|psychiatr|psychol|psychop|psychosom|pt|pto|publ|pul|pulv|pv|pw|pzt|päd|q|qr|qu|quadr|qual|quant|quitt|r|ra|raII|rab|rad|raff|rand|rat|rbz|rd|reI|reIt|reIter|rechtsw|red|ref|refl|reform|reg|regeIm|rep|repbed|rer|res|resp|restI|rev|rez|rf|rfz|rgIm|rh|rhet|rhfrk|rinf|rinforz|rip|rit|ritard|riten|rkr|rom|rotw|rs|rumän|russ|rzp|rzptpfl|rztpfl|rückl|rückw|s|sFr|sI|sachk|san|sanskr|sat|sbst|sc|sch|schem|scherz|scherzh|schl|schott|schr|schriftl|schw|schwb|scient|sculps|sd|sdl|sec|seef|seekr|seem|sek|sel|sem|sen|seneg|senkr|sens|sep|seq|seqq|serb|sex|sez|sf|sig|sign|sim|sin|sinf|sing|sinng|sit|sittl|sk|skand|skr|slaw|sm|smorz|soc|sod|sof|sog|sogen|sol|sold|solid|solv|som|somal|sord|sosp|sost|sosten|souv|sow|sowj|soz|sp|spIr|span|spec|spek|spez|spf|spfr|sph|spr|sprachw|sprachwiss|sq|sqq|sqs|sr|sso|ssw|st|staatI|staatl|stacc|stat|std|stdg|stdl|stelIv|sten|stf|stfr|stg|sth|stl|stpfl|str|strIng|strat|stud|stv|stäad|städt|sub|subat|subj|subsp|subtr|subv|sud|sudan|sugg|sugl|summ|sva|sw|symph|synchr|synt|synth|syr|syst|szs|sächs|südd|süddt|südl|südw|t|tab|takt|taktl|taktv|tam|tang|tans|tat|tatar|tats|tax|tct|tdu|techn|technol|teilw|tel|telef|telegr|tem|temp|ten|tend|term|terr|tert|test|tgl|theatr|them|theol|theor|ther|therap|therm|thermon|tib|tibet|tit|tlw|tm|todl|tog|top|topogr|tr|trad|trag|tragb|trans|transf|transkr|trausp|trig|trk|trop|tsch|tt|tunes|tunl|turb|turkm|turkmen|tw|typ|tägl|türk|u|uItim|uachd|uagew|ubpl|ubr|ue|ufl|ug|ugand|ugf|ugr|ugs|ugt|ukr|ul|ult|umb|umd|umf|umfgl|umfgr|umg|umgeb|umged|umgedr|umgek|umgel|umgest|uml|ums|umschr|umstpfl|un|unabl|unang|unb|unbeb|unbed|unbef|unbefl|unbegr|unbeh|unbek|unbem|unber|unbeschr|unbestr|unbet|unbez|unbr|unehel|uneig|uneingeschr|unempf|unentb|unentg|unentsch|unentschl|unerf|unerg|unergr|unerh|unerkl|unerl|unerm|unertr|unf|unfl|unfr|ung|ungar|ungeb|ungebr|unged|ungeh|ungek|ungel|ungen|unges|ungesch|ungest|ungestr|ungez|ungezw|ungl|unh|uniform|unis|univ|unk|unkl|unl|unpag|unpf|unpg|unr|unrat|unreg|unregelm|unrent|unselbst|unstr|unt|unterh|untersch|untgl|untr|unv|unverantw|unverb|unverbr|unverd|unverg|unverh|unverk|unverp|unvers|unversch|unverz|unverzgI|unvollst|unvorb|unvors|unw|unz|unzerbr|unzerst|unzug|unzul|unzurechn|unzust|unzuv|unzw|uotf|up|upt|urgerm|urgesch|uridg|urk|urkdl|urschr|urslaw|urspr|urug|usb|usbek|usf|usw|uubew|uuv|uv|uvsf|v|vIs|va|val|var|vb|vbd|vbdl|vd|vdt|ven|ver|verb|verbr|verchr|verd|vereh|vereinf|verfl|verfr|vergl|vergr|verh|verj|verk|verm|vern|veroff|verp|verpf|verpfl|verschl|verst|vertr|vertrl|verurs|verz|veränd|verändl|vet|vf|vg|vgl|vgm|vh|vid|vitr|viv|vj|vk|vl|vlg|vlgt|vll|vm|vol|volkst|vollst|vollsynchr|vollz|vordr|vorg|vorges|vorgesch|vorl|vorm|vorr|vors|vorz|vpf|vpfl|vrb|vrgr|vrm|vrt|vs|vsl|vst|vstdl|vt|vulk|vurh|vurschm|vz|vzgl|w|wIosI|wahrsch|wall|wallon|wbl|wd|wdt|wehrf|weidm|werkt|west|westd|westf|westgerm|westidg|westl|wf|wg|wgl|wh|wiederh|willk|wiss|wktgs|wl|wm|wnw|woch|wss|wstd|wsw|wt|wtgl|wtgs|wu|x|y|z|zIt|zIv|zKungF|za|zahlr|zeatrip|zeitgen|zeitl|zeitw|zentr|zentrif|zerstr|zfr|zga|zgat|zgl|zgw|zit|zk|zool|zr|zs|zsges|zsgest|ztl|ztw|zuf|zugeI|zuget|zugew|zugl|zuk|zul|zur|zus|zust|zuw|zuz|zuzgI|zw|zwgw|zyl|zypr|zzgl|Ä|Äg|Äq|Äquiv|Ästh|Äth|Ö|Ü|Üam|ä|äg|äq|äquiv|ärztl|ästh|äth|ö|ü|üb|überb|übers|überschl|überst|übertr|überz|übf|übl|üblw|übz)
+
+ABBR = ({ABBR_TITLE}|{ABBR_GEN})
+
+%s OPEN_QUOTE POLISH_CONDITIONAL_MODE JUST_AFTER_PERIOD CLITIC_MODE
+
+%%
+{ENDMARKER} { fileEnd(); }
+
+
+// dates and fractions
+
+<POLISH_CONDITIONAL_MODE>{POLISH_CONDITIONAL_CLITIC} / {POLISH_CONDITIONAL_ENDING} { yybegin(YYINITIAL); return currentToken(); }
+<POLISH_CONDITIONAL_MODE>[^b]. { throw new RuntimeException("..." + currentToken());}
+{EMDASH} {return currentToken();}
+{URL} { return currentToken(); }
+
+// special words
+{c}an / not {return currentToken();}
+{l}em / me {return currentToken();}
+{g}on / na {return currentToken();}
+{g}im / me {return currentToken();}
+{w}an / na {return currentToken();}
+{g}ot / ta {return currentToken();}
+
+{LETTER}\. {return currentToken();}
+{LETTER}{2,12} / \.[:uppercase:] {return currentToken();}
+{PLUSAMPERSAND} {return currentToken();}
+{SEABBR}\. {return currentToken();}
+{PRAGMA} {return currentToken();}
+{FNAME} {return currentToken();}
+
+// contractions and other clitics
+{INIT_CLITIC}{CLITIC} {return currentToken();}
+
+// polish clitics
+{ALPHANUM}{ALPHANUM}+[lł][aeoiy]? / {POLISH_CONDITIONAL_CLITIC}{POLISH_CONDITIONAL_ENDING} {yybegin(POLISH_CONDITIONAL_MODE); return currentToken(); }
+{ALPHANUM}{ALPHANUM}+[lł][aeoiy]? / {POLISH_PAST_ENDING_1} {return currentToken(); }
+// need to not let lam through....
+{ALPHANUM}{ALPHANUM}+[ł][aeoiy]? / {POLISH_PAST_ENDING_2} {return currentToken(); }
+
+// times
+[01]?[0-9]{WHITESPACE}?:[0-6][0-9] { return currentToken(yytext().replaceAll("\\s+","")); }
+
+// ordinals
+[0-9]{1,3}\. {return currentToken();}
+
+// quotes
+<YYINITIAL>\"/{WHITESPACE}*{ALPHANUM} { yybegin(OPEN_QUOTE); return currentToken("``"); }
+<YYINITIAL>\'/{WHITESPACE}*{ALPHANUM} { yybegin(OPEN_QUOTE); return currentToken("`"); }
+‘ { yybegin(OPEN_QUOTE); return currentToken("`"); }
+’ { yybegin(YYINITIAL); return currentToken("'"); }
+<OPEN_QUOTE>\" { yybegin(YYINITIAL); return currentToken("''"); }
+“ { yybegin(YYINITIAL); return currentToken("``"); }
+” { yybegin(YYINITIAL); return currentToken("''"); }
+\"/.*{ALPHANUM}+ { yybegin(OPEN_QUOTE); return currentToken("``"); }
+\" { yybegin(YYINITIAL); return currentToken("''"); }
+
+":!:" { return currentToken();}
+"->" { return currentToken();}
+"<-" { return currentToken();}
+\*\*+ { return currentToken();}
+\[\[+ { return currentToken();}
+\]\]+ { return currentToken();}
+
+
+
+// normal stuff
+// dashed words
+{WORD}({DASH}{NEWLINE}*{WORD})+ { return currentToken();}
+{WORD}{DASH} { return currentToken();}
+{TWITTER_HANDLE} { return currentToken(); }
+{TWITTER_HASHTAG} { return currentToken(); }
+{WORD} { return currentToken();}
+{OMISSIONWORD} { return currentToken();}
+//{ABBRNYM} { return currentToken(); }
+{EMAIL} { return currentToken(); }
+{HOST} { return currentToken(); }
+{NUM} { return currentToken(); }
+//{ACRONYM_DEP} { return currentToken(); }
+{NEWLINE} { }
+{WHITESPACE} { }
+
+// KorAP-XML spcecifics
+^{WHITESPACE}*{XML}{NEWLINE}* {xmlPassage(); }
+\<\/text>{NEWLINE}* {xmlPassage(); }
+^"Archive: "[^ \n]+".zip"\n {zipArchive(); } // handle unzip -c
+^" "+inflating: [^\n]{1,255}" "\n {zippedFile(); }
+
+// \( {return currentToken("-LRB-");}
+// \) {return currentToken("-RRB-");}
+//\{ {return currentToken("-LCB-");}
+//\} {return currentToken("-RCB-");}
+//\[ {return currentToken("-LSB-");}
+//\] {return currentToken("-RSB-");}
+([.][.]+|…+) {return currentToken("...");}
+{LONG_END_PUNCT} { return currentToken();}
+{PUNCT} { return currentToken();}
+{EMOTICON} { return currentToken();}
+{DASH}{DoubleLiteral} { return currentToken();}
+. { return currentToken();}
+
+
diff --git a/src/test/java/TokenizerCoverTest.java b/src/test/java/TokenizerCoverTest.java
new file mode 100644
index 0000000..2d717de
--- /dev/null
+++ b/src/test/java/TokenizerCoverTest.java
@@ -0,0 +1,245 @@
+package de.ids_mannheim.korap.tokenizer;
+
+import static org.junit.Assert.*;
+import java.util.*;
+import java.io.*;
+import java.net.URLDecoder;
+import org.junit.Test;
+import org.junit.Ignore;
+import org.junit.runner.RunWith;
+import org.junit.runners.JUnit4;
+
+@RunWith(JUnit4.class)
+public class TokenizerCoverTest {
+
+ /**
+ * This test suite checks for the tokenization coverage of our
+ * tokenizer implementation based on the EmpiriST 2015
+ * Gold Standard Suite, published under Creative Commons license
+ * BY-SA 3.0.
+ *
+ * Michael Beißwenger, Sabine Bartsch, Stefan Evert and
+ * Kay-Michael Würzner (2016). EmpiriST 2015: A shared task
+ * on the automatic linguistic annotation of computer-mediated
+ * communication and web corpora. In Proceedings of the 10th
+ * Web as Corpus Workshop (WAC-X) and the EmpiriST Shared Task,
+ * pages 78–90. Berlin, Germany.
+ *
+ * https://sites.google.com/site/empirist2015/home/gold
+ */
+
+ // Get a data file
+ private String getFile (String file) {
+ String path = getClass().getResource(file).getFile();
+
+ StringBuilder content = new StringBuilder();
+ try {
+ BufferedReader in = new BufferedReader(
+ new InputStreamReader(
+ new FileInputStream(URLDecoder.decode(path, "UTF-8")),
+ "UTF-8"
+ )
+ );
+ String str;
+ while ((str = in.readLine()) != null) {
+ content.append(str + "\n");
+ };
+ in.close();
+ }
+ catch (IOException e) {
+ fail(e.getMessage());
+ }
+ return content.toString();
+ };
+
+
+ /**
+ * Scan Empirist articles and iterate through
+ */
+ private class EmpiristScanner implements Iterator {
+ private Scanner sc;
+
+ public EmpiristScanner (String file) {
+ sc = new Scanner(getFile(file));
+ sc.useDelimiter("<(?:posting|article)[^>]+?/>");
+ }
+
+ // Return next posting/article
+ public String next () {
+ return sc.next().trim();
+ }
+
+ // Check if new posting/article exists
+ public boolean hasNext () {
+ return sc.hasNext();
+ }
+ }
+
+ /**
+ * To calculate the difference between the gold standard version and
+ * our version, we calculate the levenshtein difference between both lists.
+ * It's not very intuitive that way, as it does not treat merges and splits
+ * specifically (i.e. a merge is one replacement and one deletion, a split
+ * is one replacement and one insertion) - so the number is not
+ * really meaningful - it's just a way to measure the differences.
+ * It's important to note that this differs from the comparison of
+ * EmpiriST, where the end boundaries of all tokens are compared.
+ */
+ public static int levenshteinForStringArrays (String[] s, String[] t) {
+ if (s == null || t == null) {
+ throw new IllegalArgumentException("Lists must not be null");
+ }
+
+ // Code based on Rosettacode.org
+ int [] costs = new int[t.length + 1];
+
+ for (int j = 0; j < costs.length; j++)
+ costs[j] = j;
+
+ for (int i = 1; i <= s.length; i++) {
+ costs[0] = i;
+ int nw = i - 1;
+ for (int j = 1; j <= t.length; j++) {
+ int cj = Math.min(
+ 1 + Math.min(costs[j], costs[j - 1]),
+ s[i - 1].equals(t[j - 1]) ? nw : nw + 1
+ );
+ nw = costs[j];
+ costs[j] = cj;
+ }
+ }
+
+ return costs[t.length];
+ }
+
+ /**
+ * Compare the tokenized data of one example file
+ * with the gold standard and return the sum of
+ * levenshtein distances.
+ */
+ public int distanceToGoldStandard (KorAPTokenizerImpl tok, String suite, String postings) {
+
+ // Load raw postings
+ EmpiristScanner esRaw = new EmpiristScanner(
+ "/empirist_gold_standard/" + suite + "/raw/" + postings + ".txt"
+ );
+
+ // Load tokenized postings
+ EmpiristScanner esTokenized = new EmpiristScanner(
+ "/empirist_gold_standard/" + suite + "/tokenized/" + postings + ".txt"
+ );
+
+ int distance = 0;
+
+ // Iterate over all postings
+ while (esRaw.hasNext() && esTokenized.hasNext()) {
+
+ // Get the gold standard splitted on new lines
+ String [] goldTokens = esTokenized.next().split("\n+");
+
+ // Tokenize the test data
+ String [] testTokens = tok.tokenize(esRaw.next());
+
+ if (false) {
+ System.err.println("-----------------");
+ for (int i = 0; i < Math.min(goldTokens.length, testTokens.length); i++) {
+ System.err.println(goldTokens[i] + " = "+ testTokens[i]);
+ }
+ }
+
+ // Calculate the edit distance of both arrays
+ distance += levenshteinForStringArrays(goldTokens, testTokens);
+ };
+
+ // Return the sum of all distances
+ return distance;
+ };
+
+
+ @Test
+ public void testTokenizerCoverEmpiristCmc () {
+
+ // Create tokenizer object
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+
+ String test = "cmc_test_blog_comment";
+ int dist = distanceToGoldStandard(tok, "test_cmc", test);
+ assertTrue(test + " = " + dist, dist == 0);
+
+ test = "cmc_test_professional_chat";
+ dist = distanceToGoldStandard(tok, "test_cmc", test);
+ assertTrue(test + " = " + dist, dist <= 20);
+
+ test = "cmc_test_social_chat";
+ dist = distanceToGoldStandard(tok, "test_cmc", test);
+ assertTrue(test + " = " + dist, dist <= 23);
+
+ test = "cmc_test_twitter";
+ dist = distanceToGoldStandard(tok, "test_cmc", test);
+ assertTrue(test + " = " + dist, dist <= 153);
+
+ test = "cmc_test_whatsapp";
+ dist = distanceToGoldStandard(tok, "test_cmc", test);
+ assertTrue(test + " = " + dist, dist <= 0);
+
+ test = "cmc_test_wiki_discussion";
+ dist = distanceToGoldStandard(tok, "test_cmc", test);
+ assertTrue(test + " = " + dist, dist <= 24);
+
+ }
+
+ @Test
+ public void testTokenizerCoverEmpiristWeb () {
+
+ // Create tokenizer object
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+
+ String test = "web_test_001";
+ int dist = distanceToGoldStandard(tok, "test_web", test);
+ assertTrue(test + " = " + dist, dist <= 21);
+
+ test = "web_test_002";
+ dist = distanceToGoldStandard(tok, "test_web", test);
+ assertTrue(test + " = " + dist, dist <= 5);
+
+ test = "web_test_003";
+ dist = distanceToGoldStandard(tok, "test_web", test);
+ assertTrue(test + " = " + dist, dist <= 17);
+
+ test = "web_test_004";
+ dist = distanceToGoldStandard(tok, "test_web", test);
+ assertTrue(test + " = " + dist, dist <= 20);
+
+ test = "web_test_005";
+ dist = distanceToGoldStandard(tok, "test_web", test);
+ assertTrue(test + " = " + dist, dist <= 8);
+
+ test = "web_test_006";
+ dist = distanceToGoldStandard(tok, "test_web", test);
+ assertTrue(test + " = " + dist, dist <= 8);
+
+ test = "web_test_007";
+ dist = distanceToGoldStandard(tok, "test_web", test);
+ assertTrue(test + " = " + dist, dist <= 12);
+
+ test = "web_test_008";
+ dist = distanceToGoldStandard(tok, "test_web", test);
+ assertTrue(test + " = " + dist, dist <= 2);
+
+ test = "web_test_009";
+ dist = distanceToGoldStandard(tok, "test_web", test);
+ assertTrue(test + " = " + dist, dist <= 8);
+
+ test = "web_test_010";
+ dist = distanceToGoldStandard(tok, "test_web", test);
+ assertTrue(test + " = " + dist, dist == 0);
+
+ test = "web_test_011";
+ dist = distanceToGoldStandard(tok, "test_web", test);
+ assertTrue(test + " = " + dist, dist <= 28);
+
+ test = "web_test_012";
+ dist = distanceToGoldStandard(tok, "test_web", test);
+ assertTrue(test + " = " + dist, dist <= 7);
+ }
+}
diff --git a/src/test/java/TokenizerTest.java b/src/test/java/TokenizerTest.java
new file mode 100644
index 0000000..28cae6f
--- /dev/null
+++ b/src/test/java/TokenizerTest.java
@@ -0,0 +1,478 @@
+package de.ids_mannheim.korap.tokenizer;
+
+import static org.junit.Assert.*;
+import org.junit.Test;
+import org.junit.Ignore;
+import org.junit.runner.RunWith;
+import org.junit.runners.JUnit4;
+
+@RunWith(JUnit4.class)
+public class TokenizerTest {
+
+ @Test
+ public void testTokenizerSimple () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Der alte Mann");
+ assertEquals(tokens[0], "Der");
+ assertEquals(tokens[1], "alte");
+ assertEquals(tokens[2], "Mann");
+ assertEquals(tokens.length, 3);
+
+ tokens = tok.tokenize("Der alte Mann.");
+ assertEquals(tokens[0], "Der");
+ assertEquals(tokens[1], "alte");
+ assertEquals(tokens[2], "Mann");
+ assertEquals(tokens[3], ".");
+ assertEquals(tokens.length, 4);
+ }
+
+ @Test
+ @Ignore
+ public void testTokenizerAbbr () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Der Vorsitzende der F.D.P. hat gewählt");
+ assertEquals(tokens[0], "Der");
+ assertEquals(tokens[1], "Vorsitzende");
+ assertEquals(tokens[2], "der");
+ assertEquals(tokens[3], "F.D.P.");
+ assertEquals(tokens[4], "hat");
+ assertEquals(tokens[5], "gewählt");
+ assertEquals(tokens.length, 6);
+ }
+
+ @Test
+ public void testTokenizerHost1 () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Gefunden auf wikipedia.org");
+ assertEquals(tokens[0], "Gefunden");
+ assertEquals(tokens[1], "auf");
+ assertEquals(tokens[2], "wikipedia.org");
+ assertEquals(tokens.length, 3);
+ }
+
+ @Test
+ @Ignore
+ public void testTokenizerHost2 () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Gefunden auf www.wikipedia.org");
+ assertEquals(tokens[0], "Gefunden");
+ assertEquals(tokens[1], "auf");
+ assertEquals(tokens[2], "www.wikipedia.org");
+ assertEquals(tokens.length, 3);
+ }
+
+ @Test
+ public void testTokenizerDash () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Das war -- spitze");
+ assertEquals(tokens[0], "Das");
+ assertEquals(tokens[1], "war");
+ assertEquals(tokens[2], "--");
+ assertEquals(tokens[3], "spitze");
+ assertEquals(tokens.length, 4);
+ }
+
+ @Test
+ public void testTokenizerEmail1 () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Ich bin unter korap@ids-mannheim.de erreichbar.");
+ assertEquals(tokens[0], "Ich");
+ assertEquals(tokens[1], "bin");
+ assertEquals(tokens[2], "unter");
+ assertEquals(tokens[3], "korap@ids-mannheim.de");
+ assertEquals(tokens[4], "erreichbar");
+ assertEquals(tokens[5], ".");
+ assertEquals(tokens.length, 6);
+ }
+
+ @Test
+ public void testTokenizerEmail2 () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Oder unter korap[at]ids-mannheim[dot]de.");
+ assertEquals(tokens[0], "Oder");
+ assertEquals(tokens[1], "unter");
+ assertEquals(tokens[2], "korap[at]ids-mannheim[dot]de");
+ assertEquals(tokens[3], ".");
+ assertEquals(tokens.length, 4);
+ }
+
+ @Test
+ @Ignore
+ public void testTokenizerEmail3 () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Oder unter korap(at)ids-mannheim(dot)de.");
+ assertEquals(tokens[0], "Oder");
+ assertEquals(tokens[1], "unter");
+ assertEquals(tokens[2], "korap(at)ids-mannheim(dot)de");
+ assertEquals(tokens[3], ".");
+ assertEquals(tokens.length, 4);
+ }
+
+ @Test
+ public void testTokenizerTwitter () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Folgt @korap und #korap");
+ assertEquals(tokens[0], "Folgt");
+ assertEquals(tokens[1], "@korap");
+ assertEquals(tokens[2], "und");
+ assertEquals(tokens[3], "#korap");
+ assertEquals(tokens.length, 4);
+ }
+
+ @Test
+ public void testTokenizerWeb1 () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Unsere Website ist https://korap.ids-mannheim.de/?q=Baum");
+ assertEquals(tokens[0], "Unsere");
+ assertEquals(tokens[1], "Website");
+ assertEquals(tokens[2], "ist");
+ assertEquals(tokens[3], "https://korap.ids-mannheim.de/?q=Baum");
+ assertEquals(tokens.length, 4);
+ }
+
+ @Test
+ @Ignore
+ public void testTokenizerWeb2 () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Wir sind auch im Internet (https://korap.ids-mannheim.de/?q=Baum)");
+ assertEquals(tokens[0], "Wir");
+ assertEquals(tokens[1], "sind");
+ assertEquals(tokens[2], "auch");
+ assertEquals(tokens[3], "im");
+ assertEquals(tokens[4], "Internet");
+ assertEquals(tokens[5], "(");
+ assertEquals(tokens[6], "https://korap.ids-mannheim.de/?q=Baum");
+ assertEquals(tokens[7], ")");
+ assertEquals(tokens.length, 8);
+ }
+
+ @Test
+ @Ignore
+ public void testTokenizerWeb3 () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Die Adresse ist https://korap.ids-mannheim.de/?q=Baum.");
+ assertEquals(tokens[0], "Die");
+ assertEquals(tokens[1], "Adresse");
+ assertEquals(tokens[2], "ist");
+ assertEquals(tokens[3], "https://korap.ids-mannheim.de/?q=Baum");
+ assertEquals(tokens[4], ".");
+ assertEquals(tokens.length, 8);
+ }
+
+ @Test
+ public void testTokenizerServer () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Unser Server ist 10.0.10.51.");
+ assertEquals(tokens[0], "Unser");
+ assertEquals(tokens[1], "Server");
+ assertEquals(tokens[2], "ist");
+ assertEquals(tokens[3], "10.0.10.51");
+ assertEquals(tokens[4], ".");
+ assertEquals(tokens.length, 5);
+ }
+
+ @Test
+ public void testTokenizerNum () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Zu 50,4% ist es sicher");
+ assertEquals(tokens[0], "Zu");
+ assertEquals(tokens[1], "50,4");
+ assertEquals(tokens[2], "%"); // Arguable
+ assertEquals(tokens[3], "ist");
+ assertEquals(tokens[4], "es");
+ assertEquals(tokens[5], "sicher");
+ assertEquals(tokens.length, 6);
+ }
+
+ @Test
+ public void testTokenizerDate () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Der Termin ist am 5.9.2018");
+ assertEquals(tokens[0], "Der");
+ assertEquals(tokens[1], "Termin");
+ assertEquals(tokens[2], "ist");
+ assertEquals(tokens[3], "am");
+ assertEquals(tokens[4], "5.9.2018");
+ assertEquals(tokens.length, 5);
+
+ tokens = tok.tokenize("Der Termin ist am 5/9/2018");
+ assertEquals(tokens[0], "Der");
+ assertEquals(tokens[1], "Termin");
+ assertEquals(tokens[2], "ist");
+ assertEquals(tokens[3], "am");
+ assertEquals(tokens[4], "5/9/2018");
+ assertEquals(tokens.length, 5);
+ }
+
+ @Test
+ @Ignore
+ public void testTokenizerDateRange () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Der Termin war vom 4.-5.9.2018");
+ assertEquals(tokens[0], "Der");
+ assertEquals(tokens[1], "Termin");
+ assertEquals(tokens[2], "war");
+ assertEquals(tokens[3], "vom");
+ assertEquals(tokens[4], "4.");
+ assertEquals(tokens[5], "-");
+ assertEquals(tokens[6], "5.9.2018");
+ assertEquals(tokens.length, 7);
+ }
+
+ @Test
+ public void testTokenizerEmoji1 () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Das ist toll! ;)");
+ assertEquals(tokens[0], "Das");
+ assertEquals(tokens[1], "ist");
+ assertEquals(tokens[2], "toll");
+ assertEquals(tokens[3], "!");
+ assertEquals(tokens[4], ";)");
+ assertEquals(tokens.length, 5);
+ }
+
+ @Test
+ public void testTokenizerRef1 () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Kupietz und Schmidt (2018): Korpuslinguistik");
+ assertEquals(tokens[0], "Kupietz");
+ assertEquals(tokens[1], "und");
+ assertEquals(tokens[2], "Schmidt");
+ assertEquals(tokens[3], "(");
+ assertEquals(tokens[4], "2018");
+ assertEquals(tokens[5], ")");
+ assertEquals(tokens[6], ":");
+ assertEquals(tokens[7], "Korpuslinguistik");
+ assertEquals(tokens.length, 8);
+ }
+
+ @Test
+ public void testTokenizerRef2 () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Kupietz und Schmidt [2018]: Korpuslinguistik");
+ assertEquals(tokens[0], "Kupietz");
+ assertEquals(tokens[1], "und");
+ assertEquals(tokens[2], "Schmidt");
+ assertEquals(tokens[3], "[");
+ assertEquals(tokens[4], "2018");
+ assertEquals(tokens[5], "]");
+ assertEquals(tokens[6], ":");
+ assertEquals(tokens[7], "Korpuslinguistik");
+ assertEquals(tokens.length, 8);
+ }
+
+ @Test
+ public void testTokenizerOmission1 () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Er ist ein A****loch!");
+ assertEquals(tokens[0], "Er");
+ assertEquals(tokens[1], "ist");
+ assertEquals(tokens[2], "ein");
+ assertEquals(tokens[3], "A****loch");
+ assertEquals(tokens[4], "!");
+ assertEquals(tokens.length, 5);
+ }
+
+ @Test
+ public void testTokenizerOmission2 () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("F*ck!");
+ assertEquals(tokens[0], "F*ck");
+ assertEquals(tokens[1], "!");
+ assertEquals(tokens.length, 2);
+ }
+
+ @Test
+ public void testTokenizerOmission3 () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Dieses verf***** Kleid!");
+ assertEquals(tokens[0], "Dieses");
+ assertEquals(tokens[1], "verf*****");
+ assertEquals(tokens[2], "Kleid");
+ assertEquals(tokens[3], "!");
+ assertEquals(tokens.length, 4);
+ }
+
+ @Test
+ // Probably interpreted as HOST
+ public void testTokenizerFileExtension1 () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Ich habe die readme.txt heruntergeladen");
+ assertEquals(tokens[0], "Ich");
+ assertEquals(tokens[1], "habe");
+ assertEquals(tokens[2], "die");
+ assertEquals(tokens[3], "readme.txt");
+ assertEquals(tokens[4], "heruntergeladen");
+ assertEquals(tokens.length, 5);
+ }
+
+ @Test
+ // Probably interpreted as HOST
+ public void testTokenizerFileExtension2 () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Nimm die README.TXT!");
+ assertEquals(tokens[0], "Nimm");
+ assertEquals(tokens[1], "die");
+ assertEquals(tokens[2], "README.TXT");
+ assertEquals(tokens[3], "!");
+ assertEquals(tokens.length, 4);
+ }
+
+ @Test
+ // Probably interpreted as HOST
+ public void testTokenizerFileExtension3 () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Zeig mir profile.jpeg");
+ assertEquals(tokens[0], "Zeig");
+ assertEquals(tokens[1], "mir");
+ assertEquals(tokens[2], "profile.jpeg");
+ assertEquals(tokens.length, 3);
+ }
+
+ @Test
+ public void testTokenizerFile1 () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Zeig mir c:\\Dokumente\\profile.docx");
+ assertEquals(tokens[0], "Zeig");
+ assertEquals(tokens[1], "mir");
+ assertEquals(tokens[2], "c:\\Dokumente\\profile.docx");
+ assertEquals(tokens.length, 3);
+ }
+
+ @Test
+ public void testTokenizerFile2 () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Gehe zu /Dokumente/profile.docx");
+ assertEquals(tokens[0], "Gehe");
+ assertEquals(tokens[1], "zu");
+ assertEquals(tokens[2], "/Dokumente/profile.docx");
+ assertEquals(tokens.length, 3);
+ }
+
+ @Test
+ @Ignore
+ public void testTokenizerFile3 () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Zeig mir c:\\Dokumente\\profile.jpeg");
+ assertEquals(tokens[0], "Zeig");
+ assertEquals(tokens[1], "mir");
+ assertEquals(tokens[2], "c:\\Dokumente\\profile.jpeg");
+ assertEquals(tokens.length, 3);
+ }
+
+ @Test
+ public void testTokenizerPunct () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Er sagte: \"Es geht mir gut!\", daraufhin ging er.");
+ assertEquals(tokens[0], "Er");
+ assertEquals(tokens[1], "sagte");
+ assertEquals(tokens[2], ":");
+ assertEquals(tokens[3], "\"");
+ assertEquals(tokens[4], "Es");
+ assertEquals(tokens[5], "geht");
+ assertEquals(tokens[6], "mir");
+ assertEquals(tokens[7], "gut");
+ assertEquals(tokens[8], "!");
+ assertEquals(tokens[9], "\"");
+ assertEquals(tokens[10], ",");
+ assertEquals(tokens[11], "daraufhin");
+ assertEquals(tokens[12], "ging");
+ assertEquals(tokens[13], "er");
+ assertEquals(tokens[14], ".");
+ assertEquals(tokens.length, 15);
+ }
+
+ @Test
+ public void testTokenizerPlusAmpersand () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize(""Das ist von C&A!"");
+ assertEquals(tokens[0], """);
+ assertEquals(tokens[1], "Das");
+ assertEquals(tokens[2], "ist");
+ assertEquals(tokens[3], "von");
+ assertEquals(tokens[4], "C&A");
+ assertEquals(tokens[5], "!");
+ assertEquals(tokens[6], """);
+ assertEquals(tokens.length, 7);
+ }
+
+ @Test
+ public void testTokenizerLongEnd () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Siehst Du?!!?");
+ assertEquals(tokens[0], "Siehst");
+ assertEquals(tokens[1], "Du");
+ assertEquals(tokens[2], "?!!?");
+ assertEquals(tokens.length, 3);
+ }
+
+ @Test
+ public void testTokenizerIrishO () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Peter O'Toole");
+ assertEquals(tokens[0], "Peter");
+ assertEquals(tokens[1], "O'Toole");
+ assertEquals(tokens.length, 2);
+ }
+
+ @Test
+ public void testTokenizerAbr () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Früher bzw. später ...");
+ assertEquals(tokens[0], "Früher");
+ assertEquals(tokens[1], "bzw.");
+ assertEquals(tokens[2], "später");
+ assertEquals(tokens[3], "...");
+ assertEquals(tokens.length, 4);
+ }
+
+ @Test
+ @Ignore
+ public void testTokenizerUppercaseRule () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Es war spät.Morgen ist es früh.");
+ assertEquals(tokens[0], "Es");
+ assertEquals(tokens[1], "war");
+ assertEquals(tokens[2], "spät");
+ assertEquals(tokens[3], ".");
+ assertEquals(tokens[4], "Morgen");
+ assertEquals(tokens[5], "ist");
+ assertEquals(tokens[6], "es");
+ assertEquals(tokens[7], "früh");
+ assertEquals(tokens[8], ".");
+ assertEquals(tokens.length, 9);
+ }
+
+ @Test
+ public void testTokenizerOrd () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Sie erreichte den 1. Platz!");
+ assertEquals(tokens[0], "Sie");
+ assertEquals(tokens[1], "erreichte");
+ assertEquals(tokens[2], "den");
+ assertEquals(tokens[3], "1.");
+ assertEquals(tokens[4], "Platz");
+ assertEquals(tokens[5], "!");
+ assertEquals(tokens.length, 6);
+ }
+
+ @Test
+ public void testNoZipOuputArchive () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Archive: Ich bin kein zip\n");
+ assertEquals(tokens[0], "Archive");
+ assertEquals(tokens[1], ":");
+ assertEquals(tokens[2], "Ich");
+ assertEquals(tokens[3], "bin");
+ assertEquals(tokens[4], "kein");
+ assertEquals(tokens[5], "zip");
+ assertEquals(6, tokens.length);
+ }
+
+ @Test
+ public void testZipOuputArchive () {
+ KorAPTokenizerImpl tok = new KorAPTokenizerImpl();
+ String[] tokens = tok.tokenize("Archive: ich/bin/ein.zip\n");
+ assertEquals(0, tokens.length);
+ }
+}
diff --git a/src/test/resources/bih.zip b/src/test/resources/bih.zip
new file mode 100644
index 0000000..0b4e9e0
--- /dev/null
+++ b/src/test/resources/bih.zip
Binary files differ
diff --git a/src/test/resources/empirist_gold_standard/COPYING b/src/test/resources/empirist_gold_standard/COPYING
new file mode 100644
index 0000000..f600a21
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/COPYING
@@ -0,0 +1,62 @@
+License
+
+TRIAL DATA FOR EmpiriST (REFERENCED AS ``THE WORK'' BELOW) IS PROVIDED UNDER THE TERMS OF THIS CREATIVE COMMONS PUBLIC LICENSE ("CCPL" OR "LICENSE"). THE WORK IS PROTECTED BY COPYRIGHT AND/OR OTHER APPLICABLE LAW. ANY USE OF THE WORK OTHER THAN AS AUTHORIZED UNDER THIS LICENSE OR COPYRIGHT LAW IS PROHIBITED.
+
+BY EXERCISING ANY RIGHTS TO THE WORK PROVIDED HERE, YOU ACCEPT AND AGREE TO BE BOUND BY THE TERMS OF THIS LICENSE. TO THE EXTENT THIS LICENSE MAY BE CONSIDERED TO BE A CONTRACT, THE LICENSOR GRANTS YOU THE RIGHTS CONTAINED HERE IN CONSIDERATION OF YOUR ACCEPTANCE OF SUCH TERMS AND CONDITIONS.
+
+1. Definitions
+
+ "Adaptation" means a work based upon the Work, or upon the Work and other pre-existing works, such as a translation, adaptation, derivative work, arrangement of music or other alterations of a literary or artistic work, or phonogram or performance and includes cinematographic adaptations or any other form in which the Work may be recast, transformed, or adapted including in any form recognizably derived from the original, except that a work that constitutes a Collection will not be considered an Adaptation for the purpose of this License. For the avoidance of doubt, where the Work is a musical work, performance or phonogram, the synchronization of the Work in timed-relation with a moving image ("synching") will be considered an Adaptation for the purpose of this License.
+ "Collection" means a collection of literary or artistic works, such as encyclopedias and anthologies, or performances, phonograms or broadcasts, or other works or subject matter other than works listed in Section 1(f) below, which, by reason of the selection and arrangement of their contents, constitute intellectual creations, in which the Work is included in its entirety in unmodified form along with one or more other contributions, each constituting separate and independent works in themselves, which together are assembled into a collective whole. A work that constitutes a Collection will not be considered an Adaptation (as defined below) for the purposes of this License.
+ "Creative Commons Compatible License" means a license that is listed at https://creativecommons.org/compatiblelicenses that has been approved by Creative Commons as being essentially equivalent to this License, including, at a minimum, because that license: (i) contains terms that have the same purpose, meaning and effect as the License Elements of this License; and, (ii) explicitly permits the relicensing of adaptations of works made available under that license under this License or a Creative Commons jurisdiction license with the same License Elements as this License.
+ "Distribute" means to make available to the public the original and copies of the Work or Adaptation, as appropriate, through sale or other transfer of ownership.
+ "License Elements" means the following high-level license attributes as selected by Licensor and indicated in the title of this License: Attribution, ShareAlike.
+ "Licensor" means the individual, individuals, entity or entities that offer(s) the Work under the terms of this License.
+ "Original Author" means, in the case of a literary or artistic work, the individual, individuals, entity or entities who created the Work or if no individual or entity can be identified, the publisher; and in addition (i) in the case of a performance the actors, singers, musicians, dancers, and other persons who act, sing, deliver, declaim, play in, interpret or otherwise perform literary or artistic works or expressions of folklore; (ii) in the case of a phonogram the producer being the person or legal entity who first fixes the sounds of a performance or other sounds; and, (iii) in the case of broadcasts, the organization that transmits the broadcast.
+ "Work" means the literary and/or artistic work offered under the terms of this License including without limitation any production in the literary, scientific and artistic domain, whatever may be the mode or form of its expression including digital form, such as a book, pamphlet and other writing; a lecture, address, sermon or other work of the same nature; a dramatic or dramatico-musical work; a choreographic work or entertainment in dumb show; a musical composition with or without words; a cinematographic work to which are assimilated works expressed by a process analogous to cinematography; a work of drawing, painting, architecture, sculpture, engraving or lithography; a photographic work to which are assimilated works expressed by a process analogous to photography; a work of applied art; an illustration, map, plan, sketch or three-dimensional work relative to geography, topography, architecture or science; a performance; a broadcast; a phonogram; a compilation of data to the extent it is protected as a copyrightable work; or a work performed by a variety or circus performer to the extent it is not otherwise considered a literary or artistic work.
+ "You" means an individual or entity exercising rights under this License who has not previously violated the terms of this License with respect to the Work, or who has received express permission from the Licensor to exercise rights under this License despite a previous violation.
+ "Publicly Perform" means to perform public recitations of the Work and to communicate to the public those public recitations, by any means or process, including by wire or wireless means or public digital performances; to make available to the public Works in such a way that members of the public may access these Works from a place and at a place individually chosen by them; to perform the Work to the public by any means or process and the communication to the public of the performances of the Work, including by public digital performance; to broadcast and rebroadcast the Work by any means including signs, sounds or images.
+ "Reproduce" means to make copies of the Work by any means including without limitation by sound or visual recordings and the right of fixation and reproducing fixations of the Work, including storage of a protected performance or phonogram in digital form or other electronic medium.
+
+2. Fair Dealing Rights. Nothing in this License is intended to reduce, limit, or restrict any uses free from copyright or rights arising from limitations or exceptions that are provided for in connection with the copyright protection under copyright law or other applicable laws.
+
+3. License Grant. Subject to the terms and conditions of this License, Licensor hereby grants You a worldwide, royalty-free, non-exclusive, perpetual (for the duration of the applicable copyright) license to exercise the rights in the Work as stated below:
+
+ to Reproduce the Work, to incorporate the Work into one or more Collections, and to Reproduce the Work as incorporated in the Collections;
+ to create and Reproduce Adaptations provided that any such Adaptation, including any translation in any medium, takes reasonable steps to clearly label, demarcate or otherwise identify that changes were made to the original Work. For example, a translation could be marked "The original work was translated from English to Spanish," or a modification could indicate "The original work has been modified.";
+ to Distribute and Publicly Perform the Work including as incorporated in Collections; and,
+ to Distribute and Publicly Perform Adaptations.
+
+ For the avoidance of doubt:
+ Non-waivable Compulsory License Schemes. In those jurisdictions in which the right to collect royalties through any statutory or compulsory licensing scheme cannot be waived, the Licensor reserves the exclusive right to collect such royalties for any exercise by You of the rights granted under this License;
+ Waivable Compulsory License Schemes. In those jurisdictions in which the right to collect royalties through any statutory or compulsory licensing scheme can be waived, the Licensor waives the exclusive right to collect such royalties for any exercise by You of the rights granted under this License; and,
+ Voluntary License Schemes. The Licensor waives the right to collect royalties, whether individually or, in the event that the Licensor is a member of a collecting society that administers voluntary licensing schemes, via that society, from any exercise by You of the rights granted under this License.
+
+The above rights may be exercised in all media and formats whether now known or hereafter devised. The above rights include the right to make such modifications as are technically necessary to exercise the rights in other media and formats. Subject to Section 8(f), all rights not expressly granted by Licensor are hereby reserved.
+
+4. Restrictions. The license granted in Section 3 above is expressly made subject to and limited by the following restrictions:
+
+ You may Distribute or Publicly Perform the Work only under the terms of this License. You must include a copy of, or the Uniform Resource Identifier (URI) for, this License with every copy of the Work You Distribute or Publicly Perform. You may not offer or impose any terms on the Work that restrict the terms of this License or the ability of the recipient of the Work to exercise the rights granted to that recipient under the terms of the License. You may not sublicense the Work. You must keep intact all notices that refer to this License and to the disclaimer of warranties with every copy of the Work You Distribute or Publicly Perform. When You Distribute or Publicly Perform the Work, You may not impose any effective technological measures on the Work that restrict the ability of a recipient of the Work from You to exercise the rights granted to that recipient under the terms of the License. This Section 4(a) applies to the Work as incorporated in a Collection, but this does not require the Collection apart from the Work itself to be made subject to the terms of this License. If You create a Collection, upon notice from any Licensor You must, to the extent practicable, remove from the Collection any credit as required by Section 4(c), as requested. If You create an Adaptation, upon notice from any Licensor You must, to the extent practicable, remove from the Adaptation any credit as required by Section 4(c), as requested.
+ You may Distribute or Publicly Perform an Adaptation only under the terms of: (i) this License; (ii) a later version of this License with the same License Elements as this License; (iii) a Creative Commons jurisdiction license (either this or a later license version) that contains the same License Elements as this License (e.g., Attribution-ShareAlike 3.0 US)); (iv) a Creative Commons Compatible License. If you license the Adaptation under one of the licenses mentioned in (iv), you must comply with the terms of that license. If you license the Adaptation under the terms of any of the licenses mentioned in (i), (ii) or (iii) (the "Applicable License"), you must comply with the terms of the Applicable License generally and the following provisions: (I) You must include a copy of, or the URI for, the Applicable License with every copy of each Adaptation You Distribute or Publicly Perform; (II) You may not offer or impose any terms on the Adaptation that restrict the terms of the Applicable License or the ability of the recipient of the Adaptation to exercise the rights granted to that recipient under the terms of the Applicable License; (III) You must keep intact all notices that refer to the Applicable License and to the disclaimer of warranties with every copy of the Work as included in the Adaptation You Distribute or Publicly Perform; (IV) when You Distribute or Publicly Perform the Adaptation, You may not impose any effective technological measures on the Adaptation that restrict the ability of a recipient of the Adaptation from You to exercise the rights granted to that recipient under the terms of the Applicable License. This Section 4(b) applies to the Adaptation as incorporated in a Collection, but this does not require the Collection apart from the Adaptation itself to be made subject to the terms of the Applicable License.
+ If You Distribute, or Publicly Perform the Work or any Adaptations or Collections, You must, unless a request has been made pursuant to Section 4(a), keep intact all copyright notices for the Work and provide, reasonable to the medium or means You are utilizing: (i) the name of the Original Author (or pseudonym, if applicable) if supplied, and/or if the Original Author and/or Licensor designate another party or parties (e.g., a sponsor institute, publishing entity, journal) for attribution ("Attribution Parties") in Licensor's copyright notice, terms of service or by other reasonable means, the name of such party or parties; (ii) the title of the Work if supplied; (iii) to the extent reasonably practicable, the URI, if any, that Licensor specifies to be associated with the Work, unless such URI does not refer to the copyright notice or licensing information for the Work; and (iv) , consistent with Ssection 3(b), in the case of an Adaptation, a credit identifying the use of the Work in the Adaptation (e.g., "French translation of the Work by Original Author," or "Screenplay based on original Work by Original Author"). The credit required by this Section 4(c) may be implemented in any reasonable manner; provided, however, that in the case of a Adaptation or Collection, at a minimum such credit will appear, if a credit for all contributing authors of the Adaptation or Collection appears, then as part of these credits and in a manner at least as prominent as the credits for the other contributing authors. For the avoidance of doubt, You may only use the credit required by this Section for the purpose of attribution in the manner set out above and, by exercising Your rights under this License, You may not implicitly or explicitly assert or imply any connection with, sponsorship or endorsement by the Original Author, Licensor and/or Attribution Parties, as appropriate, of You or Your use of the Work, without the separate, express prior written permission of the Original Author, Licensor and/or Attribution Parties.
+ Except as otherwise agreed in writing by the Licensor or as may be otherwise permitted by applicable law, if You Reproduce, Distribute or Publicly Perform the Work either by itself or as part of any Adaptations or Collections, You must not distort, mutilate, modify or take other derogatory action in relation to the Work which would be prejudicial to the Original Author's honor or reputation. Licensor agrees that in those jurisdictions (e.g. Japan), in which any exercise of the right granted in Section 3(b) of this License (the right to make Adaptations) would be deemed to be a distortion, mutilation, modification or other derogatory action prejudicial to the Original Author's honor and reputation, the Licensor will waive or not assert, as appropriate, this Section, to the fullest extent permitted by the applicable national law, to enable You to reasonably exercise Your right under Section 3(b) of this License (right to make Adaptations) but not otherwise.
+
+5. Representations, Warranties and Disclaimer
+
+UNLESS OTHERWISE MUTUALLY AGREED TO BY THE PARTIES IN WRITING, LICENSOR OFFERS THE WORK AS-IS AND MAKES NO REPRESENTATIONS OR WARRANTIES OF ANY KIND CONCERNING THE WORK, EXPRESS, IMPLIED, STATUTORY OR OTHERWISE, INCLUDING, WITHOUT LIMITATION, WARRANTIES OF TITLE, MERCHANTIBILITY, FITNESS FOR A PARTICULAR PURPOSE, NONINFRINGEMENT, OR THE ABSENCE OF LATENT OR OTHER DEFECTS, ACCURACY, OR THE PRESENCE OF ABSENCE OF ERRORS, WHETHER OR NOT DISCOVERABLE. SOME JURISDICTIONS DO NOT ALLOW THE EXCLUSION OF IMPLIED WARRANTIES, SO SUCH EXCLUSION MAY NOT APPLY TO YOU.
+
+6. Limitation on Liability. EXCEPT TO THE EXTENT REQUIRED BY APPLICABLE LAW, IN NO EVENT WILL LICENSOR BE LIABLE TO YOU ON ANY LEGAL THEORY FOR ANY SPECIAL, INCIDENTAL, CONSEQUENTIAL, PUNITIVE OR EXEMPLARY DAMAGES ARISING OUT OF THIS LICENSE OR THE USE OF THE WORK, EVEN IF LICENSOR HAS BEEN ADVISED OF THE POSSIBILITY OF SUCH DAMAGES.
+
+7. Termination
+
+ This License and the rights granted hereunder will terminate automatically upon any breach by You of the terms of this License. Individuals or entities who have received Adaptations or Collections from You under this License, however, will not have their licenses terminated provided such individuals or entities remain in full compliance with those licenses. Sections 1, 2, 5, 6, 7, and 8 will survive any termination of this License.
+ Subject to the above terms and conditions, the license granted here is perpetual (for the duration of the applicable copyright in the Work). Notwithstanding the above, Licensor reserves the right to release the Work under different license terms or to stop distributing the Work at any time; provided, however that any such election will not serve to withdraw this License (or any other license that has been, or is required to be, granted under the terms of this License), and this License will continue in full force and effect unless terminated as stated above.
+
+8. Miscellaneous
+
+ Each time You Distribute or Publicly Perform the Work or a Collection, the Licensor offers to the recipient a license to the Work on the same terms and conditions as the license granted to You under this License.
+ Each time You Distribute or Publicly Perform an Adaptation, Licensor offers to the recipient a license to the original Work on the same terms and conditions as the license granted to You under this License.
+ If any provision of this License is invalid or unenforceable under applicable law, it shall not affect the validity or enforceability of the remainder of the terms of this License, and without further action by the parties to this agreement, such provision shall be reformed to the minimum extent necessary to make such provision valid and enforceable.
+ No term or provision of this License shall be deemed waived and no breach consented to unless such waiver or consent shall be in writing and signed by the party to be charged with such waiver or consent.
+ This License constitutes the entire agreement between the parties with respect to the Work licensed here. There are no understandings, agreements or representations with respect to the Work not specified here. Licensor shall not be bound by any additional provisions that may appear in any communication from You. This License may not be modified without the mutual written agreement of the Licensor and You.
+ The rights granted under, and the subject matter referenced, in this License were drafted utilizing the terminology of the Berne Convention for the Protection of Literary and Artistic Works (as amended on September 28, 1979), the Rome Convention of 1961, the WIPO Copyright Treaty of 1996, the WIPO Performances and Phonograms Treaty of 1996 and the Universal Copyright Convention (as revised on July 24, 1971). These rights and subject matter take effect in the relevant jurisdiction in which the License terms are sought to be enforced according to the corresponding provisions of the implementation of those treaty provisions in the applicable national law. If the standard suite of rights granted under applicable copyright law includes additional rights not granted under this License, such additional rights are deemed to be included in the License; this License is not intended to restrict the license of any rights under applicable law.
diff --git a/src/test/resources/empirist_gold_standard/README.rst b/src/test/resources/empirist_gold_standard/README.rst
new file mode 100644
index 0000000..21e670b
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/README.rst
@@ -0,0 +1,201 @@
+===============================
+The EmpiriST 2015 Gold Standard
+===============================
+
+
+Background
+==========
+
+The goal of the EmpiriST 2015 shared task was to encourage the developers of
+NLP applications to adapt their tools and resources to the processing of
+German Web pages and written German discourse in genres of computer-mediated
+communication (CMC). Examples for CMC genres are chats, forums, wiki talk
+pages, tweets, blog comments, social networks, SMS and WhatsApp dialogues.
+
+The shared task focuseed on tokenization and part-of-speech tagging as the
+first and fundamental steps of most NLP pipelines. In the first part of the
+task, participants received raw text files and had to submit tokenized
+versions in one-token-per-line format. In the second part, participants
+receive pre-tokenized text and had to annotated each token with a POS tag,
+using the STTS_IBK tag set described in "tagset.txt".
+
+See the website https://sites.google.com/site/empirist2015/ for further
+information and detailed annotation guidelines.
+
+This archive contains the official EmpiriST 2015 Gold Standard, with training
+and test data for the tokenization and PoS tagging subtasks. Raw texts,
+manually tokenized files and manual PoS annotation are provided for each part.
+In addition, the official scorers and several other tools are included in the
+form of Perl scripts.
+
+
+License
+=======
+
+All files within this archive are published under the terms of the Creative
+Commons BY-SA 3.0 license. You receive a copy of the license text in the file
+"COPYING".
+
+If you use these data in your research, please cite the EmpiriST 2015 task
+description paper (a BibTeX entry can be found in the file "reference.bib").
+
+ Beißwenger, Michael; Bartsch, Sabine; Evert, Stefan; Würzner, Kay-Michael
+ (2016). EmpiriST 2015: A shared task on the automatic linguistic
+ annotation of computer-mediated communication and web corpora. In
+ Proceedings of the 10th Web as Corpus Workshop (WAC-X) and the EmpiriST
+ Shared Task, pages 78-90, Berlin, Germany.
+
+
+Contents
+========
+
+The evaluation data for the EmpiriST shared task are taken from various
+sources and are divided into a **Web corpora** subset (monologic texts) and a
+**CMC** subset (dialogic texts such as chats, tweets, short messages etc.).
+
+Training and test data for each subset are provided in separate directories:
+
+``train_cmc/``
+
+ CMC training data.
+
+``train_web/``
+
+ Web corpora training data.
+
+``test_cmc/``
+
+ CMC test data.
+
+``test_web/``
+
+ Web corpora test data.
+
+Each of these directories has the same structure with three subdirectories,
+containing raw, tokenized and tagged texts with exactly the same filenames:
+
+``raw/*.txt``
+
+ The raw source texts, as plain UTF-8 encoded text files with Unix line
+ breaks. Text files are structured into segments separated by blank lines
+ (i.e. two subsequent line breaks), which correspond to postings in the CMC
+ subset and to paragraph-like units in the Web corpora subset. Additional
+ meta-information may be included in the form of emtpy XML elements (e.g. a
+ timestamp for each posting in the CMC subset).
+
+``tokenized/*.txt``
+
+ For each text file in ``raw/``, this directory contains a manually
+ tokenized file with the same name. The format is plain UTF-8 encoded text
+ with Unix line breaks. Tokens are separated by single line breaks, i.e. the
+ file has a one-token-per-line format. As in the raw source texts,
+ posting/paragraph boundaries are marked by blank lines (i.e. two subsequent
+ line breaks), and empty XML elements containing metadata are preserved on
+ separate lines.
+
+``tagged/*.txt``
+
+ For each text file in ``raw/`` and tokenized file in ``tokenized/``, this
+ directory contains a manually POS-tagged file with the same name. Its
+ format corresponds to the tokenized files (in particular, plain UTF-8
+ encoded text with Unix line breaks), except that every token is followed by
+ a TAB stop (``\t``, ASCII decimal code 9) and its part-of-speech tag on the
+ same line. The tags used are listed in the file ``tagset.txt``; see the
+ annotation guidelines for a detailed explanation.
+
+Several other files and utilities can be found in the top-level directory:
+
+``README.rst``
+
+ This README file.
+
+``COPYING``
+
+ A copy of the CC-BY-SA 3.0 license.
+
+``reference.bib``
+
+ A BibTeX entry for the EmpiriST task description paper. Please cite this
+ paper if you make use of the gold standard in your published research.
+
+``tagset.txt``
+
+ A concise description of the STTS_IBK tag set used for PoS annotation.
+
+``tools/compare_tokenization.perl``
+
+``tools/compare_tagging.perl``
+
+ Perl scripts for evaluating tokenization and tagging results according
+ to the official EmpiriST metrics. (Some users may need to install the Perl
+ module Algorithm::Diff from CPAN.)
+
+``tools/validate_tokenization.perl``
+
+``tools/validate_tagging.perl``
+
+ Perl scripts for validating the format of system output files before
+ submission to the shared task.
+
+``tools/normalize_text.perl``
+
+ A Perl script for text cleanup and whitespace tokenization (used as a
+ basis for the manual tokenization of the gold standard).
+
+``tools/line_count.perl``
+
+ Perl script for counting the number of tokens in one-word-per-line files
+ (automatically skips empty lines and XML elements).
+
+
+Sources
+=======
+
+The CMC data include samples from the following CMC genres and sources:
+
+``TWEETS``
+
+ Some tweets taken from the Twitter channel of an academy project, some
+ tweets taken from the Twitter channel of a lecturer in German Linguistics,
+ used for discussions with students accompanying a university class)
+
+``SOCIAL CHAT``
+
+ Postings selected from the Dortmund Chat Corpus, http://www.chatkorpus.tu-dortmund.de
+
+``PROFESSIONAL CHAT``
+
+ Postings selected from the Dortmund Chat Corpus, http://www.chatkorpus.tu-dortmund.de
+
+``WIKIPEDIA TALK PAGES``
+
+ Samples from talk pages of the German Wikipedia
+
+``WHATSAPP CONVERSATIONS``
+
+ Postings taken from the data set collected by the project "WhatsApp,
+ Deutschland?", http://www.whatsup-deutschland.de/
+
+``BLOG COMMENTS``
+
+ Comments posted on weblogs under a CC license
+
+The Web corpora training data include text samples obtained from various Web
+pages that are licensed under CC-BY-SA 3.0 or a compatible (more permissive)
+licence.
+
+URLs of the original pages are embedded in the metadata tag on the first line
+of each text file in the form ``<article id="..." url="SOURCE URL"/>``.
+
+
+Authors
+=======
+
+The shared task (ST) has been prepared by members of the DFG scientific network
+Empirikom (therefore: "EmpiriST"):
+Sabine Bartsch, Michael Beißwenger, Stefan Evert and Kay-Michael Würzner
+
+Its preparation has parially been funded by the German Society for Language
+Technology and Computational Linguistics (GSCL). The shared task is endorsed
+by the ACL Special Interest Group on the Web as Corpus and by the GSCL Special
+Interest Group on Social Media / Computer-Mediated Communication.
diff --git a/src/test/resources/empirist_gold_standard/reference.bib b/src/test/resources/empirist_gold_standard/reference.bib
new file mode 100644
index 0000000..604fec9
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/reference.bib
@@ -0,0 +1,8 @@
+@inproceedings{Beisswenger:etc:16,
+ Author = {Bei{\ss}wenger, Michael and Bartsch, Sabine and Evert, Stefan and W{\"u}rzner, Kay-Michael},
+ Booktitle = {Proceedings of the 10th Web as Corpus Workshop (WAC-X) and the EmpiriST Shared Task},
+ Pages = {78--90},
+ Title = {{EmpiriST} 2015: A Shared Task on the Automatic Linguistic Annotation of Computer-Mediated Communication and Web Corpora},
+ Year = {2016},
+ Address = {Berlin, Germany}
+}
diff --git a/src/test/resources/empirist_gold_standard/test_cmc/raw/cmc_test_blog_comment.txt b/src/test/resources/empirist_gold_standard/test_cmc/raw/cmc_test_blog_comment.txt
new file mode 100644
index 0000000..f041af3
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_cmc/raw/cmc_test_blog_comment.txt
@@ -0,0 +1,7 @@
+<posting author="siatsenetnetjeru" date="19. Oktober 2013 um 11:56" />
+*grins* Geht mir da wohl ähnlich.
+Ich bin nicht so der “Tabu-Mensch”.
+Ich respektiere es natürlich, wenn andere sie haben, aber ich überprüfe für mich sehr intensiv, ob sie für mich und meine Praxis wichtig und sinnvoll sind.
+Und natürlich geben mir das auch die Gottheiten selbst zu verstehen (Ganesh z.B. Fleisch zu opfern käme für mich z.B. nie in Frage).
+Nach der Doku muss ich mal gucken :). Danke für den Tip. :)
+
diff --git a/src/test/resources/empirist_gold_standard/test_cmc/raw/cmc_test_professional_chat.txt b/src/test/resources/empirist_gold_standard/test_cmc/raw/cmc_test_professional_chat.txt
new file mode 100644
index 0000000..59f8067
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_cmc/raw/cmc_test_professional_chat.txt
@@ -0,0 +1,256 @@
+<posting id="SEM-66" author="Student5"/>
+schreibe mal meine addy auf: [Email-Adresse]
+
+<posting id="SEM-67" author="Student6"/>
+ja
+
+<posting id="SEM-68" author="Student3"/>
+Also, tschüss ihr zwei. Meine adresse steht auf der Seminarseite. Frohe Weihnachten etc.!
+
+<posting id="SEM-70" author="Student5"/>
+Ich wünsche dir schöne Ferien Student6!
+
+<posting id="SEM-71" author="Student6"/>
+Ich hab dich auch llieb!
+
+<posting id="SEM-72" author="Student5"/>
+Und viele Geschenke und einen guten Rutsch und überhaupt nur das beste!
+
+<posting id="SEM-73" author="Student5"/>
+:-*
+
+<posting id="SEM-74" author="Student6"/>
+du mich auch...
+
+<posting id="SEM-75" author="Student5"/>
+*<:-)
+
+<posting id="SEM-76" author="Student6"/>
+hübsche nikolaus!
+
+<posting id="SEM-77" author="Student5"/>
+du mich noch viel mehr!
+
+<posting id="SEM-78" author="Student6"/>
+na szia!!!! :-*
+
+<posting id="SEM-79" author="Student5"/>
+du weißt schon diese ungarische Wort mit B am Anfang!
+
+<posting id="SEM-80" author="Student6"/>
+meinst du bazdmeg?
+
+<posting id="SEM-81" author="Student5"/>
+Tschüß.......
+
+<posting id="216" author="Günther Beckstein"/>
+Neues Thema: Drogenpolitik...
+
+<posting id="217" author="Kolja Raube"/>
+HErr Özdemir, antworten Sie! Ist das die Bekämpfung des Terrorismus durch Außenpolititk?
+
+<posting id="218" author="Cem Özdemir"/>
+Bin gespannt
+
+<posting id="219" author="Günther Beckstein"/>
+Die Diskussion über Freigabe von Haschisch durch die Grünen ist verherend.
+
+<posting id="220" author="apuzzili"/>
+gibt es bestimmte drogenräume, herr beckstein???
+
+<posting id="221" author="Kolja Raube"/>
+Warum ist HAschisch verheerend?
+
+<posting id="222" author="Bakunin"/>
+Recht auf Rausch: Ein freiheitliches Grundrecht, das hierzulande verwehrt bleibt...!
+
+<posting id="223" author="Kolja Raube"/>
+Warum ist die niederländische Politik verheerend?
+
+<posting id="224" author="sebastian"/>
+wieso verherend, herr beckstein. verherend ist die ideologische drogenpolitik a la dsu
+
+<posting id="225" author="Cem Özdemir"/>
+Wollen Sie den Irrsinn nicht endlich beenden, die Alltagsdrogen Nikotin, Medikamentenmissbrauch und Alkohol zu verharmlosen und den Gebrauch von Cannabis-Produkten zu kriminalisieren. Wir wollen die Entkriminalisierung...
+
+<posting id="226" author="Cem Özdemir"/>
+Die Schweiz macht es uns vor. Sind die weniger klug wie wir?
+
+<posting id="227" author="Bakunin"/>
+Kriminalisierung von Kiffern auch unter rot-grün - eine derbe Enttäuschung!
+
+<posting id="228" author="moo"/>
+warum wird ein so grosser Unterschied gemacht zwischen Haschisch und Alkohol. Alkohol ist ebenso, wenn nicht noch verheerender und wird ironischerweise trotzdem von der Gesellschaft akzeptiert
+
+<posting id="229" author="sebastian"/>
+csu
+
+<posting id="230" author="Günther Beckstein"/>
+Prävention, Repression und Hilfe auch zum Ausstieg sind Kernpunkte der Drogenpolitik. Schweiz und Niederlande sind wichtigste Lieferländer nicht nur für ..
+
+<posting id="231" author="Kolja Raube"/>
+DAs Bundesverfassungsgericht hat soeben in einem Urteil wieder bestätigt: Der Eigenbedarf von Rauschgift ist kein Grund für einen Führerescheinentzug... WAs ist dagegen einzuwenden?, Herr BEckstein
+
+<posting id="232" author="apuzzili"/>
+was hat das ganze jetzt mit sicherheit zu tun? oder freiheit?
+
+<posting id="233" author="Günther Beckstein"/>
+Haschisch sondern auch Heroin....
+
+<posting id="234" author="Günther Beckstein"/>
+Haschisch ist eine gefährliche Einstiegsdroge.
+
+<posting id="235" author="Cem Özdemir"/>
+Wir beiden werden die Umkehr in der Cannabis-Politik in Deutschland noch genauso erleben, wie die Anerkennung der Eingetr. Lebenspartnerschaft gekommen ist...
+
+<posting id="236" author="Bakunin"/>
+Was hat Haschisch mit "Ausstieg" zu tun?
+
+<posting id="237" author="moderator"/>
+Eine weitere Frage an die beiden Kontrahenten auf dem virtuellen Podium: zap:
+Welche Freiheitsrechte dürfen auf keinen Fall durch eine schärfere Sicherheitspolitik eingeschränkt werden?
+
+<posting id="238" author="Cem Özdemir"/>
+Wissenschaft sagt etwas anderes!
+
+<posting id="239" author="Günther Beckstein"/>
+Die Prävention gegenüber Alltagsdrogen ist wichtig, darf aber nicht dazu führen, weitere Drogen zu verbreiten.
+
+<posting id="240" author="apuzzili"/>
+Sie kennen sich aber ziemlich gut aus, Herr Beckstein, Schweiz und Heroin?
+
+<posting id="241" author="Bakunin"/>
+"Einstiegsdroge" - vielleicht, weil man es im selben Milieu wie angeblich "harte" Drogen bekommt?
+
+<posting id="242" author="Cem Özdemir"/>
+Denken Sie dabei ans Oktoberfest?
+
+<posting id="243" author="apuzzili"/>
+Heyyyyyyy! Frage beantworten! Ignoranten!!!!!!!
+
+<posting id="244" author="Lukas"/>
+ich habe einige zeit in den niedelanden gelebt und lebe jetzt an der grenze zu den niederlanden (bei groningen). die niederländer bedauern heute ihre entscheidung die freigabe von haschisch. wie soll es mit uns werden? wir liegen in der mitte europas und drogen werden noch stärker durch unser land wandern.
+
+<posting id="245" author="Günther Beckstein"/>
+ZU 237: ...
+
+<posting id="246" author="Cem Özdemir"/>
+Zu zap: Die Freiheit des Einzelnen ist ein heiliges Gut in unserer Demokratie. Einschränkungen bei unserer Verfassung gibts mit uns nicht
+
+<posting id="247" author="Günther Beckstein"/>
+Verhältnismässigkeitsprinzip hat höchsten Rang. Der Grundrechtskatalog ist unser Maßstab, aber auch mehr an die Opfer von Kriminalität denken.
+
+<posting id="248" author="moderator"/>
+Es gibt auch eine Zeit vor der Gefährdung. Was kann Prävention leisten. Tmachui fragt:
+Nach dem 11. September wird viel über die Präventionsstrategien nachgedacht. Sehen Sie Gefahren für den Rechtsstaat und Demokratie aufgrund zunehmender Befugnisse des Staates in individuelle Rechte einzugreifen?
+
+<posting id="249" author="Kolja Raube"/>
+Herr Beckstein, sie werden zugeben müssen, daß München eine der Drogenhochburgen Deutschlands ist? Was ist an Ihrer Politik fehlgeschlagen?
+
+<posting id="250" author="Bakunin"/>
+Zu 246: Außer beim Recht auf freie Verfügungsgewalt über den eigenen Körper, Stichwort wieder: Recht auf Rausch!
+
+<posting id="251" author="Günther Beckstein"/>
+Ergänzung zu 247: Zu Die Freiheit des Kriminellen muss eingeschränkt werden.
+
+<posting id="252" author="Cem Özdemir"/>
+Bin froh, dass die Bundesregierung in ihrem jährlichen Sicherheitsbericht vor allem auf die Prävention abhebt
+
+<posting id="253" author="sebastian"/>
+@lukas: da kenne ich andere niederländer
+
+<posting id="254" author="Günther Beckstein"/>
+Zu 248: Nein.
+
+<posting id="255" author="Cem Özdemir"/>
+248: Einige der Befugnisse für die Dienste im Sicherheitspaket haben wir bewußt zeitlich befristet. So können wir schauen, ob sie noch notwendig sind.
+
+<posting id="256" author="Kolja Raube"/>
+Drogen und Doping liegen eng beieinander: GIbt es Pläne HErrn BEcksteins für eine zkünftige Sportpolitik?
+
+<posting id="257" author="moderator"/>
+Nach dem 11.September 2001, Sicherheitspaket I und II etc. stellt sich dringlicher als je die Frage: Wer kontrolliert die Kontrolleure?
+
+<posting id="258" author="moderator"/>
+Bitte Herr Beckstein zuerst.
+
+<posting id="259" author="Günther Beckstein"/>
+Zu 257: Dienstaufsicht, Parlament, Gerichte....
+
+<posting id="260" author="Günther Beckstein"/>
+und Öffentlichkeit. Daran hat sich nichts geändert.
+
+<posting id="261" author="Cem Özdemir"/>
+Endlich gibt es starke Kontrollrechte im Parlament. Wie sieht es im bayr. Landtag aus? Die Oppositionspartei Grüne darf nicht kontrollieren!
+
+<posting id="262" author="Günther Beckstein"/>
+Jeder nach seinen Fähigkeiten und Stärken.
+
+<posting id="263" author="Lukas"/>
+haben sie beide mal erlebt wie es ist auf einem schulhof voller fixerspritzen und kiffenden schülern zu sein?
+
+<posting id="264" author="Cem Özdemir"/>
+Ein tolles Demokratieverständnis Herr Minister!
+
+<posting id="265" author="Bakunin"/>
+"Wer kontrolliert die Kontrolleure" - richtig. Aber daran sieht man auch, auf welcher Basis das ganze System beruht - Mißtrauen statt Vertrauen. Jeder ist ein potenzieller Verbrecher, auch sie, Herr Özdemir und Herr Beckstein!
+
+<posting id="266" author="Günther Beckstein"/>
+Wie vom Verfassungsgericht bestätigt.
+
+<posting id="267" author="Cem Özdemir"/>
+Macht es nicht besser
+
+<posting id="268" author="Kolja Raube"/>
+DAs Bundesverfassungsgericht rechnet, so Herr Papier, in einem Spiegel-Interview diesen Montag, mit einer Konfrontation zwischen Freiheit und Sicherheit in zukünftigen Verfassungsbeschwerden - will der GEsetzgeber dies dem Gericht überlassen?
+
+<posting id="269" author="Bakunin"/>
+@Lukas: Aber du hast das bestimmt schon oft erlebt...
+
+<posting id="270" author="moderator"/>
+Noch einmal die Frage. Die Union will ein Sicherheitspaket III: Reichen nicht die bisherigen Gesetze aus. Werden Sie vielleicht nur nicht konsequent genug angewandt?**
+
+<posting id="271" author="Günther Beckstein"/>
+Vollzug muss perfektioniert werden aber es verbleiben gesetzliche Lücken, die wir uns nicht leisten können...
+
+<posting id="272" author="Cem Özdemir"/>
+Die Union wird immer neue Sicherheitspakete fordern. Ihr Konzept beschränkt sich leider weitgehend auf Gesetzesverschärfungen.
+
+<posting id="273" author="dijalkwe"/>
+Haben Sie Herr Beckstein auch Gelder erhalten?
+
+<posting id="274" author="Günther Beckstein"/>
+Dass wir von Sicherheit etwas verstehen - im Unterschied zu den Grünen - ist Allgemeingut.
+
+<posting id="275" author="Cem Özdemir"/>
+Allgemein ja, aber gut?
+
+<posting id="276" author="dijalkwe"/>
+Von Unterdrueckung aber nicht Sicherheit
+
+<posting id="277" author="Günther Beckstein"/>
+In Bayern lebt man sicher und frei, deswegen fühlen sich so viele Menschen bei uns wohl, auch Ausländer.
+
+<posting id="278" author="moderator"/>
+Liebe Podiumsgäste! Die Zeit für das erste tacheles.02spezial Duell ist leider bereits abgelaufen. Wir bedanken uns im Namen von tagesschau.de, WAHLTHEMEN.DE und politik-digital.de für IhreTeilnahme sowie die vielen Fragen und Kommentare. Herzlichen Dankbesonders an Herrn Minister Dr. Günther Beckstein und Cem Özdemir für Ihre Bereitschaft, an diesem "virtuellen Podium"teilzunehmen. Wir hoffen, dass es auch für Sie interessant war! Wer Interesse hat, weiter zu diskutieren, ist herzlich eingeladen, amDebatten-Forum zum Thema: "Sicher oder frei?" bei WAHLTEHMEN.DEteilzunehmen.
+
+<posting id="279" author="Kolja Raube"/>
+BAyern ist nicht BErlin
+
+<posting id="280" author="Bakunin"/>
+Herr Beckstein, wieso fehlt ihnen das Urvertrauen in den Menschen? Was ist bei ihnen schiefgelaufen, daß sie so ein Misanthrop sind?
+
+<posting id="281" author="Kolja Raube"/>
+BAyern ist nicht BErlin
+
+<posting id="282" author="apuzzili"/>
+zu 275: der war jetzt weniger witzig, cem...
+
+<posting id="283" author="Bakunin"/>
+Zu 277: Ja, vor allem die Abgeschobenen!!!
+
+<posting id="284" author="Günther Beckstein"/>
+An alle Chat-Teilnehmer besten Dank.
+
+<posting id="285" author="Cem Özdemir"/>
+Bis zum nächsten "Treffen" Herr Beckstein. Nach vielen gem. Streitgesprächen war dies unser erster Chat, wenn ich mich nicht irre. Hoffe es war auch für die Chatter interessant . Dank auch an die Veranstalter. Ciao
diff --git a/src/test/resources/empirist_gold_standard/test_cmc/raw/cmc_test_social_chat.txt b/src/test/resources/empirist_gold_standard/test_cmc/raw/cmc_test_social_chat.txt
new file mode 100644
index 0000000..a1403f2
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_cmc/raw/cmc_test_social_chat.txt
@@ -0,0 +1,719 @@
+<posting id="1-258" author="Bochum" />
+beim ertsen umzug hat nur einer deutsch gesprochen
+
+<posting id="1-259" author="Shadok" />
+heya Asja :)
+
+<posting id="1-260" author="Emon" />
+dennoch würde ich mir bei kreativität nicht mehr als ne 2 geben
+
+<posting id="1-262" author="anonym" />
+marc30 hat nen Vollschaden und übersteht den Nachmittag ohne Probleme :)
+
+<posting id="1-263" author="Asja" />
+hallo shadok :-)
+
+<posting id="1-264" author="zora" />
+handwerklich kann ich selber
+
+<posting id="1-265" author="anonym" />
+Lantonie gibt Emon auch eine eins in Einfallsreichtum.
+
+<posting id="1-266" author="Lantonie" />
+:))
+
+<posting id="1-267" author="Erdbeere$" />
+*g* @ marc
+
+<posting id="1-268" author="quaki" />
+lach marc
+
+<posting id="1-269" author="TomcatMJ" />
+naja,dann heissts wohl mal rumtelefonieren und nachfragen da umzugsfiormen selten im i8nternet stehen@zora
+
+<posting id="1-270" author="Bochum" />
+klar zora
+
+<posting id="1-271" author="Pharao" />
+vollschaden gleich totalschaden marc?
+
+<posting id="1-272" author="Emon" />
+na okay... *1 anne stirn bapp*
+
+<posting id="1-273" author="zora" />
+die stehen da schona ber ohne preise
+
+<posting id="1-274" author="Bochum" />
+aber wie kommste mit den 1,51 an die lampen und hängeschränke?? :;-))
+
+<posting id="1-275" author="zora" />
+leiter
+
+<posting id="1-276" author="zora" />
+*g*
+
+<posting id="1-277" author="marc30" />
+Hab schon ne richtig dicke Beule um den bauchnabel rum...
+
+<posting id="1-278" author="zora" />
+auserdem bin ich größer!
+
+<posting id="1-279" author="Emon" />
+marc, die beuel um den bauchnabel nennt sichplauze
+
+<posting id="1-280" author="Emon" />
+; )
+
+<posting id="1-281" author="Lantonie" />
+Ach, die eins ist dir wohl egal, emon. *wieder weg nehm*
+
+<posting id="1-282" author="Lantonie" />
+*pöööh ruf*
+
+<posting id="1-284" author="quaki" />
+eine beule??
+
+<posting id="1-285" author="Bochum" />
+wie kommste an die sprossen??
+
+<posting id="1-286" author="quaki" />
+am nabel??
+
+<posting id="1-287" author="marc30" />
+Danke Emon, war mir grad entfallen....
+
+<posting id="1-288" author="marc30" />
+*hmpf*
+
+<posting id="1-289" author="quaki" />
+son bierbauch??
+
+<posting id="1-290" author="Emon" />
+: )
+
+<posting id="1-291" author="Lantonie" />
+: )
+
+<posting id="1-292" author="quaki" />
+*kopfkratz*
+
+<posting id="1-293" author="Emon" />
+mit stützrädchen, quaki
+
+<posting id="1-294" author="marc30" />
+klar, nen richtig dicken :)
+
+<posting id="1-295" author="Shadok" />
+*gähn* noch 15 kostbare minuten bis zur mittagspause
+
+<posting id="1-296" author="Lantonie" />
+quaki ist sicher in der mauser.
+
+<posting id="1-299" author="marc30" />
+*fettbin*
+
+<posting id="1-300" author="Shadok" />
+wb stoeps
+
+<posting id="1-301" author="Lantonie" />
+*vermutung äusser*
+
+<posting id="1-302" author="marc30" />
+*schwabbel*
+
+<posting id="1-303" author="Shadok" />
+*festbind*
+
+<posting id="1-304" author="stoeps" />
+öhöööööö*
+
+<posting id="1-306" author="anonym" />
+Lantonie heiratet Thor....
+
+<posting id="1-307" author="TomcatMJ" />
+re stoerps
+
+<posting id="1-308" author="Lantonie" />
+:))
+
+<posting id="1-309" author="Lantonie" />
+Lohnt das?
+
+<posting id="1-310" author="Thor..." />
+stoeps ist etwas unstetig *gg*
+
+<posting id="1-311" author="Asja" />
+hi stoeps
+
+<posting id="1-312" author="quaki" />
+*korsettsuch*
+
+<posting id="1-313" author="Lantonie" />
+Nein. Aber, immerhin, ein Landsmann.
+
+<posting id="1-314" author="stoeps" />
+reee :-)
+
+<posting id="1-315" author="Lantonie" />
+Das ist selten genug.
+
+<posting id="1-316" author="Thor..." />
+ui lanto *gg*
+
+<posting id="1-317" author="Emon" />
+kommt drauf an, wieviel geld thor hat ; )
+
+<posting id="1-318" author="quaki" />
+lantonie heiratet thor??
+
+<posting id="1-319" author="Lantonie" />
+Ich verdiene mein eigenes Geld.
+
+<posting id="1-320" author="quaki" />
+juhuuuuuu
+
+<posting id="1-321" author="Lantonie" />
+quaki?
+
+<posting id="1-323" author="zora" />
+wos? *eifersüchtel*@lanto
+
+<posting id="1-325" author="Shadok" />
+Genau, Lanto ist selbstständig
+
+<posting id="1-326" author="stoeps" />
+lanto ist ne gute partie
+
+<posting id="1-327" author="Lantonie" />
+Es gibt Entenbraten zur Hochzeit.
+
+<posting id="1-328" author="Thor..." />
+umso besser lanto *gg* ich hab nämlich keins
+
+<posting id="1-329" author="anonym" />
+stoeps heiratet lanto
+
+<posting id="1-330" author="anonym" />
+Emon heiratet seinen intellekt...
+
+<posting id="1-331" author="Shadok" />
+Dafür kann se nich kochen ;p
+
+<posting id="1-332" author="zora" />
+emon kocht?
+
+<posting id="1-334" author="Lantonie" />
+Ich kann kochen!!
+
+<posting id="1-335" author="Lantonie" />
+*frechheit*
+
+<posting id="1-336" author="Emon" />
+oh nein, er verweigert mir die gefolgschaft
+
+<posting id="1-337" author="anonym" />
+Shadok heiratet quaki...
+
+<posting id="1-338" author="zora" />
+in den niederlanden will sich doch jetzt ne studentin selber heiraten
+
+<posting id="1-339" author="Lantonie" />
+Ich kann sogar sehr gut kochen!
+
+<posting id="1-340" author="stoeps" />
+lanto?
+
+<posting id="1-341" author="TomcatMJ" />
+vor wut?*G*
+
+<posting id="1-342" author="Lantonie" />
+*allerhand*
+
+<posting id="1-343" author="Lantonie" />
+*schimpf*
+
+<posting id="1-345" author="mieze" />
+rehi
+
+<posting id="1-346" author="Lantonie" />
+*shadok böse anguck*
+
+<posting id="1-347" author="Thor..." />
+ich kann besser kochen *gg*
+
+<posting id="1-348" author="Lantonie" />
+reee mieze.
+
+<posting id="1-349" author="Emon" />
+zora, das ist ne aktionskünstlerin
+
+<posting id="1-350" author="TomcatMJ" />
+hi mieze
+
+<posting id="1-351" author="Bochum" />
+wer es sich selber machen kanmn, kann sich auch selber heiraten
+
+<posting id="1-352" author="Lantonie" />
+Ja, geht denn das zora?
+
+<posting id="1-353" author="anonym" />
+lanto mag stoeps net heiraten
+
+<posting id="1-354" author="anonym" />
+Thor... ist großgrundbesitzer und hat ein haus
+
+<posting id="1-355" author="Emon" />
+die muss sowas machen wegen pr
+
+<posting id="1-356" author="Emon" />
+; )
+
+<posting id="1-357" author="Shadok" />
+..und verkauft sie dann an polnische Einwanderer...für gutes Geld ;p
+
+<posting id="1-358" author="marc30" />
+ist ne gespaltene Persönlichkeit...
+
+<posting id="1-359" author="mieze" />
+toller Spruch
+
+<posting id="1-360" author="Emon" />
+tag miez
+
+<posting id="1-361" author="anonym" />
+Lantonie mag doch nur einen Mann haben, stoeps.
+
+<posting id="1-362" author="stoeps" />
+mist
+
+<posting id="1-363" author="stoeps" />
+*mutier*
+
+<posting id="1-364" author="stoeps" />
+tadaaaa
+
+<posting id="1-365" author="mieze" />
+hallo Emon
+
+<posting id="1-366" author="marc30" />
+*remiezmiez*
+
+<posting id="1-367" author="stoeps" />
+*g*
+
+<posting id="1-368" author="mieze" />
+remarcmarc
+
+<posting id="1-369" author="Lantonie" />
+Und, mit zora habe ich eine dreckige Affaire haben wir beschlossen.
+
+<posting id="1-370" author="Lantonie" />
+:)))
+
+<posting id="1-371" author="anonym" />
+Thor... läßt sich nicht haben
+
+<posting id="1-372" author="zora" />
+oder eine Frau? *hoffnung schöpf*
+
+<posting id="1-373" author="Lantonie" />
+*lach*
+
+<posting id="1-374" author="zora" />
+juhuu auch gut *sss*
+
+<posting id="1-375" author="stoeps" />
+ich denke zora ist deine mama
+
+<posting id="1-376" author="Thor..." />
+zora du alte lesbe *g*
+
+<posting id="1-377" author="stoeps" />
+was denn nun?
+
+<posting id="1-378" author="anonym" />
+Lantonie ist schnell weg.
+
+<posting id="1-379" author="Lantonie" />
+:))
+
+<posting id="1-380" author="Lantonie" />
+*wink*
+
+<posting id="1-381" author="mieze" />
+Thor, das ist falsch.. Es muss heissen: Thor will man nicht haben
+
+<posting id="1-382" author="zora" />
+wir sind ne verlotterte familie *g*
+
+<posting id="1-384" author="stoeps" />
+bye
+
+<posting id="1-385" author="anonym" />
+Emon gibt lanto und zora seife
+
+<posting id="1-386" author="Thor..." />
+boa mieze
+
+<posting id="1-387" author="zora" />
+ich bin net alt thor!
+
+<posting id="1-388" author="Bochum" />
+umzugswagen sind in der woche billiger zora
+
+<posting id="1-389" author="mieze" />
+ja, Thor?
+
+<posting id="1-390" author="Shadok" />
+zora is nich lesbisch...sie mag auch männliche bierdosen
+
+<posting id="1-391" author="Emon" />
+*l*
+
+<posting id="1-392" author="zora" />
+*nick* bochum
+
+<posting id="1-393" author="anonym" />
+Faryen-Angle will auch los
+
+<posting id="1-394" author="Thor..." />
+ich bin halt ein sein typ, kein haben typ
+
+<posting id="1-395" author="zora" />
+ohne kilometer wäre prima, die hauen halt so rein
+
+<posting id="1-396" author="marc30" />
+Bye faryen
+
+<posting id="1-397" author="mieze" />
+aha. Thor *gg*
+
+<posting id="1-398" author="Faryen-Angle" />
+bis bald...
+
+<posting id="1-399" author="TomcatMJ" />
+cya faryen
+
+<posting id="1-400" author="anonym" />
+Thor... empfiehlt fromm als lektüre und günther anders
+
+<posting id="1-401" author="mieze" />
+und was soll das genau heissen?
+
+<posting id="1-402" author="Bochum" />
+dreh die tachowelle ab :-))
+
+<posting id="1-404" author="quaki" />
+bün ich nu schon vörheuratet??
+
+<posting id="1-405" author="stoeps" />
+marc?
+
+<posting id="1-406" author="Bochum" />
+oder fahr rückwärts....
+
+<posting id="1-407" author="mieze" />
+aha.. den Günther also anders.. Wie denn?
+
+<posting id="1-408" author="Emon" />
+zora, verkauf doch alles was du hsat und kauf dafür neues für deine buzze. sparste den umzug
+
+<posting id="1-410" author="marc30" />
+ja, schdöbbs?
+
+<posting id="1-411" author="Emon" />
+; )
+
+<posting id="1-412" author="stoeps" />
+*zwick*
+
+<posting id="1-413" author="zora" />
+super bochum *lach*
+
+<posting id="1-414" author="stoeps" />
+*g*
+
+<posting id="1-415" author="marc30" />
+aua
+
+<posting id="1-416" author="stoeps" />
+:-P
+
+<posting id="1-417" author="zora" />
+und privates und bücher und so?
+
+<posting id="1-418" author="marc30" />
+/ig schdöbbs
+
+<posting id="1-419" author="Bochum" />
+oder kauf was für 100 euro im parktiker
+
+<posting id="1-420" author="mieze" />
+ach ja.. zora.. Herzlichen Glückwunsch noch nachträglich :o)
+
+<posting id="1-422" author="zora" />
+danke mieze :)
+
+<posting id="1-423" author="stoeps" />
+*pieks*
+
+<posting id="1-426" author="quaki" />
+*autsch*
+
+<posting id="1-427" author="quaki" />
+nu hat schtöps mich auch erwischt
+
+<posting id="1-428" author="Bochum" />
+dann kannst nne leihwagen haben
+
+<posting id="1-429" author="Emon" />
+boah... ich bekomm echt augenkrebs von bochum... *augenreib*
+
+<posting id="1-430" author="Diddlchen" />
+Tagchen
+
+<posting id="1-431" author="anonym" />
+stoeps fuchtelt mal bissel mit der nadel rum
+
+<posting id="1-432" author="mieze" />
+Emon, ne Sonnenbrille hilft *g*
+
+<posting id="1-433" author="quaki" />
+ich auch aba bei mir ändert er nix der bochum
+
+<posting id="1-435" author="marc30" />
+können wir den Club der gezwickten aufmnachen, quaki
+
+<posting id="1-436" author="Thor..." />
+ich vom has emon *g*
+
+<posting id="1-437" author="zora" />
+echt bochum? hmmm
+
+<posting id="1-439" author="Thor..." />
+hasv
+
+<posting id="1-440" author="stoeps" />
+*stocher*
+
+<posting id="1-441" author="mieze" />
+hallöchen Diddlchen
+
+<posting id="1-442" author="nudelsuppenstern" />
+Hallooo.
+
+<posting id="1-443" author="Erdbeere$" />
+hello sternchen
+
+<posting id="1-444" author="Diddlchen" />
+Hi mieze
+
+<posting id="1-445" author="anonym" />
+zwickizwackimarc30quaki
+
+<posting id="1-446" author="nudelsuppenstern" />
+Hey, hallo Sternchen. *lächel*
+
+<posting id="1-447" author="anonym" />
+Bochum ändert nix
+
+<posting id="1-448" author="quaki" />
+hi stern
+
+<posting id="1-449" author="anonym" />
+TomcatMJ weicht mal stoeps's nadel aus...
+
+<posting id="1-451" author="marc30" />
+Hi Sususte
+
+<posting id="1-452" author="Pharao" />
+na erdbeere alles bestens?
+
+<posting id="1-453" author="Emon" />
+hsv heisst dat
+
+<posting id="1-454" author="marc30" />
+Nususte
+
+<posting id="1-455" author="nudelsuppenstern" />
+öhm, sternchen bin ja ich... *verwirrt guck*
+
+<posting id="1-457" author="Thor..." />
+tach nss
+
+<posting id="1-458" author="quaki" />
+jep bist dudu
+
+<posting id="1-459" author="nudelsuppenstern" />
+Hallo Thor,
+
+<posting id="1-460" author="marc30" />
+Hi engelchen :)
+
+<posting id="1-461" author="stoeps" />
+keine chance tom...dich stocher ich als erstes damit aus dem chat
+
+<posting id="1-462" author="stoeps" />
+*g*
+
+<posting id="1-463" author="Erdbeere$" />
+ja immer noch pharao
+
+<posting id="1-464" author="engelchen" />
+hi ihr süßen
+
+<posting id="1-465" author="Emon" />
+was tun
+
+<posting id="1-466" author="Shadok" />
+mittagspause ;O) bye ihrs
+
+<posting id="1-468" author="nudelsuppenstern" />
+Also, nchmal: Hallo Erdbeerchen. :-)
+
+<posting id="1-469" author="engelchen" />
+und tschüssi
+
+<posting id="1-470" author="Erdbeere$" />
+*ggg*
+
+<posting id="1-472" author="Pharao" />
+na denn
+
+<posting id="1-473" author="TomcatMJ" />
+*aufn baum wieder raufflitz damit stoeps nich hinterherkann zum pieksen*
+
+<posting id="1-474" author="Pharao" />
+alles prima
+
+<posting id="1-475" author="Asja" />
+auch off geh
+
+<posting id="1-477" author="Thor..." />
+ehefrauen sind wie essen in der kantine
+
+<posting id="1-479" author="TomcatMJ" />
+bye asja
+
+<posting id="1-480" author="Asja" />
+Bye leutz
+
+<posting id="1-483" author="Bochum" />
+ist das schnell
+
+<posting id="1-484" author="mieze" />
+re Happy
+
+<posting id="1-485" author="Thor..." />
+in beiden stochert man lustlos herum
+
+<posting id="1-486" author="stoeps" />
+*häng*
+
+<posting id="1-487" author="anonym" />
+Bochum wird schlecht
+
+<posting id="1-488" author="Happy" />
+re :-)
+
+<posting id="1-489" author="Happy" />
+Hallo Bochum
+
+<posting id="1-490" author="anonym" />
+quaki wirft schtöps nach oben
+
+<posting id="1-491" author="anonym" />
+Erdbeere$ ist ein Stern im Erdbeerkosmos
+
+<posting id="1-492" author="Bochum" />
+haaly happo
+
+<posting id="1-493" author="Happy" />
+*g+
+
+<posting id="1-494" author="Pharao" />
+tschööö dollar-erdbeere und andere
+
+<posting id="1-495" author="TomcatMJ" />
+*ast mit stoeps dran brechen seh*ich sag doch son baum is nix für stöpse....
+
+<posting id="1-496" author="Bochum" />
+erdbeere ist ne frucht im pudding
+
+<posting id="1-498" author="Thor..." />
+es hakt etwas hier
+
+<posting id="1-499" author="Happy" />
+Bochum: das ist hier so schnell..da kommen eben alte Säcke wie Du nicht mehr mit *fg+
+
+<posting id="1-500" author="quaki" />
+lach
+
+<posting id="1-501" author="Pharao" />
+bye
+
+<posting id="1-502" author="stoeps" />
+der ast bricht nicht
+
+<posting id="1-503" author="Erdbeere$" />
+kennt ihr diese puppen mit den riesen augen?
+
+<posting id="1-504" author="TomcatMJ" />
+*hinterherguck wie stoeps in den teich am fuße des baums plumpst*
+
+<posting id="1-505" author="stoeps" />
+*g*
+
+<posting id="1-506" author="Pharao" />
+bye
+
+<posting id="1-509" author="anonym" />
+stoeps ist noch dahaaaa *g*
+
+<posting id="1-510" author="marc30" />
+rääää anscha :)
+
+<posting id="1-512" author="quaki" />
+anschaaaa
+
+<posting id="1-513" author="anonym" />
+Bochum ist schnell
+
+<posting id="1-514" author="TomcatMJ" />
+ja,mit dem ast in der hand im teich am rumsitzen@stoeps*G*
+
+<posting id="1-515" author="Bochum" />
+schnell weg
+
+<posting id="1-516" author="Erdbeere$" />
+bochum ist ne stadt im pott
+
+<posting id="1-517" author="Happy" />
+;-)
+
+<posting id="1-518" author="marc30" />
+schnell müde..
+
+<posting id="1-519" author="quaki" />
+Bochum is dunkelgrün???
+
+<posting id="1-520" author="anonym" />
+Happy macht sich jetzt auch weg...
+
+<posting id="1-521" author="stoeps" />
+was tom so alles sieht...die 5000 stunden scheinen ihn zu verwirren
+
+<posting id="1-522" author="marc30" />
+re Häbbie :)
+
+<posting id="1-523" author="Thor..." />
+was fürn pott?
+
+<posting id="1-524" author="Erdbeere$" />
+ne grau
+
+<posting id="1-525" author="stoeps" />
+*g*
+
+<posting id="1-526" author="quaki" />
+hi happy
diff --git a/src/test/resources/empirist_gold_standard/test_cmc/raw/cmc_test_twitter.txt b/src/test/resources/empirist_gold_standard/test_cmc/raw/cmc_test_twitter.txt
new file mode 100644
index 0000000..36f9c6e
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_cmc/raw/cmc_test_twitter.txt
@@ -0,0 +1,147 @@
+<posting author="Deutsches Textarchiv @textarchiv" id="17. Nov" />
+Jetzt beginnt die Konferenz mit der Begrüßung durch Alexander Geyken. Herzlicher Dank an das gesamte Organisationsteam! #dtaclarin14
+
+<posting author="Deutsches Textarchiv @textarchiv" id="17. Nov" />
+CLARIN-D-Helpdesk Ticketing-System; berichtetes Problem wird binnen 24h gelöst/an das richtige CLARIN-D-Center weitergeleitet #dtaclarin14
+
+<posting author="Deutsches Textarchiv @textarchiv" id="17. Nov" />
+auch CLARIN-D übergreifende federated content search http://weblicht.sfs.uni-tuebingen.de/Aggregator/ in der Live-Demo #dtaclarin14
+
+<posting author="Deutsches Textarchiv @textarchiv" id="27. Juni" />
+So sieht er aus, der #Siebenschläfer (Myoxus nitela). In: Carl Vogt: Zoologische Briefe. Bd. 2. Frankfurt, 1851. http://www.deutschestextarchiv.de/vogt_briefe02_1851/528 …
+
+<posting author="Deutsches Textarchiv @textarchiv" id="27. Juni" />
+Johann Wolfgang von Goethe: #Siebenschläfer. In: West-östlicher Divan. Stuttgart, 1819. http://www.deutschestextarchiv.de/goethe_divan_1819/245 … #lyrik
+
+<posting author="AUTOR" id="11. Mai 2011" />
+@RioTeam #semibk Die Tweets selbst werden nicht gelöscht, sind aber nach ein paar Tagen nur noch a.d Profilseiten der AutorInnen sichtbar...
+
+<posting author="AUTOR" id="11. Mai 2011" />
+@RioTeam #semibk Leider werden die Tweet-Verläufe zu einzelnen Hashtags nur für eine gewisse Zeit vorgehalten. ...
+
+<posting author="AUTOR" id="11. Mai 2011" />
+@DieMaJa22 @abcmaria #semibk Wir könnten ja ein "Gefällt mir"-Symbol erfinden. Wie wärs zB mit diesem: ^3 (Ikon für Daumen hoch und Hand ;)
+
+<posting author="AUTOR" id="11. Mai 2011" />
+#semibk Unter den empirischen Projekten im Seminar wird es übrigens auch 3 zu Twitter geben (die mittlerweile auch thematisch fixiert sind)
+
+<posting author="AUTOR" id="11. Mai 2011" />
+#semibk Auch die Frage nach sinnvollen Nutzungskontexten f.Twitter lohnt weitere Reflexion. Schauen Sie mal, was andere so damit machen!
+
+<posting author="AUTOR" id="11. Mai 2011" />
+#semibk ..dann aber auch immer dieFeststellung, dass es eben doch irgendwie anders sei. Tipp:Beziehen Sie Weblogs i.d. Überlegungen mit ein!
+
+<posting author="AUTOR" id="11. Mai 2011" />
+#semibk Ich lese IhreAnnäherungen,Beobachtungen,Vergleiche interessiert mit. Interessant ist u.a. derVgl. mit Chat,Facebook uind auchE-Mail
+
+<posting author="AUTOR" id="11. Mai 2011" />
+#semibk Wie ich sehe, kreisen viele von Ihnen um die Frage"Was ist Twitter eigentlich? Was ist ähnlich,was anders als in anderen Formen?"...
+
+<posting author="AUTOR" id="7. Mai 2011" />
+@Silja1987 #semibk Das Szenario solcher Polit-Chats ist z.B. in diesem Artikel beschrieben: http://tinyurl.com/6yldv5d (Abschnitt 5)
+
+<posting author="AUTOR" id="7. Mai 2011" />
+@Silja1987 #semibk ..Das wäre dann also eine bewusste Strategie. ...
+
+<posting author="AUTOR" id="7. Mai 2011" />
+@Silja1987 #semibk ..redaktionellen Vorauswahl chancenreicher sind, wenn sie sich eher an der geschr. Standardsprache orientieren. ...
+
+<posting author="AUTOR" id="7. Mai 2011" />
+@Silja1987 #semibk Entweder das ODER die Nutzer(zum. die erfahrenen)verwenden sie gar nicht, weil sie annehmen, dass ihre Beiträge bei der ..
+
+<posting author="AUTOR" id="7. Mai 2011" />
+@Mia1234 #semibk [3]soziale,institutionelle,individuelle. Zur indiv.Variation verweise ich nochmal aufLuckhardt: http://tinyurl.com/3umxkuh
+
+<posting author="AUTOR" id="7. Mai 2011" />
+@Mia1234 #semibk [2]am BspChats gezeigt) starkeHinweise darauf, dass(wie auch imRealLife) diverseFaktoren die sprVariation beeinflussen: ..
+
+<posting author="AUTOR" id="7. Mai 2011" />
+@Mia1234 #semibk [1] Das schließt direkt an die vorige Frage von @DieMaJa22 an. In jedem Fall gibt es (wie auch in der Sitzung ...
+
+<posting author="AUTOR" id="7. Mai 2011" />
+@DieMaJa22 #semibk Gute (und wichtige) Frage! Hab ich ja bereits in der Sitzung aufgegriffen!
+
+<posting author="AUTOR" id="7. Mai 2011" />
+@Montaaag #semibk DieseFrage spiele ich zurück indieRunde: Zu welchemHandlungsbereich gehört unsereKomm hier? Bildung?Freizeit?Mischung?
+
+<posting author="AUTOR" id="7. Mai 2011" />
+Da haben Sie mich jetzt aber echt erwischt @Kaf_fee ! *betretenzubodenblick* #semibk
+
+<posting author="AUTOR" id="7. Mai 2011" />
+@Mia1234 @Momo #semibk Hier noch mal ein Nachtrag zum Thema Digital Natives vs. Digital Immigrants: http://www.omnisophie.com/day_140.html
+
+<posting author="AUTOR" id="6. Mai 2011" />
+#semibk Und hier meine eigenen Eindrücke von unserer gestrigen Sitzung: http://blogfilet.wordpress.com/
+
+<posting author="AUTOR" id="6. Mai 2011" />
+#semibk OK,dies war der1.Teil meiner Anmerkungen zu Ihren Kommentaren a.d.gestrigen Sitzung.Später mehr.Gern dürfen Sie weiterdiskutieren :)
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@Mia1234' #semibk ZumKonzept Digital Natives(vs.Digital Immigrants) s. http://tinyurl.com/yldbvk3 u. Palfrey/Gasser2008 auf unsererLitliste
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@Momo #semibk "Beeinflusst Internetkomm Sprache im Alltag?" HäufigeFrage! EmpirUntersuchg schwierig. Einschätzg: http://tinyurl.com/5spl57v
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@3Liane Gibt es denn wirklich "DIE Chatsprache"? ->vgl.z.B.die gestern vorgestellteUntersuchung od. die Untersuchung aus Storrer2007 #semibk
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@3Liane Impuls f.d.weitereReflexion unsererTwitternutzung im Sem: Vor/Nachteile vonTweets vs. direkten mündl.Rückfragen/Kommentaren? #semibk
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@Mia1234 ... zur Weiterentwicklung der Erkenntnisse+Theorien zum Thema bzw. zur wiss.Sicht a.d. untersuchten Gegenstand zu leisten. #semibk
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@Mia1234 ..i.d.Kontext dessen stellen zu können,was zumThema schon herausgefunden wurde -und mit d.eigenenUnters dann einenBeitrag..#semibk
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@Mia1234 ... sicherzustellen,dass die eigeneUntersuchung neu+innovativ ist. Auch ist es immer gut,die eigeneUntersuchung ... #semibk
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@Mia1234 ..darüber,was es zumGegenstand schon fürPositionen+Befunde gibt,bevor man seine eigeneForschFrage eingrenzt -dies auch,um..#semibk
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@Mia1234 IdR ist es ja selten so,dass zu einemThema noch gar nichts geforscht wurde.Daher informiert man sich üblicherweise zuerst..#semibk
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@Hüpfy1989 Stimmt schon.Wenn man dieForsch.frage vernünftig(mitBlick a.d.Machbare) eingrenzt,können sie aber großen Gewinn bieten #semibk
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@RioTeam Direkta.d.Wall twittern geht nicht,sie bietet nur d.Vorteil,dass sie automat.updatet+man nicht klicken muss(praktisch imSem)#semibk
+
+<posting author="AUTOR" id="6. Mai 2011" />
+#semibk @melblue9 ..dann sehen Sie rechts oben imTweet ein Sprechblasen-Icon. Klicken Sie drauf, um sich denBezugsbeitrag anzeigen zu lassen
+
+<posting author="AUTOR" id="6. Mai 2011" />
+#semibk @melblue9 übrigens:Tipp für alle: Wenn einTweet eine Antwort auf einen anderen Tweet darstellt(so wie dieser hier,testweise),dann...
+
+<posting author="AUTOR" id="6. Mai 2011" />
+#semibk War ja weniger chaotisch als gedacht gestern - zumindest aus meiner (Doz.)Sicht.:) Werde jetzt mal noch ein paar Tweets beantworten.
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@seifenblase ..Mitgliedern IhrerGruppe erlaubt, Änderungen vorzunehmen, dann könnte einWiki eine guteWahl sein->s.z.B. http://de.wikia.com
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@seifenblase Zu Ihrer "privaten" Frage: Wenn Sies kostenlos UND einfach haben wollen, noch dazu in einem Format, das es auch anderen ...
+
+<posting author="AUTOR" id="5. Mai 2011" />
+#semibk sooo... hier der Link zu der selbst-updatenden "Twitterwall" für unsere heutige Sitzung: http://twitterwallr.com/semibk
+
+<posting author="AUTOR" id="5. Mai 2011" />
+@Kaf_fee #semibk "twitteriki" finde ich eine ungemein kreative Wortbildung (Typus: Wortkreuzung bzw. Kontamination)! :D
+
+<posting author="AUTOR" id="5. Mai 2011" />
+@seifenblase "sitze im Sudelbuch-Seminar - wer will mit sudeln" <- Fachfrage: Lässt sich Twitter als virtuelles Sudelbuch beschreiben? ;)
+
+<posting author="AUTOR" id="5. Mai 2011" />
+#semibk *zwitscher zwitscher* Schaun wir mal, obs "lustig" wird - hoffentlich wirds nicht zu chaotisch ;)
+
+<posting author="AUTOR" id="4. Mai 2011" />
+@MimiSchmitz @LaraMüller @xyzbaba aber schön, dass sie so fleißig testen! diese woche dürfen sie dann ja sogar i.d.sitzung twittern. ;)
+
+<posting author="AUTOR" id="4. Mai 2011" />
+@MimiSchmitz @LaraMüller @xyzbaba "irgendwie pass ich wegen dem TwitterZeug gar nich auf" <- also sowas, tststs^^
+
+<posting author="AUTOR" id="4. Mai 2011" />
+@xyzbaba "2011: mein erster tweed" <- Tweed or Tweet? Das ist die Frage! ;) -> s. http://tinyurl.com/65bd5ms vs http://tinyurl.com/63zup8w
+
diff --git a/src/test/resources/empirist_gold_standard/test_cmc/raw/cmc_test_whatsapp.txt b/src/test/resources/empirist_gold_standard/test_cmc/raw/cmc_test_whatsapp.txt
new file mode 100644
index 0000000..55da3e2
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_cmc/raw/cmc_test_whatsapp.txt
@@ -0,0 +1,181 @@
+<posting id="1366" author="Participant_7" dat="26. Okt., 23:08" />
+Schau mal, hab ich gestern von Janine bekommen. emojiQsmilingCatFaceWithHeartShapedEyes
+
+<posting id="1367" author="Participant_8" dat="26. Okt., 23:09" />
+Naaaaw wie süß! emojiQsmilingCatFaceWithHeartShapedEyes
+
+<posting id="1368" author="Participant_7" dat="26. Okt., 23:11" />
+Ich glaube, die war voll teuer..hab ich mich gleich voll schlecht gefühlt. emojiQloudlyCryingFace
+
+<posting id="1369" author="Participant_8" dat="26. Okt., 23:12" />
+ach ,das brauchst du doch nicht!
+
+<posting id="1370" author="Participant_8" dat="27. Okt., 11:23" />
+Huhu! Also ich hab jetzt vom 4rooms antwort bekommen, ist leider nur 18+ emojiQloudlyCryingFace
+
+<posting id="1371" author="Participant_7" dat="27. Okt., 11:35" />
+Also kommen wir leider nicht mit. emojiQloudlyCryingFace
+
+<posting id="1372" author="Participant_8" dat="27. Okt., 11:35" />
+Ja ,ist echt blöde...aber eben auch verständlich. Die können da eben nicht drauf achten ,ob sie was hartes trinkt oder nicht (da ists echt immer ziemlich voll) :(
+Aber donnerstag steht noch? Wann soll ich dann eigentlich rum kommen? ;)
+
+<posting id="1373" author="Participant_7" dat="27. Okt., 11:42" />
+Ja, das stimmt schon und am Donnerstag bin ich gegen 17 Uhr zuhause, aber du kannst gerne schon früher kommen, Nadine lässt dich rein. emojiQcatFaceWithWrySmile
+
+<posting id="1374" author="Participant_8" dat="27. Okt., 11:42" />
+Ok, alles klar :) ich freu mich schon!
+
+<posting id="1376" author="Participant_8" dat="28. Okt., 12:36" />
+Whaaaa emojiQsmilingCatFaceWithHeartShapedEyes ihr seid die geilsten!! Es ist sooo klasse!
+
+<posting id="1377" author="Participant_7" dat="28. Okt., 12:38" />
+Ich besser es jetzt mit worbla aus und am Donnerstag machen wir noch mehr davon. emojiQsmilingCatFaceWithHeartShapedEyes
+
+<posting id="1378" author="Participant_8" dat="28. Okt., 12:37" />
+Uuuuh ich liebe es!
+
+<posting id="1379" author="Participant_7" dat="28. Okt., 12:46" />
+Ich weiß, wir auch. emojiQsmilingCatFaceWithHeartShapedEyes
+
+<posting id="1380" author="Participant_8" dat="28. Okt., 12:45" />
+Hehe :)
+
+<posting id="1382" author="Participant_8" dat="28. Okt., 12:59" />
+Wie es einfaach total geil aussieht...
+
+<posting id="1384" author="Participant_7" dat="28. Okt., 13:25" />
+So jetzt bricht nichts mehr ab. emojiQcatFaceWithWrySmile
+
+<posting id="1385" author="Participant_8" dat="28. Okt., 13:25" />
+Umso besser - dann halten dir ja auch nen kampf aus xD
+
+<posting id="1386" author="Participant_7" dat="28. Okt., 13:25" />
+Und Fahrradbremsen holen wir nachher.
+
+<posting id="1387" author="Participant_8" dat="28. Okt., 13:25" />
+Uuuh *_*
+Wir müssen dann wirklich mal ausrechnen, was du dann noch von mir bekommst!
+
+<posting id="1388" author="Participant_7" dat="28. Okt., 13:27" />
+Ja, kein Problem. emojiQsmilingFaceWithSmilingEyes
+
+<posting id="1389" author="Participant_8" dat="28. Okt., 13:27" />
+Hehe :)
+
+<posting id="1390" author="Participant_7" dat="29. Okt., 8:36" />
+Lenaaaaa, alles alles Liebe zum Geburtstag. emojiQsmilingCatFaceWithHeartShapedEyes emojiQkissingCatFaceWithClosedEyes emojiQsmilingCatFaceWithHeartShapedEyes emojiQkissingCatFaceWithClosedEyes emojiQsmilingCatFaceWithHeartShapedEyes emojiQsmilingCatFaceWithHeartShapedEyes emojiQheavyBlackHeart emojiQheavyBlackHeart emojiQheavyBlackHeart
+
+<posting id="1391" author="Participant_8" dat="29. Okt., 9:45" />
+Dankeschön emojiQsmilingFaceWithSmilingEyes emojiQsmilingFaceWithSmilingEyes
+
+<posting id="1392" author="Participant_8" dat="30. Okt., 14:07" />
+Huhu! :)
+soll ich nachher noch irgendwas mitbringen? emojiQsmilingFaceWithSmilingEyes
+
+<posting id="1393" author="Participant_7" dat="30. Okt., 14:08" />
+Ach Quatsch, ich hole uns noch ein paar Donuts. emojiQwhiteSmilingFace
+
+<posting id="1394" author="Participant_8" dat="30. Okt., 14:11" />
+Haha, alles klar :) um 5 wars, ne?
+
+<posting id="1395" author="Participant_7" dat="30. Okt., 14:14" />
+Genau, bin dann kurz nach 5 auch da. emojiQsmilingFaceWithSmilingEyes
+
+<posting id="1396" author="Participant_8" dat="30. Okt., 14:14" />
+Guti :)
+
+<posting id="1397" author="Participant_7" dat="30. Okt., 16:47" />
+Bin jetzt auf dem Heimweg. emojiQkissingCatFaceWithClosedEyes
+
+<posting id="1398" author="Participant_8" dat="30. Okt., 16:54" />
+Guti :) ich komme ein paar minuten später, hab doch glatt die 7 verpasst xD
+
+<posting id="1399" author="Participant_7" dat="30. Okt., 17:09" />
+Kein Problem emojiQkissingFaceWithClosedEyes
+
+<posting id="1400" author="Participant_8" dat="30. Okt., 17:09" />
+Boaaah jetzt steht die doofe tram hier ewig an der wiebelstraße rum emojiQfaceWithLookOfTriumph
+
+<posting id="1401" author="Participant_7" dat="30. Okt., 17:10" />
+Kenn ich nur zu gut emojiQwearyFace
+
+<posting id="1402" author="Participant_8" dat="30. Okt., 17:11" />
+Vor allem...warum steht sie hier denn überhaupt so lange >_<
+
+<posting id="1403" author="Participant_7" dat="30. Okt., 17:16" />
+Wegen der doofen Baustelle, ist doch wieder nur einspurig. emojiQtiredFace
+
+<posting id="1404" author="Participant_8" dat="30. Okt., 17:16" />
+Hab ich eben schon gemerkt som schrott da xd
+
+<posting id="1405" author="Participant_7" dat="30. Okt., 17:19" />
+Ich plan da schon immer 10 Minuten extra ein. emojiQcatFaceWithWrySmile
+
+<posting id="1406" author="Participant_8" dat="30. Okt., 22:12" />
+So, zu hause angekommen, safe & sound ;)
+
+<posting id="1408" author="Participant_7" dat="1. Nov., 21:22" />
+Wie war das mit dem auf dem Rücken liegen? emojiQcatFaceWithWrySmile
+
+<posting id="1409" author="Participant_8" dat="1. Nov., 21:21" />
+Hahaha, sehr schön! :)
+
+<posting id="1411" author="Participant_8" dat="3. Nov., 20:46" />
+Guck mal, hab ich mir heute gekauft bei h&m :)
+
+<posting id="1412" author="Participant_7" dat="3. Nov., 22:09" />
+Ahhhhhhhhh wie süß! emojiQsmilingCatFaceWithHeartShapedEyes emojiQsmilingCatFaceWithHeartShapedEyes emojiQsmilingCatFaceWithHeartShapedEyes emojiQsmilingCatFaceWithHeartShapedEyes emojiQsmilingCatFaceWithHeartShapedEyes emojiQsmilingCatFaceWithHeartShapedEyes emojiQsmilingCatFaceWithHeartShapedEyes
+
+<posting id="1413" author="Participant_7" dat="3. Nov., 22:09" />
+Eine Eule! emojiQsmilingCatFaceWithHeartShapedEyes
+
+<posting id="1414" author="Participant_8" dat="3. Nov., 22:09" />
+Hihi :) jaaa, auch wenn sie etwas böse guckt ;)
+
+<posting id="1415" author="Participant_7" dat="3. Nov., 22:10" />
+Mal freundliche Augenbrauen mit Edding drauf. emojiQcatFaceWithTearsOfJoy emojiQcatFaceWithTearsOfJoy emojiQcatFaceWithTearsOfJoy emojiQcatFaceWithTearsOfJoy emojiQcatFaceWithTearsOfJoy
+
+<posting id="1416" author="Participant_8" dat="3. Nov., 22:11" />
+Haha - du willst wohl, dass sie aussieht wie janosch! XD
+
+<posting id="1417" author="Participant_7" dat="3. Nov., 22:14" />
+Mist, ertappt. emojiQcatFaceWithTearsOfJoy emojiQcatFaceWithTearsOfJoy emojiQcatFaceWithTearsOfJoy
+
+<posting id="1418" author="Participant_8" dat="3. Nov., 22:14" />
+Hihi :)
+Ich weiß nicht, welche perü ich für christa bestellen soll ._.
+
+<posting id="1419" author="Participant_7" dat="3. Nov., 22:16" />
+Ich schaue morgen mal rum, vielleicht find ich ja ne hübsche für dich. emojiQkissingFaceWithClosedEyes
+
+<posting id="1420" author="Participant_8" dat="3. Nov., 22:17" />
+:) ooh und ich hab ne weiße hose gefunden! Hab dir bei fb links geschickt :)
+
+<posting id="1421" author="Participant_7" dat="3. Nov., 22:20" />
+Alles klar, hab ich noch hab nicht gesehen. Hoffentlich gibts die auch in meiner Größe. emojiQcatFaceWithTearsOfJoy emojiQcatFaceWithTearsOfJoy emojiQcatFaceWithTearsOfJoy
+
+<posting id="1422" author="Participant_8" dat="3. Nov., 22:20" />
+Musst du mal schauen dann ,waren recht viele größen eig :)
+
+<posting id="1423" author="Participant_7" dat="3. Nov., 22:28" />
+Ja, schaue ich nachher gleich mal. emojiQsmilingCatFaceWithHeartShapedEyes
+
+<posting id="1424" author="Participant_8" dat="3. Nov., 22:27" />
+Hihi :)
+
+<posting id="1426" author="Participant_7" dat="4. Nov., 14:41" />
+Ahhhhhhh emojiQsmilingCatFaceWithHeartShapedEyes emojiQsmilingCatFaceWithHeartShapedEyes emojiQsmilingCatFaceWithHeartShapedEyes
+
+<posting id="1427" author="Participant_8" dat="4. Nov., 14:42" />
+Hihi :)
+
+<posting id="1429" author="Participant_8" dat="14. Nov., 21:02" />
+ emojiQsmilingFaceWithHeartShapedEyes ich bin sprachlos! Das sieht so toll aus!!
+
+<posting id="1430" author="Participant_7" dat="14. Nov., 21:03" />
+Das Metallspray ist total geil. emojiQsmilingFaceWithHeartShapedEyes emojiQsmilingFaceWithHeartShapedEyes emojiQsmilingFaceWithHeartShapedEyes emojiQsmilingFaceWithHeartShapedEyes ich bin jetzt wieder hoch motiviert.
+
+<posting id="1431" author="Participant_8" dat="14. Nov., 21:04" />
+Jaaaa es ist so toll emojiQsmilingFaceWithHeartShapedEyes emojiQsmilingFaceWithHeartShapedEyes
+
diff --git a/src/test/resources/empirist_gold_standard/test_cmc/raw/cmc_test_wiki_discussion.txt b/src/test/resources/empirist_gold_standard/test_cmc/raw/cmc_test_wiki_discussion.txt
new file mode 100644
index 0000000..d368fe7
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_cmc/raw/cmc_test_wiki_discussion.txt
@@ -0,0 +1,92 @@
+<posting author="Brummfuzius" id="13:37, 29. Mai 2005 (CEST)" />
+Das mit der Giftigkeit stimmt nicht. Und wenn es eine Kreuzspinnenart ist, kommen
+sie auch nicht rein; wenn doch, wäre das ihr Tod (Klima). Außerdem wird eine
+Kreuzspinne immer fliehen, wenn sie kann und wenn nicht, sich totstellen. Leider (von
+daher darf man sie nicht zu doll stören). Ich wünsch noch viel Spaß beim Beobachten!
+
+<posting author="84.162.29.103" id="22:18, 27. Sep 2006 (CEST)" />
+Also lasse ich die, die ich im Haus gefunden habe und in meinem Zimmer ansiedeln
+wollte, wohl doch frei... Will das arme Tier ja nicht umbringen...
+
+<posting author="Mhohner" id="10:37, 2. Jun. 2008 (CEST)" />
+Zur völligen Überraschung habe ich eine Kreuzspinne an unsererem Küchenfenster
+entdeckt. Sie scheint sich von unserem Trubel mit Katze, Hund und zwei
+Kindergartenkinder nicht stören zu lassen. Von totstellen keine Spur, sie läßt sich
+wunderbar beobachten. Ich frag mich nun wirklich wie lange ich sie nun als weiteres
+Haustier in meiner Küche dulden soll, eine wunderbares Spinnennetz am
+Küchenfenster irritiert schon etwas. Wie lange kann sie denn überleben??...
+hat mal jemand gehört, das der Biss einer Kreuzspinne in das Ohr gefährlicher sein soll, als in
+andere Körperstellen, bzw. nur dort überhaupt gefährlich sei?
+Die Idee ist wohl, dass die Haut am Ohr duenner ist und so von den Cheliceren
+leichter zu durchdringen ist. Gefaehrlicher macht das die Spinne aber nicht.
+
+<posting author="82.82.244.57" id="20:48, 8. Sep. 2009 (CEST)" />
+Es wird Zeit dass mal jemand schreibt dass die Kreuzspinne giftig ist. Dies ist ein
+Fakt. Der Biss ist giftig, wenn auch für den Menschen nicht tödlich, aber Schmerzen,
+Schwellungen und Hautrötungen sollten schon angegeben werden, wie bei der Wespe
+auch. Allergiker können ein echtes Gesundheitsproblem beim Biss einer Kreuzspinne
+bekommen. (Abgesehen davon finde ich diese Tiere faszinierend; meine Meinung)
+
+<posting author="Mhohner" id="10:30, 12. Sep. 2009 (CEST)" />
+Das wäre ziemlich redundant. Bis auf wenige Arten sind alle Spinnen giftig. Das muss
+man nicht bei jeder Art einzeln herausstellen. Allgemein ist das bei Webspinnen
+beschrieben.
+
+<posting author="Ariser" id="13:14, 24. Sep. 2009 (CEST)" />
+Klaviere sind übrigens lebensgefährlich. Wenn man unter einem durchgeht und es fällt
+runter, ist man hin. Für einen Allergiker ist in der Regel erst der zweite Kontakt mit
+dem Allergen gefährlich. Da ich bis jetzt von niemandem gehört habe, der auch nur
+einmal von einer Kreuzspinne gebissen worden wäre, halte ich es für
+wahrscheinlicher, vom Blitz erschlagen zu werden.
+
+<posting author="Madame" id="00:03, 26. Aug. 2010 (CEST)" />
+Sicher ist es redundant, zu erwähnen, daß Spinnen giftig sind. Und ja, Klaviere sind
+ebenso gefährlich. Und Autos erst... Aber mir hat man als Kind immer
+Horrorgeschichten gerade über Kreuzspinnen erzählt (Kreuz steht für Tod und so),
+und nur über Kreuzspinnen. Und damit bin ich vermutlich nicht allein, zumal die
+Viecher für deutsche Verhältnisse ganz schön groß werden. Ein kleiner Hinweis wäre
+also vielleicht doch nicht so verkehrt: Besorgte Eltern oder Kinder werden wohl eher
+nicht den erwähnten Artikel über Webspinnen aufrufen.
+
+<posting author="92.77.247.147" id="15:58, 26. Sep. 2010 (CEST)" />
+Und dein singer-songwriter stimmt mit der Begründung überhaupt nicht mehr überein. Nach deiner Version war er ein Solokünstler und dann kommt anschließend, dass er Gründungsmitglied der Band VU war???? Bitte mal vorher überlegen, ob solche Edits notwendig sind...
+
+<posting author="92.77.247.147" id="16:03, 26. Sep. 2010 (CEST)" />
+Deutliche Verschlimmbesserung...
+
+<posting author="Traeumer" id="16:05, 26. Sep. 2010 (CEST)" />
+Das ist eine ganz einfach Sache der Vergangenheit und der Gegenwart. Er WAR Gründungsmitglied, aber nun ist er Solokünstler und dabei Singer-Songwriter.
+
+<posting author="92.77.247.147" id="16:07, 26. Sep. 2010 (CEST)" />
+Mann - dann geht doch aber der gesamte Zusammenhang im Artikel "flöten", das musst du doch einsehen...
+
+<posting author="Traeumer" id="16:13, 26. Sep. 2010 (CEST)" />
+Die Einleitung beschreibt, was er ist (wenn es sich um eine lebendige Person handelt) und wodurch er bekannt wurde. Es ist Singer-Songwriter und war (Gründungs)mitglied von Velvet Underground. Alles weitere wird anschließend im Artikel geklärt.
+
+<posting author="92.77.247.147" id="16:17, 26. Sep. 2010 (CEST)" />
+Ok. Träum weiter: er hat immer - und tut dies auch heute noch, mit anderen Musikern zusammengearbeitet. http://www.youtube.com/watch?v=2w1g-idt-8U
+
+<posting author="Traeumer" id="16:20, 26. Sep. 2010 (CEST)" />
+Und was hat dies mit seiner derzeitigen Solokarriere zu tun? Du vergleichst hier ständig Äpfel mit Birnen
+
+<posting author="92.77.247.147" id="16:26, 26. Sep. 2010 (CEST)" />
+Mom tritt er mit Laurie Anderson und John Zorn auf...http://www.loureed.org/00/index.html. Das mit den Äppeln und Birnen ist mein Text - woher weißt du, das dort nur Lieder von L. Reed gespielt werden. Hast du ihn gefragt?
+
+<posting author="Traeumer" id="16:32, 26. Sep. 2010 (CEST)" />
+Was hat seine Kooperation mit anderen Musikern mit seiner Solokarriere zu tun? Willst du alles in die Einleitung packen? Lou Reed (*....) war von xx-yy Sänger, von bb-aa Gitarrist, von nn-aa Songwriter, von ee-ww Singer-Songwriter, von qq-zz Sänger, von rr-tt wieder Songwriter... Dafür ist der Artikel da und nicht die Einleitung.
+
+<posting author="92.77.247.147" id="16:34, 26. Sep. 2010 (CEST)" />
+Jetz wirst du aber komisch - dein Text ist "Müll", weil der Zusammenhang verloren geht - basta.
+
+<posting author="92.77.247.147" id="16:43, 26. Sep. 2010 (CEST)" />
+Außerdem hat das alles nix mit der Ausgangsfrage zu tun...du lenkst ab. Das mit dem "songwriter" und Phis ständigem Revertieren war völlig sinnlos.
+
+<posting author="92.77.247.147" id="16:51, 26. Sep. 2010 (CEST)" />
+Ich würd sowas auf VM melden. Die Übersetzung spricht eine deutliche Sprache...
+
+<posting author="92.77.247.147" id="17:32, 26. Sep. 2010 (CEST)" />
+Vor allem, weil sich ihre erste Version hier: http://de.wikipedia.org/w/index.php?title=Lou_Reed&diff=next&oldid=79503162 auch nicht im Duden befindet. "Songautor" gibt es schlichtweg nich...
+
+<posting author="92.77.253.64" id="19:39, 26. Sep. 2010 (CEST)" />
+Ist es nicht sinnvoller, dem Autoren mit Hinweisen aus meinem vorherigen Abschnitt die Optimierung des Artikels vorzuschlagen, statt sich in einem solchen Kleinkrieg zu zermürben? Was ist das hier für ein Projekt? Ermutigt ihn, statt ihm ständig irgenwelche "Knüppel zwischen die Beine" zu schmeißen...
+
diff --git a/src/test/resources/empirist_gold_standard/test_cmc/tokenized/cmc_test_blog_comment.txt b/src/test/resources/empirist_gold_standard/test_cmc/tokenized/cmc_test_blog_comment.txt
new file mode 100644
index 0000000..08fbf3f
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_cmc/tokenized/cmc_test_blog_comment.txt
@@ -0,0 +1,93 @@
+<posting author="siatsenetnetjeru" date="19. Oktober 2013 um 11:56" />
+*
+grins
+*
+Geht
+mir
+da
+wohl
+ähnlich
+.
+Ich
+bin
+nicht
+so
+der
+“
+Tabu-Mensch
+”
+.
+Ich
+respektiere
+es
+natürlich
+,
+wenn
+andere
+sie
+haben
+,
+aber
+ich
+überprüfe
+für
+mich
+sehr
+intensiv
+,
+ob
+sie
+für
+mich
+und
+meine
+Praxis
+wichtig
+und
+sinnvoll
+sind
+.
+Und
+natürlich
+geben
+mir
+das
+auch
+die
+Gottheiten
+selbst
+zu
+verstehen
+(
+Ganesh
+z.
+B.
+Fleisch
+zu
+opfern
+käme
+für
+mich
+z.
+B.
+nie
+in
+Frage
+)
+.
+Nach
+der
+Doku
+muss
+ich
+mal
+gucken
+:)
+.
+Danke
+für
+den
+Tip
+.
+:)
+
diff --git a/src/test/resources/empirist_gold_standard/test_cmc/tokenized/cmc_test_professional_chat.txt b/src/test/resources/empirist_gold_standard/test_cmc/tokenized/cmc_test_professional_chat.txt
new file mode 100644
index 0000000..d8d2208
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_cmc/tokenized/cmc_test_professional_chat.txt
@@ -0,0 +1,1424 @@
+<posting id="SEM-66" author="Student5"/>
+schreibe
+mal
+meine
+addy
+auf
+:
+[
+Email-Adresse
+]
+
+<posting id="SEM-67" author="Student6"/>
+ja
+
+<posting id="SEM-68" author="Student3"/>
+Also
+,
+tschüss
+ihr
+zwei
+.
+Meine
+adresse
+steht
+auf
+der
+Seminarseite
+.
+Frohe
+Weihnachten
+etc.
+!
+
+<posting id="SEM-70" author="Student5"/>
+Ich
+wünsche
+dir
+schöne
+Ferien
+Student6
+!
+
+<posting id="SEM-71" author="Student6"/>
+Ich
+hab
+dich
+auch
+llieb
+!
+
+<posting id="SEM-72" author="Student5"/>
+Und
+viele
+Geschenke
+und
+einen
+guten
+Rutsch
+und
+überhaupt
+nur
+das
+beste
+!
+
+<posting id="SEM-73" author="Student5"/>
+:-*
+
+<posting id="SEM-74" author="Student6"/>
+du
+mich
+auch
+...
+
+<posting id="SEM-75" author="Student5"/>
+*<:-)
+
+<posting id="SEM-76" author="Student6"/>
+hübsche
+nikolaus
+!
+
+<posting id="SEM-77" author="Student5"/>
+du
+mich
+noch
+viel
+mehr
+!
+
+<posting id="SEM-78" author="Student6"/>
+na
+szia
+!!!!
+:-*
+
+<posting id="SEM-79" author="Student5"/>
+du
+weißt
+schon
+diese
+ungarische
+Wort
+mit
+B
+am
+Anfang
+!
+
+<posting id="SEM-80" author="Student6"/>
+meinst
+du
+bazdmeg
+?
+
+<posting id="SEM-81" author="Student5"/>
+Tschüß
+.......
+
+<posting id="216" author="Günther Beckstein"/>
+Neues
+Thema
+:
+Drogenpolitik
+...
+
+<posting id="217" author="Kolja Raube"/>
+HErr
+Özdemir
+,
+antworten
+Sie
+!
+Ist
+das
+die
+Bekämpfung
+des
+Terrorismus
+durch
+Außenpolititk
+?
+
+<posting id="218" author="Cem Özdemir"/>
+Bin
+gespannt
+
+<posting id="219" author="Günther Beckstein"/>
+Die
+Diskussion
+über
+Freigabe
+von
+Haschisch
+durch
+die
+Grünen
+ist
+verherend
+.
+
+<posting id="220" author="apuzzili"/>
+gibt
+es
+bestimmte
+drogenräume
+,
+herr
+beckstein
+???
+
+<posting id="221" author="Kolja Raube"/>
+Warum
+ist
+HAschisch
+verheerend
+?
+
+<posting id="222" author="Bakunin"/>
+Recht
+auf
+Rausch
+:
+Ein
+freiheitliches
+Grundrecht
+,
+das
+hierzulande
+verwehrt
+bleibt
+...
+!
+
+<posting id="223" author="Kolja Raube"/>
+Warum
+ist
+die
+niederländische
+Politik
+verheerend
+?
+
+<posting id="224" author="sebastian"/>
+wieso
+verherend
+,
+herr
+beckstein
+.
+verherend
+ist
+die
+ideologische
+drogenpolitik
+a
+la
+dsu
+
+<posting id="225" author="Cem Özdemir"/>
+Wollen
+Sie
+den
+Irrsinn
+nicht
+endlich
+beenden
+,
+die
+Alltagsdrogen
+Nikotin
+,
+Medikamentenmissbrauch
+und
+Alkohol
+zu
+verharmlosen
+und
+den
+Gebrauch
+von
+Cannabis-Produkten
+zu
+kriminalisieren
+.
+Wir
+wollen
+die
+Entkriminalisierung
+...
+
+<posting id="226" author="Cem Özdemir"/>
+Die
+Schweiz
+macht
+es
+uns
+vor
+.
+Sind
+die
+weniger
+klug
+wie
+wir
+?
+
+<posting id="227" author="Bakunin"/>
+Kriminalisierung
+von
+Kiffern
+auch
+unter
+rot-grün
+-
+eine
+derbe
+Enttäuschung
+!
+
+<posting id="228" author="moo"/>
+warum
+wird
+ein
+so
+grosser
+Unterschied
+gemacht
+zwischen
+Haschisch
+und
+Alkohol
+.
+Alkohol
+ist
+ebenso
+,
+wenn
+nicht
+noch
+verheerender
+und
+wird
+ironischerweise
+trotzdem
+von
+der
+Gesellschaft
+akzeptiert
+
+<posting id="229" author="sebastian"/>
+csu
+
+<posting id="230" author="Günther Beckstein"/>
+Prävention
+,
+Repression
+und
+Hilfe
+auch
+zum
+Ausstieg
+sind
+Kernpunkte
+der
+Drogenpolitik
+.
+Schweiz
+und
+Niederlande
+sind
+wichtigste
+Lieferländer
+nicht
+nur
+für
+..
+
+<posting id="231" author="Kolja Raube"/>
+DAs
+Bundesverfassungsgericht
+hat
+soeben
+in
+einem
+Urteil
+wieder
+bestätigt
+:
+Der
+Eigenbedarf
+von
+Rauschgift
+ist
+kein
+Grund
+für
+einen
+Führerescheinentzug
+...
+WAs
+ist
+dagegen
+einzuwenden
+?
+,
+Herr
+BEckstein
+
+<posting id="232" author="apuzzili"/>
+was
+hat
+das
+ganze
+jetzt
+mit
+sicherheit
+zu
+tun
+?
+oder
+freiheit
+?
+
+<posting id="233" author="Günther Beckstein"/>
+Haschisch
+sondern
+auch
+Heroin
+....
+
+<posting id="234" author="Günther Beckstein"/>
+Haschisch
+ist
+eine
+gefährliche
+Einstiegsdroge
+.
+
+<posting id="235" author="Cem Özdemir"/>
+Wir
+beiden
+werden
+die
+Umkehr
+in
+der
+Cannabis-Politik
+in
+Deutschland
+noch
+genauso
+erleben
+,
+wie
+die
+Anerkennung
+der
+Eingetr.
+Lebenspartnerschaft
+gekommen
+ist
+...
+
+<posting id="236" author="Bakunin"/>
+Was
+hat
+Haschisch
+mit
+"
+Ausstieg
+"
+zu
+tun
+?
+
+<posting id="237" author="moderator"/>
+Eine
+weitere
+Frage
+an
+die
+beiden
+Kontrahenten
+auf
+dem
+virtuellen
+Podium
+:
+zap
+:
+Welche
+Freiheitsrechte
+dürfen
+auf
+keinen
+Fall
+durch
+eine
+schärfere
+Sicherheitspolitik
+eingeschränkt
+werden
+?
+
+<posting id="238" author="Cem Özdemir"/>
+Wissenschaft
+sagt
+etwas
+anderes
+!
+
+<posting id="239" author="Günther Beckstein"/>
+Die
+Prävention
+gegenüber
+Alltagsdrogen
+ist
+wichtig
+,
+darf
+aber
+nicht
+dazu
+führen
+,
+weitere
+Drogen
+zu
+verbreiten
+.
+
+<posting id="240" author="apuzzili"/>
+Sie
+kennen
+sich
+aber
+ziemlich
+gut
+aus
+,
+Herr
+Beckstein
+,
+Schweiz
+und
+Heroin
+?
+
+<posting id="241" author="Bakunin"/>
+"
+Einstiegsdroge
+"
+-
+vielleicht
+,
+weil
+man
+es
+im
+selben
+Milieu
+wie
+angeblich
+"
+harte
+"
+Drogen
+bekommt
+?
+
+<posting id="242" author="Cem Özdemir"/>
+Denken
+Sie
+dabei
+ans
+Oktoberfest
+?
+
+<posting id="243" author="apuzzili"/>
+Heyyyyyyy
+!
+Frage
+beantworten
+!
+Ignoranten
+!!!!!!!
+
+<posting id="244" author="Lukas"/>
+ich
+habe
+einige
+zeit
+in
+den
+niedelanden
+gelebt
+und
+lebe
+jetzt
+an
+der
+grenze
+zu
+den
+niederlanden
+(
+bei
+groningen
+)
+.
+die
+niederländer
+bedauern
+heute
+ihre
+entscheidung
+die
+freigabe
+von
+haschisch
+.
+wie
+soll
+es
+mit
+uns
+werden
+?
+wir
+liegen
+in
+der
+mitte
+europas
+und
+drogen
+werden
+noch
+stärker
+durch
+unser
+land
+wandern
+.
+
+<posting id="245" author="Günther Beckstein"/>
+ZU
+237
+:
+...
+
+<posting id="246" author="Cem Özdemir"/>
+Zu
+zap
+:
+Die
+Freiheit
+des
+Einzelnen
+ist
+ein
+heiliges
+Gut
+in
+unserer
+Demokratie
+.
+Einschränkungen
+bei
+unserer
+Verfassung
+gibts
+mit
+uns
+nicht
+
+<posting id="247" author="Günther Beckstein"/>
+Verhältnismässigkeitsprinzip
+hat
+höchsten
+Rang
+.
+Der
+Grundrechtskatalog
+ist
+unser
+Maßstab
+,
+aber
+auch
+mehr
+an
+die
+Opfer
+von
+Kriminalität
+denken
+.
+
+<posting id="248" author="moderator"/>
+Es
+gibt
+auch
+eine
+Zeit
+vor
+der
+Gefährdung
+.
+Was
+kann
+Prävention
+leisten
+.
+Tmachui
+fragt
+:
+Nach
+dem
+11.
+September
+wird
+viel
+über
+die
+Präventionsstrategien
+nachgedacht
+.
+Sehen
+Sie
+Gefahren
+für
+den
+Rechtsstaat
+und
+Demokratie
+aufgrund
+zunehmender
+Befugnisse
+des
+Staates
+in
+individuelle
+Rechte
+einzugreifen
+?
+
+<posting id="249" author="Kolja Raube"/>
+Herr
+Beckstein
+,
+sie
+werden
+zugeben
+müssen
+,
+daß
+München
+eine
+der
+Drogenhochburgen
+Deutschlands
+ist
+?
+Was
+ist
+an
+Ihrer
+Politik
+fehlgeschlagen
+?
+
+<posting id="250" author="Bakunin"/>
+Zu
+246
+:
+Außer
+beim
+Recht
+auf
+freie
+Verfügungsgewalt
+über
+den
+eigenen
+Körper
+,
+Stichwort
+wieder
+:
+Recht
+auf
+Rausch
+!
+
+<posting id="251" author="Günther Beckstein"/>
+Ergänzung
+zu
+247
+:
+Zu
+Die
+Freiheit
+des
+Kriminellen
+muss
+eingeschränkt
+werden
+.
+
+<posting id="252" author="Cem Özdemir"/>
+Bin
+froh
+,
+dass
+die
+Bundesregierung
+in
+ihrem
+jährlichen
+Sicherheitsbericht
+vor
+allem
+auf
+die
+Prävention
+abhebt
+
+<posting id="253" author="sebastian"/>
+@lukas
+:
+da
+kenne
+ich
+andere
+niederländer
+
+<posting id="254" author="Günther Beckstein"/>
+Zu
+248
+:
+Nein
+.
+
+<posting id="255" author="Cem Özdemir"/>
+248
+:
+Einige
+der
+Befugnisse
+für
+die
+Dienste
+im
+Sicherheitspaket
+haben
+wir
+bewußt
+zeitlich
+befristet
+.
+So
+können
+wir
+schauen
+,
+ob
+sie
+noch
+notwendig
+sind
+.
+
+<posting id="256" author="Kolja Raube"/>
+Drogen
+und
+Doping
+liegen
+eng
+beieinander
+:
+GIbt
+es
+Pläne
+HErrn
+BEcksteins
+für
+eine
+zkünftige
+Sportpolitik
+?
+
+<posting id="257" author="moderator"/>
+Nach
+dem
+11.
+September
+2001
+,
+Sicherheitspaket
+I
+und
+II
+etc.
+stellt
+sich
+dringlicher
+als
+je
+die
+Frage
+:
+Wer
+kontrolliert
+die
+Kontrolleure
+?
+
+<posting id="258" author="moderator"/>
+Bitte
+Herr
+Beckstein
+zuerst
+.
+
+<posting id="259" author="Günther Beckstein"/>
+Zu
+257
+:
+Dienstaufsicht
+,
+Parlament
+,
+Gerichte
+....
+
+<posting id="260" author="Günther Beckstein"/>
+und
+Öffentlichkeit
+.
+Daran
+hat
+sich
+nichts
+geändert
+.
+
+<posting id="261" author="Cem Özdemir"/>
+Endlich
+gibt
+es
+starke
+Kontrollrechte
+im
+Parlament
+.
+Wie
+sieht
+es
+im
+bayr.
+Landtag
+aus
+?
+Die
+Oppositionspartei
+Grüne
+darf
+nicht
+kontrollieren
+!
+
+<posting id="262" author="Günther Beckstein"/>
+Jeder
+nach
+seinen
+Fähigkeiten
+und
+Stärken
+.
+
+<posting id="263" author="Lukas"/>
+haben
+sie
+beide
+mal
+erlebt
+wie
+es
+ist
+auf
+einem
+schulhof
+voller
+fixerspritzen
+und
+kiffenden
+schülern
+zu
+sein
+?
+
+<posting id="264" author="Cem Özdemir"/>
+Ein
+tolles
+Demokratieverständnis
+Herr
+Minister
+!
+
+<posting id="265" author="Bakunin"/>
+"
+Wer
+kontrolliert
+die
+Kontrolleure
+"
+-
+richtig
+.
+Aber
+daran
+sieht
+man
+auch
+,
+auf
+welcher
+Basis
+das
+ganze
+System
+beruht
+-
+Mißtrauen
+statt
+Vertrauen
+.
+Jeder
+ist
+ein
+potenzieller
+Verbrecher
+,
+auch
+sie
+,
+Herr
+Özdemir
+und
+Herr
+Beckstein
+!
+
+<posting id="266" author="Günther Beckstein"/>
+Wie
+vom
+Verfassungsgericht
+bestätigt
+.
+
+<posting id="267" author="Cem Özdemir"/>
+Macht
+es
+nicht
+besser
+
+<posting id="268" author="Kolja Raube"/>
+DAs
+Bundesverfassungsgericht
+rechnet
+,
+so
+Herr
+Papier
+,
+in
+einem
+Spiegel-Interview
+diesen
+Montag
+,
+mit
+einer
+Konfrontation
+zwischen
+Freiheit
+und
+Sicherheit
+in
+zukünftigen
+Verfassungsbeschwerden
+-
+will
+der
+GEsetzgeber
+dies
+dem
+Gericht
+überlassen
+?
+
+<posting id="269" author="Bakunin"/>
+@Lukas
+:
+Aber
+du
+hast
+das
+bestimmt
+schon
+oft
+erlebt
+...
+
+<posting id="270" author="moderator"/>
+Noch
+einmal
+die
+Frage
+.
+Die
+Union
+will
+ein
+Sicherheitspaket
+III
+:
+Reichen
+nicht
+die
+bisherigen
+Gesetze
+aus
+.
+Werden
+Sie
+vielleicht
+nur
+nicht
+konsequent
+genug
+angewandt
+?
+**
+
+<posting id="271" author="Günther Beckstein"/>
+Vollzug
+muss
+perfektioniert
+werden
+aber
+es
+verbleiben
+gesetzliche
+Lücken
+,
+die
+wir
+uns
+nicht
+leisten
+können
+...
+
+<posting id="272" author="Cem Özdemir"/>
+Die
+Union
+wird
+immer
+neue
+Sicherheitspakete
+fordern
+.
+Ihr
+Konzept
+beschränkt
+sich
+leider
+weitgehend
+auf
+Gesetzesverschärfungen
+.
+
+<posting id="273" author="dijalkwe"/>
+Haben
+Sie
+Herr
+Beckstein
+auch
+Gelder
+erhalten
+?
+
+<posting id="274" author="Günther Beckstein"/>
+Dass
+wir
+von
+Sicherheit
+etwas
+verstehen
+-
+im
+Unterschied
+zu
+den
+Grünen
+-
+ist
+Allgemeingut
+.
+
+<posting id="275" author="Cem Özdemir"/>
+Allgemein
+ja
+,
+aber
+gut
+?
+
+<posting id="276" author="dijalkwe"/>
+Von
+Unterdrueckung
+aber
+nicht
+Sicherheit
+
+<posting id="277" author="Günther Beckstein"/>
+In
+Bayern
+lebt
+man
+sicher
+und
+frei
+,
+deswegen
+fühlen
+sich
+so
+viele
+Menschen
+bei
+uns
+wohl
+,
+auch
+Ausländer
+.
+
+<posting id="278" author="moderator"/>
+Liebe
+Podiumsgäste
+!
+Die
+Zeit
+für
+das
+erste
+tacheles.02spezial
+Duell
+ist
+leider
+bereits
+abgelaufen
+.
+Wir
+bedanken
+uns
+im
+Namen
+von
+tagesschau.de
+,
+WAHLTHEMEN.DE
+und
+politik-digital.de
+für
+Ihre
+Teilnahme
+sowie
+die
+vielen
+Fragen
+und
+Kommentare
+.
+Herzlichen
+Dankbesonders
+an
+Herrn
+Minister
+Dr.
+Günther
+Beckstein
+und
+Cem
+Özdemir
+für
+Ihre
+Bereitschaft
+,
+an
+diesem
+"
+virtuellen
+Podium
+"
+teilzunehmen
+.
+Wir
+hoffen
+,
+dass
+es
+auch
+für
+Sie
+interessant
+war
+!
+Wer
+Interesse
+hat
+,
+weiter
+zu
+diskutieren
+,
+ist
+herzlich
+eingeladen
+,
+am
+Debatten-Forum
+zum
+Thema
+:
+"
+Sicher
+oder
+frei
+?
+"
+bei
+WAHLTEHMEN.DE
+teilzunehmen
+.
+
+<posting id="279" author="Kolja Raube"/>
+BAyern
+ist
+nicht
+BErlin
+
+<posting id="280" author="Bakunin"/>
+Herr
+Beckstein
+,
+wieso
+fehlt
+ihnen
+das
+Urvertrauen
+in
+den
+Menschen
+?
+Was
+ist
+bei
+ihnen
+schiefgelaufen
+,
+daß
+sie
+so
+ein
+Misanthrop
+sind
+?
+
+<posting id="281" author="Kolja Raube"/>
+BAyern
+ist
+nicht
+BErlin
+
+<posting id="282" author="apuzzili"/>
+zu
+275
+:
+der
+war
+jetzt
+weniger
+witzig
+,
+cem
+...
+
+<posting id="283" author="Bakunin"/>
+Zu
+277
+:
+Ja
+,
+vor
+allem
+die
+Abgeschobenen
+!!!
+
+<posting id="284" author="Günther Beckstein"/>
+An
+alle
+Chat-Teilnehmer
+besten
+Dank
+.
+
+<posting id="285" author="Cem Özdemir"/>
+Bis
+zum
+nächsten
+"
+Treffen
+"
+Herr
+Beckstein
+.
+Nach
+vielen
+gem.
+Streitgesprächen
+war
+dies
+unser
+erster
+Chat
+,
+wenn
+ich
+mich
+nicht
+irre
+.
+Hoffe
+es
+war
+auch
+für
+die
+Chatter
+interessant
+.
+Dank
+auch
+an
+die
+Veranstalter
+.
+Ciao
diff --git a/src/test/resources/empirist_gold_standard/test_cmc/tokenized/cmc_test_social_chat.txt b/src/test/resources/empirist_gold_standard/test_cmc/tokenized/cmc_test_social_chat.txt
new file mode 100644
index 0000000..ce74141
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_cmc/tokenized/cmc_test_social_chat.txt
@@ -0,0 +1,1680 @@
+<posting id="1-258" author="Bochum" />
+beim
+ertsen
+umzug
+hat
+nur
+einer
+deutsch
+gesprochen
+
+<posting id="1-259" author="Shadok" />
+heya
+Asja
+:)
+
+<posting id="1-260" author="Emon" />
+dennoch
+würde
+ich
+mir
+bei
+kreativität
+nicht
+mehr
+als
+ne
+2
+geben
+
+<posting id="1-262" author="anonym" />
+marc30
+hat
+nen
+Vollschaden
+und
+übersteht
+den
+Nachmittag
+ohne
+Probleme
+:)
+
+<posting id="1-263" author="Asja" />
+hallo
+shadok
+:-)
+
+<posting id="1-264" author="zora" />
+handwerklich
+kann
+ich
+selber
+
+<posting id="1-265" author="anonym" />
+Lantonie
+gibt
+Emon
+auch
+eine
+eins
+in
+Einfallsreichtum
+.
+
+<posting id="1-266" author="Lantonie" />
+:))
+
+<posting id="1-267" author="Erdbeere$" />
+*
+g
+*
+@marc
+
+<posting id="1-268" author="quaki" />
+lach
+marc
+
+<posting id="1-269" author="TomcatMJ" />
+naja
+,
+dann
+heissts
+wohl
+mal
+rumtelefonieren
+und
+nachfragen
+da
+umzugsfiormen
+selten
+im
+i8nternet
+stehen
+@zora
+
+<posting id="1-270" author="Bochum" />
+klar
+zora
+
+<posting id="1-271" author="Pharao" />
+vollschaden
+gleich
+totalschaden
+marc
+?
+
+<posting id="1-272" author="Emon" />
+na
+okay
+...
+*
+1
+anne
+stirn
+bapp
+*
+
+<posting id="1-273" author="zora" />
+die
+stehen
+da
+schona
+ber
+ohne
+preise
+
+<posting id="1-274" author="Bochum" />
+aber
+wie
+kommste
+mit
+den
+1,51
+an
+die
+lampen
+und
+hängeschränke
+??
+:;-))
+
+<posting id="1-275" author="zora" />
+leiter
+
+<posting id="1-276" author="zora" />
+*
+g
+*
+
+<posting id="1-277" author="marc30" />
+Hab
+schon
+ne
+richtig
+dicke
+Beule
+um
+den
+bauchnabel
+rum
+...
+
+<posting id="1-278" author="zora" />
+auserdem
+bin
+ich
+größer
+!
+
+<posting id="1-279" author="Emon" />
+marc
+,
+die
+beuel
+um
+den
+bauchnabel
+nennt
+sichplauze
+
+<posting id="1-280" author="Emon" />
+;)
+
+<posting id="1-281" author="Lantonie" />
+Ach
+,
+die
+eins
+ist
+dir
+wohl
+egal
+,
+emon
+.
+*
+wieder
+weg
+nehm
+*
+
+<posting id="1-282" author="Lantonie" />
+*
+pöööh
+ruf
+*
+
+<posting id="1-284" author="quaki" />
+eine
+beule
+??
+
+<posting id="1-285" author="Bochum" />
+wie
+kommste
+an
+die
+sprossen
+??
+
+<posting id="1-286" author="quaki" />
+am
+nabel
+??
+
+<posting id="1-287" author="marc30" />
+Danke
+Emon
+,
+war
+mir
+grad
+entfallen
+....
+
+<posting id="1-288" author="marc30" />
+*
+hmpf
+*
+
+<posting id="1-289" author="quaki" />
+son
+bierbauch
+??
+
+<posting id="1-290" author="Emon" />
+:)
+
+<posting id="1-291" author="Lantonie" />
+:)
+
+<posting id="1-292" author="quaki" />
+*
+kopfkratz
+*
+
+<posting id="1-293" author="Emon" />
+mit
+stützrädchen
+,
+quaki
+
+<posting id="1-294" author="marc30" />
+klar
+,
+nen
+richtig
+dicken
+:)
+
+<posting id="1-295" author="Shadok" />
+*
+gähn
+*
+noch
+15
+kostbare
+minuten
+bis
+zur
+mittagspause
+
+<posting id="1-296" author="Lantonie" />
+quaki
+ist
+sicher
+in
+der
+mauser
+.
+
+<posting id="1-299" author="marc30" />
+*
+fettbin
+*
+
+<posting id="1-300" author="Shadok" />
+wb
+stoeps
+
+<posting id="1-301" author="Lantonie" />
+*
+vermutung
+äusser
+*
+
+<posting id="1-302" author="marc30" />
+*
+schwabbel
+*
+
+<posting id="1-303" author="Shadok" />
+*
+festbind
+*
+
+<posting id="1-304" author="stoeps" />
+öhöööööö
+*
+
+<posting id="1-306" author="anonym" />
+Lantonie
+heiratet
+Thor
+....
+
+<posting id="1-307" author="TomcatMJ" />
+re
+stoerps
+
+<posting id="1-308" author="Lantonie" />
+:))
+
+<posting id="1-309" author="Lantonie" />
+Lohnt
+das
+?
+
+<posting id="1-310" author="Thor..." />
+stoeps
+ist
+etwas
+unstetig
+*
+gg
+*
+
+<posting id="1-311" author="Asja" />
+hi
+stoeps
+
+<posting id="1-312" author="quaki" />
+*
+korsettsuch
+*
+
+<posting id="1-313" author="Lantonie" />
+Nein
+.
+Aber
+,
+immerhin
+,
+ein
+Landsmann
+.
+
+<posting id="1-314" author="stoeps" />
+reee
+:-)
+
+<posting id="1-315" author="Lantonie" />
+Das
+ist
+selten
+genug
+.
+
+<posting id="1-316" author="Thor..." />
+ui
+lanto
+*
+gg
+*
+
+<posting id="1-317" author="Emon" />
+kommt
+drauf
+an
+,
+wieviel
+geld
+thor
+hat
+;)
+
+<posting id="1-318" author="quaki" />
+lantonie
+heiratet
+thor
+??
+
+<posting id="1-319" author="Lantonie" />
+Ich
+verdiene
+mein
+eigenes
+Geld
+.
+
+<posting id="1-320" author="quaki" />
+juhuuuuuu
+
+<posting id="1-321" author="Lantonie" />
+quaki
+?
+
+<posting id="1-323" author="zora" />
+wos
+?
+*
+eifersüchtel
+*
+@lanto
+
+<posting id="1-325" author="Shadok" />
+Genau
+,
+Lanto
+ist
+selbstständig
+
+<posting id="1-326" author="stoeps" />
+lanto
+ist
+ne
+gute
+partie
+
+<posting id="1-327" author="Lantonie" />
+Es
+gibt
+Entenbraten
+zur
+Hochzeit
+.
+
+<posting id="1-328" author="Thor..." />
+umso
+besser
+lanto
+*
+gg
+*
+ich
+hab
+nämlich
+keins
+
+<posting id="1-329" author="anonym" />
+stoeps
+heiratet
+lanto
+
+<posting id="1-330" author="anonym" />
+Emon
+heiratet
+seinen
+intellekt
+...
+
+<posting id="1-331" author="Shadok" />
+Dafür
+kann
+se
+nich
+kochen
+;p
+
+<posting id="1-332" author="zora" />
+emon
+kocht
+?
+
+<posting id="1-334" author="Lantonie" />
+Ich
+kann
+kochen
+!!
+
+<posting id="1-335" author="Lantonie" />
+*
+frechheit
+*
+
+<posting id="1-336" author="Emon" />
+oh
+nein
+,
+er
+verweigert
+mir
+die
+gefolgschaft
+
+<posting id="1-337" author="anonym" />
+Shadok
+heiratet
+quaki
+...
+
+<posting id="1-338" author="zora" />
+in
+den
+niederlanden
+will
+sich
+doch
+jetzt
+ne
+studentin
+selber
+heiraten
+
+<posting id="1-339" author="Lantonie" />
+Ich
+kann
+sogar
+sehr
+gut
+kochen
+!
+
+<posting id="1-340" author="stoeps" />
+lanto
+?
+
+<posting id="1-341" author="TomcatMJ" />
+vor
+wut
+?
+*
+G
+*
+
+<posting id="1-342" author="Lantonie" />
+*
+allerhand
+*
+
+<posting id="1-343" author="Lantonie" />
+*
+schimpf
+*
+
+<posting id="1-345" author="mieze" />
+rehi
+
+<posting id="1-346" author="Lantonie" />
+*
+shadok
+böse
+anguck
+*
+
+<posting id="1-347" author="Thor..." />
+ich
+kann
+besser
+kochen
+*
+gg
+*
+
+<posting id="1-348" author="Lantonie" />
+reee
+mieze
+.
+
+<posting id="1-349" author="Emon" />
+zora
+,
+das
+ist
+ne
+aktionskünstlerin
+
+<posting id="1-350" author="TomcatMJ" />
+hi
+mieze
+
+<posting id="1-351" author="Bochum" />
+wer
+es
+sich
+selber
+machen
+kanmn
+,
+kann
+sich
+auch
+selber
+heiraten
+
+<posting id="1-352" author="Lantonie" />
+Ja
+,
+geht
+denn
+das
+zora
+?
+
+<posting id="1-353" author="anonym" />
+lanto
+mag
+stoeps
+net
+heiraten
+
+<posting id="1-354" author="anonym" />
+Thor
+...
+ist
+großgrundbesitzer
+und
+hat
+ein
+haus
+
+<posting id="1-355" author="Emon" />
+die
+muss
+sowas
+machen
+wegen
+pr
+
+<posting id="1-356" author="Emon" />
+;)
+
+<posting id="1-357" author="Shadok" />
+..
+und
+verkauft
+sie
+dann
+an
+polnische
+Einwanderer
+...
+für
+gutes
+Geld
+;p
+
+<posting id="1-358" author="marc30" />
+ist
+ne
+gespaltene
+Persönlichkeit
+...
+
+<posting id="1-359" author="mieze" />
+toller
+Spruch
+
+<posting id="1-360" author="Emon" />
+tag
+miez
+
+<posting id="1-361" author="anonym" />
+Lantonie
+mag
+doch
+nur
+einen
+Mann
+haben
+,
+stoeps
+.
+
+<posting id="1-362" author="stoeps" />
+mist
+
+<posting id="1-363" author="stoeps" />
+*
+mutier
+*
+
+<posting id="1-364" author="stoeps" />
+tadaaaa
+
+<posting id="1-365" author="mieze" />
+hallo
+Emon
+
+<posting id="1-366" author="marc30" />
+*
+remiezmiez
+*
+
+<posting id="1-367" author="stoeps" />
+*
+g
+*
+
+<posting id="1-368" author="mieze" />
+remarcmarc
+
+<posting id="1-369" author="Lantonie" />
+Und
+,
+mit
+zora
+habe
+ich
+eine
+dreckige
+Affaire
+haben
+wir
+beschlossen
+.
+
+<posting id="1-370" author="Lantonie" />
+:)))
+
+<posting id="1-371" author="anonym" />
+Thor
+...
+läßt
+sich
+nicht
+haben
+
+<posting id="1-372" author="zora" />
+oder
+eine
+Frau
+?
+*
+hoffnung
+schöpf
+*
+
+<posting id="1-373" author="Lantonie" />
+*
+lach
+*
+
+<posting id="1-374" author="zora" />
+juhuu
+auch
+gut
+*
+sss
+*
+
+<posting id="1-375" author="stoeps" />
+ich
+denke
+zora
+ist
+deine
+mama
+
+<posting id="1-376" author="Thor..." />
+zora
+du
+alte
+lesbe
+*
+g
+*
+
+<posting id="1-377" author="stoeps" />
+was
+denn
+nun
+?
+
+<posting id="1-378" author="anonym" />
+Lantonie
+ist
+schnell
+weg
+.
+
+<posting id="1-379" author="Lantonie" />
+:))
+
+<posting id="1-380" author="Lantonie" />
+*
+wink
+*
+
+<posting id="1-381" author="mieze" />
+Thor
+,
+das
+ist
+falsch
+..
+Es
+muss
+heissen
+:
+Thor
+will
+man
+nicht
+haben
+
+<posting id="1-382" author="zora" />
+wir
+sind
+ne
+verlotterte
+familie
+*
+g
+*
+
+<posting id="1-384" author="stoeps" />
+bye
+
+<posting id="1-385" author="anonym" />
+Emon
+gibt
+lanto
+und
+zora
+seife
+
+<posting id="1-386" author="Thor..." />
+boa
+mieze
+
+<posting id="1-387" author="zora" />
+ich
+bin
+net
+alt
+thor
+!
+
+<posting id="1-388" author="Bochum" />
+umzugswagen
+sind
+in
+der
+woche
+billiger
+zora
+
+<posting id="1-389" author="mieze" />
+ja
+,
+Thor
+?
+
+<posting id="1-390" author="Shadok" />
+zora
+is
+nich
+lesbisch
+...
+sie
+mag
+auch
+männliche
+bierdosen
+
+<posting id="1-391" author="Emon" />
+*
+l
+*
+
+<posting id="1-392" author="zora" />
+*
+nick
+*
+bochum
+
+<posting id="1-393" author="anonym" />
+Faryen-Angle
+will
+auch
+los
+
+<posting id="1-394" author="Thor..." />
+ich
+bin
+halt
+ein
+sein
+typ
+,
+kein
+haben
+typ
+
+<posting id="1-395" author="zora" />
+ohne
+kilometer
+wäre
+prima
+,
+die
+hauen
+halt
+so
+rein
+
+<posting id="1-396" author="marc30" />
+Bye
+faryen
+
+<posting id="1-397" author="mieze" />
+aha
+.
+Thor
+*
+gg
+*
+
+<posting id="1-398" author="Faryen-Angle" />
+bis
+bald
+...
+
+<posting id="1-399" author="TomcatMJ" />
+cya
+faryen
+
+<posting id="1-400" author="anonym" />
+Thor
+...
+empfiehlt
+fromm
+als
+lektüre
+und
+günther
+anders
+
+<posting id="1-401" author="mieze" />
+und
+was
+soll
+das
+genau
+heissen
+?
+
+<posting id="1-402" author="Bochum" />
+dreh
+die
+tachowelle
+ab
+:-))
+
+<posting id="1-404" author="quaki" />
+bün
+ich
+nu
+schon
+vörheuratet
+??
+
+<posting id="1-405" author="stoeps" />
+marc
+?
+
+<posting id="1-406" author="Bochum" />
+oder
+fahr
+rückwärts
+....
+
+<posting id="1-407" author="mieze" />
+aha
+..
+den
+Günther
+also
+anders
+..
+Wie
+denn
+?
+
+<posting id="1-408" author="Emon" />
+zora
+,
+verkauf
+doch
+alles
+was
+du
+hsat
+und
+kauf
+dafür
+neues
+für
+deine
+buzze
+.
+sparste
+den
+umzug
+
+<posting id="1-410" author="marc30" />
+ja
+,
+schdöbbs
+?
+
+<posting id="1-411" author="Emon" />
+;)
+
+<posting id="1-412" author="stoeps" />
+*
+zwick
+*
+
+<posting id="1-413" author="zora" />
+super
+bochum
+*
+lach
+*
+
+<posting id="1-414" author="stoeps" />
+*
+g
+*
+
+<posting id="1-415" author="marc30" />
+aua
+
+<posting id="1-416" author="stoeps" />
+:-P
+
+<posting id="1-417" author="zora" />
+und
+privates
+und
+bücher
+und
+so
+?
+
+<posting id="1-418" author="marc30" />
+/
+ig
+schdöbbs
+
+<posting id="1-419" author="Bochum" />
+oder
+kauf
+was
+für
+100
+euro
+im
+parktiker
+
+<posting id="1-420" author="mieze" />
+ach
+ja
+..
+zora
+..
+Herzlichen
+Glückwunsch
+noch
+nachträglich
+:o)
+
+<posting id="1-422" author="zora" />
+danke
+mieze
+:)
+
+<posting id="1-423" author="stoeps" />
+*
+pieks
+*
+
+<posting id="1-426" author="quaki" />
+*
+autsch
+*
+
+<posting id="1-427" author="quaki" />
+nu
+hat
+schtöps
+mich
+auch
+erwischt
+
+<posting id="1-428" author="Bochum" />
+dann
+kannst
+nne
+leihwagen
+haben
+
+<posting id="1-429" author="Emon" />
+boah
+...
+ich
+bekomm
+echt
+augenkrebs
+von
+bochum
+...
+*
+augenreib
+*
+
+<posting id="1-430" author="Diddlchen" />
+Tagchen
+
+<posting id="1-431" author="anonym" />
+stoeps
+fuchtelt
+mal
+bissel
+mit
+der
+nadel
+rum
+
+<posting id="1-432" author="mieze" />
+Emon
+,
+ne
+Sonnenbrille
+hilft
+*
+g
+*
+
+<posting id="1-433" author="quaki" />
+ich
+auch
+aba
+bei
+mir
+ändert
+er
+nix
+der
+bochum
+
+<posting id="1-435" author="marc30" />
+können
+wir
+den
+Club
+der
+gezwickten
+aufmnachen
+,
+quaki
+
+<posting id="1-436" author="Thor..." />
+ich
+vom
+has
+emon
+*
+g
+*
+
+<posting id="1-437" author="zora" />
+echt
+bochum
+?
+hmmm
+
+<posting id="1-439" author="Thor..." />
+hasv
+
+<posting id="1-440" author="stoeps" />
+*
+stocher
+*
+
+<posting id="1-441" author="mieze" />
+hallöchen
+Diddlchen
+
+<posting id="1-442" author="nudelsuppenstern" />
+Hallooo
+.
+
+<posting id="1-443" author="Erdbeere$" />
+hello
+sternchen
+
+<posting id="1-444" author="Diddlchen" />
+Hi
+mieze
+
+<posting id="1-445" author="anonym" />
+zwickizwackimarc30quaki
+
+<posting id="1-446" author="nudelsuppenstern" />
+Hey
+,
+hallo
+Sternchen
+.
+*
+lächel
+*
+
+<posting id="1-447" author="anonym" />
+Bochum
+ändert
+nix
+
+<posting id="1-448" author="quaki" />
+hi
+stern
+
+<posting id="1-449" author="anonym" />
+TomcatMJ
+weicht
+mal
+stoeps's
+nadel
+aus
+...
+
+<posting id="1-451" author="marc30" />
+Hi
+Sususte
+
+<posting id="1-452" author="Pharao" />
+na
+erdbeere
+alles
+bestens
+?
+
+<posting id="1-453" author="Emon" />
+hsv
+heisst
+dat
+
+<posting id="1-454" author="marc30" />
+Nususte
+
+<posting id="1-455" author="nudelsuppenstern" />
+öhm
+,
+sternchen
+bin
+ja
+ich
+...
+*
+verwirrt
+guck
+*
+
+<posting id="1-457" author="Thor..." />
+tach
+nss
+
+<posting id="1-458" author="quaki" />
+jep
+bist
+dudu
+
+<posting id="1-459" author="nudelsuppenstern" />
+Hallo
+Thor
+,
+
+<posting id="1-460" author="marc30" />
+Hi
+engelchen
+:)
+
+<posting id="1-461" author="stoeps" />
+keine
+chance
+tom
+...
+dich
+stocher
+ich
+als
+erstes
+damit
+aus
+dem
+chat
+
+<posting id="1-462" author="stoeps" />
+*
+g
+*
+
+<posting id="1-463" author="Erdbeere$" />
+ja
+immer
+noch
+pharao
+
+<posting id="1-464" author="engelchen" />
+hi
+ihr
+süßen
+
+<posting id="1-465" author="Emon" />
+was
+tun
+
+<posting id="1-466" author="Shadok" />
+mittagspause
+;O)
+bye
+ihrs
+
+<posting id="1-468" author="nudelsuppenstern" />
+Also
+,
+nchmal
+:
+Hallo
+Erdbeerchen
+.
+:-)
+
+<posting id="1-469" author="engelchen" />
+und
+tschüssi
+
+<posting id="1-470" author="Erdbeere$" />
+*
+ggg
+*
+
+<posting id="1-472" author="Pharao" />
+na
+denn
+
+<posting id="1-473" author="TomcatMJ" />
+*
+aufn
+baum
+wieder
+raufflitz
+damit
+stoeps
+nich
+hinterherkann
+zum
+pieksen
+*
+
+<posting id="1-474" author="Pharao" />
+alles
+prima
+
+<posting id="1-475" author="Asja" />
+auch
+off
+geh
+
+<posting id="1-477" author="Thor..." />
+ehefrauen
+sind
+wie
+essen
+in
+der
+kantine
+
+<posting id="1-479" author="TomcatMJ" />
+bye
+asja
+
+<posting id="1-480" author="Asja" />
+Bye
+leutz
+
+<posting id="1-483" author="Bochum" />
+ist
+das
+schnell
+
+<posting id="1-484" author="mieze" />
+re
+Happy
+
+<posting id="1-485" author="Thor..." />
+in
+beiden
+stochert
+man
+lustlos
+herum
+
+<posting id="1-486" author="stoeps" />
+*
+häng
+*
+
+<posting id="1-487" author="anonym" />
+Bochum
+wird
+schlecht
+
+<posting id="1-488" author="Happy" />
+re
+:-)
+
+<posting id="1-489" author="Happy" />
+Hallo
+Bochum
+
+<posting id="1-490" author="anonym" />
+quaki
+wirft
+schtöps
+nach
+oben
+
+<posting id="1-491" author="anonym" />
+Erdbeere$
+ist
+ein
+Stern
+im
+Erdbeerkosmos
+
+<posting id="1-492" author="Bochum" />
+haaly
+happo
+
+<posting id="1-493" author="Happy" />
+*
+g
++
+
+<posting id="1-494" author="Pharao" />
+tschööö
+dollar-erdbeere
+und
+andere
+
+<posting id="1-495" author="TomcatMJ" />
+*
+ast
+mit
+stoeps
+dran
+brechen
+seh
+*
+ich
+sag
+doch
+son
+baum
+is
+nix
+für
+stöpse
+....
+
+<posting id="1-496" author="Bochum" />
+erdbeere
+ist
+ne
+frucht
+im
+pudding
+
+<posting id="1-498" author="Thor..." />
+es
+hakt
+etwas
+hier
+
+<posting id="1-499" author="Happy" />
+Bochum
+:
+das
+ist
+hier
+so
+schnell
+..
+da
+kommen
+eben
+alte
+Säcke
+wie
+Du
+nicht
+mehr
+mit
+*
+fg
++
+
+<posting id="1-500" author="quaki" />
+lach
+
+<posting id="1-501" author="Pharao" />
+bye
+
+<posting id="1-502" author="stoeps" />
+der
+ast
+bricht
+nicht
+
+<posting id="1-503" author="Erdbeere$" />
+kennt
+ihr
+diese
+puppen
+mit
+den
+riesen
+augen
+?
+
+<posting id="1-504" author="TomcatMJ" />
+*
+hinterherguck
+wie
+stoeps
+in
+den
+teich
+am
+fuße
+des
+baums
+plumpst
+*
+
+<posting id="1-505" author="stoeps" />
+*
+g
+*
+
+<posting id="1-506" author="Pharao" />
+bye
+
+<posting id="1-509" author="anonym" />
+stoeps
+ist
+noch
+dahaaaa
+*
+g
+*
+
+<posting id="1-510" author="marc30" />
+rääää
+anscha
+:)
+
+<posting id="1-512" author="quaki" />
+anschaaaa
+
+<posting id="1-513" author="anonym" />
+Bochum
+ist
+schnell
+
+<posting id="1-514" author="TomcatMJ" />
+ja
+,
+mit
+dem
+ast
+in
+der
+hand
+im
+teich
+am
+rumsitzen
+@stoeps
+*
+G
+*
+
+<posting id="1-515" author="Bochum" />
+schnell
+weg
+
+<posting id="1-516" author="Erdbeere$" />
+bochum
+ist
+ne
+stadt
+im
+pott
+
+<posting id="1-517" author="Happy" />
+;-)
+
+<posting id="1-518" author="marc30" />
+schnell
+müde
+..
+
+<posting id="1-519" author="quaki" />
+Bochum
+is
+dunkelgrün
+???
+
+<posting id="1-520" author="anonym" />
+Happy
+macht
+sich
+jetzt
+auch
+weg
+...
+
+<posting id="1-521" author="stoeps" />
+was
+tom
+so
+alles
+sieht
+...
+die
+5000
+stunden
+scheinen
+ihn
+zu
+verwirren
+
+<posting id="1-522" author="marc30" />
+re
+Häbbie
+:)
+
+<posting id="1-523" author="Thor..." />
+was
+fürn
+pott
+?
+
+<posting id="1-524" author="Erdbeere$" />
+ne
+grau
+
+<posting id="1-525" author="stoeps" />
+*
+g
+*
+
+<posting id="1-526" author="quaki" />
+hi
+happy
diff --git a/src/test/resources/empirist_gold_standard/test_cmc/tokenized/cmc_test_twitter.txt b/src/test/resources/empirist_gold_standard/test_cmc/tokenized/cmc_test_twitter.txt
new file mode 100644
index 0000000..96bcfcf
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_cmc/tokenized/cmc_test_twitter.txt
@@ -0,0 +1,1214 @@
+<posting author="Deutsches Textarchiv @textarchiv" id="17. Nov" />
+Jetzt
+beginnt
+die
+Konferenz
+mit
+der
+Begrüßung
+durch
+Alexander
+Geyken
+.
+Herzlicher
+Dank
+an
+das
+gesamte
+Organisationsteam
+!
+#dtaclarin14
+
+<posting author="Deutsches Textarchiv @textarchiv" id="17. Nov" />
+CLARIN-D-Helpdesk
+Ticketing-System
+;
+berichtetes
+Problem
+wird
+binnen
+24
+h
+gelöst
+/
+an
+das
+richtige
+CLARIN-D-Center
+weitergeleitet
+#dtaclarin14
+
+<posting author="Deutsches Textarchiv @textarchiv" id="17. Nov" />
+auch
+CLARIN-D
+übergreifende
+federated
+content
+search
+http://weblicht.sfs.uni-tuebingen.de/Aggregator/
+in
+der
+Live-Demo
+#dtaclarin14
+
+<posting author="Deutsches Textarchiv @textarchiv" id="27. Juni" />
+So
+sieht
+er
+aus
+,
+der
+#Siebenschläfer
+(
+Myoxus
+nitela
+)
+.
+In
+:
+Carl
+Vogt
+:
+Zoologische
+Briefe
+.
+Bd.
+2
+.
+Frankfurt
+,
+1851
+.
+http://www.deutschestextarchiv.de/vogt_briefe02_1851/528
+…
+
+<posting author="Deutsches Textarchiv @textarchiv" id="27. Juni" />
+Johann
+Wolfgang
+von
+Goethe
+:
+#Siebenschläfer
+.
+In
+:
+West-östlicher
+Divan
+.
+Stuttgart
+,
+1819
+.
+http://www.deutschestextarchiv.de/goethe_divan_1819/245
+…
+#lyrik
+
+<posting author="AUTOR" id="11. Mai 2011" />
+@RioTeam
+#semibk
+Die
+Tweets
+selbst
+werden
+nicht
+gelöscht
+,
+sind
+aber
+nach
+ein
+paar
+Tagen
+nur
+noch
+a.
+d
+Profilseiten
+der
+AutorInnen
+sichtbar
+...
+
+<posting author="AUTOR" id="11. Mai 2011" />
+@RioTeam
+#semibk
+Leider
+werden
+die
+Tweet-Verläufe
+zu
+einzelnen
+Hashtags
+nur
+für
+eine
+gewisse
+Zeit
+vorgehalten
+.
+...
+
+<posting author="AUTOR" id="11. Mai 2011" />
+@DieMaJa22
+@abcmaria
+#semibk
+Wir
+könnten
+ja
+ein
+"
+Gefällt
+mir
+"
+-Symbol
+erfinden
+.
+Wie
+wärs
+z
+B
+mit
+diesem
+:
+^3
+(
+Ikon
+für
+Daumen
+hoch
+und
+Hand
+;)
+
+<posting author="AUTOR" id="11. Mai 2011" />
+#semibk
+Unter
+den
+empirischen
+Projekten
+im
+Seminar
+wird
+es
+übrigens
+auch
+3
+zu
+Twitter
+geben
+(
+die
+mittlerweile
+auch
+thematisch
+fixiert
+sind
+)
+
+<posting author="AUTOR" id="11. Mai 2011" />
+#semibk
+Auch
+die
+Frage
+nach
+sinnvollen
+Nutzungskontexten
+f.
+Twitter
+lohnt
+weitere
+Reflexion
+.
+Schauen
+Sie
+mal
+,
+was
+andere
+so
+damit
+machen
+!
+
+<posting author="AUTOR" id="11. Mai 2011" />
+#semibk
+..
+dann
+aber
+auch
+immer
+die
+Feststellung
+,
+dass
+es
+eben
+doch
+irgendwie
+anders
+sei
+.
+Tipp
+:
+Beziehen
+Sie
+Weblogs
+i.
+d.
+Überlegungen
+mit
+ein
+!
+
+<posting author="AUTOR" id="11. Mai 2011" />
+#semibk
+Ich
+lese
+Ihre
+Annäherungen
+,
+Beobachtungen
+,
+Vergleiche
+interessiert
+mit
+.
+Interessant
+ist
+u.
+a.
+der
+Vgl.
+mit
+Chat
+,
+Facebook
+uind
+auch
+E-Mail
+
+<posting author="AUTOR" id="11. Mai 2011" />
+#semibk
+Wie
+ich
+sehe
+,
+kreisen
+viele
+von
+Ihnen
+um
+die
+Frage
+"
+Was
+ist
+Twitter
+eigentlich
+?
+Was
+ist
+ähnlich
+,
+was
+anders
+als
+in
+anderen
+Formen
+?
+"
+...
+
+<posting author="AUTOR" id="7. Mai 2011" />
+@Silja1987
+#semibk
+Das
+Szenario
+solcher
+Polit-Chats
+ist
+z.
+B.
+in
+diesem
+Artikel
+beschrieben
+:
+http://tinyurl.com/6yldv5d
+(
+Abschnitt
+5
+)
+
+<posting author="AUTOR" id="7. Mai 2011" />
+@Silja1987
+#semibk
+..
+Das
+wäre
+dann
+also
+eine
+bewusste
+Strategie
+.
+...
+
+<posting author="AUTOR" id="7. Mai 2011" />
+@Silja1987
+#semibk
+..
+redaktionellen
+Vorauswahl
+chancenreicher
+sind
+,
+wenn
+sie
+sich
+eher
+an
+der
+geschr.
+Standardsprache
+orientieren
+.
+...
+
+<posting author="AUTOR" id="7. Mai 2011" />
+@Silja1987
+#semibk
+Entweder
+das
+ODER
+die
+Nutzer
+(
+zum.
+die
+erfahrenen
+)
+verwenden
+sie
+gar
+nicht
+,
+weil
+sie
+annehmen
+,
+dass
+ihre
+Beiträge
+bei
+der
+..
+
+<posting author="AUTOR" id="7. Mai 2011" />
+@Mia1234
+#semibk
+[
+3
+]
+soziale
+,
+institutionelle
+,
+individuelle
+.
+Zur
+indiv.
+Variation
+verweise
+ich
+nochmal
+auf
+Luckhardt
+:
+http://tinyurl.com/3umxkuh
+
+<posting author="AUTOR" id="7. Mai 2011" />
+@Mia1234
+#semibk
+[
+2
+]
+am
+Bsp
+Chats
+gezeigt
+)
+starke
+Hinweise
+darauf
+,
+dass
+(
+wie
+auch
+im
+Real
+Life
+)
+diverse
+Faktoren
+die
+spr
+Variation
+beeinflussen
+:
+..
+
+<posting author="AUTOR" id="7. Mai 2011" />
+@Mia1234
+#semibk
+[
+1
+]
+Das
+schließt
+direkt
+an
+die
+vorige
+Frage
+von
+@DieMaJa22
+an
+.
+In
+jedem
+Fall
+gibt
+es
+(
+wie
+auch
+in
+der
+Sitzung
+...
+
+<posting author="AUTOR" id="7. Mai 2011" />
+@DieMaJa22
+#semibk
+Gute
+(
+und
+wichtige
+)
+Frage
+!
+Hab
+ich
+ja
+bereits
+in
+der
+Sitzung
+aufgegriffen
+!
+
+<posting author="AUTOR" id="7. Mai 2011" />
+@Montaaag
+#semibk
+Diese
+Frage
+spiele
+ich
+zurück
+indie
+Runde
+:
+Zu
+welchem
+Handlungsbereich
+gehört
+unsere
+Komm
+hier
+?
+Bildung
+?
+Freizeit
+?
+Mischung
+?
+
+<posting author="AUTOR" id="7. Mai 2011" />
+Da
+haben
+Sie
+mich
+jetzt
+aber
+echt
+erwischt
+@Kaf_fee
+!
+*betretenzubodenblick*
+#semibk
+
+<posting author="AUTOR" id="7. Mai 2011" />
+@Mia1234
+@Momo
+#semibk
+Hier
+noch
+mal
+ein
+Nachtrag
+zum
+Thema
+Digital
+Natives
+vs.
+Digital
+Immigrants
+:
+http://www.omnisophie.com/day_140.html
+
+<posting author="AUTOR" id="6. Mai 2011" />
+#semibk
+Und
+hier
+meine
+eigenen
+Eindrücke
+von
+unserer
+gestrigen
+Sitzung
+:
+http://blogfilet.wordpress.com/
+
+<posting author="AUTOR" id="6. Mai 2011" />
+#semibk
+OK
+,
+dies
+war
+der
+1.
+Teil
+meiner
+Anmerkungen
+zu
+Ihren
+Kommentaren
+a.
+d.
+gestrigen
+Sitzung
+.
+Später
+mehr
+.
+Gern
+dürfen
+Sie
+weiterdiskutieren
+:)
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@Mia1234
+'
+#semibk
+Zum
+Konzept
+Digital
+Natives
+(
+vs.
+Digital
+Immigrants
+)
+s.
+http://tinyurl.com/yldbvk3
+u.
+Palfrey
+/
+Gasser
+2008
+auf
+unserer
+Litliste
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@Momo
+#semibk
+"
+Beeinflusst
+Internetkomm
+Sprache
+im
+Alltag
+?
+"
+Häufige
+Frage
+!
+Empir
+Untersuchg
+schwierig
+.
+Einschätzg
+:
+http://tinyurl.com/5spl57v
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@3Liane
+Gibt
+es
+denn
+wirklich
+"
+DIE
+Chatsprache
+"
+?
+->
+vgl.
+z.
+B.
+die
+gestern
+vorgestellte
+Untersuchung
+od.
+die
+Untersuchung
+aus
+Storrer
+2007
+#semibk
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@3Liane
+Impuls
+f.
+d.
+weitere
+Reflexion
+unserer
+Twitternutzung
+im
+Sem
+:
+Vor
+/
+Nachteile
+von
+Tweets
+vs.
+direkten
+mündl.
+Rückfragen
+/
+Kommentaren
+?
+#semibk
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@Mia1234
+...
+zur
+Weiterentwicklung
+der
+Erkenntnisse
++
+Theorien
+zum
+Thema
+bzw.
+zur
+wiss.
+Sicht
+a.
+d.
+untersuchten
+Gegenstand
+zu
+leisten
+.
+#semibk
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@Mia1234
+..
+i.
+d.
+Kontext
+dessen
+stellen
+zu
+können
+,
+was
+zum
+Thema
+schon
+herausgefunden
+wurde
+-
+und
+mit
+d.
+eigenen
+Unters
+dann
+einen
+Beitrag
+..
+#semibk
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@Mia1234
+...
+sicherzustellen
+,
+dass
+die
+eigene
+Untersuchung
+neu
++
+innovativ
+ist
+.
+Auch
+ist
+es
+immer
+gut
+,
+die
+eigene
+Untersuchung
+...
+#semibk
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@Mia1234
+..
+darüber
+,
+was
+es
+zum
+Gegenstand
+schon
+für
+Positionen
++
+Befunde
+gibt
+,
+bevor
+man
+seine
+eigene
+Forsch
+Frage
+eingrenzt
+-
+dies
+auch
+,
+um
+..
+#semibk
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@Mia1234
+I
+d
+R
+ist
+es
+ja
+selten
+so
+,
+dass
+zu
+einem
+Thema
+noch
+gar
+nichts
+geforscht
+wurde
+.
+Daher
+informiert
+man
+sich
+üblicherweise
+zuerst
+..
+#semibk
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@Hüpfy1989
+Stimmt
+schon.
+Wenn
+man
+die
+Forsch.frage
+vernünftig
+(
+mit
+Blick
+a.
+d.
+Machbare
+)
+eingrenzt
+,
+können
+sie
+aber
+großen
+Gewinn
+bieten
+#semibk
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@RioTeam
+Direkta.
+d.
+Wall
+twittern
+geht
+nicht
+,
+sie
+bietet
+nur
+d.
+Vorteil
+,
+dass
+sie
+automat.
+updatet
++
+man
+nicht
+klicken
+muss
+(
+praktisch
+im
+Sem
+)
+#semibk
+
+<posting author="AUTOR" id="6. Mai 2011" />
+#semibk
+@melblue9
+..
+dann
+sehen
+Sie
+rechts
+oben
+im
+Tweet
+ein
+Sprechblasen-Icon
+.
+Klicken
+Sie
+drauf
+,
+um
+sich
+den
+Bezugsbeitrag
+anzeigen
+zu
+lassen
+
+<posting author="AUTOR" id="6. Mai 2011" />
+#semibk
+@melblue9
+übrigens
+:
+Tipp
+für
+alle
+:
+Wenn
+ein
+Tweet
+eine
+Antwort
+auf
+einen
+anderen
+Tweet
+darstellt
+(
+so
+wie
+dieser
+hier
+,
+testweise
+)
+,
+dann
+...
+
+<posting author="AUTOR" id="6. Mai 2011" />
+#semibk
+War
+ja
+weniger
+chaotisch
+als
+gedacht
+gestern
+-
+zumindest
+aus
+meiner
+(
+Doz.
+)
+Sicht
+.
+:)
+Werde
+jetzt
+mal
+noch
+ein
+paar
+Tweets
+beantworten
+.
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@seifenblase
+..
+Mitgliedern
+Ihrer
+Gruppe
+erlaubt
+,
+Änderungen
+vorzunehmen
+,
+dann
+könnte
+ein
+Wiki
+eine
+gute
+Wahl
+sein
+->
+s.
+z.
+B.
+http://de.wikia.com
+
+<posting author="AUTOR" id="6. Mai 2011" />
+@seifenblase
+Zu
+Ihrer
+"
+privaten
+"
+Frage
+:
+Wenn
+Sies
+kostenlos
+UND
+einfach
+haben
+wollen
+,
+noch
+dazu
+in
+einem
+Format
+,
+das
+es
+auch
+anderen
+...
+
+<posting author="AUTOR" id="5. Mai 2011" />
+#semibk
+sooo
+...
+hier
+der
+Link
+zu
+der
+selbst-updatenden
+"
+Twitterwall
+"
+für
+unsere
+heutige
+Sitzung
+:
+http://twitterwallr.com/semibk
+
+<posting author="AUTOR" id="5. Mai 2011" />
+@Kaf_fee
+#semibk
+"
+twitteriki
+"
+finde
+ich
+eine
+ungemein
+kreative
+Wortbildung
+(
+Typus
+:
+Wortkreuzung
+bzw.
+Kontamination
+)
+!
+:D
+
+<posting author="AUTOR" id="5. Mai 2011" />
+@seifenblase
+"
+sitze
+im
+Sudelbuch-Seminar
+-
+wer
+will
+mit
+sudeln
+"
+<-
+Fachfrage:
+Lässt
+sich
+Twitter
+als
+virtuelles
+Sudelbuch
+beschreiben
+?
+;)
+
+<posting author="AUTOR" id="5. Mai 2011" />
+#semibk
+*
+zwitscher
+zwitscher
+*
+Schaun
+wir
+mal
+,
+obs
+"
+lustig
+"
+wird
+-
+hoffentlich
+wirds
+nicht
+zu
+chaotisch
+;)
+
+<posting author="AUTOR" id="4. Mai 2011" />
+@MimiSchmitz
+@LaraMüller
+@xyzbaba
+aber
+schön
+,
+dass
+sie
+so
+fleißig
+testen
+!
+diese
+woche
+dürfen
+sie
+dann
+ja
+sogar
+i.
+d.
+sitzung
+twittern
+.
+;)
+
+<posting author="AUTOR" id="4. Mai 2011" />
+@MimiSchmitz
+@LaraMüller
+@xyzbaba
+"
+irgendwie
+pass
+ich
+wegen
+dem
+Twitter
+Zeug
+gar
+nich
+auf
+"
+<-
+also
+sowas
+,
+tststs
+^^
+
+<posting author="AUTOR" id="4. Mai 2011" />
+@xyzbaba
+"
+2011
+:
+mein
+erster
+tweed
+"
+<-
+Tweed
+or
+Tweet
+?
+Das
+ist
+die
+Frage
+!
+;)
+->
+s.
+http://tinyurl.com/65bd5ms
+vs
+http://tinyurl.com/63zup8w
+
diff --git a/src/test/resources/empirist_gold_standard/test_cmc/tokenized/cmc_test_whatsapp.txt b/src/test/resources/empirist_gold_standard/test_cmc/tokenized/cmc_test_whatsapp.txt
new file mode 100644
index 0000000..acba689
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_cmc/tokenized/cmc_test_whatsapp.txt
@@ -0,0 +1,757 @@
+<posting id="1366" author="Participant_7" dat="26. Okt., 23:08" />
+Schau
+mal
+,
+hab
+ich
+gestern
+von
+Janine
+bekommen
+.
+emojiQsmilingCatFaceWithHeartShapedEyes
+
+<posting id="1367" author="Participant_8" dat="26. Okt., 23:09" />
+Naaaaw
+wie
+süß
+!
+emojiQsmilingCatFaceWithHeartShapedEyes
+
+<posting id="1368" author="Participant_7" dat="26. Okt., 23:11" />
+Ich
+glaube
+,
+die
+war
+voll
+teuer
+..
+hab
+ich
+mich
+gleich
+voll
+schlecht
+gefühlt
+.
+emojiQloudlyCryingFace
+
+<posting id="1369" author="Participant_8" dat="26. Okt., 23:12" />
+ach
+,
+das
+brauchst
+du
+doch
+nicht
+!
+
+<posting id="1370" author="Participant_8" dat="27. Okt., 11:23" />
+Huhu
+!
+Also
+ich
+hab
+jetzt
+vom
+4rooms
+antwort
+bekommen
+,
+ist
+leider
+nur
+18
++
+emojiQloudlyCryingFace
+
+<posting id="1371" author="Participant_7" dat="27. Okt., 11:35" />
+Also
+kommen
+wir
+leider
+nicht
+mit
+.
+emojiQloudlyCryingFace
+
+<posting id="1372" author="Participant_8" dat="27. Okt., 11:35" />
+Ja
+,
+ist
+echt
+blöde
+...
+aber
+eben
+auch
+verständlich
+.
+Die
+können
+da
+eben
+nicht
+drauf
+achten
+,
+ob
+sie
+was
+hartes
+trinkt
+oder
+nicht
+(
+da
+ists
+echt
+immer
+ziemlich
+voll
+)
+:(
+Aber
+donnerstag
+steht
+noch
+?
+Wann
+soll
+ich
+dann
+eigentlich
+rum
+kommen
+?
+;)
+
+<posting id="1373" author="Participant_7" dat="27. Okt., 11:42" />
+Ja
+,
+das
+stimmt
+schon
+und
+am
+Donnerstag
+bin
+ich
+gegen
+17
+Uhr
+zuhause
+,
+aber
+du
+kannst
+gerne
+schon
+früher
+kommen
+,
+Nadine
+lässt
+dich
+rein
+.
+emojiQcatFaceWithWrySmile
+
+<posting id="1374" author="Participant_8" dat="27. Okt., 11:42" />
+Ok
+,
+alles
+klar
+:)
+ich
+freu
+mich
+schon
+!
+
+<posting id="1376" author="Participant_8" dat="28. Okt., 12:36" />
+Whaaaa
+emojiQsmilingCatFaceWithHeartShapedEyes
+ihr
+seid
+die
+geilsten
+!!
+Es
+ist
+sooo
+klasse
+!
+
+<posting id="1377" author="Participant_7" dat="28. Okt., 12:38" />
+Ich
+besser
+es
+jetzt
+mit
+worbla
+aus
+und
+am
+Donnerstag
+machen
+wir
+noch
+mehr
+davon
+.
+emojiQsmilingCatFaceWithHeartShapedEyes
+
+<posting id="1378" author="Participant_8" dat="28. Okt., 12:37" />
+Uuuuh
+ich
+liebe
+es
+!
+
+<posting id="1379" author="Participant_7" dat="28. Okt., 12:46" />
+Ich
+weiß
+,
+wir
+auch
+.
+emojiQsmilingCatFaceWithHeartShapedEyes
+
+<posting id="1380" author="Participant_8" dat="28. Okt., 12:45" />
+Hehe
+:)
+
+<posting id="1382" author="Participant_8" dat="28. Okt., 12:59" />
+Wie
+es
+einfaach
+total
+geil
+aussieht
+...
+
+<posting id="1384" author="Participant_7" dat="28. Okt., 13:25" />
+So
+jetzt
+bricht
+nichts
+mehr
+ab
+.
+emojiQcatFaceWithWrySmile
+
+<posting id="1385" author="Participant_8" dat="28. Okt., 13:25" />
+Umso
+besser
+-
+dann
+halten
+dir
+ja
+auch
+nen
+kampf
+aus
+xD
+
+<posting id="1386" author="Participant_7" dat="28. Okt., 13:25" />
+Und
+Fahrradbremsen
+holen
+wir
+nachher
+.
+
+<posting id="1387" author="Participant_8" dat="28. Okt., 13:25" />
+Uuuh
+*_*
+Wir
+müssen
+dann
+wirklich
+mal
+ausrechnen
+,
+was
+du
+dann
+noch
+von
+mir
+bekommst
+!
+
+<posting id="1388" author="Participant_7" dat="28. Okt., 13:27" />
+Ja
+,
+kein
+Problem
+.
+emojiQsmilingFaceWithSmilingEyes
+
+<posting id="1389" author="Participant_8" dat="28. Okt., 13:27" />
+Hehe
+:)
+
+<posting id="1390" author="Participant_7" dat="29. Okt., 8:36" />
+Lenaaaaa
+,
+alles
+alles
+Liebe
+zum
+Geburtstag
+.
+emojiQsmilingCatFaceWithHeartShapedEyes
+emojiQkissingCatFaceWithClosedEyes
+emojiQsmilingCatFaceWithHeartShapedEyes
+emojiQkissingCatFaceWithClosedEyes
+emojiQsmilingCatFaceWithHeartShapedEyes
+emojiQsmilingCatFaceWithHeartShapedEyes
+emojiQheavyBlackHeart
+emojiQheavyBlackHeart
+emojiQheavyBlackHeart
+
+<posting id="1391" author="Participant_8" dat="29. Okt., 9:45" />
+Dankeschön
+emojiQsmilingFaceWithSmilingEyes
+emojiQsmilingFaceWithSmilingEyes
+
+<posting id="1392" author="Participant_8" dat="30. Okt., 14:07" />
+Huhu
+!
+:)
+soll
+ich
+nachher
+noch
+irgendwas
+mitbringen
+?
+emojiQsmilingFaceWithSmilingEyes
+
+<posting id="1393" author="Participant_7" dat="30. Okt., 14:08" />
+Ach
+Quatsch
+,
+ich
+hole
+uns
+noch
+ein
+paar
+Donuts
+.
+emojiQwhiteSmilingFace
+
+<posting id="1394" author="Participant_8" dat="30. Okt., 14:11" />
+Haha
+,
+alles
+klar
+:)
+um
+5
+wars
+,
+ne
+?
+
+<posting id="1395" author="Participant_7" dat="30. Okt., 14:14" />
+Genau
+,
+bin
+dann
+kurz
+nach
+5
+auch
+da
+.
+emojiQsmilingFaceWithSmilingEyes
+
+<posting id="1396" author="Participant_8" dat="30. Okt., 14:14" />
+Guti
+:)
+
+<posting id="1397" author="Participant_7" dat="30. Okt., 16:47" />
+Bin
+jetzt
+auf
+dem
+Heimweg
+.
+emojiQkissingCatFaceWithClosedEyes
+
+<posting id="1398" author="Participant_8" dat="30. Okt., 16:54" />
+Guti
+:)
+ich
+komme
+ein
+paar
+minuten
+später
+,
+hab
+doch
+glatt
+die
+7
+verpasst
+xD
+
+<posting id="1399" author="Participant_7" dat="30. Okt., 17:09" />
+Kein
+Problem
+emojiQkissingFaceWithClosedEyes
+
+<posting id="1400" author="Participant_8" dat="30. Okt., 17:09" />
+Boaaah
+jetzt
+steht
+die
+doofe
+tram
+hier
+ewig
+an
+der
+wiebelstraße
+rum
+emojiQfaceWithLookOfTriumph
+
+<posting id="1401" author="Participant_7" dat="30. Okt., 17:10" />
+Kenn
+ich
+nur
+zu
+gut
+emojiQwearyFace
+
+<posting id="1402" author="Participant_8" dat="30. Okt., 17:11" />
+Vor
+allem
+...
+warum
+steht
+sie
+hier
+denn
+überhaupt
+so
+lange
+>_<
+
+<posting id="1403" author="Participant_7" dat="30. Okt., 17:16" />
+Wegen
+der
+doofen
+Baustelle
+,
+ist
+doch
+wieder
+nur
+einspurig
+.
+emojiQtiredFace
+
+<posting id="1404" author="Participant_8" dat="30. Okt., 17:16" />
+Hab
+ich
+eben
+schon
+gemerkt
+som
+schrott
+da
+xd
+
+<posting id="1405" author="Participant_7" dat="30. Okt., 17:19" />
+Ich
+plan
+da
+schon
+immer
+10
+Minuten
+extra
+ein
+.
+emojiQcatFaceWithWrySmile
+
+<posting id="1406" author="Participant_8" dat="30. Okt., 22:12" />
+So
+,
+zu
+hause
+angekommen
+,
+safe
+&
+sound
+;)
+
+<posting id="1408" author="Participant_7" dat="1. Nov., 21:22" />
+Wie
+war
+das
+mit
+dem
+auf
+dem
+Rücken
+liegen
+?
+emojiQcatFaceWithWrySmile
+
+<posting id="1409" author="Participant_8" dat="1. Nov., 21:21" />
+Hahaha
+,
+sehr
+schön
+!
+:)
+
+<posting id="1411" author="Participant_8" dat="3. Nov., 20:46" />
+Guck
+mal
+,
+hab
+ich
+mir
+heute
+gekauft
+bei
+h&m
+:)
+
+<posting id="1412" author="Participant_7" dat="3. Nov., 22:09" />
+Ahhhhhhhhh
+wie
+süß
+!
+emojiQsmilingCatFaceWithHeartShapedEyes
+emojiQsmilingCatFaceWithHeartShapedEyes
+emojiQsmilingCatFaceWithHeartShapedEyes
+emojiQsmilingCatFaceWithHeartShapedEyes
+emojiQsmilingCatFaceWithHeartShapedEyes
+emojiQsmilingCatFaceWithHeartShapedEyes
+emojiQsmilingCatFaceWithHeartShapedEyes
+
+<posting id="1413" author="Participant_7" dat="3. Nov., 22:09" />
+Eine
+Eule
+!
+emojiQsmilingCatFaceWithHeartShapedEyes
+
+<posting id="1414" author="Participant_8" dat="3. Nov., 22:09" />
+Hihi
+:)
+jaaa
+,
+auch
+wenn
+sie
+etwas
+böse
+guckt
+;)
+
+<posting id="1415" author="Participant_7" dat="3. Nov., 22:10" />
+Mal
+freundliche
+Augenbrauen
+mit
+Edding
+drauf
+.
+emojiQcatFaceWithTearsOfJoy
+emojiQcatFaceWithTearsOfJoy
+emojiQcatFaceWithTearsOfJoy
+emojiQcatFaceWithTearsOfJoy
+emojiQcatFaceWithTearsOfJoy
+
+<posting id="1416" author="Participant_8" dat="3. Nov., 22:11" />
+Haha
+-
+du
+willst
+wohl
+,
+dass
+sie
+aussieht
+wie
+janosch
+!
+XD
+
+<posting id="1417" author="Participant_7" dat="3. Nov., 22:14" />
+Mist
+,
+ertappt
+.
+emojiQcatFaceWithTearsOfJoy
+emojiQcatFaceWithTearsOfJoy
+emojiQcatFaceWithTearsOfJoy
+
+<posting id="1418" author="Participant_8" dat="3. Nov., 22:14" />
+Hihi
+:)
+Ich
+weiß
+nicht
+,
+welche
+perü
+ich
+für
+christa
+bestellen
+soll
+._.
+
+<posting id="1419" author="Participant_7" dat="3. Nov., 22:16" />
+Ich
+schaue
+morgen
+mal
+rum
+,
+vielleicht
+find
+ich
+ja
+ne
+hübsche
+für
+dich
+.
+emojiQkissingFaceWithClosedEyes
+
+<posting id="1420" author="Participant_8" dat="3. Nov., 22:17" />
+:)
+ooh
+und
+ich
+hab
+ne
+weiße
+hose
+gefunden
+!
+Hab
+dir
+bei
+fb
+links
+geschickt
+:)
+
+<posting id="1421" author="Participant_7" dat="3. Nov., 22:20" />
+Alles
+klar
+,
+hab
+ich
+noch
+hab
+nicht
+gesehen
+.
+Hoffentlich
+gibts
+die
+auch
+in
+meiner
+Größe
+.
+emojiQcatFaceWithTearsOfJoy
+emojiQcatFaceWithTearsOfJoy
+emojiQcatFaceWithTearsOfJoy
+
+<posting id="1422" author="Participant_8" dat="3. Nov., 22:20" />
+Musst
+du
+mal
+schauen
+dann
+,
+waren
+recht
+viele
+größen
+eig
+:)
+
+<posting id="1423" author="Participant_7" dat="3. Nov., 22:28" />
+Ja
+,
+schaue
+ich
+nachher
+gleich
+mal
+.
+emojiQsmilingCatFaceWithHeartShapedEyes
+
+<posting id="1424" author="Participant_8" dat="3. Nov., 22:27" />
+Hihi
+:)
+
+<posting id="1426" author="Participant_7" dat="4. Nov., 14:41" />
+Ahhhhhhh
+emojiQsmilingCatFaceWithHeartShapedEyes
+emojiQsmilingCatFaceWithHeartShapedEyes
+emojiQsmilingCatFaceWithHeartShapedEyes
+
+<posting id="1427" author="Participant_8" dat="4. Nov., 14:42" />
+Hihi
+:)
+
+<posting id="1429" author="Participant_8" dat="14. Nov., 21:02" />
+emojiQsmilingFaceWithHeartShapedEyes
+ich
+bin
+sprachlos
+!
+Das
+sieht
+so
+toll
+aus
+!!
+
+<posting id="1430" author="Participant_7" dat="14. Nov., 21:03" />
+Das
+Metallspray
+ist
+total
+geil
+.
+emojiQsmilingFaceWithHeartShapedEyes
+emojiQsmilingFaceWithHeartShapedEyes
+emojiQsmilingFaceWithHeartShapedEyes
+emojiQsmilingFaceWithHeartShapedEyes
+ich
+bin
+jetzt
+wieder
+hoch
+motiviert
+.
+
+<posting id="1431" author="Participant_8" dat="14. Nov., 21:04" />
+Jaaaa
+es
+ist
+so
+toll
+emojiQsmilingFaceWithHeartShapedEyes
+emojiQsmilingFaceWithHeartShapedEyes
+
diff --git a/src/test/resources/empirist_gold_standard/test_cmc/tokenized/cmc_test_wiki_discussion.txt b/src/test/resources/empirist_gold_standard/test_cmc/tokenized/cmc_test_wiki_discussion.txt
new file mode 100644
index 0000000..195bc97
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_cmc/tokenized/cmc_test_wiki_discussion.txt
@@ -0,0 +1,974 @@
+<posting author="Brummfuzius" id="13:37, 29. Mai 2005 (CEST)" />
+Das
+mit
+der
+Giftigkeit
+stimmt
+nicht
+.
+Und
+wenn
+es
+eine
+Kreuzspinnenart
+ist
+,
+kommen
+sie
+auch
+nicht
+rein
+;
+wenn
+doch
+,
+wäre
+das
+ihr
+Tod
+(
+Klima
+)
+.
+Außerdem
+wird
+eine
+Kreuzspinne
+immer
+fliehen
+,
+wenn
+sie
+kann
+und
+wenn
+nicht
+,
+sich
+totstellen
+.
+Leider
+(
+von
+daher
+darf
+man
+sie
+nicht
+zu
+doll
+stören
+)
+.
+Ich
+wünsch
+noch
+viel
+Spaß
+beim
+Beobachten
+!
+
+<posting author="84.162.29.103" id="22:18, 27. Sep 2006 (CEST)" />
+Also
+lasse
+ich
+die
+,
+die
+ich
+im
+Haus
+gefunden
+habe
+und
+in
+meinem
+Zimmer
+ansiedeln
+wollte
+,
+wohl
+doch
+frei
+...
+Will
+das
+arme
+Tier
+ja
+nicht
+umbringen
+...
+
+<posting author="Mhohner" id="10:37, 2. Jun. 2008 (CEST)" />
+Zur
+völligen
+Überraschung
+habe
+ich
+eine
+Kreuzspinne
+an
+unsererem
+Küchenfenster
+entdeckt
+.
+Sie
+scheint
+sich
+von
+unserem
+Trubel
+mit
+Katze
+,
+Hund
+und
+zwei
+Kindergartenkinder
+nicht
+stören
+zu
+lassen
+.
+Von
+totstellen
+keine
+Spur
+,
+sie
+läßt
+sich
+wunderbar
+beobachten
+.
+Ich
+frag
+mich
+nun
+wirklich
+wie
+lange
+ich
+sie
+nun
+als
+weiteres
+Haustier
+in
+meiner
+Küche
+dulden
+soll
+,
+eine
+wunderbares
+Spinnennetz
+am
+Küchenfenster
+irritiert
+schon
+etwas
+.
+Wie
+lange
+kann
+sie
+denn
+überleben
+??
+...
+hat
+mal
+jemand
+gehört
+,
+das
+der
+Biss
+einer
+Kreuzspinne
+in
+das
+Ohr
+gefährlicher
+sein
+soll
+,
+als
+in
+andere
+Körperstellen
+,
+bzw.
+nur
+dort
+überhaupt
+gefährlich
+sei
+?
+Die
+Idee
+ist
+wohl
+,
+dass
+die
+Haut
+am
+Ohr
+duenner
+ist
+und
+so
+von
+den
+Cheliceren
+leichter
+zu
+durchdringen
+ist
+.
+Gefaehrlicher
+macht
+das
+die
+Spinne
+aber
+nicht
+.
+
+<posting author="82.82.244.57" id="20:48, 8. Sep. 2009 (CEST)" />
+Es
+wird
+Zeit
+dass
+mal
+jemand
+schreibt
+dass
+die
+Kreuzspinne
+giftig
+ist
+.
+Dies
+ist
+ein
+Fakt
+.
+Der
+Biss
+ist
+giftig
+,
+wenn
+auch
+für
+den
+Menschen
+nicht
+tödlich
+,
+aber
+Schmerzen
+,
+Schwellungen
+und
+Hautrötungen
+sollten
+schon
+angegeben
+werden
+,
+wie
+bei
+der
+Wespe
+auch
+.
+Allergiker
+können
+ein
+echtes
+Gesundheitsproblem
+beim
+Biss
+einer
+Kreuzspinne
+bekommen
+.
+(
+Abgesehen
+davon
+finde
+ich
+diese
+Tiere
+faszinierend
+;
+meine
+Meinung
+)
+
+<posting author="Mhohner" id="10:30, 12. Sep. 2009 (CEST)" />
+Das
+wäre
+ziemlich
+redundant
+.
+Bis
+auf
+wenige
+Arten
+sind
+alle
+Spinnen
+giftig
+.
+Das
+muss
+man
+nicht
+bei
+jeder
+Art
+einzeln
+herausstellen
+.
+Allgemein
+ist
+das
+bei
+Webspinnen
+beschrieben
+.
+
+<posting author="Ariser" id="13:14, 24. Sep. 2009 (CEST)" />
+Klaviere
+sind
+übrigens
+lebensgefährlich
+.
+Wenn
+man
+unter
+einem
+durchgeht
+und
+es
+fällt
+runter
+,
+ist
+man
+hin
+.
+Für
+einen
+Allergiker
+ist
+in
+der
+Regel
+erst
+der
+zweite
+Kontakt
+mit
+dem
+Allergen
+gefährlich
+.
+Da
+ich
+bis
+jetzt
+von
+niemandem
+gehört
+habe
+,
+der
+auch
+nur
+einmal
+von
+einer
+Kreuzspinne
+gebissen
+worden
+wäre
+,
+halte
+ich
+es
+für
+wahrscheinlicher
+,
+vom
+Blitz
+erschlagen
+zu
+werden
+.
+
+<posting author="Madame" id="00:03, 26. Aug. 2010 (CEST)" />
+Sicher
+ist
+es
+redundant
+,
+zu
+erwähnen
+,
+daß
+Spinnen
+giftig
+sind
+.
+Und
+ja
+,
+Klaviere
+sind
+ebenso
+gefährlich
+.
+Und
+Autos
+erst
+...
+Aber
+mir
+hat
+man
+als
+Kind
+immer
+Horrorgeschichten
+gerade
+über
+Kreuzspinnen
+erzählt
+(
+Kreuz
+steht
+für
+Tod
+und
+so
+)
+,
+und
+nur
+über
+Kreuzspinnen
+.
+Und
+damit
+bin
+ich
+vermutlich
+nicht
+allein
+,
+zumal
+die
+Viecher
+für
+deutsche
+Verhältnisse
+ganz
+schön
+groß
+werden
+.
+Ein
+kleiner
+Hinweis
+wäre
+also
+vielleicht
+doch
+nicht
+so
+verkehrt
+:
+Besorgte
+Eltern
+oder
+Kinder
+werden
+wohl
+eher
+nicht
+den
+erwähnten
+Artikel
+über
+Webspinnen
+aufrufen
+.
+
+<posting author="92.77.247.147" id="15:58, 26. Sep. 2010 (CEST)" />
+Und
+dein
+singer-songwriter
+stimmt
+mit
+der
+Begründung
+überhaupt
+nicht
+mehr
+überein
+.
+Nach
+deiner
+Version
+war
+er
+ein
+Solokünstler
+und
+dann
+kommt
+anschließend
+,
+dass
+er
+Gründungsmitglied
+der
+Band
+VU
+war
+????
+Bitte
+mal
+vorher
+überlegen
+,
+ob
+solche
+Edits
+notwendig
+sind
+...
+
+<posting author="92.77.247.147" id="16:03, 26. Sep. 2010 (CEST)" />
+Deutliche
+Verschlimmbesserung
+...
+
+<posting author="Traeumer" id="16:05, 26. Sep. 2010 (CEST)" />
+Das
+ist
+eine
+ganz
+einfach
+Sache
+der
+Vergangenheit
+und
+der
+Gegenwart
+.
+Er
+WAR
+Gründungsmitglied
+,
+aber
+nun
+ist
+er
+Solokünstler
+und
+dabei
+Singer-Songwriter
+.
+
+<posting author="92.77.247.147" id="16:07, 26. Sep. 2010 (CEST)" />
+Mann
+-
+dann
+geht
+doch
+aber
+der
+gesamte
+Zusammenhang
+im
+Artikel
+"
+flöten
+"
+,
+das
+musst
+du
+doch
+einsehen
+...
+
+<posting author="Traeumer" id="16:13, 26. Sep. 2010 (CEST)" />
+Die
+Einleitung
+beschreibt
+,
+was
+er
+ist
+(
+wenn
+es
+sich
+um
+eine
+lebendige
+Person
+handelt
+)
+und
+wodurch
+er
+bekannt
+wurde
+.
+Es
+ist
+Singer-Songwriter
+und
+war
+(
+Gründungs
+)
+mitglied
+von
+Velvet
+Underground.
+Alles
+weitere
+wird
+anschließend
+im
+Artikel
+geklärt
+.
+
+<posting author="92.77.247.147" id="16:17, 26. Sep. 2010 (CEST)" />
+Ok.
+Träum
+weiter
+:
+er
+hat
+immer
+-
+und
+tut
+dies
+auch
+heute
+noch
+,
+mit
+anderen
+Musikern
+zusammengearbeitet
+.
+http://www.youtube.com/watch?v=2w1g-idt-8U
+
+<posting author="Traeumer" id="16:20, 26. Sep. 2010 (CEST)" />
+Und
+was
+hat
+dies
+mit
+seiner
+derzeitigen
+Solokarriere
+zu
+tun
+?
+Du
+vergleichst
+hier
+ständig
+Äpfel
+mit
+Birnen
+
+<posting author="92.77.247.147" id="16:26, 26. Sep. 2010 (CEST)" />
+Mom
+tritt
+er
+mit
+Laurie
+Anderson
+und
+John
+Zorn
+auf
+...
+http://www.loureed.org/00/index.html
+.
+Das
+mit
+den
+Äppeln
+und
+Birnen
+ist
+mein
+Text
+-
+woher
+weißt
+du
+,
+das
+dort
+nur
+Lieder
+von
+L.
+Reed
+gespielt
+werden
+.
+Hast
+du
+ihn
+gefragt
+?
+
+<posting author="Traeumer" id="16:32, 26. Sep. 2010 (CEST)" />
+Was
+hat
+seine
+Kooperation
+mit
+anderen
+Musikern
+mit
+seiner
+Solokarriere
+zu
+tun
+?
+Willst
+du
+alles
+in
+die
+Einleitung
+packen
+?
+Lou
+Reed
+(
+*
+....
+)
+war
+von
+xx
+-
+yy
+Sänger
+,
+von
+bb
+-
+aa
+Gitarrist
+,
+von
+nn
+-
+aa
+Songwriter
+,
+von
+ee
+-
+ww
+Singer-Songwriter
+,
+von
+qq
+-
+zz
+Sänger
+,
+von
+rr
+-
+tt
+wieder
+Songwriter
+...
+Dafür
+ist
+der
+Artikel
+da
+und
+nicht
+die
+Einleitung
+.
+
+<posting author="92.77.247.147" id="16:34, 26. Sep. 2010 (CEST)" />
+Jetz
+wirst
+du
+aber
+komisch
+-
+dein
+Text
+ist
+"
+Müll
+"
+,
+weil
+der
+Zusammenhang
+verloren
+geht
+-
+basta
+.
+
+<posting author="92.77.247.147" id="16:43, 26. Sep. 2010 (CEST)" />
+Außerdem
+hat
+das
+alles
+nix
+mit
+der
+Ausgangsfrage
+zu
+tun
+...
+du
+lenkst
+ab
+.
+Das
+mit
+dem
+"
+songwriter
+"
+und
+Phis
+ständigem
+Revertieren
+war
+völlig
+sinnlos
+.
+
+<posting author="92.77.247.147" id="16:51, 26. Sep. 2010 (CEST)" />
+Ich
+würd
+sowas
+auf
+VM
+melden
+.
+Die
+Übersetzung
+spricht
+eine
+deutliche
+Sprache
+...
+
+<posting author="92.77.247.147" id="17:32, 26. Sep. 2010 (CEST)" />
+Vor
+allem
+,
+weil
+sich
+ihre
+erste
+Version
+hier
+:
+http://de.wikipedia.org/w/index.php?title=Lou_Reed&diff=next&oldid=79503162
+auch
+nicht
+im
+Duden
+befindet
+.
+"
+Songautor
+"
+gibt
+es
+schlichtweg
+nich
+...
+
+<posting author="92.77.253.64" id="19:39, 26. Sep. 2010 (CEST)" />
+Ist
+es
+nicht
+sinnvoller
+,
+dem
+Autoren
+mit
+Hinweisen
+aus
+meinem
+vorherigen
+Abschnitt
+die
+Optimierung
+des
+Artikels
+vorzuschlagen
+,
+statt
+sich
+in
+einem
+solchen
+Kleinkrieg
+zu
+zermürben
+?
+Was
+ist
+das
+hier
+für
+ein
+Projekt
+?
+Ermutigt
+ihn
+,
+statt
+ihm
+ständig
+irgenwelche
+"
+Knüppel
+zwischen
+die
+Beine
+"
+zu
+schmeißen
+...
+
diff --git a/src/test/resources/empirist_gold_standard/test_web/raw/web_test_001.txt b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_001.txt
new file mode 100644
index 0000000..c5ee0c3
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_001.txt
@@ -0,0 +1,48 @@
+<article id="web_test_001" url="https://de.wikipedia.org/wiki/Detmold" />
+Nahe dem Ortsteil Holzhausen-Externsteine der Nachbarstadt Horn-Bad Meinberg liegen die Externsteine, eine der größten Natursehenswürdigkeiten Deutschlands. Im Umkreis der von der Wiembecke in Jahrmillionen ausgewaschenen Steine wurde ein Gebiet von etwa 140 Hektar als Naturschutzgebiet ausgewiesen.
+
+Regelmäßige Veranstaltungen
+
+Jedes Jahr im Frühjahr finden in der Fußgängerzone der Innenstadt sowie im Kaiserkeller und in der Stadthalle die Internationalen Detmolder Jazznächte statt. Gäste sind zum Beispiel Robin Eubanks und regelmäßig die Bigband der Detmolder Musikhochschule.
+
+Im Frühsommer findet das Kurzfilmfestival International Short Film Festival (ISFF Detmold) statt.[36]
+
+Im Sommer werden regelmäßig die Detmolder Sommerbühne und Lippe Kulinarisch veranstaltet. Die Sommerbühne ist eine mehrtägige kostenlose Open-Air-Veranstaltung in der Innenstadt mit einer Hauptbühne auf dem Marktplatz. Lippe Kulinarisch bietet im Schlossgarten im Juli/August an einem Wochenende regionale und internationale Spezialitäten, die von der heimischen Gastronomie präsentiert werden, an.
+
+Im zweijährigen Rhythmus, zu Pfingsten, findet auf öffentlichen Straßen und Plätzen das Europäische Straßentheaterfestival statt. Das erste Straßentheaterfest in Detmold wurde 1991 unter dem Namen "1. Detmolder Bildstörung" veranstaltet. Nach über 20 Jahren regelmäßiger Realisierung von Projekten ist das Straßentheater fester Bestandteil des kulturellen Lebens der Stadt.
+
+Im Herbst findet jedes Jahr von Mittwoch nach dem Buß- und Bettag bis zum darauffolgenden Sonntag die Andreasmesse mit etwa 250 Ausstellern statt. Karussells und Verkaufsstände bieten ein buntes Programm auf dem seit 1604 urkundlich bezeugten Jahrmarkt. Veranstaltungsort sind die Fußgängerzone und der Kronenplatz. Ebenfalls in der Fußgängerzone findet jedes Jahr der Weihnachtsmarkt statt. Früher war diese Veranstaltung nur ein kleiner Bauernmarkt.
+
+Jeden ersten Samstag im Monat findet von April bis November ein Flohmarkt ohne Neuwaren am Friedrichstaler Kanal statt.
+
+Kulinarische Spezialitäten
+
+Die bekannteste Spezialität in Detmold ist der Lippische Pickert, eine Art Kartoffelreibekuchen aus Mehl, geriebenen Kartoffeln, Eiern, Rosinen, Hefe, Milch und Wasser. Er wird traditionell mit Rübenkraut oder Lippischer Leberwurst, einer weiteren lippischen Spezialität, gegessen. Der lippische Pickert findet auch Erwähnung in dem regional bekannten Volkslied Die Lippischen Schützen, in dem es heißt: „Und als sie dann kamen durch die qualmige Stadt Essen, da ham se ihren mitjebrachten Pickert aufjejessen“.
+
+Wirtschaft und Infrastruktur
+
+Verkehr
+
+Straßenverkehr
+
+Detmold ist über die Bundesstraßen 238 und 239 sowie über Landstraßen an das Bundesautobahnnetz (A 2, Dortmund – Hannover und A 33, Bielefeld – Paderborn) angeschlossen. Bemerkenswert für eine Stadt dieser Größe ist es, dass es im Stadtgebiet keine vierspurig geführte Straße gibt.
+
+Schienen- und Busverkehr
+
+Empfangsgebäude Bahnhof Detmold
+
+Der Bahnhof Detmold liegt an der Bahnstrecke Herford–Altenbeken. Er wird jeweils im Stundentakt von Regionalzügen der Linien Herford–Lage–Detmold–Altenbeken–Paderborn („Ostwestfalen-Bahn“) sowie (Altenbeken–) Detmold–Lage–Oerlinghausen–Bielefeld („Der Leineweber“, sonntags nur alle zwei Stunden) bedient.
+
+Im Straßenpersonennahverkehr ist Detmold über ein Regionalbusnetz mit der Region verbunden. Der innerstädtische Verkehr wird durch das 1994 von der Stadtverkehr Detmold GmbH aufgebaute Stadtbussystem geleistet, das mit seinen acht Linien teilweise dem bis 1954 bestehenden Straßenbahnnetz entspricht. Detmold gehört zum Tarifverbund „Der Sechser“ (OWL Verkehr GmbH).
+
+→ Hauptartikel: Stadtbus Detmold
+
+Luftverkehr
+
+Der ehemalige Fliegerhorst der Britischen Rheinarmee wurde am 31. Juli 1995 aufgelöst und an die Stadt Detmold übergeben. Die Stadt veräußert Grundstücke und Gebäude des Geländes, um sie einer neuen Nutzung zuzuführen. Der heutige Flugplatz ist ein ziviler Sonderlandeplatz und wird vom Luftsportverein Detmold e. V. genutzt.
+
+Der nächstgelegene internationale Flughafen ist der Flughafen Paderborn/Lippstadt, der rund 60 km südwestlich von Detmold liegt und über die A 33 zu erreichen ist.
+
+Radwege
+
+Die Radfernwege Römerroute und Wellness-Radroute sowie die BahnRadRoute Weser-Lippe führen durch das Stadtgebiet. Außerdem verläuft der Europaradwanderweg R1 von Calais (Frankreich) nach Tallinn (Estland) im Süden (Externsteine) nahe an der Stadt vorbei.
diff --git a/src/test/resources/empirist_gold_standard/test_web/raw/web_test_002.txt b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_002.txt
new file mode 100644
index 0000000..61b20a3
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_002.txt
@@ -0,0 +1,20 @@
+<article id="web_test_002" url="http://www.umwelt-im-unterricht.de/hintergrund/skitourismus-und-das-oekosystem-der-berge/" />
+ Thema der Woche: Skispaß oder Umweltfrust?
+
+ Unterrichtsvorschlag: Die Berge, Urlaub und die Umwelt (GS)
+
+ Unterrichtsvorschlag: Umweltverträgliche Ferien in den Bergen (SEK)
+
+Skitourismus ist für viele Bergregionen in Deutschland von großer Bedeutung, vor allem in den Alpen. Dort stellt er in manchen Regionen den wichtigsten Wirtschaftsfaktor dar. Millionen Menschen reisen in den Wintermonaten in die Berge, um dort Ski zu fahren. Die Gäste geben Geld für Übernachtungen, Verpflegung, Skilifte und -ausrüstung aus und schaffen dadurch viele Arbeitsplätze. In der Saison 2009/2010 sind laut einer Umfrage der Deutschen Sporthochschule in Köln 7,39 Millionen Deutsche Skialpin, das heißt Abfahrtski, gefahren – das sind neun Prozent der Bevölkerung. Die Wintersportgäste blieben im Durchschnitt fünf Nächte, hat das österreichische Bundesministerium für Wirtschaft, Familie und Jugend 2010 ermittelt. Zudem hätten Skifahrer ein höheres Nettoeinkommen als Nichtskifahrer – somit sind sie für die Tourismusindustrie besonders interessant.
+
+Massentourismus prägt Skiorte
+
+Seit Mitte der 1970er-Jahre hat sich Alpinski zu einer populären Sportart für die breite Masse entwickelt. Das trug dazu bei, dass sich in der Alpenregion eine große Anzahl von Orten speziell auf diese Sportart einrichtete. In den Skiorten entstanden Hotels, Pensionen, Ferienwohnungen, Lifte, Loipen und Pisten. Für die Umwelt war das keine günstige Entwicklung. So wird beispielsweise beim Planieren von Skipisten die oberste Humusschicht des Bodens zerstört – und damit auch die Pflanzendecke. Der Boden wird beim Planieren verdichtet. Dadurch speichert er nur halb so viel Wasser wie ein naturbelassener Boden. Die Gefahr der Erosion nimmt dadurch zu, im schlimmsten Fall kommt es häufiger zu Schlamm- und Gerölllawinen. Durch das Zerstören der Pflanzendecke können außerdem Arten verschwinden. Mit den Pflanzen verlieren auch manche Tierarten ihre Lebensgrundlage. So sind zum Beispiel manche Insekten wie Schmetterlinge auf ganz bestimmte Pflanzen angewiesen.
+
+Die negativen Auswirkungen der Skipisten auf die Natur können theoretisch repariert werden. Doch eine Renaturierung ist nur unterhalb der Waldgrenze (1500 bis 1700 Meter Höhe) realistisch, denn darüber erholt sich aufgrund der extremen Wetterverhältnisse und der kargen Böden die Natur zu langsam. Insgesamt nimmt die Infrastruktur für den Alpinskisport große Flächen in Anspruch.
+
+Kanonen gegen Schneemangel
+
+Ein weiteres Problem sind sogenannte Schneekanonen. Gerade in tiefer gelegenen Skigebieten fällt nicht immer genug Schnee, um den Gästen über die gesamte Saison zuverlässig befahrbare Pisten zu bieten. Daher werden die Pisten künstlich beschneit. Fachleute rechnen damit, dass sich der Schneemangel durch den Klimawandel verstärken wird, sodass immer mehr Skigebiete auf Schneekanonen angewiesen sein dürften. Doch diese verbrauchen viel Wasser und Energie. Für ihren Betrieb müssen in Reichweite der Pisten eigens Wasserreservoirs angelegt werden. Zudem machen Schneekanonen ähnlich viel Lärm wie eine stark befahrene Straße. Da sie meist in den Abendstunden eingesetzt werden, können sie Wildtiere in ihren Ruhephasen stören. Durch den zusätzlichen Kunstschnee entsteht mehr Schmelzwasser, was die Bodenerosion noch verstärken kann. Künstlicher Schnee ist zudem dichter als natürlicher, weswegen weniger Sauerstoff an die Erde gelangt, was wiederum zu Vegetationsschäden führen kann.
+
+Auch der Transport der vielen Urlaubsgäste sorgt für Umweltprobleme. Insgesamt reisen etwa 45 bis 50 Millionen Touristen jährlich in das Alpenareal, sowohl im Sommer als auch im Winter. Ein großer Teil nutzt das Auto, sodass es selbst in kleinen Orten und abgelegenen Regionen zu Staus und Luftverschmutzung kommen kann.
diff --git a/src/test/resources/empirist_gold_standard/test_web/raw/web_test_003.txt b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_003.txt
new file mode 100644
index 0000000..4aca90a
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_003.txt
@@ -0,0 +1,25 @@
+<article id="web_test_003" url="https://novastation.wordpress.com/about/" />
+Novastation
+sendet vom Ende der Welt
+
+Was ist die Novastation?
+
+Die Nova Station wurde 1926, im Zuge einer Polarexpedition unter franko-kanadischer Flagge, von Steward Douglas Nova gegründet. Die Expedition hatte zum Ziel, das von Franz Kafka beschriebene Schloss aus seinem gleichnamigen Romanfragment zu finden, zu vermessen und zu erforschen. Die ursprünglich als Kurzwellenzahlensender betriebene Nova Station diente hierbei vor allem der Übermittlung von codierten Zwischenständen der Forschungsmission an die Basis in Whitehorse (Yukon), sowie der Unterhaltung der Expeditionsteilnehmer.
+
+Novas Enkel, James Clark Nova Sr., belebte die Nova Station im Jahre 1963 zunächst als Amateurfunkdienst wieder. Später betrieb Nova Sr., gemeinsam mit seinen Freunden Lee Parker McCarrier und Andrew Lafayette die Station als Piratensender der amerikanischen Gegenkultur. Schon bald erfreute sie sich überregionaler Beliebtheit und war auch unter GIs ein Geheimtipp.
+
+Im August 2008 war es wiederum der Enkel von James Clark Nova Sr., Arthur Clark Nova, der die Nova Station ein weiteres Mal auf Sendung gehen ließ – mit Hilfe von technischen Medien des 19. bis 21. Jahrhunderts.
+
+Arthur Clark Nova, Jg. 1984, studierte zunächst Biologie in Heidelberg. Er war in seinem Fach überaus begabt und wurde schon früh von den Professoren der Fakultät für Biowissenschaften geschätzt. Nach einem als sadistisch eingeschätzten Experiment an Hirschkäfern, deren wissenschaftliche Zweckmäßigkeit nicht nachgewiesen werden konnte, wurde Nova der Universität verwiesen. Seit dem lebte er an einem unbekannten Ort in Mitteldeutschland, wo er sich ganz dem mechanischen Tippen verschrieb, welches er jedoch auf ausdrücklichen Wunsch nicht als künstlerische Produktion verstanden wissen wollte.
+
+Hier verlieren sich die Spuren der Familie Nova, die sowohl franko-kanadische, französische, deutsche und tschechische Wurzeln hat. Ihr letztes bekanntes Zeugnis ist in Form einer mechanischen Clarknova-Schreibmaschine aus des späten 1950er Jahren erhalten. Diese funktioniert bis heute einwandfrei und befindet sich nicht in Berlin.
+
+clarknova [at] gmx [dot] net
+
+Teilen:
+
+ Twitter Facebook Tumblr Mehr
+
+Lade...
+
+Kommentar verfassen
diff --git a/src/test/resources/empirist_gold_standard/test_web/raw/web_test_004.txt b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_004.txt
new file mode 100644
index 0000000..a80001a
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_004.txt
@@ -0,0 +1,30 @@
+<article id="web_test_004" url="http://www.telemedicus.info/article/2892-Gibt-es-ein-Recht-auf-Ende-zu-Ende-Verschluesselung.html" />
+Montag, 26. Januar 2015, von Simon Assion
+
+Weiterempfehlen Drucken
+
+Gibt es ein Recht auf Ende-zu-Ende-Verschlüsselung?
+
+Erst Cameron, dann Obama, jetzt auch de Maiziere: Vermehrt fordern Politiker westlicher Staaten in diesen Tagen ein „Verschlüsselungsverbot“. Oder, genauer: Nicht jede Verschlüsselung soll untersagt werden. Eine Verschlüsselung, die aber auch den Staat ausschließt, insbesondere also die Ende-zu-Ende-Verschlüsselung, soll nach Auffassung dieser Politiker zukünftig verboten sein. Keine Verschlüsselung also mehr, wenn der Staat keine „Backdoor” hat und auf die ein oder andere Weise mitlesen kann.
+
+Betrachtet man diese Forderung aus rechtlicher Perspektive, wirkt sie auf den ersten Blick unproblematisch. Es gibt aus verfassungs-, bzw. grundrechtlicher Perspektive kein schrankenloses „Recht auf Verschlüsselung“. Zwar schützt das Telekommunikationsgeheimnis (Art. 10 GG, Art. 8 Abs. 1 EMRK, Art. 7 EU-GrCh) die Fernkommunikation vor staatlicher Einsichtnahme. Aber dieses Grundrecht ist eben nicht schrankenlos gewährleistet. Art. 10 GG sagt:
+
+ (1) Das Briefgeheimnis sowie das Post- und Fernmeldegeheimnis sind unverletzlich.
+
+ (2) Beschränkungen dürfen nur auf Grund eines Gesetzes angeordnet werden. Dient die Beschränkung dem Schutze der freiheitlichen demokratischen Grundordnung oder des Bestandes oder der Sicherung des Bundes oder eines Landes, so kann das Gesetz bestimmen, daß sie dem Betroffenen nicht mitgeteilt wird und daß an die Stelle des Rechtsweges die Nachprüfung durch von der Volksvertretung bestellte Organe und Hilfsorgane tritt.
+
+Ähnliches gilt auch für die Verankerungen des Fernmeldegeheimnisses in Art. 8 EMRK und Art. 7 EU-GrCh: Auch dort ist das Telekommunikationsgeheimnis kein schrankenloses Grundrecht, staatliche Eingriffe sind zulässig. Wenn die rechtlichen Voraussetzungen eingehalten sind, dann darf der Staat also Fernkommunikation mitlesen bzw. mithören.
+
+Verbot technischer Schutzwaffen?
+
+Dass der Staat verhindern will, dass ein einschränkbares Grundrecht auf technischer Ebene zum schrankenlosen Grundrecht wird, ist insofern verfassungsrechtlich unbedenklich. Der Staat darf seine Schranken-Zugriffsmöglichkeit rechtlich absichern. Es handelt sich um eine Präventivmaßnahme, die erst dann zur Anwendung kommt, wenn Eingriffe in das betreffende Grundrecht zulässig sind. Mit derselben Rechtfertigung kann der Staat z.B. Versammlungsteilnehmern untersagen, Schutzwaffen wie Körperpanzerung zu tragen.
+
+Auch aus einer eher rechtsphilosophischen Perspektive ist an dem Vorhaben von Cameron, Obama und de Maiziere nichts auszusetzen. Wer (wie z.B. Edward Snowden) Verschlüsselung als Abwehrmaßnahme gegen staatliche Übergriffe propagiert, mag inhaltlich damit Recht haben. Eine gegen den Staat gerichtete „digitale Selbstverteidigung“ ist verfassungsrechtlich aber auf Ebene des Widerstandsrechts (Art. 20 Abs. 4 GG) einzuordnen. Solche Maßnahmen können gerechtfertigt und zulässig sein; aber nur, wenn demokratische Grundwerte bedroht sind und der Staat selbst diese nicht mehr verteidigt. Einen solchen „Verteidigungsfall der Demokratie“ kann man in der aktuellen Situation sicherlich diskutieren – im Ergebnis muss man ihn aber ablehnen (so auch Brüggemann, in: Telemedicus (Hrsg.), Überwachung und Recht, 165, 183 f. [PDF]).
+
+Die Frage eines „Verschlüsselungsverbotes“ ist damit eine des einfachen Rechts – und hier hat der Staat weitgehende Gestaltungsfreiheit. Er kann weitgehend selbstständig entscheiden, was er für legal oder für illegal erklärt. Ebenso kann er (relativ) frei wählen, welche Methoden der Rechtsdurchsetzung er wählt.
+
+Rechtsdurchsetzung ist ein Problem
+
+Gerade die Rechtsdurchsetzung ist aber das Problem. Eine effektive Durchsetzung eines „Verschlüsselungsverbotes“ wäre technisch nur umsetzbar, entweder indem der Staaat die Kommunikationsnetze flächendeckend überwachen und verschlüsselte Inhalte ausfiltern lässt – oder indem er generell die Nutzung von Verschlüsselungssoftware untersagt, die keine staatliche Backdoor offen lässt, und dieses Verbot flächendeckend durchsetzt. Beide Maßnahmen sind faktisch kaum umsetzbar und potentiell mit hohen Kosten und Grundrechtseingriffen verbunden.
+
+Für eine flächendeckende Internetfilterung müsste für viel Geld die entsprechende Infrastruktur errichtet werden – und diese könnte als „Zensur-Infrastruktur“ dann schnell zweckentfremdet werden. Beispiele wie die Türkei, wo Präsident Erdogan solche Filtertechnik als Teil innenpolitischer Auseinandersetzungen einsetzt, zeigen wie naheliegend diese Befürchtungen sind.
diff --git a/src/test/resources/empirist_gold_standard/test_web/raw/web_test_005.txt b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_005.txt
new file mode 100644
index 0000000..630302f
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_005.txt
@@ -0,0 +1,20 @@
+<article id="web_test_005" url="http://ubuntuwiki.de/files/sicherheitskonzepte.html" />
+Wiki/Icons/Oxygen/security-medium.png Computerviren, Würmer, Trojaner, Botnetze etc. richten Schaden an - sowohl auf dem eigenen Computer als auch in Unternehmen, durch den Ausfall von Diensten, Servern oder Datenverlust. Fast alle Schadprogramme (engl. Malware) richten sich dabei gegen Windows bzw. Windowssysteme. Dies liegt zum einen daran, dass Windows noch immer das - mit Abstand - verbreitetste Betriebssystem für Desktop-Rechner / Endanwender ist.
+
+Ein zweiter, genau so wichtiger Punkt ist die natürliche Diskrepanz zwischen Sicherheit und Komfort - beides zusammen geht nicht oder endet oft in einem (faulen) Kompromiss. Zwar kündigt Microsoft immer wieder an, die Computerwelt sicherer zu machen, allerdings ist es nach wie vor so, dass es dringend angeraten ist, einen Windows-PC mit einer (inzwischen integrierten) Firewall und einem Viren-/Spywarescanner auszustatten, vor allem dann, wenn man regelmäßig im Internet surft. Firewalls und insbesondere Virenscanner sind heute ein eigener, umfangreicher Bereich bei kommerzieller Software.
+
+Es geht aber auch ohne solche Programme, wenn man ein geeignetes Betriebssystem nutzt, das vergleichsweise weit weniger anfällig gegen Malware ist: Ubuntu oder eine andere Linux-Distribution.
+
+ "Es gibt keinen vernünftigen Grund, warum Computer zunächst unsicher konzipiert und dann vom Benutzer abgedichtet werden müssen."
+
+Ist Linux wirklich sicherer als Windows?¶
+
+Oft wird behauptet, Linux sei eigentlich konzeptionell gar nicht sicherer als Windows. Sobald es sich weiter verbreite, müssten die Anwender mit einer wahren Flut an Linux-Schadsoftware rechnen, so wie man es unter Windows schon kennt. In der Tat werden Sicherheitslücken in Software umso intensiver genutzt, je populärer ein Programm ist. Dagegen spricht aber, dass Linux umso häufiger eingesetzt wird, je "wichtiger" ein System ist. Mehr als die Hälfte aller Server läuft mit Linux (z.B. auch Serverfarmen der Filmindustrie und von Google), Netzknoten des Internet und anderer Netze und derzeit (Mitte 2010) 491 der 500 schnellsten Superrechner und viele andere Geräte, auf denen man es kaum vermuten würde. Man könnte also mit der "richtigen" Linux-Schadsoftware die halbe Welt kontrollieren, wenn man sie schreiben und verbreiten könnte. "Konzeptionell" bedeutet außerdem noch lange nicht, dass dieses Konzept strikt im gesamten System fehlerfrei und ausnahmslos umgesetzt ist.
+
+Aber es gibt zwischenzeitlich auch Schadsoftware, die Lücken z.B. im Firefox oder Adobe Reader nutzt - beides Programme, die auch unter Ubuntu laufen bzw. rege genutzt werden. Praktisch spielen die Lücken und deren Ausnutzung (Exploit) unter Ubuntu / Linux kaum eine Rolle, weil die meiste Schadsoftware letztendlich doch ein Windows als Unterbau erwartet.
+
+ "Ein Konzept zu haben, ist eine Sache - aber man sollte es auch vernünftig umsetzen."
+
+Vom Sicherheitskonzept her sind Linux und Windows NT (als auch dessen Nachfolger XP, Vista und aktuell 7) gar nicht so verschieden:
+
+ Bei beiden Systemen ist ein wesentlicher Teil des Konzeptes, dass es Benutzer mit unterschiedlichen Privilegien gibt. Unter Linux kann ein Benutzer auch tatsächlich nur seine persönlichen Daten löschen. Windows wird hingegen bis einschließlich Windows XP so ausgeliefert, dass der Benutzer von Anfang an mit vollen Administratorrechten arbeitet. Jeder unbedarfte Mausklick kann somit das gesamte System zerstören oder es mit einem Computerschädling infizieren. Schlimmer noch: Die Arbeit als Nutzer mit eingeschränkten Benutzerrechten ist oft eher dornenreich. Erst mit Windows Vista wird das Konzept durch zusätzliche Sicherheitsabfragen und -mechanismen teilweise umgesetzt. Der zuerst angelegte Benutzer hat jedoch nach wie vor in weiten Teilen noch Administrator-Rechte. Unter Ubuntu hat auch der zuerst angelegte Benutzer nach dem Systemstart keine administrativen Rechte. Diese muss er explizit anfordern (z.B. mit sudo) und per Passwort aktivieren. Und auch dann sind diese nur für eine bestimmte Zeit (z.B. 15 Min.) gültig.
diff --git a/src/test/resources/empirist_gold_standard/test_web/raw/web_test_006.txt b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_006.txt
new file mode 100644
index 0000000..ff0ad0d
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_006.txt
@@ -0,0 +1,24 @@
+<article id="web_test_006" url="http://phantanews.de/wp/aartikel/die-sueddeutsche-zeitung-und-die-typografie-im-ebook/" />
+Da liest man beispielsweise:
+
+ Doch ein E-Book kann das Lesevergnügen rasch zunichte machen, schon wenn man die Schrift etwas vergrößert. Plötzlich finden sich Löcher im Text, Zeilen und Überschriften verrutschen, Umbruch und Silbentrennung lassen die Haare des Lesers zu Berge stehen.
+
+Ja, kann alles passieren. Dieses Zitat zeigt allerdings schon das grundsätzliche Problem des Artikels. Da wird sehr lange nur vom »eBook« gesprochen und man differenziert nicht zwischen eBooks und eReadern, sondern macht allle Probleme nur am »eBook« und dessen »Produzenten« fest. Das ist natürlich Mumpitz, denn die angesprochenen typografischen Probleme haben zahllose Gründe, die zum Teil bei den eigentlichen Dateien (also den eBooks) und zum Teil bei den Lesegeräten zu suchen sind. Der Artikel erweckt jedoch den Eindruck, als sei ausschließlich »das eBook« schuld – und das ist falsch. Erst spät im Artikel geht man dann doch plötzlich davon wieder ab und erkennt, dass die Probleme auf drei Ebenen stattfinden. Dazu weiter unten mehr.
+
+Beim Satz
+
+ Und wenn man Pech hat, lädt jede Seite des E-Books beim Umblättern so lange, bis man den Reader entnervt zur Seite legt.
+
+muss zumindest ich mich fragen, welche fossilen Geräte der Autor benutzt hat, denn die Verzögerungen beim Umblättern gehören längst zur Vergangenheit und angeblich kann sogar der Tolino Shine dank Firmwareupdates inzwischen halbwegs schnell blättern (habe ich mir sagen lassen). Der Großteil aktueller eReader blättert schneller als man eine Buchseite umlegen kann. Vielleicht sollte der Autor ein aktuelles Gerät erwerben, statt unreflektiert mal eben grundsätzlich eReader und die eBooks schlecht zu machen (oder die Aussagen Dritter einfach mal zu glauben).
+
+Ja, es kann vorkommen, dass es Hurenkinder und Schusterjungen gibt, weil die Schriftgröße eben variabel ist. Das ist zum einen ein technisches Problem, das mittels aktualisierter Readerfirmwares gelöst werden kann. Vielleicht sollte der Autor zusätzlich mal mit Kurzsichtigen sprechen, ob die einen Schusterjungen wirklich für störend halten, wenn sie dafür das Buch ohne Augenanstrengung lesen können. It´s not a bug, it´s a feature.
+
+Silbentrennung? Ja, gibt es manchmal, manchmal auch nicht. Der Grund hierfür ist einfach: bei vielen eReadern ist die CPU, also der Prozessor, schlicht nicht stark genug, um bei einem fließenden Layout (wir erinnern uns: die Schriftgröße ist dem eigenen Geschmack oder körperlichen Einschränkungen anpassbar) via Software eine korrekte Silbentrennung durchzuführen. Das ist der Grund, warum Lesesoftware auf Tablets oft dazu in der Lage ist, man bei eReadern jedoch darauf verzichten muss. Man kann davon ausgehen, dass ein paar der aktuellen dedizierten Lesegeräte das durch Firmwareupdates noch beigebracht bekommen.
+
+Immer wieder wird Benjamin Göck aus einem Artikel auf buchreport.de zitiert:
+
+ Auch schöne Initialen und Ligaturen sind nicht möglich.
+
+Fraktur eBookDas ist natürlich völliger Unsinn. »Schöne Initialen« sind selbstverständlich möglich. Ebenso wie Ligaturen. Wer letzteres nicht glaubt, sollte mal einen Blick auf das Projekt von Ralf Gawlista werfen, der sogar Fraktur auf eReadern darstellen kann, inklusive korrekter Ligaturen. Wie oft das »Æ« in den von mir verlegten Steampunk-Anthologien ÆTHERGARN und GESCHICHTEN AUS DEM ÆTHER vorkommt, möchte ich lieber nicht zählen. Die Aussage, dass Ligaturen nicht möglich sind, ist schlicht mangelnde Kenntnis und falsch.
+
+ Aktuell gibt es zwei Standards, die im Gegensatz zur PDF-Version einen dynamischen Umbruch, also einen »lebenden« Text ermöglichen: Epub und Amazon KF8
diff --git a/src/test/resources/empirist_gold_standard/test_web/raw/web_test_007.txt b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_007.txt
new file mode 100644
index 0000000..af2dee2
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_007.txt
@@ -0,0 +1,28 @@
+<article id="web_test_007" url="http://www.zfdg.de/sb001_020" />
+1. Einleitung
+
+Für die kultur- und geisteswissenschaftliche Forschung relevante Ressourcen finden sich zu großen Teilen in den Sammlungen von Museen, Archiven, Bibliotheken, Universitäten und außeruniversitären Forschungseinrichtungen. Mit der Erweiterung des Anwendungsbereiches der Digital Humanities von den Sprachwissenschaften[1] hin zu einer ganzheitlichen Sicht auf die Kultur- und Geisteswissenschaften seit den 1990ern wurden vermehrt Methoden, Anwendungen und Standards für die Digitalisierung, Analyse und Beschreibung von Ressourcen geschaffen.[2] Die Menge der heute durch öffentliche Netzwerke verfügbaren und für die kultur- und geisteswissenschaftliche Forschung relevanten Kollektionen steigt nicht zuletzt aufgrund der Verwendung von Zugriffs- und Beschreibungsstandards stetig an und bietet Forscherinnen und Forschern einen potenziellen Zugang zu einer Vielzahl heterogener Ressourcen.
+
+In diesem Beitrag stellen wir eine neuartige Föderationsarchitektur vor, die auf eine Erfassung und fallbasierte Zusammenführung von Forschungsdaten nach den individuellen Bedürfnissen von Forschungsprojekten abzielt. Digitale Sammlungen werden zentral verzeichnet, zur Vermeidung von Informationsverlusten jedoch nicht harmonisiert, sondern in Form von Beziehungen auf Schemaebene assoziiert, wodurch die Verwendung einer dynamisch föderierten Datenbasis in breiten und interdisziplinären, wie auch in fachspezifischen Anwendungskontexten ermöglicht werden kann.[3] Ein übergeordnetes Ziel besteht insbesondere in der Nutzbarmachung des durch Experten hinterlegten Wissens zu Kollektionen und Daten sowie deren Beziehungen für einen weiten Anwenderkreis.
+
+2. Anwendungskontext
+
+Traditionelle Integrationsansätze folgen häufig dem Muster eines physisch harmonisierten Datenbestands auf Basis eines zentralen Schemas.[4] Verteilte und heterogene, semi-strukturierte Daten werden hierbei in ein gemeinsames Schema übersetzt und stehen für eine einfache Weiterverarbeitung in integrierter Form zur Verfügung. Eine zentrale Aufgabe dieses Ansatzes besteht in der Umsetzung eines hinsichtlich der notwendigen Granularität geeigneten Integrationsschemas. In Bezug auf die Digital Humanities als ganzheitliche Anwendungsdomäne, die sich in Form spezifischer, interdisziplinärer und auch übergreifender Informationsbedürfnisse äußert, führt die Integration aller Disziplinen und Perspektiven jedoch entweder zu Schemata kaum verwaltbarer Komplexität oder – bei der Verwendung eines einfachen Modells, wie z. B. Dublin Core (DCES) – zum Verlust großer Anteile disziplinspezifischer Information.
+
+Für die Konzeption der in DARIAH-DE umgesetzten Föderationsarchitektur werden im Folgenden zwei Anwendungsfälle vorgestellt, deren unterschiedliche Anforderungen die Einschränkungen eines solchen zentralistischen Integrationsansatzes verdeutlichen.
+
+2.1 Generische Suche
+
+Mit der generischen Suche verfolgt DARIAH-DE das Ziel, eine übergreifende Suchmöglichkeit zu schaffen, welche die Eigenschaften der Breiten- und Tiefensuche so vereint, dass eine dynamische Anpassung der Suche– z. B. im Hinblick auf eine mögliche Facettierung– erreicht werden kann.[5] Die übergreifende Suche in eng assoziierten Datenquellen erlaubt– unter Anwendung der in der DARIAH-DE Crosswalk Registry definierten Assoziationen und Transformationsregeln– eine detaillierte Auseinandersetzung mit den betrachteten Daten (Tiefensuche). Mit einer wachsenden Zahl einbezogener Kollektionen wird die Granularität der Betrachtung und Facettierung ggf. mangels vorhandener Verbindungen reduziert und nimmt die Form einer Breitensuche ein. Für die dynamische Funktionalität der generischen Suche ist die ad-hoc-Integration ausgewählter Kollektionen basierend auf den für eine konkrete Anfrage relevanten Kollektionen und den zwischen diesen vorliegenden Assoziationen erforderlich, um die jeweils zur Verfügung stehende Granularität von Daten nutzen zu können.
+
+2.2 Datenintegration
+
+Im Gegensatz zu der dynamischen, strukturellen Adaption der generischen Suche an die Zusammensetzung der für eine Anfrage ausgewählten Kollektionen zielen Lösungen der Datenintegration oftmals auf eine Konsolidierung einer a-priori definierten Auswahl von Datenquellen ab.[6] Anforderungen an eine kollektionsübergreifende Integration sind wesentlich von der verfolgten Forschungsfrage abhängig und können z. B. im Kontext der Ablösung von Systemen durch Neuentwicklungen, aber auch für die Ausweitung der Datenbasis einer bestehenden Analyse- und Visualisierungslösung, wie beispielsweise dem DARIAH-DE Geobrowser[7], auftreten. Die Anwendung eines zentralen Integrationsschemas bzw. einer zentralen Ontologie führt im Fall der Datenintegration im Gesamtkontext der Digital Humanities zu Problemen, insbesondere wenn eine spezifische Auswahl von Kollektionen für konkrete Forschungsfragen zusammengefasst werden soll. Werden so beispielsweise Kollektionen aus archäologischen und kunsthistorischen Kontexten integriert, so führt die direkte Integration der spezifischen Datenstrukturen zu einem erhöhten Informationsgehalt gegenüber einer globalen Struktur, die den Fachspezifika nicht gerecht werden kann.
+
+3. Föderationsarchitektur
+
+Die in DARIAH-DE gewählte Architektur (Abbildung 1) besteht aus der Collection Registry zur Verzeichnung von Kollektionen, der Schema Registry zur Verwaltung von Schemata, und der Crosswalk Registry zur Beschreibung von Assoziationen zwischen verschiedenen Schemata. Integrative Dienste wie die generische Suche setzen für die Interpretation und Verarbeitung von Daten der verzeichneten Kollektionen auf den durch die Registries angebotenen Webservices auf.
+
+Abb. 1: Komponenten und Zusammenwirken der Föderationsarchitektur [eigene Darstellung].
+
+Für eine Forscherin oder einen Forscher, die oder der eine Sammlung im Rahmen der Förderationsarchitektur registrieren und damit für die Suche, Analyse und den Vergleich mit anderen Sammlungen zur Verfügung stellen möchte, ergibt sich im Zusammenspiel mit der generischen Suche ein Ablauf in vier Schritten (Abbildung 2):
diff --git a/src/test/resources/empirist_gold_standard/test_web/raw/web_test_008.txt b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_008.txt
new file mode 100644
index 0000000..883a1ac
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_008.txt
@@ -0,0 +1,24 @@
+<article id="web_test_008" url="http://bnlog.de/index.php/archiv/2008/11/07/skandinavische-lebensfreude-in-tragbarer-form-mitten-in-bonn/" />
+Das Besondere dabei: Im goldspatz findet sich ausschließlich Mode von skandinavischen Designern. Das zeigt sich sowohl an den Designs der Kinder- als auch der Erwachsenenmode und ganz klar natürlich auch an den Spielwaren.
+
+Die Schnitte und Designs sind mutiger, die Farbkombinationen ersparen einem die leidige Junge = blau = Powerranger, Mädchen = pink = Prinzessin Codierung. Der goldspatz bietet eine große Bandbreite an schöner Kindermode, die sich klar vom Einheitsbrei abgrenzt. Wer darüber hinaus in den 70ern aufgewachsen ist, wird sicher das eine oder andere wirklich schöne Déjà vu haben.
+
+Aber nicht nur für die Kinder gibt Besonderes. Die Schwangeren-Mode bietet Zeitloses, Elegantes und Sportliches – für jede Gelegenheit etwas dabei, nicht zuletzt auch für Berufstätige. Inhaberin Vanessa Schmack berichtet, dass die Sommerkollektion nicht nur bei Schwangeren, sondern bei Frauen im Allgemeinen sehr gut angekommen ist. Ich glaub es gerne. Hier lohnt sich nicht nur der Blick auf die kuscheligen Yoga-Anzüge! Erstaunlich für mich, die ich auf dem Gebiet so überhaupt nicht bewandert bin war vor allem, wie schön auch Funktionales sein kann. Wer sich beispielsweise die Stillmode von Boobs anschaut, fragt sich zwangsläufig, warum man immer noch ständig stillende Mütter mit bloßen Brüsten auf öffentlichen Plätzen gibt, wenn es so pfiffige Alternativen gibt. Darüber hinaus gibt es schöne Wäsche gibt es für Kleine und Große, Spielwaren in allen Kuschelkategorien und Playsam Spielwaren, die eher an Objektkunst erinnern und sich sicherlich auch so sehr gut im Regal machen.
+
+Wer im goldspatz einkaufen geht, der muss die Kinder übrigens nicht zu Hause lassen, alles steht so, dass Kinderhände keinen Schaden anrichten und Mütter sich in Ruhe (!) umschauen können. Die Kleinen können sich derweil beispielsweise im eigens dafür gebauten Tunnel austoben. Wenn die Zeit mal knapp wird, und das kann mit Kindern ja schnell mal passieren, dann öffnet der goldspatz auf Verabredung auch schon mal nach den Öffnungszeiten. Vanessa Schmack ist da flexibel. Sie bietet ihren Kundinnen größtmöglichen Service in ihrem kleinen Reich. Bemühungen, die sich bereits jetzt schon auszahlen, denn etwas mehr als 6 Monate nach Eröffnung der goldspatz über die Grenzen Bonns hinaus zu einer der ersten Adressen für Kinder und Schwangeren Mode geworden.
+
+goldspatz ist ein Conceptstore, der sich an alle richtet, die Schönes abseits vom Allerlei suchen. Hinzu kommt, dass Vanessa Schmack Wert darauf legt, dass die Mode, Labels und Designer mit denen sie zusammen arbeitet nach Möglichkeit Organic-Mode anbieten. Um größtmögliche Unbedenklichkeit für die Kleinen und Kleinsten zu gewährleisten. Übrigens, Goldspatz heißt der goldspatz, weil der Name die Zeitlosigkeit und Eleganz des Ladenkonzeptes widerspiegeln sollte und weil er nicht nur Kindern sondern auch Mütter ansprechen sollte. Meiner Meinung nach ist das 100% gelungen. Ein wirklich schöner Laden, der eine kleine Oase abseits vom Zentrumsramsch darstellt, der hält, was er verspricht. Ein Besuch lohnt sich definitiv auch unabhängig von Kindern und Mutterschaft. Ganz ehrlich? Ich muss nicht schwanger sein, Kinder haben oder Geschenke suchen um dort auch für mich fündig zu werden. Wenn es die kleinen Sachen jetzt noch 20 Nummern größer gibt, ist die nächste Stammkundin sicher!
+
+Also los, geht entdecken! Weihnachten kommt immer näher und in der Thomas-Mann-Strasse wird man immerhin nicht von Shoppern über den Haufen gerannt : ) Wer sich danach noch ein wenig ausruhen möchte, der geht einfach nach Nebenan ins Petit Café. Aber das ist eine andere Geschichte…
+
+goldspatz, Thomas-Mann-Straße 41, 53111 Bonn
+
+Öffnungszeiten:
+Montag bis Freitag: 10.00 – 18.00 Uhr
+
+Samstag: 10.00 – 16.00 Uhr
+
+und nach Vereinbarung
+
+http://www.goldspatz.com/
+Luur ooch von Melanie
diff --git a/src/test/resources/empirist_gold_standard/test_web/raw/web_test_009.txt b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_009.txt
new file mode 100644
index 0000000..b9a00f7
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_009.txt
@@ -0,0 +1,73 @@
+<article id="web_test_009" url="http://cupcake-liebe.de/8-tipps-fuer-gelungene-cake-pops/" />
+Cupcakeliebe - food, fashion & fun
+
+Skip to content
+
+ Home
+
+ Food & Rezepte
+
+ Fashion & Beauty
+
+ Fun & Lifestyle
+
+ About
+
+8 Tipps für gelungene Cake Pops
+
+20. März 2014 by Wiebke, in category Allgemein, Food & Rezepte
+
+Aller Anfang ist schwer, und das gilt ganz besonders für die Zubereitung von Cake Pops.
+
+Auch ich hatte anfangs so meine Probleme, Cake Pops richtig gut hinzukriegen und musste lange üben, bis ich sie so schön hinbekommen habe, wie sie jetzt immer werden. Mittlerweile bin ich aber sehr zufrieden mit den Ergebnissen und konnte viele Erfahrungen sammeln. Die möchte ich gerne mit euch teilen und euch daher heute ein paar Tipps für Cake Pops geben, acht um genau zu sein. Vom Kuchen über Frosting und Glasur bis hin zur Dekoration und Präsentation geht es dabei entlang des gesamten Entstehungsprozesses von Cake Pops.
+
+1. Kuchen für Cake Pops
+
+1.1. Kuchen für Cake Pops backen
+
+Die Grundlage für Cake Pops ist ein Kuchen, der später zerbröselt und mit einem Frosting vermengt wird und so die richtige Konsistenz zum Formen der Kugeln bekommt. Wichtig dabei ist, dass der Kuchen komplett ausgekühlt ist. Damit der Cake Pops Teig später auch keine harten Stückchen enthält, sollte außerdem der Rand abgschnitten und nicht mitverarbeitet werden.
+
+Meine Tipps daher:
+
+ Wenn ihr die Zeit habt, dann backt den Kuchen bereits einen Tag vorher, bevor ihr die Cake Pops macht. Lasst ihn auf Zimmertemperatur abkühlen, zerbröselt ihn und stellt ihn bereits über Nacht in den Kühlschrank.
+ Schneidet den Rand und eventuell verbrannte Stellen vom Kuchen ab und nutzt nur die schön weichen Bestandteile des Kuchens für den Cake Pops Teig.
+
+1.2. Kuchen für Cake Pops kaufen
+
+Um sich ein wenig Arbeit zu ersparen, kann man zum Cake Pops machen auch einen bereits fertigen Kuchen kaufen. Da diese meist einen Schokoladenüberzug haben, muss der natürlich abgeschnitten werden. Das Innere des Kuchens wird dann zum Cake Pops Teig weiterverarbeitet. Ich nutze gekaufte Kuchen für Cake Pops nur selten, da mir diese immer sehr fettig vorkommen. Außerdem ist hier die Geschmacksvielfalt auch nicht so groß. Selbstgebacken schmeckt eben doch noch am besten.
+
+Meine Tipps:
+
+ Wenn ihr einen gekauften Kuchen verwendet, entfernt den Schokoladenüberzug und nutzt nur das Innere des Kuchens für den Cake Pops Teig.
+ Besser aber, ihr nehmt euch die Zeit und backt den Kuchen für die Cake Pops selbst.
+
+1.3. Kekse für Cake Pops verwenden
+
+Um Cake Pops zu machen, kann man auch Kekse verwenden. Auch diese werden zerbröselt und mit einem Frosting zum Cake Pops Teig verarbeitet. Da Kekse meist trockener sind als Kuchen, benötigt man hierfür meist mehr Frosting, damit die Kugeln später nicht zerfallen, wenn die Stiele hineingesteckt werden.
+
+Meine Tipps:
+
+ Um Kekse so klein wie möglich zu zerbröseln und somit eine gute Grundlage für den Cake Pops Teig zu erhalten, zermahlt diese entweder in einer Küchenmaschine oder tut die Kekse in einen Gefrierbeutel und bearbeitet diesen mit einem Nudelholz.
+ Verwendet bei Cake Pops aus Keksen mehr Frosting.
+
+2. Frostings für Cake Pops
+
+Ihr habt einen Kuchen oder Kekse für eure Cake Pops, nun benötigt ihr noch ein Frosting, das damit vermengt wird, damit der Cake Pops Teig die richtige Konsistenz erhält und die Kugeln daraus geformt werden können. Hier kann man ziemlich viele verschiedene Dinge verwenden, hauptsache sie kleben die Kuchenkrümel schön zusammen.
+
+Als Frosting für Cake Pops eignen sich:
+
+ Buttercreme
+
+ Ganache
+
+ Mascarpone-Frosting
+
+ Nutella
+
+ Marshmallow-Fluff
+
+ Marmelade
+
+ Sirup
+
+ etc.
diff --git a/src/test/resources/empirist_gold_standard/test_web/raw/web_test_010.txt b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_010.txt
new file mode 100644
index 0000000..c29187b
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_010.txt
@@ -0,0 +1,59 @@
+<article id="web_test_010" url="http://www.unesco.de/infothek/dokumente/un-dokumente/erklaerung-menschenrechte.html" />
+Allgemeine Erklärung der Menschenrechte
+
+Resolution 217 A (III) der Generalversammlung vom 10. Dezember 1948
+Präambel
+
+Da die Anerkennung der angeborenen Würde und der gleichen und unveräußerlichen Rechte aller Mitglieder der Gemeinschaft der Menschen die Grundlage von Freiheit, Gerechtigkeit und Frieden in der Welt bildet,
+
+da die Nichtanerkennung und Verachtung der Menschenrechte zu Akten der Barbarei geführt haben, die das Gewissen der Menschheit mit Empörung erfüllen, und da verkündet worden ist, dass einer Welt, in der die Menschen Rede- und Glaubensfreiheit und Freiheit von Furcht und Not genießen, das höchste Streben des Menschen gilt,
+
+da es notwendig ist, die Menschenrechte durch die Herrschaft des Rechtes zu schützen, damit der Mensch nicht gezwungen wird, als letztes Mittel zum Aufstand gegen Tyrannei und Unterdrückung zu greifen,
+
+da es notwendig ist, die Entwicklung freundschaftlicher Beziehungen zwischen den Nationen zu fördern, da die Völker der Vereinten Nationen in der Charta ihren Glauben an die grundlegenden Menschenrechte, an die Würde und den Wert der menschlichen Person und an die Gleichberechtigung von Mann und Frau erneut bekräftigt und beschlossen haben, den sozialen Fortschritt und bessere Lebensbedingungen in größerer Freiheit zu fördern,
+
+da die Mitgliedstaaten sich verpflichtet haben, in Zusammenarbeit mit den Vereinten Nationen auf die allgemeine Achtung und Einhaltung der Menschenrechte und Grundfreiheiten hinzuwirken,
+
+da ein gemeinsames Verständnis dieser Rechte und Freiheiten von größter Wichtigkeit für die volle Erfüllung dieser Verpflichtung ist,
+
+verkündet die Generalversammlung
+
+diese Allgemeine Erklärung der Menschenrechte als das von allen Völkern und Nationen zu erreichende gemeinsame Ideal, damit jeder einzelne und alle Organe der Gesellschaft sich diese Erklärung stets gegenwärtig halten und sich bemühen, durch Unterricht und Erziehung die Achtung vor diesen Rechten und Freiheiten zu fördern und durch fortschreitende nationale und internationale Maßnahmen ihre allgemeine und tatsächliche Anerkennung und Einhaltung durch die Bevölkerung der Mitgliedstaaten selbst wie auch durch die Bevölkerung der ihrer Hoheitsgewalt unterstehenden Gebiete zu gewährleisten.
+
+Artikel 1
+
+Alle Menschen sind frei und gleich an Würde und Rechten geboren. Sie sind mit Vernunft und Gewissen begabt und sollen einander im Geiste der Brüderlichkeit begegnen.
+
+Artikel 2
+
+Jeder hat Anspruch auf alle in dieser Erklärung verkündeten Rechte und Freiheiten, ohne irgendeinen Unterschied, etwa nach Rasse*, Hautfarbe, Geschlecht, Sprache, Religion, politischer oder sonstiger Anschauung, nationaler oder sozialer Herkunft, Vermögen, Geburt oder sonstigem Stand. Des weiteren darf kein Unterschied gemacht werden auf Grund der politischen, rechtlichen oder internationalen Stellung des Landes oder Gebietes, dem eine Person angehört, gleichgültig ob dieses unabhängig ist, unter Treuhandschaft steht, keine Selbstregierung besitzt oder sonst in seiner Souveränität eingeschränkt ist.
+
+Artikel 3
+
+Jeder hat das Recht auf Leben, Freiheit und Sicherheit der Person.
+
+Artikel 4
+
+Niemand darf in Sklaverei oder Leibeigenschaft gehalten werden; Sklaverei und Sklavenhandel in allen ihren Formen sind verboten.
+
+Artikel 5
+
+Niemand darf der Folter oder grausamer, unmenschlicher oder erniedrigender Behandlung oder Strafe unterworfen werden.
+
+Artikel 6
+
+Jeder hat das Recht, überall als rechtsfähig anerkannt zu werden.
+
+Artikel 7
+
+Alle Menschen sind vor dem Gesetz gleich und haben ohne Unterschied Anspruch auf gleichen Schutz durch das Gesetz. Alle haben Anspruch auf gleichen Schutz gegen jede Diskriminierung, die gegen diese Erklärung verstößt, und gegen jede Aufhetzung zu einer derartigen Diskriminierung.
+
+Artikel 8
+
+Jeder hat Anspruch auf einen wirksamen Rechtsbehelf bei den zuständigen innerstaatlichen Gerichten gegen Handlungen, durch die seine ihm nach der Verfassung oder nach dem Gesetz zustehenden Grundrechte verletzt werden.
+
+Artikel 9
+
+Niemand darf willkürlich festgenommen, in Haft gehalten oder des Landes verwiesen werden.
+
+Artikel 10
diff --git a/src/test/resources/empirist_gold_standard/test_web/raw/web_test_011.txt b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_011.txt
new file mode 100644
index 0000000..3c8d2c5
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_011.txt
@@ -0,0 +1,40 @@
+<article id="web_test_011" url="https://de.wikipedia.org/wiki/Botanischer_Garten_Darmstadt" />
+Botanischer Garten Darmstadt
+
+aus Wikipedia, der freien Enzyklopädie
+
+Wechseln zu: Navigation, Suche
+
+Gewächshäuser im Botanischen Garten
+
+Schmiedeeisernes Eingangstor zum Garten
+
+Wasser- und Feuchtbereich des Botanischen Gartens
+
+Gartenchef Stefan Schneckenburger mit blühender Amorphophallus
+
+Der Botanische Garten Darmstadt ist ein Botanischer Garten in der südhessischen Universitätsstadt Darmstadt.
+
+Inhaltsverzeichnis
+
+ 1 Geschichte
+
+ 2 Veranstaltungen
+
+ 3 Geografische Lage
+
+ 4 Einzelnachweise
+
+ 5 Weblinks
+
+Geschichte[Bearbeiten]
+
+Die Geschichte des Botanischen Gartens Darmstadt beginnt im Jahr 1814. Zu dieser Zeit wurde der Schlossgraben des Darmstädter Schlosses mit dem Wasser des Darmbachs und dieser aus den Abwässern der benachbarten Altstadt gespeist, was in den Sommermonaten einen unerträglichen Gestank verbreitete. Johannes Hess (1786–1837), ein auch an der Botanik interessierter großherzoglicher Baurat, schlug deshalb eine Trockenlegung und die Gründung eines botanischen Gartens auf dem neu gewonnenen Gelände vor. Am 17. Juni 1814 stimmte der Großherzog den Plänen von Hess zu, dieses Datum kann als Gründungsdatum angesehen werden.
+
+In der wissenschaftlich geplanten Anlage auf einer Fläche von ca. 1 ha wurden in erster Linie einheimische Pflanzen – vorrangig krautige Vertreter – kultiviert. Mit der gärtnerischen Pflege war zunächst der Hofgärtner Johann August Schnittspahn (1763–1842) betraut. Schon bald erwies sich die Anlage als völlig unzureichend, und so verlegte man sie 1829/30 in das Herrschaftliche Bosquett, den heutigen Herrngarten, wo der botanische Garten bis 1838 verblieb. Unter der gärtnerischen Leitung von Johann August Schnittspahn und seinem Sohn Gottfried (1790–1833) entstand in Zusammenarbeit mit Hess eine neue Anlage, die 1831 offiziell eröffnet wurde.
+
+Im Jahre 1830 wurde Georg Friedrich Schnittspahn (1810–1865; nach ihm auch der Name der Straße am heutigen botanischen Garten), ein jüngerer Bruder Gottfrieds, zum Garteninspektor ernannt. Er war der erste Direktor des Gartens (ab 1855) und gleichzeitig Lehrer an der höheren Gewerbeschule, dem Vorläufer der heutigen Technischen Universität Darmstadt.
+
+Nach einer erneuten Verlegung fand sich der Garten bis 1848 am kleinen Woog in der Gegend des heutigen Mercksplatzes. Wieder folgte dann ein Umzug: In den Jahren 1849 bis 1863 lag er in der Gegend des Wilhelminenplatzes. In dieser Anlage gab es zwei Gewächshäuser, die es erstmals erlaubten, Warmhauspflanzen zu kultivieren. Dieser Garten musste 1864/65 dem Bau des Neuen Palais weichen. Seine neue Bleibe war ein Pachtgelände von einem Hektar im Meiereipark an der Frankfurter Straße, das sich schnell als zu klein erwies.
+
+Auf Staatskosten konnte das Grundstück der Achensmühle [benannt nach dem Kanzleirat Georg Konrad Achen (ca. 1795–1868) aus Darmstadt] östlich des Woogs an der Roßdörfer Straße erworben werden. Für das ca. 5 ha große Gelände und die Verlegung 1874 wurden 35.700 Gulden aufgewendet. Erster Direktor des neuen Gartens und Professor an der Technischen Hochschule auf dem Gebiet der Mikroskopie, der Zellen- und Gewebelehre war Leopold Dippel, dessen Interesse auch der Dendrologie galt. Im Laufe der Jahre trug er, zusammen mit dem gärtnerischen Leiter Peter Schmidt (seit 1861 Hofgartenaufseher, gest. 1888) eine heute noch bedeutsame Sammlung ausländischer Gehölze zusammen. Am 1. April 1897 wurde der Garten der TH Darmstadt angegliedert. Auf Dippel folgte 1896 Heinrich Schenck als Direktor des Botanischen Gartens. Er war Direktor bis zu seinem frühen Tod 1927. Bereits 1902 wurde ein Verwaltungsgebäude von Karl Hofmann (Architekt) erbaut, das im Heimatstil gehalten ist. In seiner Rektoratszeit von 1909 bis 1911 entstanden neue Gewächshäuser, die 1916 noch einmal erneuert wurden.
diff --git a/src/test/resources/empirist_gold_standard/test_web/raw/web_test_012.txt b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_012.txt
new file mode 100644
index 0000000..c4320f0
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/raw/web_test_012.txt
@@ -0,0 +1,87 @@
+<article id="web_test_012" url="http://www.stefanux.de/wiki/doku.php/security/verschl%C3%BCsselung" />
+Es gibt sie auch schon seit der Antike, interessant ist in diesem Zusammenhang ein Buch von Simon Singh: Geheime Botschaften.
+
+ Der Vorteil der symmetrischen Verschlüsselung ist dafür aber eine ziemlich gute Geschwindigkeit, was man von asymmetrischen Verfahren nicht behaupten kann.
+ Man sollte Schlüssellängen von :!: mindestens 128 Bit benutzen
+ gängige Verfahren (Verschlüsselungsalgorithmen) sind z.B. AES, Blowfisch, TripleDES
+
+Asymmetrische Verschlüsselung
+
+Kurzfassung
+
+Verwendung eines Schlüsselpaares, das aus dem öffentlichen- und einem privaten (geheimen) Schlüssel besteht.
+
+Bei der asymmetrischen Verschlüsselung erzeugt man sich durch geeignete Programme (wie GnuPGP) ein Schlüsselpaar, das aus dem öffentlichen- und einem privaten Schlüssel besteht.
+
+ Der private Schlüssel (private key) muss geheim gehalten werden. Wenn er verloren geht kann man weder eine Nachricht ver- und entschlüsseln bzw. jemand kann das nun, der das nicht sollte. Im Verlustfall sollte man seinen Schlüssel durch ein vorher erzeugten „revoke key“ ungültig machen.
+ Der öffentliche Schlüssel (public key) ist für den Rest der Welt. Man kann den öffentlichen Schlüssel jedem geben, der einem vielleicht einmal eine Nachricht zukommen lassen will, z.B. auf der eigenen Homepage. Man kann (und sollte) ihn auch auf einem Keyserver veröffentlichen.
+
+Verschlüsselt man seine Nachricht nun mit dem öffentlichen Schlüssel des Adressaten, kann nur dieser mit seinem privaten Schlüssel die Nachricht entziffern.
+
+ Der Vorteil dieser Methode liegt darin, daß der Schlüssel sehr leicht zu verbreiten ist. Es ist nicht kritisch, wenn er in falsche Hände fällt. Die steigende Anzahl der Kommunikationspartner ist nun kein großes Problem mehr. Bei symmetrischer (herkömmlicher) Verschlüsselung muß zumindest ein Paßwort für JEDEN Kommunikationspartner über eine sichere Verbindung überbracht werden. Allerdings muss man drauf achten, keine falschen öffentlichen Schlüssel untergeschoben zu bekommen.
+
+ gängige Verfahren (Verschlüsselungsalgorithmen) sind z.B. RSA (in PGP oder gnupg) bzw. neue elliptische Kurven-Verfahren
+
+:!: Man sollte eine Schlüssellänge von mindestens 1024 Bit wählen, besser 2048 Bit. Wesentlich mehr kann auf alten Rechner aufgrund des expontiell steigenden Rechenaufwandes schon zu ordentlichen Wartezeiten führen. Außerdem ist es sinnvoll den privaten Schlüssel mit einer möglichst langen „Passphrase“ zu schützen, falls doch einmal die Datei mit dem privaten Schlüssel gestohlen wird.
+
+Das kann allerdings bei Webservern mit SSL-Verschlüsselung dazu führen, das bei jedem Neustart des Webservers die Passphrase eingegeben werden muss.
+
+PKI-Infrastruktur
+
+Eine Public-Key-Infrastruktur (PKI, engl. public key infrastructure) bezeichnet in der Kryptologie und Kryptografie ein System, welches es ermöglicht
+
+ digitale Zertifikate auszustellen
+ zu verteilen
+ und zu prüfen.
+
+Die innerhalb einer PKI ausgestellten Zertifikate werden zur Absicherung computergestützter Kommunikation verwendet.
+
+Building an Open Source PKI using OpenXPKI Red Hat Certificate System ist Open Source Red Hat Certificate System
+
+Hybride Verschlüsselung
+
+Kurzfassung
+
+Die Verwendung von symmetrischer und asymmetrischer Verschlüsselung. Über die asymmetrische Verschlüsselung wird der symmetrische (Sitzungs-) Schlüssel übermittelt.
+
+Bei der Hybriden Verschlüsselung kombiniert man asymmetrische Verschlüsselung und symmetrische Verschlüsselung. Hybride Verschlüsselungsverfahren werden z. B. bei der Datenübertragung zwischen zwei Gegenstellen in einem Netzwerk verwendet.
+
+Der Verbindungsaufbau geschieht dort in der Regel mit Hilfe von Schlüsselpaaren (asymmetrisch), die eigentliche Datenübertragung erfolgt zugunsten niedrigerer Anforderung an die Rechenleistung auf beiden Seiten mit demselben Schlüssel (symmetrisch). Damit werden die Vorteile beider Verfahren genutzt - die hohe Geschwindigkeit für die symmetrische Verschlüsselung der Nutzdaten und die sicherere asymmetrische Verschlüsselung für den kleinen Session Key.
+
+Das Verfahren kommt unter anderem bei den Netzwerkprotokollen IPsec und SSL zum Einsatz.
+
+Schema Hybride Verschlüsselung; Lizenz: GNU-FDL 1.2
+
+1) Intel AES-NI-Instruktionen
+
+security/verschlüsselung.txt · Zuletzt geändert: 2015/11/22 15:21 von st
+
+Backlinks: [[security:verschlüsselung]]
+
+Navigation
+Passwort-
+generator
+
+Hilfe vom Autor
+
+siehe stefanux.net
+
+Linux
+
+ Administration
+
+ Business & OSS
+
+ Distributionen
+
+ SSH
+
+ Dateisystemaufbau
+
+Sicherheit
+
+ Festplattenverschlüsselung
+
+ ... unter Linux
+
+ ... unter Windows
diff --git a/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_001.txt b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_001.txt
new file mode 100644
index 0000000..b415c57
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_001.txt
@@ -0,0 +1,706 @@
+<article id="web_test_001" url="https://de.wikipedia.org/wiki/Detmold" />
+Nahe
+dem
+Ortsteil
+Holzhausen-Externsteine
+der
+Nachbarstadt
+Horn-Bad
+Meinberg
+liegen
+die
+Externsteine
+,
+eine
+der
+größten
+Natursehenswürdigkeiten
+Deutschlands
+.
+Im
+Umkreis
+der
+von
+der
+Wiembecke
+in
+Jahrmillionen
+ausgewaschenen
+Steine
+wurde
+ein
+Gebiet
+von
+etwa
+140
+Hektar
+als
+Naturschutzgebiet
+ausgewiesen
+.
+
+Regelmäßige
+Veranstaltungen
+
+Jedes
+Jahr
+im
+Frühjahr
+finden
+in
+der
+Fußgängerzone
+der
+Innenstadt
+sowie
+im
+Kaiserkeller
+und
+in
+der
+Stadthalle
+die
+Internationalen
+Detmolder
+Jazznächte
+statt
+.
+Gäste
+sind
+zum
+Beispiel
+Robin
+Eubanks
+und
+regelmäßig
+die
+Bigband
+der
+Detmolder
+Musikhochschule
+.
+
+Im
+Frühsommer
+findet
+das
+Kurzfilmfestival
+International
+Short
+Film
+Festival
+(
+ISFF
+Detmold
+)
+statt
+.
+[
+36
+]
+
+Im
+Sommer
+werden
+regelmäßig
+die
+Detmolder
+Sommerbühne
+und
+Lippe
+Kulinarisch
+veranstaltet
+.
+Die
+Sommerbühne
+ist
+eine
+mehrtägige
+kostenlose
+Open-Air-Veranstaltung
+in
+der
+Innenstadt
+mit
+einer
+Hauptbühne
+auf
+dem
+Marktplatz
+.
+Lippe
+Kulinarisch
+bietet
+im
+Schlossgarten
+im
+Juli
+/
+August
+an
+einem
+Wochenende
+regionale
+und
+internationale
+Spezialitäten
+,
+die
+von
+der
+heimischen
+Gastronomie
+präsentiert
+werden
+,
+an
+.
+
+Im
+zweijährigen
+Rhythmus
+,
+zu
+Pfingsten
+,
+findet
+auf
+öffentlichen
+Straßen
+und
+Plätzen
+das
+Europäische
+Straßentheaterfestival
+statt
+.
+Das
+erste
+Straßentheaterfest
+in
+Detmold
+wurde
+1991
+unter
+dem
+Namen
+"
+1.
+Detmolder
+Bildstörung
+"
+veranstaltet
+.
+Nach
+über
+20
+Jahren
+regelmäßiger
+Realisierung
+von
+Projekten
+ist
+das
+Straßentheater
+fester
+Bestandteil
+des
+kulturellen
+Lebens
+der
+Stadt
+.
+
+Im
+Herbst
+findet
+jedes
+Jahr
+von
+Mittwoch
+nach
+dem
+Buß-
+und
+Bettag
+bis
+zum
+darauffolgenden
+Sonntag
+die
+Andreasmesse
+mit
+etwa
+250
+Ausstellern
+statt
+.
+Karussells
+und
+Verkaufsstände
+bieten
+ein
+buntes
+Programm
+auf
+dem
+seit
+1604
+urkundlich
+bezeugten
+Jahrmarkt
+.
+Veranstaltungsort
+sind
+die
+Fußgängerzone
+und
+der
+Kronenplatz
+.
+Ebenfalls
+in
+der
+Fußgängerzone
+findet
+jedes
+Jahr
+der
+Weihnachtsmarkt
+statt
+.
+Früher
+war
+diese
+Veranstaltung
+nur
+ein
+kleiner
+Bauernmarkt
+.
+
+Jeden
+ersten
+Samstag
+im
+Monat
+findet
+von
+April
+bis
+November
+ein
+Flohmarkt
+ohne
+Neuwaren
+am
+Friedrichstaler
+Kanal
+statt
+.
+
+Kulinarische
+Spezialitäten
+
+Die
+bekannteste
+Spezialität
+in
+Detmold
+ist
+der
+Lippische
+Pickert
+,
+eine
+Art
+Kartoffelreibekuchen
+aus
+Mehl
+,
+geriebenen
+Kartoffeln
+,
+Eiern
+,
+Rosinen
+,
+Hefe
+,
+Milch
+und
+Wasser
+.
+Er
+wird
+traditionell
+mit
+Rübenkraut
+oder
+Lippischer
+Leberwurst
+,
+einer
+weiteren
+lippischen
+Spezialität
+,
+gegessen
+.
+Der
+lippische
+Pickert
+findet
+auch
+Erwähnung
+in
+dem
+regional
+bekannten
+Volkslied
+Die
+Lippischen
+Schützen
+,
+in
+dem
+es
+heißt
+:
+„
+Und
+als
+sie
+dann
+kamen
+durch
+die
+qualmige
+Stadt
+Essen
+,
+da
+ham
+se
+ihren
+mitjebrachten
+Pickert
+aufjejessen
+“
+.
+
+Wirtschaft
+und
+Infrastruktur
+
+Verkehr
+
+Straßenverkehr
+
+Detmold
+ist
+über
+die
+Bundesstraßen
+238
+und
+239
+sowie
+über
+Landstraßen
+an
+das
+Bundesautobahnnetz
+(
+A
+2
+,
+Dortmund
+–
+Hannover
+und
+A
+33
+,
+Bielefeld
+–
+Paderborn
+)
+angeschlossen
+.
+Bemerkenswert
+für
+eine
+Stadt
+dieser
+Größe
+ist
+es
+,
+dass
+es
+im
+Stadtgebiet
+keine
+vierspurig
+geführte
+Straße
+gibt
+.
+
+Schienen-
+und
+Busverkehr
+
+Empfangsgebäude
+Bahnhof
+Detmold
+
+Der
+Bahnhof
+Detmold
+liegt
+an
+der
+Bahnstrecke
+Herford
+–
+Altenbeken
+.
+Er
+wird
+jeweils
+im
+Stundentakt
+von
+Regionalzügen
+der
+Linien
+Herford
+–
+Lage
+–
+Detmold
+–
+Altenbeken
+–
+Paderborn
+(
+„
+Ostwestfalen-Bahn
+“
+)
+sowie
+(
+Altenbeken
+–
+)
+Detmold
+–
+Lage
+–
+Oerlinghausen
+–
+Bielefeld
+(
+„
+Der
+Leineweber
+“
+,
+sonntags
+nur
+alle
+zwei
+Stunden
+)
+bedient
+.
+
+Im
+Straßenpersonennahverkehr
+ist
+Detmold
+über
+ein
+Regionalbusnetz
+mit
+der
+Region
+verbunden
+.
+Der
+innerstädtische
+Verkehr
+wird
+durch
+das
+1994
+von
+der
+Stadtverkehr
+Detmold
+GmbH
+aufgebaute
+Stadtbussystem
+geleistet
+,
+das
+mit
+seinen
+acht
+Linien
+teilweise
+dem
+bis
+1954
+bestehenden
+Straßenbahnnetz
+entspricht
+.
+Detmold
+gehört
+zum
+Tarifverbund
+„
+Der
+Sechser
+“
+(
+OWL
+Verkehr
+GmbH
+)
+.
+
+→
+Hauptartikel
+:
+Stadtbus
+Detmold
+
+Luftverkehr
+
+Der
+ehemalige
+Fliegerhorst
+der
+Britischen
+Rheinarmee
+wurde
+am
+31.
+Juli
+1995
+aufgelöst
+und
+an
+die
+Stadt
+Detmold
+übergeben
+.
+Die
+Stadt
+veräußert
+Grundstücke
+und
+Gebäude
+des
+Geländes
+,
+um
+sie
+einer
+neuen
+Nutzung
+zuzuführen
+.
+Der
+heutige
+Flugplatz
+ist
+ein
+ziviler
+Sonderlandeplatz
+und
+wird
+vom
+Luftsportverein
+Detmold
+e.
+V.
+genutzt
+.
+
+Der
+nächstgelegene
+internationale
+Flughafen
+ist
+der
+Flughafen
+Paderborn
+/
+Lippstadt
+,
+der
+rund
+60
+km
+südwestlich
+von
+Detmold
+liegt
+und
+über
+die
+A
+33
+zu
+erreichen
+ist
+.
+
+Radwege
+
+Die
+Radfernwege
+Römerroute
+und
+Wellness-Radroute
+sowie
+die
+BahnRadRoute
+Weser-Lippe
+führen
+durch
+das
+Stadtgebiet
+.
+Außerdem
+verläuft
+der
+Europaradwanderweg
+R1
+von
+Calais
+(
+Frankreich
+)
+nach
+Tallinn
+(
+Estland
+)
+im
+Süden
+(
+Externsteine
+)
+nahe
+an
+der
+Stadt
+vorbei
+.
diff --git a/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_002.txt b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_002.txt
new file mode 100644
index 0000000..5c357e0
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_002.txt
@@ -0,0 +1,600 @@
+<article id="web_test_002" url="http://www.umwelt-im-unterricht.de/hintergrund/skitourismus-und-das-oekosystem-der-berge/" />
+Thema
+der
+Woche
+:
+Skispaß
+oder
+Umweltfrust
+?
+
+Unterrichtsvorschlag
+:
+Die
+Berge
+,
+Urlaub
+und
+die
+Umwelt
+(
+GS
+)
+
+Unterrichtsvorschlag
+:
+Umweltverträgliche
+Ferien
+in
+den
+Bergen
+(
+SEK
+)
+
+Skitourismus
+ist
+für
+viele
+Bergregionen
+in
+Deutschland
+von
+großer
+Bedeutung
+,
+vor
+allem
+in
+den
+Alpen
+.
+Dort
+stellt
+er
+in
+manchen
+Regionen
+den
+wichtigsten
+Wirtschaftsfaktor
+dar
+.
+Millionen
+Menschen
+reisen
+in
+den
+Wintermonaten
+in
+die
+Berge
+,
+um
+dort
+Ski
+zu
+fahren
+.
+Die
+Gäste
+geben
+Geld
+für
+Übernachtungen
+,
+Verpflegung
+,
+Skilifte
+und
+-ausrüstung
+aus
+und
+schaffen
+dadurch
+viele
+Arbeitsplätze
+.
+In
+der
+Saison
+2009
+/
+2010
+sind
+laut
+einer
+Umfrage
+der
+Deutschen
+Sporthochschule
+in
+Köln
+7,39
+Millionen
+Deutsche
+Skialpin
+,
+das
+heißt
+Abfahrtski
+,
+gefahren
+–
+das
+sind
+neun
+Prozent
+der
+Bevölkerung
+.
+Die
+Wintersportgäste
+blieben
+im
+Durchschnitt
+fünf
+Nächte
+,
+hat
+das
+österreichische
+Bundesministerium
+für
+Wirtschaft
+,
+Familie
+und
+Jugend
+2010
+ermittelt
+.
+Zudem
+hätten
+Skifahrer
+ein
+höheres
+Nettoeinkommen
+als
+Nichtskifahrer
+–
+somit
+sind
+sie
+für
+die
+Tourismusindustrie
+besonders
+interessant
+.
+
+Massentourismus
+prägt
+Skiorte
+
+Seit
+Mitte
+der
+1970er-Jahre
+hat
+sich
+Alpinski
+zu
+einer
+populären
+Sportart
+für
+die
+breite
+Masse
+entwickelt
+.
+Das
+trug
+dazu
+bei
+,
+dass
+sich
+in
+der
+Alpenregion
+eine
+große
+Anzahl
+von
+Orten
+speziell
+auf
+diese
+Sportart
+einrichtete
+.
+In
+den
+Skiorten
+entstanden
+Hotels
+,
+Pensionen
+,
+Ferienwohnungen
+,
+Lifte
+,
+Loipen
+und
+Pisten
+.
+Für
+die
+Umwelt
+war
+das
+keine
+günstige
+Entwicklung
+.
+So
+wird
+beispielsweise
+beim
+Planieren
+von
+Skipisten
+die
+oberste
+Humusschicht
+des
+Bodens
+zerstört
+–
+und
+damit
+auch
+die
+Pflanzendecke
+.
+Der
+Boden
+wird
+beim
+Planieren
+verdichtet
+.
+Dadurch
+speichert
+er
+nur
+halb
+so
+viel
+Wasser
+wie
+ein
+naturbelassener
+Boden
+.
+Die
+Gefahr
+der
+Erosion
+nimmt
+dadurch
+zu
+,
+im
+schlimmsten
+Fall
+kommt
+es
+häufiger
+zu
+Schlamm-
+und
+Gerölllawinen
+.
+Durch
+das
+Zerstören
+der
+Pflanzendecke
+können
+außerdem
+Arten
+verschwinden
+.
+Mit
+den
+Pflanzen
+verlieren
+auch
+manche
+Tierarten
+ihre
+Lebensgrundlage
+.
+So
+sind
+zum
+Beispiel
+manche
+Insekten
+wie
+Schmetterlinge
+auf
+ganz
+bestimmte
+Pflanzen
+angewiesen
+.
+
+Die
+negativen
+Auswirkungen
+der
+Skipisten
+auf
+die
+Natur
+können
+theoretisch
+repariert
+werden
+.
+Doch
+eine
+Renaturierung
+ist
+nur
+unterhalb
+der
+Waldgrenze
+(
+1500
+bis
+1700
+Meter
+Höhe
+)
+realistisch
+,
+denn
+darüber
+erholt
+sich
+aufgrund
+der
+extremen
+Wetterverhältnisse
+und
+der
+kargen
+Böden
+die
+Natur
+zu
+langsam
+.
+Insgesamt
+nimmt
+die
+Infrastruktur
+für
+den
+Alpinskisport
+große
+Flächen
+in
+Anspruch
+.
+
+Kanonen
+gegen
+Schneemangel
+
+Ein
+weiteres
+Problem
+sind
+sogenannte
+Schneekanonen
+.
+Gerade
+in
+tiefer
+gelegenen
+Skigebieten
+fällt
+nicht
+immer
+genug
+Schnee
+,
+um
+den
+Gästen
+über
+die
+gesamte
+Saison
+zuverlässig
+befahrbare
+Pisten
+zu
+bieten
+.
+Daher
+werden
+die
+Pisten
+künstlich
+beschneit
+.
+Fachleute
+rechnen
+damit
+,
+dass
+sich
+der
+Schneemangel
+durch
+den
+Klimawandel
+verstärken
+wird
+,
+sodass
+immer
+mehr
+Skigebiete
+auf
+Schneekanonen
+angewiesen
+sein
+dürften
+.
+Doch
+diese
+verbrauchen
+viel
+Wasser
+und
+Energie
+.
+Für
+ihren
+Betrieb
+müssen
+in
+Reichweite
+der
+Pisten
+eigens
+Wasserreservoirs
+angelegt
+werden
+.
+Zudem
+machen
+Schneekanonen
+ähnlich
+viel
+Lärm
+wie
+eine
+stark
+befahrene
+Straße
+.
+Da
+sie
+meist
+in
+den
+Abendstunden
+eingesetzt
+werden
+,
+können
+sie
+Wildtiere
+in
+ihren
+Ruhephasen
+stören
+.
+Durch
+den
+zusätzlichen
+Kunstschnee
+entsteht
+mehr
+Schmelzwasser
+,
+was
+die
+Bodenerosion
+noch
+verstärken
+kann
+.
+Künstlicher
+Schnee
+ist
+zudem
+dichter
+als
+natürlicher
+,
+weswegen
+weniger
+Sauerstoff
+an
+die
+Erde
+gelangt
+,
+was
+wiederum
+zu
+Vegetationsschäden
+führen
+kann
+.
+
+Auch
+der
+Transport
+der
+vielen
+Urlaubsgäste
+sorgt
+für
+Umweltprobleme
+.
+Insgesamt
+reisen
+etwa
+45
+bis
+50
+Millionen
+Touristen
+jährlich
+in
+das
+Alpenareal
+,
+sowohl
+im
+Sommer
+als
+auch
+im
+Winter
+.
+Ein
+großer
+Teil
+nutzt
+das
+Auto
+,
+sodass
+es
+selbst
+in
+kleinen
+Orten
+und
+abgelegenen
+Regionen
+zu
+Staus
+und
+Luftverschmutzung
+kommen
+kann
+.
diff --git a/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_003.txt b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_003.txt
new file mode 100644
index 0000000..5fd86a5
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_003.txt
@@ -0,0 +1,351 @@
+<article id="web_test_003" url="https://novastation.wordpress.com/about/" />
+Novastation
+sendet
+vom
+Ende
+der
+Welt
+
+Was
+ist
+die
+Novastation
+?
+
+Die
+Nova
+Station
+wurde
+1926
+,
+im
+Zuge
+einer
+Polarexpedition
+unter
+franko-kanadischer
+Flagge
+,
+von
+Steward
+Douglas
+Nova
+gegründet
+.
+Die
+Expedition
+hatte
+zum
+Ziel
+,
+das
+von
+Franz
+Kafka
+beschriebene
+Schloss
+aus
+seinem
+gleichnamigen
+Romanfragment
+zu
+finden
+,
+zu
+vermessen
+und
+zu
+erforschen
+.
+Die
+ursprünglich
+als
+Kurzwellenzahlensender
+betriebene
+Nova
+Station
+diente
+hierbei
+vor
+allem
+der
+Übermittlung
+von
+codierten
+Zwischenständen
+der
+Forschungsmission
+an
+die
+Basis
+in
+Whitehorse
+(
+Yukon
+)
+,
+sowie
+der
+Unterhaltung
+der
+Expeditionsteilnehmer
+.
+
+Novas
+Enkel
+,
+James
+Clark
+Nova
+Sr.
+,
+belebte
+die
+Nova
+Station
+im
+Jahre
+1963
+zunächst
+als
+Amateurfunkdienst
+wieder
+.
+Später
+betrieb
+Nova
+Sr.
+,
+gemeinsam
+mit
+seinen
+Freunden
+Lee
+Parker
+McCarrier
+und
+Andrew
+Lafayette
+die
+Station
+als
+Piratensender
+der
+amerikanischen
+Gegenkultur
+.
+Schon
+bald
+erfreute
+sie
+sich
+überregionaler
+Beliebtheit
+und
+war
+auch
+unter
+GIs
+ein
+Geheimtipp
+.
+
+Im
+August
+2008
+war
+es
+wiederum
+der
+Enkel
+von
+James
+Clark
+Nova
+Sr.
+,
+Arthur
+Clark
+Nova
+,
+der
+die
+Nova
+Station
+ein
+weiteres
+Mal
+auf
+Sendung
+gehen
+ließ
+–
+mit
+Hilfe
+von
+technischen
+Medien
+des
+19.
+bis
+21.
+Jahrhunderts
+.
+
+Arthur
+Clark
+Nova
+,
+Jg.
+1984
+,
+studierte
+zunächst
+Biologie
+in
+Heidelberg
+.
+Er
+war
+in
+seinem
+Fach
+überaus
+begabt
+und
+wurde
+schon
+früh
+von
+den
+Professoren
+der
+Fakultät
+für
+Biowissenschaften
+geschätzt
+.
+Nach
+einem
+als
+sadistisch
+eingeschätzten
+Experiment
+an
+Hirschkäfern
+,
+deren
+wissenschaftliche
+Zweckmäßigkeit
+nicht
+nachgewiesen
+werden
+konnte
+,
+wurde
+Nova
+der
+Universität
+verwiesen
+.
+Seit
+dem
+lebte
+er
+an
+einem
+unbekannten
+Ort
+in
+Mitteldeutschland
+,
+wo
+er
+sich
+ganz
+dem
+mechanischen
+Tippen
+verschrieb
+,
+welches
+er
+jedoch
+auf
+ausdrücklichen
+Wunsch
+nicht
+als
+künstlerische
+Produktion
+verstanden
+wissen
+wollte
+.
+
+Hier
+verlieren
+sich
+die
+Spuren
+der
+Familie
+Nova
+,
+die
+sowohl
+franko-kanadische
+,
+französische
+,
+deutsche
+und
+tschechische
+Wurzeln
+hat
+.
+Ihr
+letztes
+bekanntes
+Zeugnis
+ist
+in
+Form
+einer
+mechanischen
+Clarknova-Schreibmaschine
+aus
+des
+späten
+1950er
+Jahren
+erhalten
+.
+Diese
+funktioniert
+bis
+heute
+einwandfrei
+und
+befindet
+sich
+nicht
+in
+Berlin
+.
+
+clarknova[at]gmx[dot]net
+
+Teilen
+:
+
+Twitter
+Facebook
+Tumblr
+Mehr
+
+Lade
+...
+
+Kommentar
+verfassen
diff --git a/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_004.txt b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_004.txt
new file mode 100644
index 0000000..2cd423f
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_004.txt
@@ -0,0 +1,705 @@
+<article id="web_test_004" url="http://www.telemedicus.info/article/2892-Gibt-es-ein-Recht-auf-Ende-zu-Ende-Verschluesselung.html" />
+Montag
+,
+26.
+Januar
+2015
+,
+von
+Simon
+Assion
+
+Weiterempfehlen
+Drucken
+
+Gibt
+es
+ein
+Recht
+auf
+Ende-zu-Ende-Verschlüsselung
+?
+
+Erst
+Cameron
+,
+dann
+Obama
+,
+jetzt
+auch
+de
+Maiziere
+:
+Vermehrt
+fordern
+Politiker
+westlicher
+Staaten
+in
+diesen
+Tagen
+ein
+„
+Verschlüsselungsverbot
+“
+.
+Oder
+,
+genauer
+:
+Nicht
+jede
+Verschlüsselung
+soll
+untersagt
+werden
+.
+Eine
+Verschlüsselung
+,
+die
+aber
+auch
+den
+Staat
+ausschließt
+,
+insbesondere
+also
+die
+Ende-zu-Ende-Verschlüsselung
+,
+soll
+nach
+Auffassung
+dieser
+Politiker
+zukünftig
+verboten
+sein
+.
+Keine
+Verschlüsselung
+also
+mehr
+,
+wenn
+der
+Staat
+keine
+„
+Backdoor
+”
+hat
+und
+auf
+die
+ein
+oder
+andere
+Weise
+mitlesen
+kann
+.
+
+Betrachtet
+man
+diese
+Forderung
+aus
+rechtlicher
+Perspektive
+,
+wirkt
+sie
+auf
+den
+ersten
+Blick
+unproblematisch
+.
+Es
+gibt
+aus
+verfassungs-
+,
+bzw.
+grundrechtlicher
+Perspektive
+kein
+schrankenloses
+„
+Recht
+auf
+Verschlüsselung
+“
+.
+Zwar
+schützt
+das
+Telekommunikationsgeheimnis
+(
+Art.
+10
+GG
+,
+Art.
+8
+Abs.
+1
+EMRK
+,
+Art.
+7
+EU-GrCh
+)
+die
+Fernkommunikation
+vor
+staatlicher
+Einsichtnahme
+.
+Aber
+dieses
+Grundrecht
+ist
+eben
+nicht
+schrankenlos
+gewährleistet
+.
+Art.
+10
+GG
+sagt
+:
+
+(
+1
+)
+Das
+Briefgeheimnis
+sowie
+das
+Post-
+und
+Fernmeldegeheimnis
+sind
+unverletzlich
+.
+
+(
+2
+)
+Beschränkungen
+dürfen
+nur
+auf
+Grund
+eines
+Gesetzes
+angeordnet
+werden
+.
+Dient
+die
+Beschränkung
+dem
+Schutze
+der
+freiheitlichen
+demokratischen
+Grundordnung
+oder
+des
+Bestandes
+oder
+der
+Sicherung
+des
+Bundes
+oder
+eines
+Landes
+,
+so
+kann
+das
+Gesetz
+bestimmen
+,
+daß
+sie
+dem
+Betroffenen
+nicht
+mitgeteilt
+wird
+und
+daß
+an
+die
+Stelle
+des
+Rechtsweges
+die
+Nachprüfung
+durch
+von
+der
+Volksvertretung
+bestellte
+Organe
+und
+Hilfsorgane
+tritt
+.
+
+Ähnliches
+gilt
+auch
+für
+die
+Verankerungen
+des
+Fernmeldegeheimnisses
+in
+Art.
+8
+EMRK
+und
+Art.
+7
+EU-GrCh
+:
+Auch
+dort
+ist
+das
+Telekommunikationsgeheimnis
+kein
+schrankenloses
+Grundrecht
+,
+staatliche
+Eingriffe
+sind
+zulässig
+.
+Wenn
+die
+rechtlichen
+Voraussetzungen
+eingehalten
+sind
+,
+dann
+darf
+der
+Staat
+also
+Fernkommunikation
+mitlesen
+bzw.
+mithören
+.
+
+Verbot
+technischer
+Schutzwaffen
+?
+
+Dass
+der
+Staat
+verhindern
+will
+,
+dass
+ein
+einschränkbares
+Grundrecht
+auf
+technischer
+Ebene
+zum
+schrankenlosen
+Grundrecht
+wird
+,
+ist
+insofern
+verfassungsrechtlich
+unbedenklich
+.
+Der
+Staat
+darf
+seine
+Schranken-Zugriffsmöglichkeit
+rechtlich
+absichern
+.
+Es
+handelt
+sich
+um
+eine
+Präventivmaßnahme
+,
+die
+erst
+dann
+zur
+Anwendung
+kommt
+,
+wenn
+Eingriffe
+in
+das
+betreffende
+Grundrecht
+zulässig
+sind
+.
+Mit
+derselben
+Rechtfertigung
+kann
+der
+Staat
+z.
+B.
+Versammlungsteilnehmern
+untersagen
+,
+Schutzwaffen
+wie
+Körperpanzerung
+zu
+tragen
+.
+
+Auch
+aus
+einer
+eher
+rechtsphilosophischen
+Perspektive
+ist
+an
+dem
+Vorhaben
+von
+Cameron
+,
+Obama
+und
+de
+Maiziere
+nichts
+auszusetzen
+.
+Wer
+(
+wie
+z.
+B.
+Edward
+Snowden
+)
+Verschlüsselung
+als
+Abwehrmaßnahme
+gegen
+staatliche
+Übergriffe
+propagiert
+,
+mag
+inhaltlich
+damit
+Recht
+haben
+.
+Eine
+gegen
+den
+Staat
+gerichtete
+„
+digitale
+Selbstverteidigung
+“
+ist
+verfassungsrechtlich
+aber
+auf
+Ebene
+des
+Widerstandsrechts
+(
+Art.
+20
+Abs.
+4
+GG
+)
+einzuordnen
+.
+Solche
+Maßnahmen
+können
+gerechtfertigt
+und
+zulässig
+sein
+;
+aber
+nur
+,
+wenn
+demokratische
+Grundwerte
+bedroht
+sind
+und
+der
+Staat
+selbst
+diese
+nicht
+mehr
+verteidigt
+.
+Einen
+solchen
+„
+Verteidigungsfall
+der
+Demokratie
+“
+kann
+man
+in
+der
+aktuellen
+Situation
+sicherlich
+diskutieren
+–
+im
+Ergebnis
+muss
+man
+ihn
+aber
+ablehnen
+(
+so
+auch
+Brüggemann
+,
+in
+:
+Telemedicus
+(
+Hrsg.
+)
+,
+Überwachung
+und
+Recht
+,
+165
+,
+183
+f.
+[
+PDF
+]
+)
+.
+
+Die
+Frage
+eines
+„
+Verschlüsselungsverbotes
+“
+ist
+damit
+eine
+des
+einfachen
+Rechts
+–
+und
+hier
+hat
+der
+Staat
+weitgehende
+Gestaltungsfreiheit
+.
+Er
+kann
+weitgehend
+selbstständig
+entscheiden
+,
+was
+er
+für
+legal
+oder
+für
+illegal
+erklärt
+.
+Ebenso
+kann
+er
+(
+relativ
+)
+frei
+wählen
+,
+welche
+Methoden
+der
+Rechtsdurchsetzung
+er
+wählt
+.
+
+Rechtsdurchsetzung
+ist
+ein
+Problem
+
+Gerade
+die
+Rechtsdurchsetzung
+ist
+aber
+das
+Problem
+.
+Eine
+effektive
+Durchsetzung
+eines
+„
+Verschlüsselungsverbotes
+“
+wäre
+technisch
+nur
+umsetzbar
+,
+entweder
+indem
+der
+Staaat
+die
+Kommunikationsnetze
+flächendeckend
+überwachen
+und
+verschlüsselte
+Inhalte
+ausfiltern
+lässt
+–
+oder
+indem
+er
+generell
+die
+Nutzung
+von
+Verschlüsselungssoftware
+untersagt
+,
+die
+keine
+staatliche
+Backdoor
+offen
+lässt
+,
+und
+dieses
+Verbot
+flächendeckend
+durchsetzt
+.
+Beide
+Maßnahmen
+sind
+faktisch
+kaum
+umsetzbar
+und
+potentiell
+mit
+hohen
+Kosten
+und
+Grundrechtseingriffen
+verbunden
+.
+
+Für
+eine
+flächendeckende
+Internetfilterung
+müsste
+für
+viel
+Geld
+die
+entsprechende
+Infrastruktur
+errichtet
+werden
+–
+und
+diese
+könnte
+als
+„
+Zensur-Infrastruktur
+“
+dann
+schnell
+zweckentfremdet
+werden
+.
+Beispiele
+wie
+die
+Türkei
+,
+wo
+Präsident
+Erdogan
+solche
+Filtertechnik
+als
+Teil
+innenpolitischer
+Auseinandersetzungen
+einsetzt
+,
+zeigen
+wie
+naheliegend
+diese
+Befürchtungen
+sind
+.
diff --git a/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_005.txt b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_005.txt
new file mode 100644
index 0000000..d937cd1
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_005.txt
@@ -0,0 +1,677 @@
+<article id="web_test_005" url="http://ubuntuwiki.de/files/sicherheitskonzepte.html" />
+Wiki/Icons/Oxygen/security-medium.png
+Computerviren
+,
+Würmer
+,
+Trojaner
+,
+Botnetze
+etc.
+richten
+Schaden
+an
+-
+sowohl
+auf
+dem
+eigenen
+Computer
+als
+auch
+in
+Unternehmen
+,
+durch
+den
+Ausfall
+von
+Diensten
+,
+Servern
+oder
+Datenverlust
+.
+Fast
+alle
+Schadprogramme
+(
+engl.
+Malware
+)
+richten
+sich
+dabei
+gegen
+Windows
+bzw.
+Windowssysteme
+.
+Dies
+liegt
+zum
+einen
+daran
+,
+dass
+Windows
+noch
+immer
+das
+-
+mit
+Abstand
+-
+verbreitetste
+Betriebssystem
+für
+Desktop-Rechner
+/
+Endanwender
+ist
+.
+
+Ein
+zweiter
+,
+genau
+so
+wichtiger
+Punkt
+ist
+die
+natürliche
+Diskrepanz
+zwischen
+Sicherheit
+und
+Komfort
+-
+beides
+zusammen
+geht
+nicht
+oder
+endet
+oft
+in
+einem
+(
+faulen
+)
+Kompromiss
+.
+Zwar
+kündigt
+Microsoft
+immer
+wieder
+an
+,
+die
+Computerwelt
+sicherer
+zu
+machen
+,
+allerdings
+ist
+es
+nach
+wie
+vor
+so
+,
+dass
+es
+dringend
+angeraten
+ist
+,
+einen
+Windows-PC
+mit
+einer
+(
+inzwischen
+integrierten
+)
+Firewall
+und
+einem
+Viren-
+/
+Spywarescanner
+auszustatten
+,
+vor
+allem
+dann
+,
+wenn
+man
+regelmäßig
+im
+Internet
+surft
+.
+Firewalls
+und
+insbesondere
+Virenscanner
+sind
+heute
+ein
+eigener
+,
+umfangreicher
+Bereich
+bei
+kommerzieller
+Software
+.
+
+Es
+geht
+aber
+auch
+ohne
+solche
+Programme
+,
+wenn
+man
+ein
+geeignetes
+Betriebssystem
+nutzt
+,
+das
+vergleichsweise
+weit
+weniger
+anfällig
+gegen
+Malware
+ist
+:
+Ubuntu
+oder
+eine
+andere
+Linux-Distribution
+.
+
+"
+Es
+gibt
+keinen
+vernünftigen
+Grund
+,
+warum
+Computer
+zunächst
+unsicher
+konzipiert
+und
+dann
+vom
+Benutzer
+abgedichtet
+werden
+müssen
+.
+"
+
+Ist
+Linux
+wirklich
+sicherer
+als
+Windows
+?
+¶
+
+Oft
+wird
+behauptet
+,
+Linux
+sei
+eigentlich
+konzeptionell
+gar
+nicht
+sicherer
+als
+Windows
+.
+Sobald
+es
+sich
+weiter
+verbreite
+,
+müssten
+die
+Anwender
+mit
+einer
+wahren
+Flut
+an
+Linux-Schadsoftware
+rechnen
+,
+so
+wie
+man
+es
+unter
+Windows
+schon
+kennt
+.
+In
+der
+Tat
+werden
+Sicherheitslücken
+in
+Software
+umso
+intensiver
+genutzt
+,
+je
+populärer
+ein
+Programm
+ist
+.
+Dagegen
+spricht
+aber
+,
+dass
+Linux
+umso
+häufiger
+eingesetzt
+wird
+,
+je
+"
+wichtiger
+"
+ein
+System
+ist
+.
+Mehr
+als
+die
+Hälfte
+aller
+Server
+läuft
+mit
+Linux
+(
+z.
+B.
+auch
+Serverfarmen
+der
+Filmindustrie
+und
+von
+Google
+)
+,
+Netzknoten
+des
+Internet
+und
+anderer
+Netze
+und
+derzeit
+(
+Mitte
+2010
+)
+491
+der
+500
+schnellsten
+Superrechner
+und
+viele
+andere
+Geräte
+,
+auf
+denen
+man
+es
+kaum
+vermuten
+würde
+.
+Man
+könnte
+also
+mit
+der
+"
+richtigen
+"
+Linux-Schadsoftware
+die
+halbe
+Welt
+kontrollieren
+,
+wenn
+man
+sie
+schreiben
+und
+verbreiten
+könnte
+.
+"
+Konzeptionell
+"
+bedeutet
+außerdem
+noch
+lange
+nicht
+,
+dass
+dieses
+Konzept
+strikt
+im
+gesamten
+System
+fehlerfrei
+und
+ausnahmslos
+umgesetzt
+ist
+.
+
+Aber
+es
+gibt
+zwischenzeitlich
+auch
+Schadsoftware
+,
+die
+Lücken
+z.
+B.
+im
+Firefox
+oder
+Adobe
+Reader
+nutzt
+-
+beides
+Programme
+,
+die
+auch
+unter
+Ubuntu
+laufen
+bzw.
+rege
+genutzt
+werden
+.
+Praktisch
+spielen
+die
+Lücken
+und
+deren
+Ausnutzung
+(
+Exploit
+)
+unter
+Ubuntu
+/
+Linux
+kaum
+eine
+Rolle
+,
+weil
+die
+meiste
+Schadsoftware
+letztendlich
+doch
+ein
+Windows
+als
+Unterbau
+erwartet
+.
+
+"
+Ein
+Konzept
+zu
+haben
+,
+ist
+eine
+Sache
+-
+aber
+man
+sollte
+es
+auch
+vernünftig
+umsetzen
+.
+"
+
+Vom
+Sicherheitskonzept
+her
+sind
+Linux
+und
+Windows
+NT
+(
+als
+auch
+dessen
+Nachfolger
+XP
+,
+Vista
+und
+aktuell
+7
+)
+gar
+nicht
+so
+verschieden
+:
+
+Bei
+beiden
+Systemen
+ist
+ein
+wesentlicher
+Teil
+des
+Konzeptes
+,
+dass
+es
+Benutzer
+mit
+unterschiedlichen
+Privilegien
+gibt
+.
+Unter
+Linux
+kann
+ein
+Benutzer
+auch
+tatsächlich
+nur
+seine
+persönlichen
+Daten
+löschen
+.
+Windows
+wird
+hingegen
+bis
+einschließlich
+Windows
+XP
+so
+ausgeliefert
+,
+dass
+der
+Benutzer
+von
+Anfang
+an
+mit
+vollen
+Administratorrechten
+arbeitet
+.
+Jeder
+unbedarfte
+Mausklick
+kann
+somit
+das
+gesamte
+System
+zerstören
+oder
+es
+mit
+einem
+Computerschädling
+infizieren
+.
+Schlimmer
+noch
+:
+Die
+Arbeit
+als
+Nutzer
+mit
+eingeschränkten
+Benutzerrechten
+ist
+oft
+eher
+dornenreich
+.
+Erst
+mit
+Windows
+Vista
+wird
+das
+Konzept
+durch
+zusätzliche
+Sicherheitsabfragen
+und
+-mechanismen
+teilweise
+umgesetzt
+.
+Der
+zuerst
+angelegte
+Benutzer
+hat
+jedoch
+nach
+wie
+vor
+in
+weiten
+Teilen
+noch
+Administrator-Rechte
+.
+Unter
+Ubuntu
+hat
+auch
+der
+zuerst
+angelegte
+Benutzer
+nach
+dem
+Systemstart
+keine
+administrativen
+Rechte
+.
+Diese
+muss
+er
+explizit
+anfordern
+(
+z.
+B.
+mit
+sudo
+)
+und
+per
+Passwort
+aktivieren
+.
+Und
+auch
+dann
+sind
+diese
+nur
+für
+eine
+bestimmte
+Zeit
+(
+z.
+B.
+15
+Min.
+)
+gültig
+.
diff --git a/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_006.txt b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_006.txt
new file mode 100644
index 0000000..6dbb54d
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_006.txt
@@ -0,0 +1,630 @@
+<article id="web_test_006" url="http://phantanews.de/wp/aartikel/die-sueddeutsche-zeitung-und-die-typografie-im-ebook/" />
+Da
+liest
+man
+beispielsweise
+:
+
+Doch
+ein
+E-Book
+kann
+das
+Lesevergnügen
+rasch
+zunichte
+machen
+,
+schon
+wenn
+man
+die
+Schrift
+etwas
+vergrößert
+.
+Plötzlich
+finden
+sich
+Löcher
+im
+Text
+,
+Zeilen
+und
+Überschriften
+verrutschen
+,
+Umbruch
+und
+Silbentrennung
+lassen
+die
+Haare
+des
+Lesers
+zu
+Berge
+stehen
+.
+
+Ja
+,
+kann
+alles
+passieren
+.
+Dieses
+Zitat
+zeigt
+allerdings
+schon
+das
+grundsätzliche
+Problem
+des
+Artikels
+.
+Da
+wird
+sehr
+lange
+nur
+vom
+»
+eBook
+«
+gesprochen
+und
+man
+differenziert
+nicht
+zwischen
+eBooks
+und
+eReadern
+,
+sondern
+macht
+allle
+Probleme
+nur
+am
+»
+eBook
+«
+und
+dessen
+»
+Produzenten
+«
+fest
+.
+Das
+ist
+natürlich
+Mumpitz
+,
+denn
+die
+angesprochenen
+typografischen
+Probleme
+haben
+zahllose
+Gründe
+,
+die
+zum
+Teil
+bei
+den
+eigentlichen
+Dateien
+(
+also
+den
+eBooks
+)
+und
+zum
+Teil
+bei
+den
+Lesegeräten
+zu
+suchen
+sind
+.
+Der
+Artikel
+erweckt
+jedoch
+den
+Eindruck
+,
+als
+sei
+ausschließlich
+»
+das
+eBook
+«
+schuld
+–
+und
+das
+ist
+falsch
+.
+Erst
+spät
+im
+Artikel
+geht
+man
+dann
+doch
+plötzlich
+davon
+wieder
+ab
+und
+erkennt
+,
+dass
+die
+Probleme
+auf
+drei
+Ebenen
+stattfinden
+.
+Dazu
+weiter
+unten
+mehr
+.
+
+Beim
+Satz
+
+Und
+wenn
+man
+Pech
+hat
+,
+lädt
+jede
+Seite
+des
+E-Books
+beim
+Umblättern
+so
+lange
+,
+bis
+man
+den
+Reader
+entnervt
+zur
+Seite
+legt
+.
+
+muss
+zumindest
+ich
+mich
+fragen
+,
+welche
+fossilen
+Geräte
+der
+Autor
+benutzt
+hat
+,
+denn
+die
+Verzögerungen
+beim
+Umblättern
+gehören
+längst
+zur
+Vergangenheit
+und
+angeblich
+kann
+sogar
+der
+Tolino
+Shine
+dank
+Firmwareupdates
+inzwischen
+halbwegs
+schnell
+blättern
+(
+habe
+ich
+mir
+sagen
+lassen
+)
+.
+Der
+Großteil
+aktueller
+eReader
+blättert
+schneller
+als
+man
+eine
+Buchseite
+umlegen
+kann
+.
+Vielleicht
+sollte
+der
+Autor
+ein
+aktuelles
+Gerät
+erwerben
+,
+statt
+unreflektiert
+mal
+eben
+grundsätzlich
+eReader
+und
+die
+eBooks
+schlecht
+zu
+machen
+(
+oder
+die
+Aussagen
+Dritter
+einfach
+mal
+zu
+glauben
+)
+.
+
+Ja
+,
+es
+kann
+vorkommen
+,
+dass
+es
+Hurenkinder
+und
+Schusterjungen
+gibt
+,
+weil
+die
+Schriftgröße
+eben
+variabel
+ist
+.
+Das
+ist
+zum
+einen
+ein
+technisches
+Problem
+,
+das
+mittels
+aktualisierter
+Readerfirmwares
+gelöst
+werden
+kann
+.
+Vielleicht
+sollte
+der
+Autor
+zusätzlich
+mal
+mit
+Kurzsichtigen
+sprechen
+,
+ob
+die
+einen
+Schusterjungen
+wirklich
+für
+störend
+halten
+,
+wenn
+sie
+dafür
+das
+Buch
+ohne
+Augenanstrengung
+lesen
+können
+.
+It´s
+not
+a
+bug
+,
+it´s
+a
+feature
+.
+
+Silbentrennung
+?
+Ja
+,
+gibt
+es
+manchmal
+,
+manchmal
+auch
+nicht
+.
+Der
+Grund
+hierfür
+ist
+einfach
+:
+bei
+vielen
+eReadern
+ist
+die
+CPU
+,
+also
+der
+Prozessor
+,
+schlicht
+nicht
+stark
+genug
+,
+um
+bei
+einem
+fließenden
+Layout
+(
+wir
+erinnern
+uns
+:
+die
+Schriftgröße
+ist
+dem
+eigenen
+Geschmack
+oder
+körperlichen
+Einschränkungen
+anpassbar
+)
+via
+Software
+eine
+korrekte
+Silbentrennung
+durchzuführen
+.
+Das
+ist
+der
+Grund
+,
+warum
+Lesesoftware
+auf
+Tablets
+oft
+dazu
+in
+der
+Lage
+ist
+,
+man
+bei
+eReadern
+jedoch
+darauf
+verzichten
+muss
+.
+Man
+kann
+davon
+ausgehen
+,
+dass
+ein
+paar
+der
+aktuellen
+dedizierten
+Lesegeräte
+das
+durch
+Firmwareupdates
+noch
+beigebracht
+bekommen
+.
+
+Immer
+wieder
+wird
+Benjamin
+Göck
+aus
+einem
+Artikel
+auf
+buchreport.de
+zitiert
+:
+
+Auch
+schöne
+Initialen
+und
+Ligaturen
+sind
+nicht
+möglich
+.
+
+Fraktur
+eBook
+Das
+ist
+natürlich
+völliger
+Unsinn
+.
+»
+Schöne
+Initialen
+«
+sind
+selbstverständlich
+möglich
+.
+Ebenso
+wie
+Ligaturen
+.
+Wer
+letzteres
+nicht
+glaubt
+,
+sollte
+mal
+einen
+Blick
+auf
+das
+Projekt
+von
+Ralf
+Gawlista
+werfen
+,
+der
+sogar
+Fraktur
+auf
+eReadern
+darstellen
+kann
+,
+inklusive
+korrekter
+Ligaturen
+.
+Wie
+oft
+das
+»
+Æ
+«
+in
+den
+von
+mir
+verlegten
+Steampunk-Anthologien
+ÆTHERGARN
+und
+GESCHICHTEN
+AUS
+DEM
+ÆTHER
+vorkommt
+,
+möchte
+ich
+lieber
+nicht
+zählen
+.
+Die
+Aussage
+,
+dass
+Ligaturen
+nicht
+möglich
+sind
+,
+ist
+schlicht
+mangelnde
+Kenntnis
+und
+falsch
+.
+
+Aktuell
+gibt
+es
+zwei
+Standards
+,
+die
+im
+Gegensatz
+zur
+PDF-Version
+einen
+dynamischen
+Umbruch
+,
+also
+einen
+»
+lebenden
+«
+Text
+ermöglichen
+:
+Epub
+und
+Amazon
+KF8
diff --git a/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_007.txt b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_007.txt
new file mode 100644
index 0000000..cf206c0
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_007.txt
@@ -0,0 +1,832 @@
+<article id="web_test_007" url="http://www.zfdg.de/sb001_020" />
+1.
+Einleitung
+
+Für
+die
+kultur-
+und
+geisteswissenschaftliche
+Forschung
+relevante
+Ressourcen
+finden
+sich
+zu
+großen
+Teilen
+in
+den
+Sammlungen
+von
+Museen
+,
+Archiven
+,
+Bibliotheken
+,
+Universitäten
+und
+außeruniversitären
+Forschungseinrichtungen
+.
+Mit
+der
+Erweiterung
+des
+Anwendungsbereiches
+der
+Digital
+Humanities
+von
+den
+Sprachwissenschaften
+[
+1
+]
+hin
+zu
+einer
+ganzheitlichen
+Sicht
+auf
+die
+Kultur-
+und
+Geisteswissenschaften
+seit
+den
+1990ern
+wurden
+vermehrt
+Methoden
+,
+Anwendungen
+und
+Standards
+für
+die
+Digitalisierung
+,
+Analyse
+und
+Beschreibung
+von
+Ressourcen
+geschaffen
+.
+[
+2
+]
+Die
+Menge
+der
+heute
+durch
+öffentliche
+Netzwerke
+verfügbaren
+und
+für
+die
+kultur-
+und
+geisteswissenschaftliche
+Forschung
+relevanten
+Kollektionen
+steigt
+nicht
+zuletzt
+aufgrund
+der
+Verwendung
+von
+Zugriffs-
+und
+Beschreibungsstandards
+stetig
+an
+und
+bietet
+Forscherinnen
+und
+Forschern
+einen
+potenziellen
+Zugang
+zu
+einer
+Vielzahl
+heterogener
+Ressourcen
+.
+
+In
+diesem
+Beitrag
+stellen
+wir
+eine
+neuartige
+Föderationsarchitektur
+vor
+,
+die
+auf
+eine
+Erfassung
+und
+fallbasierte
+Zusammenführung
+von
+Forschungsdaten
+nach
+den
+individuellen
+Bedürfnissen
+von
+Forschungsprojekten
+abzielt
+.
+Digitale
+Sammlungen
+werden
+zentral
+verzeichnet
+,
+zur
+Vermeidung
+von
+Informationsverlusten
+jedoch
+nicht
+harmonisiert
+,
+sondern
+in
+Form
+von
+Beziehungen
+auf
+Schemaebene
+assoziiert
+,
+wodurch
+die
+Verwendung
+einer
+dynamisch
+föderierten
+Datenbasis
+in
+breiten
+und
+interdisziplinären
+,
+wie
+auch
+in
+fachspezifischen
+Anwendungskontexten
+ermöglicht
+werden
+kann
+.
+[
+3
+]
+Ein
+übergeordnetes
+Ziel
+besteht
+insbesondere
+in
+der
+Nutzbarmachung
+des
+durch
+Experten
+hinterlegten
+Wissens
+zu
+Kollektionen
+und
+Daten
+sowie
+deren
+Beziehungen
+für
+einen
+weiten
+Anwenderkreis
+.
+
+2.
+Anwendungskontext
+
+Traditionelle
+Integrationsansätze
+folgen
+häufig
+dem
+Muster
+eines
+physisch
+harmonisierten
+Datenbestands
+auf
+Basis
+eines
+zentralen
+Schemas
+.
+[
+4
+]
+Verteilte
+und
+heterogene
+,
+semi-strukturierte
+Daten
+werden
+hierbei
+in
+ein
+gemeinsames
+Schema
+übersetzt
+und
+stehen
+für
+eine
+einfache
+Weiterverarbeitung
+in
+integrierter
+Form
+zur
+Verfügung
+.
+Eine
+zentrale
+Aufgabe
+dieses
+Ansatzes
+besteht
+in
+der
+Umsetzung
+eines
+hinsichtlich
+der
+notwendigen
+Granularität
+geeigneten
+Integrationsschemas
+.
+In
+Bezug
+auf
+die
+Digital
+Humanities
+als
+ganzheitliche
+Anwendungsdomäne
+,
+die
+sich
+in
+Form
+spezifischer
+,
+interdisziplinärer
+und
+auch
+übergreifender
+Informationsbedürfnisse
+äußert
+,
+führt
+die
+Integration
+aller
+Disziplinen
+und
+Perspektiven
+jedoch
+entweder
+zu
+Schemata
+kaum
+verwaltbarer
+Komplexität
+oder
+–
+bei
+der
+Verwendung
+eines
+einfachen
+Modells
+,
+wie
+z.
+B.
+Dublin
+Core
+(
+DCES
+)
+–
+zum
+Verlust
+großer
+Anteile
+disziplinspezifischer
+Information
+.
+
+Für
+die
+Konzeption
+der
+in
+DARIAH-DE
+umgesetzten
+Föderationsarchitektur
+werden
+im
+Folgenden
+zwei
+Anwendungsfälle
+vorgestellt
+,
+deren
+unterschiedliche
+Anforderungen
+die
+Einschränkungen
+eines
+solchen
+zentralistischen
+Integrationsansatzes
+verdeutlichen
+.
+
+2.1
+Generische
+Suche
+
+Mit
+der
+generischen
+Suche
+verfolgt
+DARIAH-DE
+das
+Ziel
+,
+eine
+übergreifende
+Suchmöglichkeit
+zu
+schaffen
+,
+welche
+die
+Eigenschaften
+der
+Breiten-
+und
+Tiefensuche
+so
+vereint
+,
+dass
+eine
+dynamische
+Anpassung
+der
+Suche
+–
+z.
+B.
+im
+Hinblick
+auf
+eine
+mögliche
+Facettierung
+–
+erreicht
+werden
+kann
+.
+[
+5
+]
+Die
+übergreifende
+Suche
+in
+eng
+assoziierten
+Datenquellen
+erlaubt
+–
+unter
+Anwendung
+der
+in
+der
+DARIAH-DE
+Crosswalk
+Registry
+definierten
+Assoziationen
+und
+Transformationsregeln
+–
+eine
+detaillierte
+Auseinandersetzung
+mit
+den
+betrachteten
+Daten
+(
+Tiefensuche
+)
+.
+Mit
+einer
+wachsenden
+Zahl
+einbezogener
+Kollektionen
+wird
+die
+Granularität
+der
+Betrachtung
+und
+Facettierung
+ggf.
+mangels
+vorhandener
+Verbindungen
+reduziert
+und
+nimmt
+die
+Form
+einer
+Breitensuche
+ein
+.
+Für
+die
+dynamische
+Funktionalität
+der
+generischen
+Suche
+ist
+die
+ad-hoc-Integration
+ausgewählter
+Kollektionen
+basierend
+auf
+den
+für
+eine
+konkrete
+Anfrage
+relevanten
+Kollektionen
+und
+den
+zwischen
+diesen
+vorliegenden
+Assoziationen
+erforderlich
+,
+um
+die
+jeweils
+zur
+Verfügung
+stehende
+Granularität
+von
+Daten
+nutzen
+zu
+können
+.
+
+2.2
+Datenintegration
+
+Im
+Gegensatz
+zu
+der
+dynamischen
+,
+strukturellen
+Adaption
+der
+generischen
+Suche
+an
+die
+Zusammensetzung
+der
+für
+eine
+Anfrage
+ausgewählten
+Kollektionen
+zielen
+Lösungen
+der
+Datenintegration
+oftmals
+auf
+eine
+Konsolidierung
+einer
+a-priori
+definierten
+Auswahl
+von
+Datenquellen
+ab
+.
+[
+6
+]
+Anforderungen
+an
+eine
+kollektionsübergreifende
+Integration
+sind
+wesentlich
+von
+der
+verfolgten
+Forschungsfrage
+abhängig
+und
+können
+z.
+B.
+im
+Kontext
+der
+Ablösung
+von
+Systemen
+durch
+Neuentwicklungen
+,
+aber
+auch
+für
+die
+Ausweitung
+der
+Datenbasis
+einer
+bestehenden
+Analyse-
+und
+Visualisierungslösung
+,
+wie
+beispielsweise
+dem
+DARIAH-DE
+Geobrowser
+[
+7
+]
+,
+auftreten
+.
+Die
+Anwendung
+eines
+zentralen
+Integrationsschemas
+bzw.
+einer
+zentralen
+Ontologie
+führt
+im
+Fall
+der
+Datenintegration
+im
+Gesamtkontext
+der
+Digital
+Humanities
+zu
+Problemen
+,
+insbesondere
+wenn
+eine
+spezifische
+Auswahl
+von
+Kollektionen
+für
+konkrete
+Forschungsfragen
+zusammengefasst
+werden
+soll
+.
+Werden
+so
+beispielsweise
+Kollektionen
+aus
+archäologischen
+und
+kunsthistorischen
+Kontexten
+integriert
+,
+so
+führt
+die
+direkte
+Integration
+der
+spezifischen
+Datenstrukturen
+zu
+einem
+erhöhten
+Informationsgehalt
+gegenüber
+einer
+globalen
+Struktur
+,
+die
+den
+Fachspezifika
+nicht
+gerecht
+werden
+kann
+.
+
+3.
+Föderationsarchitektur
+
+Die
+in
+DARIAH-DE
+gewählte
+Architektur
+(
+Abbildung
+1
+)
+besteht
+aus
+der
+Collection
+Registry
+zur
+Verzeichnung
+von
+Kollektionen
+,
+der
+Schema
+Registry
+zur
+Verwaltung
+von
+Schemata
+,
+und
+der
+Crosswalk
+Registry
+zur
+Beschreibung
+von
+Assoziationen
+zwischen
+verschiedenen
+Schemata
+.
+Integrative
+Dienste
+wie
+die
+generische
+Suche
+setzen
+für
+die
+Interpretation
+und
+Verarbeitung
+von
+Daten
+der
+verzeichneten
+Kollektionen
+auf
+den
+durch
+die
+Registries
+angebotenen
+Webservices
+auf
+.
+
+Abb.
+1
+:
+Komponenten
+und
+Zusammenwirken
+der
+Föderationsarchitektur
+[
+eigene
+Darstellung
+]
+.
+
+Für
+eine
+Forscherin
+oder
+einen
+Forscher
+,
+die
+oder
+der
+eine
+Sammlung
+im
+Rahmen
+der
+Förderationsarchitektur
+registrieren
+und
+damit
+für
+die
+Suche
+,
+Analyse
+und
+den
+Vergleich
+mit
+anderen
+Sammlungen
+zur
+Verfügung
+stellen
+möchte
+,
+ergibt
+sich
+im
+Zusammenspiel
+mit
+der
+generischen
+Suche
+ein
+Ablauf
+in
+vier
+Schritten
+(
+Abbildung
+2
+)
+:
diff --git a/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_008.txt b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_008.txt
new file mode 100644
index 0000000..1b41509
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_008.txt
@@ -0,0 +1,660 @@
+<article id="web_test_008" url="http://bnlog.de/index.php/archiv/2008/11/07/skandinavische-lebensfreude-in-tragbarer-form-mitten-in-bonn/" />
+Das
+Besondere
+dabei
+:
+Im
+goldspatz
+findet
+sich
+ausschließlich
+Mode
+von
+skandinavischen
+Designern
+.
+Das
+zeigt
+sich
+sowohl
+an
+den
+Designs
+der
+Kinder-
+als
+auch
+der
+Erwachsenenmode
+und
+ganz
+klar
+natürlich
+auch
+an
+den
+Spielwaren
+.
+
+Die
+Schnitte
+und
+Designs
+sind
+mutiger
+,
+die
+Farbkombinationen
+ersparen
+einem
+die
+leidige
+Junge
+=
+blau
+=
+Powerranger
+,
+Mädchen
+=
+pink
+=
+Prinzessin
+Codierung
+.
+Der
+goldspatz
+bietet
+eine
+große
+Bandbreite
+an
+schöner
+Kindermode
+,
+die
+sich
+klar
+vom
+Einheitsbrei
+abgrenzt
+.
+Wer
+darüber
+hinaus
+in
+den
+70ern
+aufgewachsen
+ist
+,
+wird
+sicher
+das
+eine
+oder
+andere
+wirklich
+schöne
+Déjà
+vu
+haben
+.
+
+Aber
+nicht
+nur
+für
+die
+Kinder
+gibt
+Besonderes
+.
+Die
+Schwangeren-Mode
+bietet
+Zeitloses
+,
+Elegantes
+und
+Sportliches
+–
+für
+jede
+Gelegenheit
+etwas
+dabei
+,
+nicht
+zuletzt
+auch
+für
+Berufstätige
+.
+Inhaberin
+Vanessa
+Schmack
+berichtet
+,
+dass
+die
+Sommerkollektion
+nicht
+nur
+bei
+Schwangeren
+,
+sondern
+bei
+Frauen
+im
+Allgemeinen
+sehr
+gut
+angekommen
+ist
+.
+Ich
+glaub
+es
+gerne
+.
+Hier
+lohnt
+sich
+nicht
+nur
+der
+Blick
+auf
+die
+kuscheligen
+Yoga-Anzüge
+!
+Erstaunlich
+für
+mich
+,
+die
+ich
+auf
+dem
+Gebiet
+so
+überhaupt
+nicht
+bewandert
+bin
+war
+vor
+allem
+,
+wie
+schön
+auch
+Funktionales
+sein
+kann
+.
+Wer
+sich
+beispielsweise
+die
+Stillmode
+von
+Boobs
+anschaut
+,
+fragt
+sich
+zwangsläufig
+,
+warum
+man
+immer
+noch
+ständig
+stillende
+Mütter
+mit
+bloßen
+Brüsten
+auf
+öffentlichen
+Plätzen
+gibt
+,
+wenn
+es
+so
+pfiffige
+Alternativen
+gibt
+.
+Darüber
+hinaus
+gibt
+es
+schöne
+Wäsche
+gibt
+es
+für
+Kleine
+und
+Große
+,
+Spielwaren
+in
+allen
+Kuschelkategorien
+und
+Playsam
+Spielwaren
+,
+die
+eher
+an
+Objektkunst
+erinnern
+und
+sich
+sicherlich
+auch
+so
+sehr
+gut
+im
+Regal
+machen
+.
+
+Wer
+im
+goldspatz
+einkaufen
+geht
+,
+der
+muss
+die
+Kinder
+übrigens
+nicht
+zu
+Hause
+lassen
+,
+alles
+steht
+so
+,
+dass
+Kinderhände
+keinen
+Schaden
+anrichten
+und
+Mütter
+sich
+in
+Ruhe
+(
+!
+)
+umschauen
+können
+.
+Die
+Kleinen
+können
+sich
+derweil
+beispielsweise
+im
+eigens
+dafür
+gebauten
+Tunnel
+austoben
+.
+Wenn
+die
+Zeit
+mal
+knapp
+wird
+,
+und
+das
+kann
+mit
+Kindern
+ja
+schnell
+mal
+passieren
+,
+dann
+öffnet
+der
+goldspatz
+auf
+Verabredung
+auch
+schon
+mal
+nach
+den
+Öffnungszeiten
+.
+Vanessa
+Schmack
+ist
+da
+flexibel
+.
+Sie
+bietet
+ihren
+Kundinnen
+größtmöglichen
+Service
+in
+ihrem
+kleinen
+Reich
+.
+Bemühungen
+,
+die
+sich
+bereits
+jetzt
+schon
+auszahlen
+,
+denn
+etwas
+mehr
+als
+6
+Monate
+nach
+Eröffnung
+der
+goldspatz
+über
+die
+Grenzen
+Bonns
+hinaus
+zu
+einer
+der
+ersten
+Adressen
+für
+Kinder
+und
+Schwangeren
+Mode
+geworden
+.
+
+goldspatz
+ist
+ein
+Conceptstore
+,
+der
+sich
+an
+alle
+richtet
+,
+die
+Schönes
+abseits
+vom
+Allerlei
+suchen
+.
+Hinzu
+kommt
+,
+dass
+Vanessa
+Schmack
+Wert
+darauf
+legt
+,
+dass
+die
+Mode
+,
+Labels
+und
+Designer
+mit
+denen
+sie
+zusammen
+arbeitet
+nach
+Möglichkeit
+Organic-Mode
+anbieten
+.
+Um
+größtmögliche
+Unbedenklichkeit
+für
+die
+Kleinen
+und
+Kleinsten
+zu
+gewährleisten
+.
+Übrigens
+,
+Goldspatz
+heißt
+der
+goldspatz
+,
+weil
+der
+Name
+die
+Zeitlosigkeit
+und
+Eleganz
+des
+Ladenkonzeptes
+widerspiegeln
+sollte
+und
+weil
+er
+nicht
+nur
+Kindern
+sondern
+auch
+Mütter
+ansprechen
+sollte
+.
+Meiner
+Meinung
+nach
+ist
+das
+100
+%
+gelungen
+.
+Ein
+wirklich
+schöner
+Laden
+,
+der
+eine
+kleine
+Oase
+abseits
+vom
+Zentrumsramsch
+darstellt
+,
+der
+hält
+,
+was
+er
+verspricht
+.
+Ein
+Besuch
+lohnt
+sich
+definitiv
+auch
+unabhängig
+von
+Kindern
+und
+Mutterschaft
+.
+Ganz
+ehrlich
+?
+Ich
+muss
+nicht
+schwanger
+sein
+,
+Kinder
+haben
+oder
+Geschenke
+suchen
+um
+dort
+auch
+für
+mich
+fündig
+zu
+werden
+.
+Wenn
+es
+die
+kleinen
+Sachen
+jetzt
+noch
+20
+Nummern
+größer
+gibt
+,
+ist
+die
+nächste
+Stammkundin
+sicher
+!
+
+Also
+los
+,
+geht
+entdecken
+!
+Weihnachten
+kommt
+immer
+näher
+und
+in
+der
+Thomas-Mann-Strasse
+wird
+man
+immerhin
+nicht
+von
+Shoppern
+über
+den
+Haufen
+gerannt
+:)
+Wer
+sich
+danach
+noch
+ein
+wenig
+ausruhen
+möchte
+,
+der
+geht
+einfach
+nach
+Nebenan
+ins
+Petit
+Café
+.
+Aber
+das
+ist
+eine
+andere
+Geschichte
+…
+
+goldspatz
+,
+Thomas-Mann-Straße
+41
+,
+53111
+Bonn
+
+Öffnungszeiten
+:
+Montag
+bis
+Freitag
+:
+10.00
+–
+18.00
+Uhr
+
+Samstag
+:
+10.00
+–
+16.00
+Uhr
+
+und
+nach
+Vereinbarung
+
+http://www.goldspatz.com/
+Luur
+ooch
+von
+Melanie
diff --git a/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_009.txt b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_009.txt
new file mode 100644
index 0000000..d048b2f
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_009.txt
@@ -0,0 +1,652 @@
+<article id="web_test_009" url="http://cupcake-liebe.de/8-tipps-fuer-gelungene-cake-pops/" />
+Cupcakeliebe
+-
+food
+,
+fashion
+&
+fun
+
+Skip
+to
+content
+
+Home
+
+Food
+&
+Rezepte
+
+Fashion
+&
+Beauty
+
+Fun
+&
+Lifestyle
+
+About
+
+8
+Tipps
+für
+gelungene
+Cake
+Pops
+
+20.
+März
+2014
+by
+Wiebke
+,
+in
+category
+Allgemein
+,
+Food
+&
+Rezepte
+
+Aller
+Anfang
+ist
+schwer
+,
+und
+das
+gilt
+ganz
+besonders
+für
+die
+Zubereitung
+von
+Cake
+Pops
+.
+
+Auch
+ich
+hatte
+anfangs
+so
+meine
+Probleme
+,
+Cake
+Pops
+richtig
+gut
+hinzukriegen
+und
+musste
+lange
+üben
+,
+bis
+ich
+sie
+so
+schön
+hinbekommen
+habe
+,
+wie
+sie
+jetzt
+immer
+werden
+.
+Mittlerweile
+bin
+ich
+aber
+sehr
+zufrieden
+mit
+den
+Ergebnissen
+und
+konnte
+viele
+Erfahrungen
+sammeln
+.
+Die
+möchte
+ich
+gerne
+mit
+euch
+teilen
+und
+euch
+daher
+heute
+ein
+paar
+Tipps
+für
+Cake
+Pops
+geben
+,
+acht
+um
+genau
+zu
+sein
+.
+Vom
+Kuchen
+über
+Frosting
+und
+Glasur
+bis
+hin
+zur
+Dekoration
+und
+Präsentation
+geht
+es
+dabei
+entlang
+des
+gesamten
+Entstehungsprozesses
+von
+Cake
+Pops
+.
+
+1.
+Kuchen
+für
+Cake
+Pops
+
+1.1.
+Kuchen
+für
+Cake
+Pops
+backen
+
+Die
+Grundlage
+für
+Cake
+Pops
+ist
+ein
+Kuchen
+,
+der
+später
+zerbröselt
+und
+mit
+einem
+Frosting
+vermengt
+wird
+und
+so
+die
+richtige
+Konsistenz
+zum
+Formen
+der
+Kugeln
+bekommt
+.
+Wichtig
+dabei
+ist
+,
+dass
+der
+Kuchen
+komplett
+ausgekühlt
+ist
+.
+Damit
+der
+Cake
+Pops
+Teig
+später
+auch
+keine
+harten
+Stückchen
+enthält
+,
+sollte
+außerdem
+der
+Rand
+abgschnitten
+und
+nicht
+mitverarbeitet
+werden
+.
+
+Meine
+Tipps
+daher
+:
+
+Wenn
+ihr
+die
+Zeit
+habt
+,
+dann
+backt
+den
+Kuchen
+bereits
+einen
+Tag
+vorher
+,
+bevor
+ihr
+die
+Cake
+Pops
+macht
+.
+Lasst
+ihn
+auf
+Zimmertemperatur
+abkühlen
+,
+zerbröselt
+ihn
+und
+stellt
+ihn
+bereits
+über
+Nacht
+in
+den
+Kühlschrank
+.
+Schneidet
+den
+Rand
+und
+eventuell
+verbrannte
+Stellen
+vom
+Kuchen
+ab
+und
+nutzt
+nur
+die
+schön
+weichen
+Bestandteile
+des
+Kuchens
+für
+den
+Cake
+Pops
+Teig
+.
+
+1.2.
+Kuchen
+für
+Cake
+Pops
+kaufen
+
+Um
+sich
+ein
+wenig
+Arbeit
+zu
+ersparen
+,
+kann
+man
+zum
+Cake
+Pops
+machen
+auch
+einen
+bereits
+fertigen
+Kuchen
+kaufen
+.
+Da
+diese
+meist
+einen
+Schokoladenüberzug
+haben
+,
+muss
+der
+natürlich
+abgeschnitten
+werden
+.
+Das
+Innere
+des
+Kuchens
+wird
+dann
+zum
+Cake
+Pops
+Teig
+weiterverarbeitet
+.
+Ich
+nutze
+gekaufte
+Kuchen
+für
+Cake
+Pops
+nur
+selten
+,
+da
+mir
+diese
+immer
+sehr
+fettig
+vorkommen
+.
+Außerdem
+ist
+hier
+die
+Geschmacksvielfalt
+auch
+nicht
+so
+groß
+.
+Selbstgebacken
+schmeckt
+eben
+doch
+noch
+am
+besten
+.
+
+Meine
+Tipps
+:
+
+Wenn
+ihr
+einen
+gekauften
+Kuchen
+verwendet
+,
+entfernt
+den
+Schokoladenüberzug
+und
+nutzt
+nur
+das
+Innere
+des
+Kuchens
+für
+den
+Cake
+Pops
+Teig
+.
+Besser
+aber
+,
+ihr
+nehmt
+euch
+die
+Zeit
+und
+backt
+den
+Kuchen
+für
+die
+Cake
+Pops
+selbst
+.
+
+1.3.
+Kekse
+für
+Cake
+Pops
+verwenden
+
+Um
+Cake
+Pops
+zu
+machen
+,
+kann
+man
+auch
+Kekse
+verwenden
+.
+Auch
+diese
+werden
+zerbröselt
+und
+mit
+einem
+Frosting
+zum
+Cake
+Pops
+Teig
+verarbeitet
+.
+Da
+Kekse
+meist
+trockener
+sind
+als
+Kuchen
+,
+benötigt
+man
+hierfür
+meist
+mehr
+Frosting
+,
+damit
+die
+Kugeln
+später
+nicht
+zerfallen
+,
+wenn
+die
+Stiele
+hineingesteckt
+werden
+.
+
+Meine
+Tipps
+:
+
+Um
+Kekse
+so
+klein
+wie
+möglich
+zu
+zerbröseln
+und
+somit
+eine
+gute
+Grundlage
+für
+den
+Cake
+Pops
+Teig
+zu
+erhalten
+,
+zermahlt
+diese
+entweder
+in
+einer
+Küchenmaschine
+oder
+tut
+die
+Kekse
+in
+einen
+Gefrierbeutel
+und
+bearbeitet
+diesen
+mit
+einem
+Nudelholz
+.
+Verwendet
+bei
+Cake
+Pops
+aus
+Keksen
+mehr
+Frosting
+.
+
+2.
+Frostings
+für
+Cake
+Pops
+
+Ihr
+habt
+einen
+Kuchen
+oder
+Kekse
+für
+eure
+Cake
+Pops
+,
+nun
+benötigt
+ihr
+noch
+ein
+Frosting
+,
+das
+damit
+vermengt
+wird
+,
+damit
+der
+Cake
+Pops
+Teig
+die
+richtige
+Konsistenz
+erhält
+und
+die
+Kugeln
+daraus
+geformt
+werden
+können
+.
+Hier
+kann
+man
+ziemlich
+viele
+verschiedene
+Dinge
+verwenden
+,
+hauptsache
+sie
+kleben
+die
+Kuchenkrümel
+schön
+zusammen
+.
+
+Als
+Frosting
+für
+Cake
+Pops
+eignen
+sich
+:
+
+Buttercreme
+
+Ganache
+
+Mascarpone-Frosting
+
+Nutella
+
+Marshmallow-Fluff
+
+Marmelade
+
+Sirup
+
+etc.
diff --git a/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_010.txt b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_010.txt
new file mode 100644
index 0000000..5548179
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_010.txt
@@ -0,0 +1,651 @@
+<article id="web_test_010" url="http://www.unesco.de/infothek/dokumente/un-dokumente/erklaerung-menschenrechte.html" />
+Allgemeine
+Erklärung
+der
+Menschenrechte
+
+Resolution
+217
+A
+(
+III
+)
+der
+Generalversammlung
+vom
+10.
+Dezember
+1948
+Präambel
+
+Da
+die
+Anerkennung
+der
+angeborenen
+Würde
+und
+der
+gleichen
+und
+unveräußerlichen
+Rechte
+aller
+Mitglieder
+der
+Gemeinschaft
+der
+Menschen
+die
+Grundlage
+von
+Freiheit
+,
+Gerechtigkeit
+und
+Frieden
+in
+der
+Welt
+bildet
+,
+
+da
+die
+Nichtanerkennung
+und
+Verachtung
+der
+Menschenrechte
+zu
+Akten
+der
+Barbarei
+geführt
+haben
+,
+die
+das
+Gewissen
+der
+Menschheit
+mit
+Empörung
+erfüllen
+,
+und
+da
+verkündet
+worden
+ist
+,
+dass
+einer
+Welt
+,
+in
+der
+die
+Menschen
+Rede-
+und
+Glaubensfreiheit
+und
+Freiheit
+von
+Furcht
+und
+Not
+genießen
+,
+das
+höchste
+Streben
+des
+Menschen
+gilt
+,
+
+da
+es
+notwendig
+ist
+,
+die
+Menschenrechte
+durch
+die
+Herrschaft
+des
+Rechtes
+zu
+schützen
+,
+damit
+der
+Mensch
+nicht
+gezwungen
+wird
+,
+als
+letztes
+Mittel
+zum
+Aufstand
+gegen
+Tyrannei
+und
+Unterdrückung
+zu
+greifen
+,
+
+da
+es
+notwendig
+ist
+,
+die
+Entwicklung
+freundschaftlicher
+Beziehungen
+zwischen
+den
+Nationen
+zu
+fördern
+,
+da
+die
+Völker
+der
+Vereinten
+Nationen
+in
+der
+Charta
+ihren
+Glauben
+an
+die
+grundlegenden
+Menschenrechte
+,
+an
+die
+Würde
+und
+den
+Wert
+der
+menschlichen
+Person
+und
+an
+die
+Gleichberechtigung
+von
+Mann
+und
+Frau
+erneut
+bekräftigt
+und
+beschlossen
+haben
+,
+den
+sozialen
+Fortschritt
+und
+bessere
+Lebensbedingungen
+in
+größerer
+Freiheit
+zu
+fördern
+,
+
+da
+die
+Mitgliedstaaten
+sich
+verpflichtet
+haben
+,
+in
+Zusammenarbeit
+mit
+den
+Vereinten
+Nationen
+auf
+die
+allgemeine
+Achtung
+und
+Einhaltung
+der
+Menschenrechte
+und
+Grundfreiheiten
+hinzuwirken
+,
+
+da
+ein
+gemeinsames
+Verständnis
+dieser
+Rechte
+und
+Freiheiten
+von
+größter
+Wichtigkeit
+für
+die
+volle
+Erfüllung
+dieser
+Verpflichtung
+ist
+,
+
+verkündet
+die
+Generalversammlung
+
+diese
+Allgemeine
+Erklärung
+der
+Menschenrechte
+als
+das
+von
+allen
+Völkern
+und
+Nationen
+zu
+erreichende
+gemeinsame
+Ideal
+,
+damit
+jeder
+einzelne
+und
+alle
+Organe
+der
+Gesellschaft
+sich
+diese
+Erklärung
+stets
+gegenwärtig
+halten
+und
+sich
+bemühen
+,
+durch
+Unterricht
+und
+Erziehung
+die
+Achtung
+vor
+diesen
+Rechten
+und
+Freiheiten
+zu
+fördern
+und
+durch
+fortschreitende
+nationale
+und
+internationale
+Maßnahmen
+ihre
+allgemeine
+und
+tatsächliche
+Anerkennung
+und
+Einhaltung
+durch
+die
+Bevölkerung
+der
+Mitgliedstaaten
+selbst
+wie
+auch
+durch
+die
+Bevölkerung
+der
+ihrer
+Hoheitsgewalt
+unterstehenden
+Gebiete
+zu
+gewährleisten
+.
+
+Artikel
+1
+
+Alle
+Menschen
+sind
+frei
+und
+gleich
+an
+Würde
+und
+Rechten
+geboren
+.
+Sie
+sind
+mit
+Vernunft
+und
+Gewissen
+begabt
+und
+sollen
+einander
+im
+Geiste
+der
+Brüderlichkeit
+begegnen
+.
+
+Artikel
+2
+
+Jeder
+hat
+Anspruch
+auf
+alle
+in
+dieser
+Erklärung
+verkündeten
+Rechte
+und
+Freiheiten
+,
+ohne
+irgendeinen
+Unterschied
+,
+etwa
+nach
+Rasse
+*
+,
+Hautfarbe
+,
+Geschlecht
+,
+Sprache
+,
+Religion
+,
+politischer
+oder
+sonstiger
+Anschauung
+,
+nationaler
+oder
+sozialer
+Herkunft
+,
+Vermögen
+,
+Geburt
+oder
+sonstigem
+Stand
+.
+Des
+weiteren
+darf
+kein
+Unterschied
+gemacht
+werden
+auf
+Grund
+der
+politischen
+,
+rechtlichen
+oder
+internationalen
+Stellung
+des
+Landes
+oder
+Gebietes
+,
+dem
+eine
+Person
+angehört
+,
+gleichgültig
+ob
+dieses
+unabhängig
+ist
+,
+unter
+Treuhandschaft
+steht
+,
+keine
+Selbstregierung
+besitzt
+oder
+sonst
+in
+seiner
+Souveränität
+eingeschränkt
+ist
+.
+
+Artikel
+3
+
+Jeder
+hat
+das
+Recht
+auf
+Leben
+,
+Freiheit
+und
+Sicherheit
+der
+Person
+.
+
+Artikel
+4
+
+Niemand
+darf
+in
+Sklaverei
+oder
+Leibeigenschaft
+gehalten
+werden
+;
+Sklaverei
+und
+Sklavenhandel
+in
+allen
+ihren
+Formen
+sind
+verboten
+.
+
+Artikel
+5
+
+Niemand
+darf
+der
+Folter
+oder
+grausamer
+,
+unmenschlicher
+oder
+erniedrigender
+Behandlung
+oder
+Strafe
+unterworfen
+werden
+.
+
+Artikel
+6
+
+Jeder
+hat
+das
+Recht
+,
+überall
+als
+rechtsfähig
+anerkannt
+zu
+werden
+.
+
+Artikel
+7
+
+Alle
+Menschen
+sind
+vor
+dem
+Gesetz
+gleich
+und
+haben
+ohne
+Unterschied
+Anspruch
+auf
+gleichen
+Schutz
+durch
+das
+Gesetz
+.
+Alle
+haben
+Anspruch
+auf
+gleichen
+Schutz
+gegen
+jede
+Diskriminierung
+,
+die
+gegen
+diese
+Erklärung
+verstößt
+,
+und
+gegen
+jede
+Aufhetzung
+zu
+einer
+derartigen
+Diskriminierung
+.
+
+Artikel
+8
+
+Jeder
+hat
+Anspruch
+auf
+einen
+wirksamen
+Rechtsbehelf
+bei
+den
+zuständigen
+innerstaatlichen
+Gerichten
+gegen
+Handlungen
+,
+durch
+die
+seine
+ihm
+nach
+der
+Verfassung
+oder
+nach
+dem
+Gesetz
+zustehenden
+Grundrechte
+verletzt
+werden
+.
+
+Artikel
+9
+
+Niemand
+darf
+willkürlich
+festgenommen
+,
+in
+Haft
+gehalten
+oder
+des
+Landes
+verwiesen
+werden
+.
+
+Artikel
+10
diff --git a/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_011.txt b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_011.txt
new file mode 100644
index 0000000..bf2cc71
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_011.txt
@@ -0,0 +1,633 @@
+<article id="web_test_011" url="https://de.wikipedia.org/wiki/Botanischer_Garten_Darmstadt" />
+Botanischer
+Garten
+Darmstadt
+
+aus
+Wikipedia
+,
+der
+freien
+Enzyklopädie
+
+Wechseln
+zu
+:
+Navigation
+,
+Suche
+
+Gewächshäuser
+im
+Botanischen
+Garten
+
+Schmiedeeisernes
+Eingangstor
+zum
+Garten
+
+Wasser-
+und
+Feuchtbereich
+des
+Botanischen
+Gartens
+
+Gartenchef
+Stefan
+Schneckenburger
+mit
+blühender
+Amorphophallus
+
+Der
+Botanische
+Garten
+Darmstadt
+ist
+ein
+Botanischer
+Garten
+in
+der
+südhessischen
+Universitätsstadt
+Darmstadt
+.
+
+Inhaltsverzeichnis
+
+1
+Geschichte
+
+2
+Veranstaltungen
+
+3
+Geografische
+Lage
+
+4
+Einzelnachweise
+
+5
+Weblinks
+
+Geschichte
+[
+Bearbeiten
+]
+
+Die
+Geschichte
+des
+Botanischen
+Gartens
+Darmstadt
+beginnt
+im
+Jahr
+1814
+.
+Zu
+dieser
+Zeit
+wurde
+der
+Schlossgraben
+des
+Darmstädter
+Schlosses
+mit
+dem
+Wasser
+des
+Darmbachs
+und
+dieser
+aus
+den
+Abwässern
+der
+benachbarten
+Altstadt
+gespeist
+,
+was
+in
+den
+Sommermonaten
+einen
+unerträglichen
+Gestank
+verbreitete
+.
+Johannes
+Hess
+(
+1786
+–
+1837
+)
+,
+ein
+auch
+an
+der
+Botanik
+interessierter
+großherzoglicher
+Baurat
+,
+schlug
+deshalb
+eine
+Trockenlegung
+und
+die
+Gründung
+eines
+botanischen
+Gartens
+auf
+dem
+neu
+gewonnenen
+Gelände
+vor
+.
+Am
+17.
+Juni
+1814
+stimmte
+der
+Großherzog
+den
+Plänen
+von
+Hess
+zu
+,
+dieses
+Datum
+kann
+als
+Gründungsdatum
+angesehen
+werden
+.
+
+In
+der
+wissenschaftlich
+geplanten
+Anlage
+auf
+einer
+Fläche
+von
+ca.
+1
+ha
+wurden
+in
+erster
+Linie
+einheimische
+Pflanzen
+–
+vorrangig
+krautige
+Vertreter
+–
+kultiviert
+.
+Mit
+der
+gärtnerischen
+Pflege
+war
+zunächst
+der
+Hofgärtner
+Johann
+August
+Schnittspahn
+(
+1763
+–
+1842
+)
+betraut
+.
+Schon
+bald
+erwies
+sich
+die
+Anlage
+als
+völlig
+unzureichend
+,
+und
+so
+verlegte
+man
+sie
+1829
+/
+30
+in
+das
+Herrschaftliche
+Bosquett
+,
+den
+heutigen
+Herrngarten
+,
+wo
+der
+botanische
+Garten
+bis
+1838
+verblieb
+.
+Unter
+der
+gärtnerischen
+Leitung
+von
+Johann
+August
+Schnittspahn
+und
+seinem
+Sohn
+Gottfried
+(
+1790
+–
+1833
+)
+entstand
+in
+Zusammenarbeit
+mit
+Hess
+eine
+neue
+Anlage
+,
+die
+1831
+offiziell
+eröffnet
+wurde
+.
+
+Im
+Jahre
+1830
+wurde
+Georg
+Friedrich
+Schnittspahn
+(
+1810
+–
+1865
+;
+nach
+ihm
+auch
+der
+Name
+der
+Straße
+am
+heutigen
+botanischen
+Garten
+)
+,
+ein
+jüngerer
+Bruder
+Gottfrieds
+,
+zum
+Garteninspektor
+ernannt
+.
+Er
+war
+der
+erste
+Direktor
+des
+Gartens
+(
+ab
+1855
+)
+und
+gleichzeitig
+Lehrer
+an
+der
+höheren
+Gewerbeschule
+,
+dem
+Vorläufer
+der
+heutigen
+Technischen
+Universität
+Darmstadt
+.
+
+Nach
+einer
+erneuten
+Verlegung
+fand
+sich
+der
+Garten
+bis
+1848
+am
+kleinen
+Woog
+in
+der
+Gegend
+des
+heutigen
+Mercksplatzes
+.
+Wieder
+folgte
+dann
+ein
+Umzug
+:
+In
+den
+Jahren
+1849
+bis
+1863
+lag
+er
+in
+der
+Gegend
+des
+Wilhelminenplatzes
+.
+In
+dieser
+Anlage
+gab
+es
+zwei
+Gewächshäuser
+,
+die
+es
+erstmals
+erlaubten
+,
+Warmhauspflanzen
+zu
+kultivieren
+.
+Dieser
+Garten
+musste
+1864
+/
+65
+dem
+Bau
+des
+Neuen
+Palais
+weichen
+.
+Seine
+neue
+Bleibe
+war
+ein
+Pachtgelände
+von
+einem
+Hektar
+im
+Meiereipark
+an
+der
+Frankfurter
+Straße
+,
+das
+sich
+schnell
+als
+zu
+klein
+erwies
+.
+
+Auf
+Staatskosten
+konnte
+das
+Grundstück
+der
+Achensmühle
+[
+benannt
+nach
+dem
+Kanzleirat
+Georg
+Konrad
+Achen
+(
+ca.
+1795
+–
+1868
+)
+aus
+Darmstadt
+]
+östlich
+des
+Woogs
+an
+der
+Roßdörfer
+Straße
+erworben
+werden
+.
+Für
+das
+ca.
+5
+ha
+große
+Gelände
+und
+die
+Verlegung
+1874
+wurden
+35.700
+Gulden
+aufgewendet
+.
+Erster
+Direktor
+des
+neuen
+Gartens
+und
+Professor
+an
+der
+Technischen
+Hochschule
+auf
+dem
+Gebiet
+der
+Mikroskopie
+,
+der
+Zellen-
+und
+Gewebelehre
+war
+Leopold
+Dippel
+,
+dessen
+Interesse
+auch
+der
+Dendrologie
+galt
+.
+Im
+Laufe
+der
+Jahre
+trug
+er
+,
+zusammen
+mit
+dem
+gärtnerischen
+Leiter
+Peter
+Schmidt
+(
+seit
+1861
+Hofgartenaufseher
+,
+gest.
+1888
+)
+eine
+heute
+noch
+bedeutsame
+Sammlung
+ausländischer
+Gehölze
+zusammen
+.
+Am
+1.
+April
+1897
+wurde
+der
+Garten
+der
+TH
+Darmstadt
+angegliedert
+.
+Auf
+Dippel
+folgte
+1896
+Heinrich
+Schenck
+als
+Direktor
+des
+Botanischen
+Gartens
+.
+Er
+war
+Direktor
+bis
+zu
+seinem
+frühen
+Tod
+1927
+.
+Bereits
+1902
+wurde
+ein
+Verwaltungsgebäude
+von
+Karl
+Hofmann
+(
+Architekt
+)
+erbaut
+,
+das
+im
+Heimatstil
+gehalten
+ist
+.
+In
+seiner
+Rektoratszeit
+von
+1909
+bis
+1911
+entstanden
+neue
+Gewächshäuser
+,
+die
+1916
+noch
+einmal
+erneuert
+wurden
+.
diff --git a/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_012.txt b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_012.txt
new file mode 100644
index 0000000..17cf936
--- /dev/null
+++ b/src/test/resources/empirist_gold_standard/test_web/tokenized/web_test_012.txt
@@ -0,0 +1,703 @@
+<article id="web_test_012" url="http://www.stefanux.de/wiki/doku.php/security/verschl%C3%BCsselung" />
+Es
+gibt
+sie
+auch
+schon
+seit
+der
+Antike
+,
+interessant
+ist
+in
+diesem
+Zusammenhang
+ein
+Buch
+von
+Simon
+Singh
+:
+Geheime
+Botschaften
+.
+
+Der
+Vorteil
+der
+symmetrischen
+Verschlüsselung
+ist
+dafür
+aber
+eine
+ziemlich
+gute
+Geschwindigkeit
+,
+was
+man
+von
+asymmetrischen
+Verfahren
+nicht
+behaupten
+kann
+.
+Man
+sollte
+Schlüssellängen
+von
+:!:
+mindestens
+128
+Bit
+benutzen
+gängige
+Verfahren
+(
+Verschlüsselungsalgorithmen
+)
+sind
+z.
+B.
+AES
+,
+Blowfisch
+,
+TripleDES
+
+Asymmetrische
+Verschlüsselung
+
+Kurzfassung
+
+Verwendung
+eines
+Schlüsselpaares
+,
+das
+aus
+dem
+öffentlichen-
+und
+einem
+privaten
+(
+geheimen
+)
+Schlüssel
+besteht
+.
+
+Bei
+der
+asymmetrischen
+Verschlüsselung
+erzeugt
+man
+sich
+durch
+geeignete
+Programme
+(
+wie
+GnuPGP
+)
+ein
+Schlüsselpaar
+,
+das
+aus
+dem
+öffentlichen-
+und
+einem
+privaten
+Schlüssel
+besteht
+.
+
+Der
+private
+Schlüssel
+(
+private
+key
+)
+muss
+geheim
+gehalten
+werden
+.
+Wenn
+er
+verloren
+geht
+kann
+man
+weder
+eine
+Nachricht
+ver-
+und
+entschlüsseln
+bzw.
+jemand
+kann
+das
+nun
+,
+der
+das
+nicht
+sollte
+.
+Im
+Verlustfall
+sollte
+man
+seinen
+Schlüssel
+durch
+ein
+vorher
+erzeugten
+„
+revoke
+key
+“
+ungültig
+machen
+.
+Der
+öffentliche
+Schlüssel
+(
+public
+key
+)
+ist
+für
+den
+Rest
+der
+Welt
+.
+Man
+kann
+den
+öffentlichen
+Schlüssel
+jedem
+geben
+,
+der
+einem
+vielleicht
+einmal
+eine
+Nachricht
+zukommen
+lassen
+will
+,
+z.
+B.
+auf
+der
+eigenen
+Homepage
+.
+Man
+kann
+(
+und
+sollte
+)
+ihn
+auch
+auf
+einem
+Keyserver
+veröffentlichen
+.
+
+Verschlüsselt
+man
+seine
+Nachricht
+nun
+mit
+dem
+öffentlichen
+Schlüssel
+des
+Adressaten
+,
+kann
+nur
+dieser
+mit
+seinem
+privaten
+Schlüssel
+die
+Nachricht
+entziffern
+.
+
+Der
+Vorteil
+dieser
+Methode
+liegt
+darin
+,
+daß
+der
+Schlüssel
+sehr
+leicht
+zu
+verbreiten
+ist
+.
+Es
+ist
+nicht
+kritisch
+,
+wenn
+er
+in
+falsche
+Hände
+fällt
+.
+Die
+steigende
+Anzahl
+der
+Kommunikationspartner
+ist
+nun
+kein
+großes
+Problem
+mehr
+.
+Bei
+symmetrischer
+(
+herkömmlicher
+)
+Verschlüsselung
+muß
+zumindest
+ein
+Paßwort
+für
+JEDEN
+Kommunikationspartner
+über
+eine
+sichere
+Verbindung
+überbracht
+werden
+.
+Allerdings
+muss
+man
+drauf
+achten
+,
+keine
+falschen
+öffentlichen
+Schlüssel
+untergeschoben
+zu
+bekommen
+.
+
+gängige
+Verfahren
+(
+Verschlüsselungsalgorithmen
+)
+sind
+z.
+B.
+RSA
+(
+in
+PGP
+oder
+gnupg
+)
+bzw.
+neue
+elliptische
+Kurven-Verfahren
+
+:!:
+Man
+sollte
+eine
+Schlüssellänge
+von
+mindestens
+1024
+Bit
+wählen
+,
+besser
+2048
+Bit
+.
+Wesentlich
+mehr
+kann
+auf
+alten
+Rechner
+aufgrund
+des
+expontiell
+steigenden
+Rechenaufwandes
+schon
+zu
+ordentlichen
+Wartezeiten
+führen
+.
+Außerdem
+ist
+es
+sinnvoll
+den
+privaten
+Schlüssel
+mit
+einer
+möglichst
+langen
+„
+Passphrase
+“
+zu
+schützen
+,
+falls
+doch
+einmal
+die
+Datei
+mit
+dem
+privaten
+Schlüssel
+gestohlen
+wird
+.
+
+Das
+kann
+allerdings
+bei
+Webservern
+mit
+SSL-Verschlüsselung
+dazu
+führen
+,
+das
+bei
+jedem
+Neustart
+des
+Webservers
+die
+Passphrase
+eingegeben
+werden
+muss
+.
+
+PKI-Infrastruktur
+
+Eine
+Public-Key-Infrastruktur
+(
+PKI
+,
+engl.
+public
+key
+infrastructure
+)
+bezeichnet
+in
+der
+Kryptologie
+und
+Kryptografie
+ein
+System
+,
+welches
+es
+ermöglicht
+
+digitale
+Zertifikate
+auszustellen
+zu
+verteilen
+und
+zu
+prüfen
+.
+
+Die
+innerhalb
+einer
+PKI
+ausgestellten
+Zertifikate
+werden
+zur
+Absicherung
+computergestützter
+Kommunikation
+verwendet
+.
+
+Building
+an
+Open
+Source
+PKI
+using
+OpenXPKI
+Red
+Hat
+Certificate
+System
+ist
+Open
+Source
+Red
+Hat
+Certificate
+System
+
+Hybride
+Verschlüsselung
+
+Kurzfassung
+
+Die
+Verwendung
+von
+symmetrischer
+und
+asymmetrischer
+Verschlüsselung
+.
+Über
+die
+asymmetrische
+Verschlüsselung
+wird
+der
+symmetrische
+(
+Sitzungs-
+)
+Schlüssel
+übermittelt
+.
+
+Bei
+der
+Hybriden
+Verschlüsselung
+kombiniert
+man
+asymmetrische
+Verschlüsselung
+und
+symmetrische
+Verschlüsselung
+.
+Hybride
+Verschlüsselungsverfahren
+werden
+z.
+B.
+bei
+der
+Datenübertragung
+zwischen
+zwei
+Gegenstellen
+in
+einem
+Netzwerk
+verwendet
+.
+
+Der
+Verbindungsaufbau
+geschieht
+dort
+in
+der
+Regel
+mit
+Hilfe
+von
+Schlüsselpaaren
+(
+asymmetrisch
+)
+,
+die
+eigentliche
+Datenübertragung
+erfolgt
+zugunsten
+niedrigerer
+Anforderung
+an
+die
+Rechenleistung
+auf
+beiden
+Seiten
+mit
+demselben
+Schlüssel
+(
+symmetrisch
+)
+.
+Damit
+werden
+die
+Vorteile
+beider
+Verfahren
+genutzt
+-
+die
+hohe
+Geschwindigkeit
+für
+die
+symmetrische
+Verschlüsselung
+der
+Nutzdaten
+und
+die
+sicherere
+asymmetrische
+Verschlüsselung
+für
+den
+kleinen
+Session
+Key
+.
+
+Das
+Verfahren
+kommt
+unter
+anderem
+bei
+den
+Netzwerkprotokollen
+IPsec
+und
+SSL
+zum
+Einsatz
+.
+
+Schema
+Hybride
+Verschlüsselung
+;
+Lizenz
+:
+GNU-FDL
+1.2
+
+1
+)
+Intel
+AES-NI-Instruktionen
+
+security/verschlüsselung.txt
+·
+Zuletzt
+geändert
+:
+2015
+/11
+/22
+15:21
+von
+st
+
+Backlinks
+:
+[[
+security
+:
+verschlüsselung
+]]
+
+Navigation
+Passwort-
+generator
+
+Hilfe
+vom
+Autor
+
+siehe
+stefanux.net
+
+Linux
+
+Administration
+
+Business
+&
+OSS
+
+Distributionen
+
+SSH
+
+Dateisystemaufbau
+
+Sicherheit
+
+Festplattenverschlüsselung
+
+...
+unter
+Linux
+
+...
+unter
+Windows