Fix handling of utf-characters in sigles
... by avoiding multiple utf-8-encodes
Change-Id: Ifd600c4dcfe2e3374b8416a3e033d6bd5a79931e
diff --git a/t/data/wdd_sample.i5.xml b/t/data/wdd_sample.i5.xml
new file mode 100644
index 0000000..669f1e3
--- /dev/null
+++ b/t/data/wdd_sample.i5.xml
@@ -0,0 +1,507 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<!DOCTYPE idsCorpus
+ PUBLIC "-//IDS//DTD IDS-I5 1.0//EN" "http://corpora.ids-mannheim.de/I5/DTD/i5.dtd">
+<idsCorpus xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" version="1.0" TEIform="teiCorpus.2">
+ <idsHeader pattern="allesaußerZtg/Zschr" type="corpus" version="1.0" status="new" TEIform="teiHeader">
+ <fileDesc>
+ <titleStmt>
+ <korpusSigle>WDD19</korpusSigle>
+ <c.title>Wikipedia.de 2019 Diskussionen zu Artikeln</c.title>
+ </titleStmt>
+ <editionStmt version="1.0"/>
+ <publicationStmt>
+ <distributor>Leibniz-Institut für Deutsche Sprache</distributor>
+ <pubAddress>Postfach 10 16 21, D-68016 Mannheim</pubAddress>
+ <telephone>+49 (0)621 1581 0</telephone>
+ <eAddress type="www">http://www.ids-mannheim.de</eAddress>
+ <eAddress type="www">http://www.ids-mannheim.de/kl/projekte/korpora/</eAddress>
+ <eAddress type="email">dereko@ids-mannheim.de</eAddress>
+ <availability status="free" Default="n" region="world">This document, the IDS-Wikipedia.de-Corpus, is part of the Archive
+ of General Reference Corpora at IDS. It is published under the Creative Commons
+ Attribution-ShareAlike License. See http://creativecommons.org/licenses/by-sa/3.0/legalcode
+ for details. See http://www.ids-mannheim.de/kl/projekte/korpora/releases.html on how to refer
+ to this document.</availability>
+ <pubDate type="year">2020</pubDate>
+ </publicationStmt>
+ <sourceDesc Default="n">
+ <biblStruct Default="n" status="draft">
+ <monogr>
+ <h.title type="main">Wikipedia</h.title>
+ <h.author/>
+ <editor>Wikimedia Foundation</editor>
+ <edition>
+ <further>Dump file "dewiki-20190801-pages-meta-current.xml" retrieved from
+ http://dumps.wikimedia.org</further>
+ <kind/>
+ <appearance/>
+ </edition>
+ <imprint>
+ <publisher>Wikipedia</publisher>
+ <pubPlace>
+ <ref target="http://de.wikipedia.org"/>
+ </pubPlace>
+ <pubDate type="year">2019</pubDate>
+ <pubDate type="month">08</pubDate>
+ <pubDate type="day">01</pubDate>
+ </imprint>
+ </monogr>
+ </biblStruct>
+ </sourceDesc>
+ </fileDesc>
+ <encodingDesc>
+ <projectDesc Default="n">French-German Project Comparable Wikipedia Corpora 2019; Leibniz-Institute for the
+ German Language and Université de Toulouse Jean Jaurès</projectDesc>
+ <editorialDecl Default="n">
+ <conformance level="0">This document conforms to I5 (see http://jtei.revues.org/508)</conformance>
+ <transduction n="1" Default="n">Extraction from Wikidump and building of CMC-core version: Mai Ho-Dac, U
+ Toulouse, July 2020</transduction>
+ <transduction n="2" Default="n">Conversion from CMC-core to I5: IDS, August 2020</transduction>
+ </editorialDecl>
+ <classDecl>
+ <taxonomy id="topic">
+ <h.bibl>Thementaxonomie (siehe http://www.ids-mannheim.de/kl/projekte/methoden/te.html)</h.bibl>
+ <category id="topic.fiktion">
+ <catDesc>Fiktion</catDesc>
+ <category id="topic.fiktion.vermischtes">
+ <catDesc>Fiktion:Vermischtes</catDesc>
+ </category>
+ </category>
+ <category id="topic.freizeit-unterhaltung">
+ <catDesc>Freizeit_Unterhaltung</catDesc>
+ <category id="topic.freizeit-unterhaltung.reisen">
+ <catDesc>Freizeit_Unterhaltung:Reisen</catDesc>
+ </category>
+ <category id="topic.freizeit-unterhaltung.rundfunk">
+ <catDesc>Freizeit_Unterhaltung:Rundfunk</catDesc>
+ </category>
+ <category id="topic.freizeit-unterhaltung.vereine-veranstaltungen">
+ <catDesc>Freizeit_Unterhaltung:Vereine_Veranstaltungen</catDesc>
+ </category>
+ </category>
+ <category id="topic.gesundheit-ernaehrung">
+ <catDesc>Gesundheit_Ernaehrung</catDesc>
+ <category id="topic.gesundheit-ernaehrung.ernaehrung">
+ <catDesc>Gesundheit_Ernaehrung:Ernaehrung</catDesc>
+ </category>
+ <category id="topic.gesundheit-ernaehrung.gesundheit">
+ <catDesc>Gesundheit_Ernaehrung:Gesundheit</catDesc>
+ </category>
+ </category>
+ <category id="topic.kultur">
+ <catDesc>Kultur</catDesc>
+ <category id="topic.kultur.bildende-kunst">
+ <catDesc>Kultur:Bildende Kunst</catDesc>
+ </category>
+ <category id="topic.kultur.darstellende-kunst">
+ <catDesc>Kultur:Darstellende Kunst</catDesc>
+ </category>
+ <category id="topic.kultur.film">
+ <catDesc>Kultur:Film</catDesc>
+ </category>
+ <category id="topic.kultur.literatur">
+ <catDesc>Kultur:Literatur</catDesc>
+ </category>
+ <category id="topic.kultur.mode">
+ <catDesc>Kultur:Mode</catDesc>
+ </category>
+ <category id="topic.kultur.musik">
+ <catDesc>Kultur:Musik</catDesc>
+ </category>
+ </category>
+ <category id="topic.natur-umwelt">
+ <catDesc>Natur_Umwelt</catDesc>
+ <category id="topic.natur-umwelt.garten">
+ <catDesc>Natur_Umwelt:Garten</catDesc>
+ </category>
+ <category id="topic.natur-umwelt.tiere">
+ <catDesc>Natur_Umwelt:Tiere</catDesc>
+ </category>
+ <category id="topic.natur-umwelt.wetter-klima">
+ <catDesc>Natur_Umwelt:Wetter_Klima</catDesc>
+ </category>
+ </category>
+ <category id="topic.politik">
+ <catDesc>Politik</catDesc>
+ <category id="topic.politik.ausland">
+ <catDesc>Politik:Ausland</catDesc>
+ </category>
+ <category id="topic.politik.inland">
+ <catDesc>Politik:Inland</catDesc>
+ </category>
+ <category id="topic.politik.kommunalpolitik">
+ <catDesc>Politik:Kommunalpolitik</catDesc>
+ </category>
+ </category>
+ <category id="topic.rest">
+ <catDesc>Rest</catDesc>
+ <category id="topic.rest.boersenkurse">
+ <catDesc>Rest:boersenkurse</catDesc>
+ </category>
+ <category id="topic.rest.geburt-tod-heirat">
+ <catDesc>Rest:geburt_tod_heirat</catDesc>
+ </category>
+ <category id="topic.rest.impressum">
+ <catDesc>Rest:impressum</catDesc>
+ </category>
+ <category id="topic.rest.inhaltsverzeichnisse">
+ <catDesc>Rest:inhaltsverzeichnisse</catDesc>
+ </category>
+ <category id="topic.rest.ligatabellen">
+ <catDesc>Rest:ligatabellen</catDesc>
+ </category>
+ <category id="topic.rest.tabellen">
+ <catDesc>Rest:tabellen</catDesc>
+ </category>
+ <category id="topic.rest.veranstaltungshinweise">
+ <catDesc>Rest:veranstaltungshinweise</catDesc>
+ </category>
+ </category>
+ <category id="topic.sport">
+ <catDesc>Sport</catDesc>
+ <category id="topic.sport.ballsport">
+ <catDesc>Sport:Ballsport</catDesc>
+ </category>
+ <category id="topic.sport.fussball">
+ <catDesc>Sport:Fussball</catDesc>
+ </category>
+ <category id="topic.sport.motorsport">
+ <catDesc>Sport:Motorsport</catDesc>
+ </category>
+ <category id="topic.sport.radsport">
+ <catDesc>Sport:Radsport</catDesc>
+ </category>
+ <category id="topic.sport.tennis">
+ <catDesc>Sport:Tennis</catDesc>
+ </category>
+ <category id="topic.sport.vermischtes">
+ <catDesc>Sport:Vermischtes</catDesc>
+ </category>
+ <category id="topic.sport.wintersport">
+ <catDesc>Sport:Wintersport</catDesc>
+ </category>
+ </category>
+ <category id="topic.staat-gesellschaft">
+ <catDesc>Staat_Gesellschaft</catDesc>
+ <category id="topic.staat-gesellschaft.arbeit-und-beruf">
+ <catDesc>Staat_Gesellschaft:Arbeit_und_Beruf</catDesc>
+ </category>
+ <category id="topic.staat-gesellschaft.bildung">
+ <catDesc>Staat_Gesellschaft:Bildung</catDesc>
+ </category>
+ <category id="topic.staat-gesellschaft.biographien-interviews">
+ <catDesc>Staat_Gesellschaft:Biographien_Interviews</catDesc>
+ </category>
+ <category id="topic.staat-gesellschaft.drittes-reich-rechtsextremismus">
+ <catDesc>Staat_Gesellschaft:Drittes_Reich_Rechtsextremismus</catDesc>
+ </category>
+ <category id="topic.staat-gesellschaft.familie-geschlecht">
+ <catDesc>Staat_Gesellschaft:Familie_Geschlecht</catDesc>
+ </category>
+ <category id="topic.staat-gesellschaft.kirche">
+ <catDesc>Staat_Gesellschaft:Kirche</catDesc>
+ </category>
+ <category id="topic.staat-gesellschaft.recht">
+ <catDesc>Staat_Gesellschaft:Recht</catDesc>
+ </category>
+ <category id="topic.staat-gesellschaft.tod">
+ <catDesc>Staat_Gesellschaft:Tod</catDesc>
+ </category>
+ <category id="topic.staat-gesellschaft.verbrechen">
+ <catDesc>Staat_Gesellschaft:Verbrechen</catDesc>
+ </category>
+ </category>
+ <category id="topic.technik-industrie">
+ <catDesc>Technik_Industrie</catDesc>
+ <category id="topic.technik-industrie.edv-elektronik">
+ <catDesc>Technik_Industrie:EDV_Elektronik</catDesc>
+ </category>
+ <category id="topic.technik-industrie.kfz">
+ <catDesc>Technik_Industrie:Kfz</catDesc>
+ </category>
+ <category id="topic.technik-industrie.transport-verkehr">
+ <catDesc>Technik_Industrie:Transport_Verkehr</catDesc>
+ </category>
+ <category id="topic.technik-industrie.umweltschutz">
+ <catDesc>Technik_Industrie:Umweltschutz</catDesc>
+ </category>
+ <category id="topic.technik-industrie.unfaelle">
+ <catDesc>Technik_Industrie:Unfaelle</catDesc>
+ </category>
+ </category>
+ <category id="topic.wirtschaft-finanzen">
+ <catDesc>Wirtschaft_Finanzen</catDesc>
+ <category id="topic.wirtschaft-finanzen.banken">
+ <catDesc>Wirtschaft_Finanzen:Banken</catDesc>
+ </category>
+ <category id="topic.wirtschaft-finanzen.bilanzen">
+ <catDesc>Wirtschaft_Finanzen:Bilanzen</catDesc>
+ </category>
+ <category id="topic.wirtschaft-finanzen.oeffentliche-finanzen">
+ <catDesc>Wirtschaft_Finanzen:Oeffentliche_Finanzen</catDesc>
+ </category>
+ <category id="topic.wirtschaft-finanzen.sozialprodukt">
+ <catDesc>Wirtschaft_Finanzen:Sozialprodukt</catDesc>
+ </category>
+ <category id="topic.wirtschaft-finanzen.waehrung">
+ <catDesc>Wirtschaft_Finanzen:Waehrung</catDesc>
+ </category>
+ </category>
+ <category id="topic.wissenschaft">
+ <catDesc>Wissenschaft</catDesc>
+ <category id="topic.wissenschaft.populaerwissenschaft">
+ <catDesc>Wissenschaft:Populaerwissenschaft</catDesc>
+ </category>
+ </category>
+ <category id="topic.unklassifizierbar">
+ <catDesc>Text ist thematisch nicht klassifizierbar.</catDesc>
+ </category>
+ </taxonomy>
+ </classDecl>
+ </encodingDesc>
+ <profileDesc>
+ <langUsage Default="n">
+ <language id="de">Deutsch</language>
+ </langUsage>
+ <textDesc Default="n">
+ <textType>Diskussionen zu Enzyklopädie-Artikeln</textType>
+ <textTypeRef/>
+ </textDesc>
+ </profileDesc>
+ <revisionDesc status="draft">
+ <listChange ordered="true">
+ <change when="2020-09" who="Harald Lüngen" status="draft">generated from cmc-core</change>
+ </listChange>
+ </revisionDesc>
+ </idsHeader>
+ <idsDoc id="A00" type="text" version="1.0" TEIform="TEI.2">
+ <idsHeader pattern="text" type="document" version="1.0" status="new" TEIform="teiHeader">
+ <fileDesc>
+ <titleStmt>
+ <dokumentSigle>WDD19/A00</dokumentSigle>
+ <d.title>Wikipedia, Diskussionen zu Artikeln mit Anfangsbuchstabe A, Teil 00</d.title>
+ </titleStmt>
+ <publicationStmt>
+ <distributor/>
+ <pubAddress/>
+ <availability region="world" status="free" Default="n">CC-BY-SA</availability>
+ <pubDate/>
+ </publicationStmt>
+ <sourceDesc Default="n">
+ <biblStruct Default="n" status="draft">
+ <monogr>
+ <h.title type="main"/>
+ <imprint/>
+ </monogr>
+ </biblStruct>
+ </sourceDesc>
+ </fileDesc>
+ </idsHeader>
+ <idsText id="WDD19.ß0000.10317" n="de.Diskussion:Öffentlich-private Partnerschaft">
+ <idsHeader pattern="text" type="text" version="1" status="new" TEIform="teiHeader">
+ <fileDesc>
+ <titleStmt>
+ <textSigle>WDD19/ß0000.10317</textSigle>
+ <t.title assemblage="external">WDD19/ß0000.10317 Diskussion:Öffentlich-private Partnerschaft. URL:https://de.wikipedia.org/wiki/Diskussion:%C3%96ffentlich-private%20Partnerschaft . In: Wikipedia, 2019</t.title>
+ </titleStmt>
+ <publicationStmt>
+ <distributor>French-German-English Project Comparable Wikipedia Corpora 2019;
+Leibniz-Institute for the German Language and Université de Toulouse Jean Jaurès</distributor>
+ <pubAddress/>
+ <idno type="cmc-core-filename">10317.tei.xml</idno>
+ <availability region="world" status="free" Default="n">CC-BY-SA</availability>
+ <pubDate type="year">2020</pubDate>
+ <pubPlace>Mannheim</pubPlace>
+ <pubPlace>Toulouse</pubPlace>
+ </publicationStmt>
+ <sourceDesc Default="n">
+ <biblStruct Default="n" status="draft">
+ <analytic>
+ <h.title type="main">Diskussion:Öffentlich-private Partnerschaft</h.title>
+ <h.author>Karl 3 et al.</h.author>
+ <imprint>
+ <pubPlace>
+ <ref target="https://de.wikipedia.org/wiki/Diskussion:%C3%96ffentlich-private%20Partnerschaft" type="page_url"/>
+ </pubPlace>
+ </imprint>
+ <idno type="wikipedia-id">10317</idno>
+ </analytic>
+ <monogr>
+ <h.title type="main">Wikipedia</h.title>
+ <edition>
+ <further/>
+ <kind>German language version</kind>
+ <appearance/>
+ </edition>
+ <imprint>
+ <publisher>Wikimedia Foundation, Inc</publisher>
+ <pubPlace>
+ <ref target="https://wikipedia.org/"/>
+ </pubPlace>
+ </imprint>
+ </monogr>
+ <monogr>
+ <h.title type="main">dewiki-2019-08-01-pages-meta-current</h.title>
+ <edition>
+ <further/>
+ <kind>Dump file</kind>
+ <appearance/>
+ </edition>
+ <imprint>
+ <publisher>Wikimedia Foundation, Inc</publisher>
+ <pubPlace>
+ <ref target="http://dumps.wikimedia.org"/>
+ </pubPlace>
+ <pubDate type="year">2019</pubDate>
+ <pubDate type="month">08</pubDate>
+ <pubDate type="day">01</pubDate>
+ </imprint>
+ <idno type="dump-filename">dewiki-2019-08-01-pages-meta-current</idno>
+ </monogr>
+ <relatedItem type="articleLink">
+ <ref n="10316" target="https://de.wikipedia.org/wiki/%C3%96ffentlich-private%20Partnerschaft" targetLang="de">https://de.wikipedia.org/wiki/Öffentlich-private Partnerschaft</ref>
+ </relatedItem>
+ <relatedItem type="articleTextSigle">
+ <ref type="derekoTextSigle">WPD19/ß0000.10316</ref>
+ </relatedItem>
+ <relatedItem type="langLink">
+ <ref target="https://fr.wikipedia.org/wiki/Partenariat public-privé" targetLang="fr">Partenariat public-privé</ref>
+ </relatedItem>
+ <relatedItem type="langLink">
+ <ref target="https://en.wikipedia.org/wiki/Public–private partnership" targetLang="en">Public–private partnership</ref>
+ </relatedItem>
+ </biblStruct>
+ <reference assemblage="non-automatic" type="complete">WDD19/ß0000.10317 Wikipedia: Diskussion:Öffentlich-private Partnerschaft. URL: https://de.wikipedia.org/wiki/Diskussion:%C3%96ffentlich-private%20Partnerschaft (Letzte Änderung 19.7.2019). In: Wikipedia, Die freie Enzyklopädie - Dump vom 1.8.2019</reference>
+ <reference assemblage="regular" type="short">WDD19/ß0000.10317 Wikipedia: Diskussion:Öffentlich-private Partnerschaft, (Letzte Änderung 19.7.2019), 2019</reference>
+ </sourceDesc>
+ </fileDesc>
+ <profileDesc>
+ <creation>
+ <creatDate>2019.07.19</creatDate>
+ <creatRef>(Letzte Änderung 19.7.2019)</creatRef>
+ <creatRefShort>(Letzte Änderung 19.7.2019)</creatRefShort>
+ </creation>
+ <textClass Default="n">
+ <classCode scheme="https://de.wikipedia.org/wiki/Kategorie:!Hauptkategorie">
+ <ref target="https://de.wikipedia.org/wiki/Kategorie:Kommunalpolitik%20%28Deutschland%29" targetLang="de">Kategorie:Kommunalpolitik (Deutschland)</ref>
+ <ref target="https://de.wikipedia.org/wiki/Kategorie:Kommunalpolitik%20%28%C3%96sterreich%29" targetLang="de">Kategorie:Kommunalpolitik (Österreich)</ref>
+ <ref target="https://de.wikipedia.org/wiki/Kategorie:%C3%96ffentliche%20Wirtschaft" targetLang="de">Kategorie:Öffentliche Wirtschaft</ref>
+ <ref target="https://de.wikipedia.org/wiki/Kategorie:Verwaltungsrecht" targetLang="de">Kategorie:Verwaltungsrecht</ref>
+ <ref target="https://de.wikipedia.org/wiki/Kategorie:Verwaltungswissenschaft" targetLang="de">Kategorie:Verwaltungswissenschaft</ref>
+ <ref target="https://de.wikipedia.org/wiki/Kategorie:Privatisierung" targetLang="de">Kategorie:Privatisierung</ref>
+ <ref target="https://de.wikipedia.org/wiki/Kategorie:Unternehmensart" targetLang="de">Kategorie:Unternehmensart</ref>
+ </classCode>
+ <classCode scheme="https://en.wikipedia.org/wiki/Wikipedia:Contents/Categories">
+ <ref target="https://en.wikipedia.org/wiki/Category%3APublic%20economics" targetLang="en">Category:Public economics</ref>
+ <ref target="https://en.wikipedia.org/wiki/Category%3AAdministrative%20law" targetLang="en">Category:Administrative law</ref>
+ <ref target="https://en.wikipedia.org/wiki/Category%3APrivatization" targetLang="en">Category:Privatization</ref>
+ <ref target="https://en.wikipedia.org/wiki/Category%3ACompanies%20by%20type" targetLang="en">Category:Companies by type</ref>
+ </classCode>
+ <catRef n="0.999998" scheme="topic" target="topic.politik.kommunalpolitik"/>
+ </textClass>
+ <textDesc Default="n">
+ <textType>Diskussion</textType>
+ <textTypeArt>Diskussion</textTypeArt>
+ <textDomain/>
+ </textDesc>
+ </profileDesc>
+ </idsHeader>
+ <text>
+ <body>
+ <div type="talk" part="N" org="uniform" sample="complete" complete="y">
+ <head>Öffentlich-private Partnerschaft</head>
+ <note creation="template" type="header" anchored="true">
+ {{Autoarchiv|Alter=900|Ziel='((Lemma))/Archiv/1'|Mindestbeiträge=1|Mindestabschnitte=5|Frequenz=monatlich|Zeigen=Nein}}</note>
+ <div id="i.10317_1" type="thread" part="N" org="uniform" sample="complete" complete="y">
+ <head/>
+ <posting id="i.10317_1_1" indentLevel="0" who="WU00000000">
+ <p part="N"> Archivübersicht| </p>
+ </posting>
+ <posting id="i.10317_1_2" indentLevel="1" who="WU00000000">
+ <p part="N">Archiv </p>
+ </posting>
+ </div>
+ <div id="i.10317_2" type="thread" part="N" org="uniform" sample="complete" complete="y">
+ <head>{{Anker|deadurl_2015-10}} Defekte Weblinks</head>
+ <posting creation="bot" id="i.10317_2_1" indentLevel="0" when-iso="2015-11-24T22:35+01" who="WU00001824">
+ <p part="N"> nicht archivieren|Zeigen=neinDefekter Weblink|Bot=<autoSignature type="signed">GiftBot </autoSignature>|Lauf=2015-10 </p>
+ <p part="N"> |2=007 wba=20100525003126 http://www.psiru.org/reports/2008-11-PPPs-crit.doc </p>
+ <p part="N"> |3=403 wba=20141218044639 proto http://www.partnerschaftendeutschland.de/ </p>
+ <p part="N"> – <autoSignature type="signed">GiftBot <timestamp>22:35, 24. Nov. 2015 (CET)</timestamp>
+ </autoSignature>
+ </p>
+ </posting>
+ </div>
+ <div id="i.10317_3" type="thread" part="N" org="uniform" sample="complete" complete="y">
+ <head>Aktuelle Entwicklungen zur ÖPP-Verfassungsreform</head>
+ <posting id="i.10317_3_1" indentLevel="0" when-iso="2017-05-26T23:13+02" who="WU00003187">
+ <p part="N">
+ <s> In Kürze soll der Bundestag über den Regierungsentwurf zur Verfassungsänderung betreffend ÖPP für Verkehr und Bildung entscheiden (http://dipbt.bundestag.de/extrakt/ba/WP18/786/78664.html).</s>
+ <s>Momentan wird der Vorschlag noch kontrovers diskutiert (vgl. http://www.berliner-zeitung.de/wirtschaft/autobahn-privatisierung-spd-taeuscht-die-eigenen-genossen-26972860).</s>
+ <s>Da die Legislaturperiode sich allerdings dem Ende zuneigt, dürfte (vorerst) mit dem geplanten Beschluss oder alternativ einer Vertagung ein fester Zwischenstand erreicht sein.</s>
+ <s>Gerne ergänze ich, wenn es soweit ist, im Abschnitt "Anwendungsfelder" also einen entsprechenden Passus.</s>
+ </p>
+ <p part="N">
+ <s broken="yes"> Dies wäre eine günstige Gelegenheit, die Entwicklung der letzten Jahre insgesamt aufzuarbeiten, zumal in der entsprechenden Chronologie das letzte vermerkte Ereignis auf 2010 zurückdatiert.</s>
+ <s>Vielleicht ist jemand diesbezüglich bereits im Bilde und könnte die nötigen Daten ergänzen.</s>
+ <s>Das würde dann doppelte Recherchearbeit sparen.</s>
+ </p>
+ <p part="N">
+ <s> Mit besten Grüßen</s> --<autoSignature type="signed">Baronomingo <timestamp>23:13, 26. Mai 2017 (CEST)</timestamp>
+ </autoSignature>
+ </p>
+ </posting>
+ <posting id="i.10317_3_2" indentLevel="0" when-iso="2017-11-03T23:20+01" who="WU00003188">
+ <p part="N"> - Nun hier hat sich ja jetzt einiges getan und die geplanten Verfassungsänderungen wurden alle durchgewunken.<s> Der Artikel muss dringend überarbeitet und aktualisiert werden.</s>
+ <s>Ich denke mich auch erinnern zu können, dass es mittlerweile sowohl in Deutschland sowie in der EU viele Projekte gibt, die sich als Kostenfallen für die Kommunen etc. herausgestellt haben.</s> --<autoSignature type="signed">Milla Krauskopf <timestamp>23:20, 3. Nov. 2017 (CET)</timestamp>
+ </autoSignature>
+ </p>
+ </posting>
+ <posting id="i.10317_3_3" indentLevel="1" when-iso="2017-11-03T23:59+01" who="WU00003189">
+ <p part="N">Zustimmung!<s> Wer fängt an?</s>--<autoSignature type="signed">Karl 3 <timestamp>23:59, 3. Nov. 2017 (CET)</timestamp>
+ </autoSignature>
+ </p>
+ </posting>
+ </div>
+ <div id="i.10317_4" type="thread" part="N" org="uniform" sample="complete" complete="y">
+ <head>Link Nr. 34 veraltet?</head>
+ <posting id="i.10317_4_1" indentLevel="0" when-iso="2017-05-29T15:28+02" who="WU00003190">
+ <p part="N">
+ <s> "Die NDR-Fernsehdokumentation „Der geplünderte Staat“ (2013)34 ..." </s>
+ </p>
+ <p part="N">
+ <s> Der link unter der Nr. 34 funktioniert nicht mehr, aber man kann den Artikel bei 3Sat nachlesen: </s>
+ </p>
+ <p part="N">
+ <s> http://www.3sat.de/page/?source=/ard/sendung/178884/index.html </s>
+ </p>
+ <p part="N">
+ <s> Leider habe ich hier noch nie etwas geändert und weiß nicht, wie das geht.</s>
+ <s>Vielleicht kann das jemand von Euch korrigieren?</s>
+ </p>
+ <p part="N"> --<autoSignature type="signed">Stefuzius <timestamp>15:28, 29. Mai 2017 (CEST)</timestamp>
+ </autoSignature>
+ </p>
+ </posting>
+ <posting id="i.10317_4_2" indentLevel="1" when-iso="2017-05-30T11:16+02" who="WU00000716">
+ <p part="N">Danke für den Hinweis, ich verändere den Link. --<autoSignature type="signed">Casra <timestamp>11:16, 30. Mai 2017 (CEST)</timestamp>
+ </autoSignature>
+ </p>
+ </posting>
+ </div>
+ <div id="i.10317_5" type="thread" part="N" org="uniform" sample="complete" complete="y">
+ <head>Öffentliche Dienstleistungen, Ver-/Entsorgung</head>
+ <posting id="i.10317_5_1" indentLevel="0" when-iso="2017-07-09T17:53+02" who="WU00003189">
+ <p part="N"> Dieser Bereich unterliegt, sofern er in öffentlicher Hand ist, dem Preisgesetz.<s> Durch eine PPP fällt die Bindung an das Preisgesetz weg, mit der Folge, dass die Kosten frei kalkuliert werden können, regelmäßige weitere Folge: Preissteigerungen!</s>
+ <s>Vgl. http://www.econstor.eu/bitstream/10419/85329/1/770675158.pdf Möglicherweise wird diese "Flucht aus dem Preisrecht" (Greiffenhagen) durch die derzeit in Vorbereitung befindliche Novellierung des Preisgesetzes verhindert oder zumindest erschwert.</s>
+ <s>--</s>
+ <autoSignature type="signed">Karl 3 <timestamp>17:53, 9. Jul. 2017 (CEST)</timestamp>
+ </autoSignature>
+ </p>
+ </posting>
+ </div>
+ </div>
+ </body>
+ </text>
+ </idsText>
+ </idsDoc>
+</idsCorpus>
diff --git a/t/script.t b/t/script.t
index 6bf98e4..57e055e 100644
--- a/t/script.t
+++ b/t/script.t
@@ -434,6 +434,31 @@
;
};
+subtest 'Check encoding with utf-8 sigle' => sub {
+
+ # Load example file
+ my $file = catfile($f, 'data', 'wdd_sample.i5.xml');
+
+ my $t = test_tei2korapxml(
+ tmp => 'script_sigle',
+ file => $file,
+ param => "-ti"
+ )->stderr_like(qr!tei2korapxml: .*? text_id=WDD19_ß0000\.10317!)
+ ->stderr_unlike(qr!Debugging is activated!);
+
+ $t->unzip_xml('WDD19/ß0000/10317/header.xml')
+ ->text_is('idsHeader fileDesc titleStmt textSigle', 'WDD19/ß0000.10317');
+
+ $t->unzip_xml('WDD19/ß0000/10317/data.xml')
+ ->attr_is('raw_text', 'docid', 'WDD19_ß0000.10317');
+
+ $t->unzip_xml('WDD19/ß0000/10317/struct/structure.xml')
+ ->attr_is('layer', 'docid', 'WDD19_ß0000.10317');
+
+ $t->unzip_xml('WDD19/ß0000/10317/base/tokens_conservative.xml')
+ ->attr_is('layer', 'docid', 'WDD19_ß0000.10317');
+};
+
subtest 'Test Log' => sub {
test_tei2korapxml(
tmp => 'script_out',