apologies, these are just for reference, so that I don't clutter the main stylesheet with comments
Change-Id: Id920eb279568c09e914aa242c7ea0a9bc93d4659
diff --git a/test/output/NKJP/NKJP/KOT/ginkgo_text_header.xml b/test/output/NKJP/NKJP/KOT/ginkgo_text_header.xml
new file mode 100644
index 0000000..2f80b7a
--- /dev/null
+++ b/test/output/NKJP/NKJP/KOT/ginkgo_text_header.xml
@@ -0,0 +1,84 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<!--<?xml-model href="header.rng"
+ type="application/xml"
+ schematypens="http://relaxng.org/ns/structure/1.0"?>-->
+<!--<!DOCTYPE idsHeader PUBLIC "-//IDS//DTD IDS-XCES 1.0//EN"
+ "http://corpora.ids-mannheim.de/idsxces1/DTD/ids.xcesdoc.dtd">-->
+
+<!-- <!DOCTYPE idsHeader>-->
+
+<idsHeader TEIform="teiHeader" pattern="text" status="new" type="text" version="1.0">
+ <fileDesc>
+ <titleStmt>
+ <textSigle>ATZ07/JAN.00001</textSigle>
+ <t.title assemblage="external">ATZ07/JAN.00001 ATZ - Automobiltechnische Zeitschrift, Januar 2007, Nr. 109(1), S. 10-15; Ein neues Energiemanagement-Konzept für das elektrische Bordnetz</t.title>
+ </titleStmt>
+ <publicationStmt>
+ <distributor/>
+ <pubAddress/>
+ <availability region="world">QAO-NC</availability>
+ <pubDate type="year">2021</pubDate>
+ </publicationStmt>
+ <sourceDesc>
+ <biblStruct>
+ <analytic>
+ <h.title type="main">Ein neues Energiemanagement-Konzept für das elektrische Bordnetz</h.title>
+ <h.title type="sub"/>
+ <h.author>Theuerkauf, Heinz; Schmidt, Matthias</h.author>
+ <imprint/>
+ <biblScope type="pp">S. 10-15</biblScope>
+ <biblNote n="DOI">10.1007/BF03221854</biblNote>
+ </analytic>
+ <monogr>
+ <h.title type="main">ATZ - Automobiltechnische Zeitschrift</h.title>
+ <h.title type="short">ATZ</h.title>
+ <imprint>
+ <publisher>Springer Fachmedien GmbH</publisher>
+ <pubPlace key="DE">Wiesbaden</pubPlace>
+ <pubDate type="year">2007</pubDate>
+ </imprint>
+ <biblScope type="issue">1</biblScope>
+ <biblScope type="vol">109</biblScope>
+ </monogr>
+ </biblStruct>
+ <reference type="complete" assemblage="external">ATZ07/JAN.00001 ATZ - Automobiltechnische Zeitschrift, Januar 2007, Nr. 109(1), S. 10-15 - Theuerkauf, H.; Schmidt, M.: Ein neues Energiemanagement-Konzept für das elektrische Bordnetz (DOI:10.1007/BF03221854)</reference>
+ <reference type="short" assemblage="external">ATZ07/JAN.00001 ATZ, 2007, Nr. 109(1)</reference>
+ <reference type="super" assemblage="external">ATZ07/JAN ATZ - Automobiltechnische Zeitschrift, Wiesbaden: Springer Fachmedien GmbH; 2007</reference>
+ </sourceDesc>
+ </fileDesc>
+ <encodingDesc>
+ <editorialDecl>
+ <pagination type="no"/>
+ <transduction n="1">gingko-XML by Leipzig University</transduction>
+ <transduction n="2">Sentence splitting using NLTK by Leipzig
+ University</transduction>
+ <transduction n="3">Tokenisation, Lemmatisation, POS-annotation using TreeTagger
+ with STTS by Leipzig University</transduction>
+ <transduction n="4">XSL Conversion to I5 by IDS</transduction>
+ <correction n="lemma">no</correction>
+ </editorialDecl>
+ <tagsDecl>
+ <tagUsage gi="w" occurs="2191">used to mark a single token</tagUsage>
+ </tagsDecl>
+ </encodingDesc>
+ <profileDesc>
+ <textClass>
+ <catRef n="1" target="topic.wissenschaft.populaerwissenschaft" scheme="topic"/>
+ </textClass>
+ <textDesc>
+ <textType>Zeitschrift: Fachzeitschrift</textType>
+ <textTypeRef>Fachzeitschrift</textTypeRef>
+ <textTypeArt>Fachartikel</textTypeArt>
+ </textDesc>
+ <creation>
+ <creatDate>2007.01.</creatDate>
+ <creatRef>Januar 2007</creatRef>
+ <creatRefShort>Januar 2007</creatRefShort>
+ </creation>
+ <textClass>
+ <catRef n="0.6" target="topic.technik-industrie.kfz" scheme="topic"/>
+ <classCode scheme="gingkoGenre.top">wissenschaftlich</classCode>
+ <classCode scheme="gingkoGenre.sub">wissenschaftlich</classCode>
+ </textClass>
+ </profileDesc>
+</idsHeader>
\ No newline at end of file
diff --git a/test/output/NKJP/ginkgo_corpus_header.xml b/test/output/NKJP/ginkgo_corpus_header.xml
new file mode 100644
index 0000000..19dead1
--- /dev/null
+++ b/test/output/NKJP/ginkgo_corpus_header.xml
@@ -0,0 +1,297 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<?xml-model href="header.rng"
+ type="application/xml"
+ schematypens="http://relaxng.org/ns/structure/1.0"?>
+<!DOCTYPE idsCorpus PUBLIC "-//IDS//DTD IDS-XCES 1.0//EN"
+ "http://corpora.ids-mannheim.de/idsxces1/DTD/ids.xcesdoc.dtd">
+<idsHeader TEIform="teiHeader" pattern="Ztg/Zschr" status="new" type="corpus" version="1.1">
+ <fileDesc>
+ <titleStmt>
+ <korpusSigle>ATZ07</korpusSigle>
+ <c.title>Gingko - Geschriebenes Ingenieurwissenschaftliches Korpus: ATZ - Automobiltechnische Zeitschrift, 2007</c.title>
+ <editor>
+ <orgName type="project" from="2017" to="2021">Muster in der Sprache der
+ Ingenieurwissenschaften</orgName>
+ <persName n="1">Prof. Dr. Christian Fandrych, Leipzig University</persName>
+ <persName n="2">Jun.-Prof. Dr. Antje Heine</persName>
+ </editor>
+ <respStmt>
+ <persName from="2017" to="2019">Antje Heine</persName>
+ <persName from="2017" to="2019">Marlene Rummel</persName>
+ <persName from="2017" to="2019">Lars Schirrmeister</persName>
+ <persName from="2017" to="2019">Nina Suppus</persName>
+ <persName from="2017" to="2019">Sarah Brauer</persName>
+ <persName from="2017" to="2019">Rebekka Fricke</persName>
+ <persName from="2017" to="2019">Anne Hertel</persName>
+ <persName from="2017" to="2019">Marcel Knorn</persName>
+ <persName from="2017" to="2019">Bárbara Mendoza Sanchez</persName>
+ <persName from="2017" to="2019">Paul Knötgen</persName>
+ <persName from="2017" to="2019">Agnes Koschmider</persName>
+ <persName from="2020" to="2021">Christian Fandrych</persName>
+ <persName from="2020" to="2021">Cordula Meißner</persName>
+ <persName from="2020" to="2021">Annette Portmann</persName>
+ <persName from="2020" to="2021">Lars Schirrmeister</persName>
+ <persName from="2020" to="2021">Franziska Wallner</persName>
+ </respStmt>
+ </titleStmt>
+ <publicationStmt>
+ <distributor> Institut für Deutsche Sprache </distributor>
+ <pubAddress> Postfach 10 16 21, D-68016 Mannheim </pubAddress>
+ <telephone> +49 (0)621 1581 0 </telephone>
+ <availability region="world">QAO-NC</availability>
+ <pubDate>2021</pubDate>
+ </publicationStmt>
+ <sourceDesc>
+ <biblStruct>
+ <monogr>
+ <h.title type="main">Gingko - Geschriebenes Ingenieurwissenschaftliches
+ Korpus: ATZ - Automobiltechnische Zeitschrift, 2007</h.title>
+ <editor>Prof. Dr. Christian Fandrych, Leipzig University; Jun.-Prof. Dr. Antje Heine</editor>
+ <imprint>
+ <publisher>Herder-Institut der Universität Leipzig</publisher>
+ <pubPlace>Leipzig</pubPlace>
+ <pubDate type="year">2021</pubDate>
+ </imprint>
+ <biblNote n="url" rend="Gingko-Webseite an der Universität Leipzig">http://www.uni-leipzig.de/gingko/</biblNote>
+ <biblNote n="url.ids" rend="IDS webpage on Gingko in the DeReKo archive">https://www.ids-mannheim.de/digspra/kl/projekte/korpora/archiv-1/gingko/</biblNote>
+ <biblNote n="collection">Gingko - Geschriebenes Ingenieurwissenschaftliches Korpus</biblNote>
+ <biblNote n="collectionShort">Gingko</biblNote>
+ </monogr>
+ </biblStruct>
+ </sourceDesc>
+ </fileDesc>
+ <encodingDesc>
+ <projectDesc>
+ <p>Project "Muster in der Sprache der Ingenieurwissenschaften"</p>
+ <p>Universität Greifswald, Institut für Deutsche Philologie (2017-2019)</p>
+ <p>Universität Leipzig, Herder-Institut (2020-2021)</p>
+ <p>Third-party funding by Deutsche Forschungsgemeinschaft (DFG), AOBJ: 692723</p>
+ <p>Project head 2017-2019 Jun.-Prof. Dr. Antje Heine</p>
+ <p>Project head 2020-2021 Prof. Dr. Christian Fandrych</p>
+ <p xml:lang="de">Das Projektkorpus Gingko (Geschriebenes ingenieurwissenschaftliches
+ Korpus) besteht aus 2498 wissenschaftlichen Artikeln der Zeitschriften
+ Automobiltechnische Zeitschrift (ATZ) und Motortechnische Zeitschrift (MTZ) der
+ Jahrgänge 2007-2016 und umfasst insgesamt 4.667.656 Tokens. Es ist im Rahmen des
+ Forschungsprojektes „Muster in der Sprache der Ingenieurwissenschaften“ entstanden.
+ Das Projekt hat das Ziel, Muster in der Sprache der Ingenieurwissenschaften (am
+ Beispiel der Automobiltechnik) systematisch zu erfassen und zu beschreiben.</p>
+ <p>Project Website: <ref type="url" target="http://www.uni-leipzig.de/gingko">Gingko website</ref></p>
+ <p>Publication: Schirrmeister, L., Rummel, M., Heine, A., Suppus, N. & Mendoza
+ Sánchez, B. (2021). Gingko – ein Korpus der ingenieurwissenschaftlichen Sprache.
+ <ref target="https://www.dafdigital.de/">Deutsch als Fremdsprache</ref> 58.</p>
+ </projectDesc>
+ <editorialDecl>
+ <transduction n="1">gingko-XML by Leipzig University</transduction>
+ <transduction n="2">Sentence splitting using NLTK by Leipzig University</transduction>
+ <transduction n="3">Tokenisation, Lemmatisation, POS-annotation using TreeTagger with
+ STTS by Leipzig University</transduction>
+ <transduction n="4">XSL Conversion to I5 by IDS</transduction>
+ </editorialDecl>
+ <classDecl>
+ <taxonomy id="topic">
+ <h.bibl>Thementaxonomie (siehe
+ http://www.ids-mannheim.de/kl/projekte/methoden/te.html)</h.bibl>
+ <category id="topic.fiktion">
+ <catDesc>Fiktion</catDesc>
+ <category id="topic.fiktion.vermischtes">
+ <catDesc>Fiktion:Vermischtes</catDesc>
+ </category>
+ </category>
+ <category id="topic.freizeit-unterhaltung">
+ <catDesc>Freizeit_Unterhaltung</catDesc>
+ <category id="topic.freizeit-unterhaltung.reisen">
+ <catDesc>Freizeit_Unterhaltung:Reisen</catDesc>
+ </category>
+ <category id="topic.freizeit-unterhaltung.rundfunk">
+ <catDesc>Freizeit_Unterhaltung:Rundfunk</catDesc>
+ </category>
+ <category id="topic.freizeit-unterhaltung.vereine-veranstaltungen">
+ <catDesc>Freizeit_Unterhaltung:Vereine_Veranstaltungen</catDesc>
+ </category>
+ </category>
+ <category id="topic.gesundheit-ernaehrung">
+ <catDesc>Gesundheit_Ernaehrung</catDesc>
+ <category id="topic.gesundheit-ernaehrung.ernaehrung">
+ <catDesc>Gesundheit_Ernaehrung:Ernaehrung</catDesc>
+ </category>
+ <category id="topic.gesundheit-ernaehrung.gesundheit">
+ <catDesc>Gesundheit_Ernaehrung:Gesundheit</catDesc>
+ </category>
+ </category>
+ <category id="topic.kultur">
+ <catDesc>Kultur</catDesc>
+ <category id="topic.kultur.bildende-kunst">
+ <catDesc>Kultur:Bildende Kunst</catDesc>
+ </category>
+ <category id="topic.kultur.darstellende-kunst">
+ <catDesc>Kultur:Darstellende Kunst</catDesc>
+ </category>
+ <category id="topic.kultur.film">
+ <catDesc>Kultur:Film</catDesc>
+ </category>
+ <category id="topic.kultur.literatur">
+ <catDesc>Kultur:Literatur</catDesc>
+ </category>
+ <category id="topic.kultur.mode">
+ <catDesc>Kultur:Mode</catDesc>
+ </category>
+ <category id="topic.kultur.musik">
+ <catDesc>Kultur:Musik</catDesc>
+ </category>
+ </category>
+ <category id="topic.natur-umwelt">
+ <catDesc>Natur_Umwelt</catDesc>
+ <category id="topic.natur-umwelt.garten">
+ <catDesc>Natur_Umwelt:Garten</catDesc>
+ </category>
+ <category id="topic.natur-umwelt.tiere">
+ <catDesc>Natur_Umwelt:Tiere</catDesc>
+ </category>
+ <category id="topic.natur-umwelt.wetter-klima">
+ <catDesc>Natur_Umwelt:Wetter_Klima</catDesc>
+ </category>
+ </category>
+ <category id="topic.politik">
+ <catDesc>Politik</catDesc>
+ <category id="topic.politik.ausland">
+ <catDesc>Politik:Ausland</catDesc>
+ </category>
+ <category id="topic.politik.inland">
+ <catDesc>Politik:Inland</catDesc>
+ </category>
+ <category id="topic.politik.kommunalpolitik">
+ <catDesc>Politik:Kommunalpolitik</catDesc>
+ </category>
+ </category>
+ <category id="topic.rest">
+ <catDesc>Rest</catDesc>
+ <category id="topic.rest.boersenkurse">
+ <catDesc>Rest:boersenkurse</catDesc>
+ </category>
+ <category id="topic.rest.geburt-tod-heirat">
+ <catDesc>Rest:geburt_tod_heirat</catDesc>
+ </category>
+ <category id="topic.rest.impressum">
+ <catDesc>Rest:impressum</catDesc>
+ </category>
+ <category id="topic.rest.inhaltsverzeichnisse">
+ <catDesc>Rest:inhaltsverzeichnisse</catDesc>
+ </category>
+ <category id="topic.rest.ligatabellen">
+ <catDesc>Rest:ligatabellen</catDesc>
+ </category>
+ <category id="topic.rest.tabellen">
+ <catDesc>Rest:tabellen</catDesc>
+ </category>
+ <category id="topic.rest.veranstaltungshinweise">
+ <catDesc>Rest:veranstaltungshinweise</catDesc>
+ </category>
+ </category>
+ <category id="topic.sport">
+ <catDesc>Sport</catDesc>
+ <category id="topic.sport.ballsport">
+ <catDesc>Sport:Ballsport</catDesc>
+ </category>
+ <category id="topic.sport.fussball">
+ <catDesc>Sport:Fussball</catDesc>
+ </category>
+ <category id="topic.sport.motorsport">
+ <catDesc>Sport:Motorsport</catDesc>
+ </category>
+ <category id="topic.sport.radsport">
+ <catDesc>Sport:Radsport</catDesc>
+ </category>
+ <category id="topic.sport.tennis">
+ <catDesc>Sport:Tennis</catDesc>
+ </category>
+ <category id="topic.sport.vermischtes">
+ <catDesc>Sport:Vermischtes</catDesc>
+ </category>
+ <category id="topic.sport.wintersport">
+ <catDesc>Sport:Wintersport</catDesc>
+ </category>
+ </category>
+ <category id="topic.staat-gesellschaft">
+ <catDesc>Staat_Gesellschaft</catDesc>
+ <category id="topic.staat-gesellschaft.arbeit-und-beruf">
+ <catDesc>Staat_Gesellschaft:Arbeit_und_Beruf</catDesc>
+ </category>
+ <category id="topic.staat-gesellschaft.bildung">
+ <catDesc>Staat_Gesellschaft:Bildung</catDesc>
+ </category>
+ <category id="topic.staat-gesellschaft.biographien-interviews">
+ <catDesc>Staat_Gesellschaft:Biographien_Interviews</catDesc>
+ </category>
+ <category id="topic.staat-gesellschaft.drittes-reich-rechtsextremismus">
+ <catDesc>Staat_Gesellschaft:Drittes_Reich_Rechtsextremismus</catDesc>
+ </category>
+ <category id="topic.staat-gesellschaft.familie-geschlecht">
+ <catDesc>Staat_Gesellschaft:Familie_Geschlecht</catDesc>
+ </category>
+ <category id="topic.staat-gesellschaft.kirche">
+ <catDesc>Staat_Gesellschaft:Kirche</catDesc>
+ </category>
+ <category id="topic.staat-gesellschaft.recht">
+ <catDesc>Staat_Gesellschaft:Recht</catDesc>
+ </category>
+ <category id="topic.staat-gesellschaft.tod">
+ <catDesc>Staat_Gesellschaft:Tod</catDesc>
+ </category>
+ <category id="topic.staat-gesellschaft.verbrechen">
+ <catDesc>Staat_Gesellschaft:Verbrechen</catDesc>
+ </category>
+ </category>
+ <category id="topic.technik-industrie">
+ <catDesc>Technik_Industrie</catDesc>
+ <category id="topic.technik-industrie.edv-elektronik">
+ <catDesc>Technik_Industrie:EDV_Elektronik</catDesc>
+ </category>
+ <category id="topic.technik-industrie.kfz">
+ <catDesc>Technik_Industrie:Kfz</catDesc>
+ </category>
+ <category id="topic.technik-industrie.transport-verkehr">
+ <catDesc>Technik_Industrie:Transport_Verkehr</catDesc>
+ </category>
+ <category id="topic.technik-industrie.umweltschutz">
+ <catDesc>Technik_Industrie:Umweltschutz</catDesc>
+ </category>
+ <category id="topic.technik-industrie.unfaelle">
+ <catDesc>Technik_Industrie:Unfaelle</catDesc>
+ </category>
+ </category>
+ <category id="topic.wirtschaft-finanzen">
+ <catDesc>Wirtschaft_Finanzen</catDesc>
+ <category id="topic.wirtschaft-finanzen.banken">
+ <catDesc>Wirtschaft_Finanzen:Banken</catDesc>
+ </category>
+ <category id="topic.wirtschaft-finanzen.bilanzen">
+ <catDesc>Wirtschaft_Finanzen:Bilanzen</catDesc>
+ </category>
+ <category id="topic.wirtschaft-finanzen.oeffentliche-finanzen">
+ <catDesc>Wirtschaft_Finanzen:Oeffentliche_Finanzen</catDesc>
+ </category>
+ <category id="topic.wirtschaft-finanzen.sozialprodukt">
+ <catDesc>Wirtschaft_Finanzen:Sozialprodukt</catDesc>
+ </category>
+ <category id="topic.wirtschaft-finanzen.waehrung">
+ <catDesc>Wirtschaft_Finanzen:Waehrung</catDesc>
+ </category>
+ </category>
+ <category id="topic.wissenschaft">
+ <catDesc>Wissenschaft</catDesc>
+ <category id="topic.wissenschaft.populaerwissenschaft">
+ <catDesc>Wissenschaft:Populaerwissenschaft</catDesc>
+ </category>
+ </category>
+ <category id="topic.unklassifizierbar">
+ <catDesc>Text ist thematisch nicht klassifizierbar.</catDesc>
+ </category>
+ </taxonomy>
+ </classDecl>
+ </encodingDesc>
+ <profileDesc>
+ <langUsage>
+ <language id="de" usage="100">Deutsch</language>
+ </langUsage>
+ </profileDesc>
+</idsHeader>
\ No newline at end of file