blob: 87ab0e6b64435f12808c8eba2023aebd1647b5cb [file] [log] [blame]
Marc Kupietzb777f9d2026-03-07 09:26:20 +01001# foundry = base
2# filename = TEST/gender/000001/base/tokens.xml
3# text_id = GENDER_TEST.000001
4# text = Im Prinzip kann jede*r Bürger*in die Umbenennung beantragen
51 Im _ ADP APPRART _ _ _ _ _
62 Prinzip _ NOUN NN _ _ _ _ _
73 kann _ AUX VMFIN _ _ _ _ _
84 jede*r _ DET PIAT _ _ _ _ _
95 Bürger*in _ NOUN NN _ _ _ _ _
106 die _ DET ART _ _ _ _ _
117 Umbenennung _ NOUN NN _ _ _ _ _
128 beantragen _ VERB VVINF _ _ _ _ _
13
14# foundry = base
15# filename = TEST/gender/000002/base/tokens.xml
16# text_id = GENDER_TEST.000002
17# text = Die Tests sind freiwillig, jede*r SchülerIn hat Anspruch auf kostenlose Tests
181 Die _ DET ART _ _ _ _ _
192 Tests _ NOUN NN _ _ _ _ _
203 sind _ AUX VAFIN _ _ _ _ _
214 freiwillig _ ADJ ADJD _ _ _ _ _
225 , _ PUNCT $, _ _ _ _ _
236 jede*r _ DET PIAT _ _ _ _ _
247 SchülerIn _ NOUN NN _ _ _ _ _
258 hat _ AUX VAFIN _ _ _ _ _
269 Anspruch _ NOUN NN _ _ _ _ _
2710 auf _ ADP APPR _ _ _ _ _
2811 kostenlose _ ADJ ADJA _ _ _ _ _
2912 Tests _ NOUN NN _ _ _ _ _
30
31# foundry = base
32# filename = TEST/gender/000003/base/tokens.xml
33# text_id = GENDER_TEST.000003
34# text = Als Kinder- und Jugendpsychiater*in ist sie bekannt
351 Als _ ADP APPR _ _ _ _ _
362 Kinder- _ NOUN NN _ _ _ _ _
373 und _ CCONJ KON _ _ _ _ _
384 Jugendpsychiater*in _ _ _ _ _ _ _ _
395 ist _ AUX VAFIN _ _ _ _ _
406 sie _ PRON PPER _ _ _ _ _
417 bekannt _ ADJ ADJD _ _ _ _ _
42
43# foundry = base
44# filename = TEST/gender/000004/base/tokens.xml
45# text_id = GENDER_TEST.000004
46# text = Wir suchen eine*n begeisterte*n Nachfolger*in, als Anhänger:in linker Ideen
471 Wir _ PRON PPER _ _ _ _ _
482 suchen _ VERB VVFIN _ _ _ _ _
493 eine*n _ DET ART _ _ _ _ _
504 begeisterte*n _ ADJ ADJA _ _ _ _ _
515 Nachfolger*in _ _ _ _ _ _ _ _
526 , _ PUNCT $, _ _ _ _ _
537 als _ ADP APPR _ _ _ _ _
548 Anhänger:in _ _ _ _ _ _ _ _
559 linker _ ADJ ADJA _ _ _ _ _
5610 Ideen _ NOUN NN _ _ _ _ _
57
58# foundry = base
59# filename = TEST/gender/000005/base/tokens.xml
60# text_id = GENDER_TEST.000005
61# text = Fachärzt*innen, Lehrer:innen und Autor_innen schreiben
621 Fachärzt*innen _ _ _ _ _ _ _ _
632 , _ PUNCT $, _ _ _ _ _
643 Lehrer:innen _ _ _ _ _ _ _ _
654 und _ CCONJ KON _ _ _ _ _
665 Autor_innen _ _ _ _ _ _ _ _
676 schreiben _ VERB VVFIN _ _ _ _ _
68
69# foundry = base
70# filename = TEST/gender/000006/base/tokens.xml
71# text_id = GENDER_TEST.000006
72# text = LehrerInnen, Schüler(innen) und Autor/innen lesen
731 LehrerInnen _ _ _ _ _ _ _ _
742 , _ PUNCT $, _ _ _ _ _
753 Schüler(innen) _ _ _ _ _ _ _ _
764 und _ CCONJ KON _ _ _ _ _
775 Autor/innen _ _ _ _ _ _ _ _
786 lesen _ VERB VVFIN _ _ _ _ _
79
80# foundry = base
81# filename = TEST/gender/000007/base/tokens.xml
82# text_id = GENDER_TEST.000007
83# text = die*der Antragssteller*in schreibt jede:r Wirt:in
841 die*der _ DET ART _ _ _ _ _
852 Antragssteller*in _ _ _ _ _ _ _ _
863 schreibt _ VERB VVFIN _ _ _ _ _
874 jede:r _ DET PIAT _ _ _ _ _
885 Wirt:in _ _ _ _ _ _ _ _
89
90# foundry = base
91# filename = TEST/gender/000008/base/tokens.xml
92# text_id = GENDER_TEST.000008
93# text = sie*er schrieb Menschenrechtsanwält:innen
941 sie*er _ _ _ _ _ _ _ _
952 schrieb _ VERB VVFIN _ _ _ _ _
963 Menschenrechtsanwält:innen _ _ _ _ _ _ _ _
97
98# foundry = base
99# filename = TEST/gender/000009/base/tokens.xml
100# text_id = GENDER_TEST.000009
101# text = ohne jedEn ZeugIn sprach die Generalstaatsanwält*in
1021 ohne _ ADP APPR _ _ _ _ _
1032 jedEn _ DET PIAT _ _ _ _ _
1043 ZeugIn _ _ _ _ _ _ _ _
1054 sprach _ VERB VVFIN _ _ _ _ _
1065 die _ DET ART _ _ _ _ _
1076 Generalstaatsanwält*in _ _ _ _ _ _ _ _
108
109# foundry = base
110# filename = TEST/gender/000010/base/tokens.xml
111# text_id = GENDER_TEST.000010
112# text = Autor/-innen und Spieler/-innen lasen
1131 Autor/-innen _ _ _ _ _ _ _ _
1142 und _ CCONJ KON _ _ _ _ _
1153 Spieler/-innen _ _ _ _ _ _ _ _
1164 lasen _ VERB VVFIN _ _ _ _ _
117
Marc Kupietz1a9f16e2026-03-07 09:50:55 +0100118# foundry = base
119# filename = TEST/gender/000011/base/tokens.xml
120# text_id = GENDER_TEST.000011
121# text = sier trifft xier jeden Tag
1221 sier _ _ _ _ _ _ _ _
1232 trifft _ VERB VVFIN _ _ _ _ _
1243 xier _ _ _ _ _ _ _ _
1254 jeden _ DET PIAT _ _ _ _ _
1265 Tag _ NOUN NN _ _ _ _ _
127
128# foundry = base
129# filename = TEST/gender/000012/base/tokens.xml
130# text_id = GENDER_TEST.000012
131# text = oj dankte el und hen für die Hilfe
1321 oj _ _ _ _ _ _ _ _
1332 dankte _ VERB VVFIN _ _ _ _ _
1343 el _ _ _ _ _ _ _ _
1354 und _ CCONJ KON _ _ _ _ _
1365 hen _ _ _ _ _ _ _ _
1376 für _ ADP APPR _ _ _ _ _
1387 die _ DET ART _ _ _ _ _
1398 Hilfe _ NOUN NN _ _ _ _ _
140
Marc Kupietzd2b92792026-03-10 08:11:06 +0100141# --- Regression tests: false-positive prevention --------------------------
142# Tokens *, Y, per, EL, EM, Ey, sin must NOT be tagged as neo-pronouns when
143# they appear mid-sentence in uppercase or are known false positives.
144
145# foundry = base
146# filename = TEST/gender/000013/base/tokens.xml
147# text_id = GENDER_TEST.000013
148# text = Hinweis auf * und Y sowie per Einschreiben
1491 Hinweis _ NOUN NN _ _ _ _ _
1502 auf _ ADP APPR _ _ _ _ _
1513 * _ PUNCT $( _ _ _ _ _
1524 und _ CCONJ KON _ _ _ _ _
1535 Y _ NOUN NN _ _ _ _ _
1546 sowie _ CCONJ KON _ _ _ _ _
1557 per _ ADP APPR _ _ _ _ _
1568 Einschreiben _ NOUN NN _ _ _ _ _
157
158# foundry = base
159# filename = TEST/gender/000014/base/tokens.xml
160# text_id = GENDER_TEST.000014
161# text = Verweise auf EL EM Ey sin im Text
1621 Verweise _ NOUN NN _ _ _ _ _
1632 auf _ ADP APPR _ _ _ _ _
1643 EL _ NOUN NN _ _ _ _ _
1654 EM _ NOUN NN _ _ _ _ _
1665 Ey _ ITJ ITJ _ _ _ _ _
1676 sin _ NOUN NN _ _ _ _ _
1687 im _ ADP APPRART _ _ _ _ _
1698 Text _ NOUN NN _ _ _ _ _
170
171# foundry = base
172# filename = TEST/gender/000015/base/tokens.xml
173# text_id = GENDER_TEST.000015
174# text = Jeder Mensch hat Würde
1751 Jeder _ DET PIAT _ _ _ _ _
1762 Mensch _ NOUN NN _ _ _ _ _
1773 hat _ AUX VAFIN _ _ _ _ _
1784 Würde _ NOUN NN _ _ _ _ _
179
180# --- Regression tests: correct neo-pronoun recognition -------------------
181# Lowercase forms and sentence-initial capitalised neo-pronouns must still
182# be tagged; only mid-sentence uppercase ambiguous forms are suppressed.
183
184# foundry = base
185# filename = TEST/gender/000016/base/tokens.xml
186# text_id = GENDER_TEST.000016
187# text = dankte el und em für ey und y
1881 dankte _ VERB VVFIN _ _ _ _ _
1892 el _ _ _ _ _ _ _ _
1903 und _ CCONJ KON _ _ _ _ _
1914 em _ _ _ _ _ _ _ _
1925 für _ ADP APPR _ _ _ _ _
1936 ey _ _ _ _ _ _ _ _
1947 und _ CCONJ KON _ _ _ _ _
1958 y _ _ _ _ _ _ _ _
196
197# foundry = base
198# filename = TEST/gender/000017/base/tokens.xml
199# text_id = GENDER_TEST.000017
200# text = mensch fragte und Mensch antwortete
2011 Mensch _ _ _ _ _ _ _ _
2022 fragte _ VERB VVFIN _ _ _ _ _
2033 und _ CCONJ KON _ _ _ _ _
2044 Mensch _ NOUN NN _ _ _ _ _
2055 antwortete _ VERB VVFIN _ _ _ _ _
206
207# foundry = base
208# filename = TEST/gender/000018/base/tokens.xml
209# text_id = GENDER_TEST.000018
210# text = Mensch traf xier
2111 Mensch _ _ _ _ _ _ _ _
2122 traf _ VERB VVFIN _ _ _ _ _
2133 xier _ _ _ _ _ _ _ _
214
Marc Kupietzacf31202026-03-10 09:24:28 +0100215# foundry = base
216# filename = TEST/gender/000019/base/tokens.xml
217# text_id = GENDER_TEST.000019
218# text = Müller et al. berichten über neue Befunde
2191 Müller _ NOUN NN _ _ _ _ _
2202 et _ PART PTKA _ _ _ _ _
2213 al. _ NOUN NN _ _ _ _ _
2224 berichten _ VERB VVFIN _ _ _ _ _
2235 über _ ADP APPR _ _ _ _ _
2246 neue _ ADJ ADJA _ _ _ _ _
2257 Befunde _ NOUN NN _ _ _ _ _
226
227# foundry = base
228# filename = TEST/gender/000020/base/tokens.xml
229# text_id = GENDER_TEST.000020
230# text = "their results confirmed the hypothesis"
2311 " _ PUNCT $( _ _ _ _ _
2322 their _ PRON PPER _ _ _ _ _
2333 results _ NOUN NN _ _ _ _ _
2344 confirmed _ VERB VVFIN _ _ _ _ _
2355 the _ DET ART _ _ _ _ _
2366 hypothesis _ NOUN NN _ _ _ _ _
2377 " _ PUNCT $( _ _ _ _ _
238