| # foundry = base |
| # filename = TEST/gender/000001/base/tokens.xml |
| # text_id = GENDER_TEST.000001 |
| # text = Im Prinzip kann jede*r Bürger*in die Umbenennung beantragen |
| 1 Im _ ADP APPRART _ _ _ _ _ |
| 2 Prinzip _ NOUN NN _ _ _ _ _ |
| 3 kann _ AUX VMFIN _ _ _ _ _ |
| 4 jede*r _ DET PIAT _ _ _ _ _ |
| 5 Bürger*in _ NOUN NN _ _ _ _ _ |
| 6 die _ DET ART _ _ _ _ _ |
| 7 Umbenennung _ NOUN NN _ _ _ _ _ |
| 8 beantragen _ VERB VVINF _ _ _ _ _ |
| |
| # foundry = base |
| # filename = TEST/gender/000002/base/tokens.xml |
| # text_id = GENDER_TEST.000002 |
| # text = Die Tests sind freiwillig, jede*r SchülerIn hat Anspruch auf kostenlose Tests |
| 1 Die _ DET ART _ _ _ _ _ |
| 2 Tests _ NOUN NN _ _ _ _ _ |
| 3 sind _ AUX VAFIN _ _ _ _ _ |
| 4 freiwillig _ ADJ ADJD _ _ _ _ _ |
| 5 , _ PUNCT $, _ _ _ _ _ |
| 6 jede*r _ DET PIAT _ _ _ _ _ |
| 7 SchülerIn _ NOUN NN _ _ _ _ _ |
| 8 hat _ AUX VAFIN _ _ _ _ _ |
| 9 Anspruch _ NOUN NN _ _ _ _ _ |
| 10 auf _ ADP APPR _ _ _ _ _ |
| 11 kostenlose _ ADJ ADJA _ _ _ _ _ |
| 12 Tests _ NOUN NN _ _ _ _ _ |
| |
| # foundry = base |
| # filename = TEST/gender/000003/base/tokens.xml |
| # text_id = GENDER_TEST.000003 |
| # text = Als Kinder- und Jugendpsychiater*in ist sie bekannt |
| 1 Als _ ADP APPR _ _ _ _ _ |
| 2 Kinder- _ NOUN NN _ _ _ _ _ |
| 3 und _ CCONJ KON _ _ _ _ _ |
| 4 Jugendpsychiater*in _ _ _ _ _ _ _ _ |
| 5 ist _ AUX VAFIN _ _ _ _ _ |
| 6 sie _ PRON PPER _ _ _ _ _ |
| 7 bekannt _ ADJ ADJD _ _ _ _ _ |
| |
| # foundry = base |
| # filename = TEST/gender/000004/base/tokens.xml |
| # text_id = GENDER_TEST.000004 |
| # text = Wir suchen eine*n begeisterte*n Nachfolger*in, als Anhänger:in linker Ideen |
| 1 Wir _ PRON PPER _ _ _ _ _ |
| 2 suchen _ VERB VVFIN _ _ _ _ _ |
| 3 eine*n _ DET ART _ _ _ _ _ |
| 4 begeisterte*n _ ADJ ADJA _ _ _ _ _ |
| 5 Nachfolger*in _ _ _ _ _ _ _ _ |
| 6 , _ PUNCT $, _ _ _ _ _ |
| 7 als _ ADP APPR _ _ _ _ _ |
| 8 Anhänger:in _ _ _ _ _ _ _ _ |
| 9 linker _ ADJ ADJA _ _ _ _ _ |
| 10 Ideen _ NOUN NN _ _ _ _ _ |
| |
| # foundry = base |
| # filename = TEST/gender/000005/base/tokens.xml |
| # text_id = GENDER_TEST.000005 |
| # text = Fachärzt*innen, Lehrer:innen und Autor_innen schreiben |
| 1 Fachärzt*innen _ _ _ _ _ _ _ _ |
| 2 , _ PUNCT $, _ _ _ _ _ |
| 3 Lehrer:innen _ _ _ _ _ _ _ _ |
| 4 und _ CCONJ KON _ _ _ _ _ |
| 5 Autor_innen _ _ _ _ _ _ _ _ |
| 6 schreiben _ VERB VVFIN _ _ _ _ _ |
| |
| # foundry = base |
| # filename = TEST/gender/000006/base/tokens.xml |
| # text_id = GENDER_TEST.000006 |
| # text = LehrerInnen, Schüler(innen) und Autor/innen lesen |
| 1 LehrerInnen _ _ _ _ _ _ _ _ |
| 2 , _ PUNCT $, _ _ _ _ _ |
| 3 Schüler(innen) _ _ _ _ _ _ _ _ |
| 4 und _ CCONJ KON _ _ _ _ _ |
| 5 Autor/innen _ _ _ _ _ _ _ _ |
| 6 lesen _ VERB VVFIN _ _ _ _ _ |
| |
| # foundry = base |
| # filename = TEST/gender/000007/base/tokens.xml |
| # text_id = GENDER_TEST.000007 |
| # text = die*der Antragssteller*in schreibt jede:r Wirt:in |
| 1 die*der _ DET ART _ _ _ _ _ |
| 2 Antragssteller*in _ _ _ _ _ _ _ _ |
| 3 schreibt _ VERB VVFIN _ _ _ _ _ |
| 4 jede:r _ DET PIAT _ _ _ _ _ |
| 5 Wirt:in _ _ _ _ _ _ _ _ |
| |
| # foundry = base |
| # filename = TEST/gender/000008/base/tokens.xml |
| # text_id = GENDER_TEST.000008 |
| # text = sie*er schrieb Menschenrechtsanwält:innen |
| 1 sie*er _ _ _ _ _ _ _ _ |
| 2 schrieb _ VERB VVFIN _ _ _ _ _ |
| 3 Menschenrechtsanwält:innen _ _ _ _ _ _ _ _ |
| |
| # foundry = base |
| # filename = TEST/gender/000009/base/tokens.xml |
| # text_id = GENDER_TEST.000009 |
| # text = ohne jedEn ZeugIn sprach die Generalstaatsanwält*in |
| 1 ohne _ ADP APPR _ _ _ _ _ |
| 2 jedEn _ DET PIAT _ _ _ _ _ |
| 3 ZeugIn _ _ _ _ _ _ _ _ |
| 4 sprach _ VERB VVFIN _ _ _ _ _ |
| 5 die _ DET ART _ _ _ _ _ |
| 6 Generalstaatsanwält*in _ _ _ _ _ _ _ _ |
| |
| # foundry = base |
| # filename = TEST/gender/000010/base/tokens.xml |
| # text_id = GENDER_TEST.000010 |
| # text = Autor/-innen und Spieler/-innen lasen |
| 1 Autor/-innen _ _ _ _ _ _ _ _ |
| 2 und _ CCONJ KON _ _ _ _ _ |
| 3 Spieler/-innen _ _ _ _ _ _ _ _ |
| 4 lasen _ VERB VVFIN _ _ _ _ _ |
| |
| # foundry = base |
| # filename = TEST/gender/000011/base/tokens.xml |
| # text_id = GENDER_TEST.000011 |
| # text = sier trifft xier jeden Tag |
| 1 sier _ _ _ _ _ _ _ _ |
| 2 trifft _ VERB VVFIN _ _ _ _ _ |
| 3 xier _ _ _ _ _ _ _ _ |
| 4 jeden _ DET PIAT _ _ _ _ _ |
| 5 Tag _ NOUN NN _ _ _ _ _ |
| |
| # foundry = base |
| # filename = TEST/gender/000012/base/tokens.xml |
| # text_id = GENDER_TEST.000012 |
| # text = oj dankte el und hen für die Hilfe |
| 1 oj _ _ _ _ _ _ _ _ |
| 2 dankte _ VERB VVFIN _ _ _ _ _ |
| 3 el _ _ _ _ _ _ _ _ |
| 4 und _ CCONJ KON _ _ _ _ _ |
| 5 hen _ _ _ _ _ _ _ _ |
| 6 für _ ADP APPR _ _ _ _ _ |
| 7 die _ DET ART _ _ _ _ _ |
| 8 Hilfe _ NOUN NN _ _ _ _ _ |
| |
| # --- Regression tests: false-positive prevention -------------------------- |
| # Tokens *, Y, per, EL, EM, Ey, sin must NOT be tagged as neo-pronouns when |
| # they appear mid-sentence in uppercase or are known false positives. |
| |
| # foundry = base |
| # filename = TEST/gender/000013/base/tokens.xml |
| # text_id = GENDER_TEST.000013 |
| # text = Hinweis auf * und Y sowie per Einschreiben |
| 1 Hinweis _ NOUN NN _ _ _ _ _ |
| 2 auf _ ADP APPR _ _ _ _ _ |
| 3 * _ PUNCT $( _ _ _ _ _ |
| 4 und _ CCONJ KON _ _ _ _ _ |
| 5 Y _ NOUN NN _ _ _ _ _ |
| 6 sowie _ CCONJ KON _ _ _ _ _ |
| 7 per _ ADP APPR _ _ _ _ _ |
| 8 Einschreiben _ NOUN NN _ _ _ _ _ |
| |
| # foundry = base |
| # filename = TEST/gender/000014/base/tokens.xml |
| # text_id = GENDER_TEST.000014 |
| # text = Verweise auf EL EM Ey sin im Text |
| 1 Verweise _ NOUN NN _ _ _ _ _ |
| 2 auf _ ADP APPR _ _ _ _ _ |
| 3 EL _ NOUN NN _ _ _ _ _ |
| 4 EM _ NOUN NN _ _ _ _ _ |
| 5 Ey _ ITJ ITJ _ _ _ _ _ |
| 6 sin _ NOUN NN _ _ _ _ _ |
| 7 im _ ADP APPRART _ _ _ _ _ |
| 8 Text _ NOUN NN _ _ _ _ _ |
| |
| # foundry = base |
| # filename = TEST/gender/000015/base/tokens.xml |
| # text_id = GENDER_TEST.000015 |
| # text = Jeder Mensch hat Würde |
| 1 Jeder _ DET PIAT _ _ _ _ _ |
| 2 Mensch _ NOUN NN _ _ _ _ _ |
| 3 hat _ AUX VAFIN _ _ _ _ _ |
| 4 Würde _ NOUN NN _ _ _ _ _ |
| |
| # --- Regression tests: correct neo-pronoun recognition ------------------- |
| # Lowercase forms and sentence-initial capitalised neo-pronouns must still |
| # be tagged; only mid-sentence uppercase ambiguous forms are suppressed. |
| |
| # foundry = base |
| # filename = TEST/gender/000016/base/tokens.xml |
| # text_id = GENDER_TEST.000016 |
| # text = dankte el und em für ey und y |
| 1 dankte _ VERB VVFIN _ _ _ _ _ |
| 2 el _ _ _ _ _ _ _ _ |
| 3 und _ CCONJ KON _ _ _ _ _ |
| 4 em _ _ _ _ _ _ _ _ |
| 5 für _ ADP APPR _ _ _ _ _ |
| 6 ey _ _ _ _ _ _ _ _ |
| 7 und _ CCONJ KON _ _ _ _ _ |
| 8 y _ _ _ _ _ _ _ _ |
| |
| # foundry = base |
| # filename = TEST/gender/000017/base/tokens.xml |
| # text_id = GENDER_TEST.000017 |
| # text = mensch fragte und Mensch antwortete |
| 1 Mensch _ _ _ _ _ _ _ _ |
| 2 fragte _ VERB VVFIN _ _ _ _ _ |
| 3 und _ CCONJ KON _ _ _ _ _ |
| 4 Mensch _ NOUN NN _ _ _ _ _ |
| 5 antwortete _ VERB VVFIN _ _ _ _ _ |
| |
| # foundry = base |
| # filename = TEST/gender/000018/base/tokens.xml |
| # text_id = GENDER_TEST.000018 |
| # text = Mensch traf xier |
| 1 Mensch _ _ _ _ _ _ _ _ |
| 2 traf _ VERB VVFIN _ _ _ _ _ |
| 3 xier _ _ _ _ _ _ _ _ |
| |
| # foundry = base |
| # filename = TEST/gender/000019/base/tokens.xml |
| # text_id = GENDER_TEST.000019 |
| # text = Müller et al. berichten über neue Befunde |
| 1 Müller _ NOUN NN _ _ _ _ _ |
| 2 et _ PART PTKA _ _ _ _ _ |
| 3 al. _ NOUN NN _ _ _ _ _ |
| 4 berichten _ VERB VVFIN _ _ _ _ _ |
| 5 über _ ADP APPR _ _ _ _ _ |
| 6 neue _ ADJ ADJA _ _ _ _ _ |
| 7 Befunde _ NOUN NN _ _ _ _ _ |
| |
| # foundry = base |
| # filename = TEST/gender/000020/base/tokens.xml |
| # text_id = GENDER_TEST.000020 |
| # text = "their results confirmed the hypothesis" |
| 1 " _ PUNCT $( _ _ _ _ _ |
| 2 their _ PRON PPER _ _ _ _ _ |
| 3 results _ NOUN NN _ _ _ _ _ |
| 4 confirmed _ VERB VVFIN _ _ _ _ _ |
| 5 the _ DET ART _ _ _ _ _ |
| 6 hypothesis _ NOUN NN _ _ _ _ _ |
| 7 " _ PUNCT $( _ _ _ _ _ |
| |