| Marc Kupietz | b777f9d | 2026-03-07 09:26:20 +0100 | [diff] [blame] | 1 | # foundry = base |
| 2 | # filename = TEST/gender/000001/base/tokens.xml |
| 3 | # text_id = GENDER_TEST.000001 |
| 4 | # text = Im Prinzip kann jede*r Bürger*in die Umbenennung beantragen |
| 5 | 1 Im _ ADP APPRART _ _ _ _ _ |
| 6 | 2 Prinzip _ NOUN NN _ _ _ _ _ |
| 7 | 3 kann _ AUX VMFIN _ _ _ _ _ |
| 8 | 4 jede*r _ DET PIAT _ _ _ _ _ |
| 9 | 5 Bürger*in _ NOUN NN _ _ _ _ _ |
| 10 | 6 die _ DET ART _ _ _ _ _ |
| 11 | 7 Umbenennung _ NOUN NN _ _ _ _ _ |
| 12 | 8 beantragen _ VERB VVINF _ _ _ _ _ |
| 13 | |
| 14 | # foundry = base |
| 15 | # filename = TEST/gender/000002/base/tokens.xml |
| 16 | # text_id = GENDER_TEST.000002 |
| 17 | # text = Die Tests sind freiwillig, jede*r SchülerIn hat Anspruch auf kostenlose Tests |
| 18 | 1 Die _ DET ART _ _ _ _ _ |
| 19 | 2 Tests _ NOUN NN _ _ _ _ _ |
| 20 | 3 sind _ AUX VAFIN _ _ _ _ _ |
| 21 | 4 freiwillig _ ADJ ADJD _ _ _ _ _ |
| 22 | 5 , _ PUNCT $, _ _ _ _ _ |
| 23 | 6 jede*r _ DET PIAT _ _ _ _ _ |
| 24 | 7 SchülerIn _ NOUN NN _ _ _ _ _ |
| 25 | 8 hat _ AUX VAFIN _ _ _ _ _ |
| 26 | 9 Anspruch _ NOUN NN _ _ _ _ _ |
| 27 | 10 auf _ ADP APPR _ _ _ _ _ |
| 28 | 11 kostenlose _ ADJ ADJA _ _ _ _ _ |
| 29 | 12 Tests _ NOUN NN _ _ _ _ _ |
| 30 | |
| 31 | # foundry = base |
| 32 | # filename = TEST/gender/000003/base/tokens.xml |
| 33 | # text_id = GENDER_TEST.000003 |
| 34 | # text = Als Kinder- und Jugendpsychiater*in ist sie bekannt |
| 35 | 1 Als _ ADP APPR _ _ _ _ _ |
| 36 | 2 Kinder- _ NOUN NN _ _ _ _ _ |
| 37 | 3 und _ CCONJ KON _ _ _ _ _ |
| 38 | 4 Jugendpsychiater*in _ _ _ _ _ _ _ _ |
| 39 | 5 ist _ AUX VAFIN _ _ _ _ _ |
| 40 | 6 sie _ PRON PPER _ _ _ _ _ |
| 41 | 7 bekannt _ ADJ ADJD _ _ _ _ _ |
| 42 | |
| 43 | # foundry = base |
| 44 | # filename = TEST/gender/000004/base/tokens.xml |
| 45 | # text_id = GENDER_TEST.000004 |
| 46 | # text = Wir suchen eine*n begeisterte*n Nachfolger*in, als Anhänger:in linker Ideen |
| 47 | 1 Wir _ PRON PPER _ _ _ _ _ |
| 48 | 2 suchen _ VERB VVFIN _ _ _ _ _ |
| 49 | 3 eine*n _ DET ART _ _ _ _ _ |
| 50 | 4 begeisterte*n _ ADJ ADJA _ _ _ _ _ |
| 51 | 5 Nachfolger*in _ _ _ _ _ _ _ _ |
| 52 | 6 , _ PUNCT $, _ _ _ _ _ |
| 53 | 7 als _ ADP APPR _ _ _ _ _ |
| 54 | 8 Anhänger:in _ _ _ _ _ _ _ _ |
| 55 | 9 linker _ ADJ ADJA _ _ _ _ _ |
| 56 | 10 Ideen _ NOUN NN _ _ _ _ _ |
| 57 | |
| 58 | # foundry = base |
| 59 | # filename = TEST/gender/000005/base/tokens.xml |
| 60 | # text_id = GENDER_TEST.000005 |
| 61 | # text = Fachärzt*innen, Lehrer:innen und Autor_innen schreiben |
| 62 | 1 Fachärzt*innen _ _ _ _ _ _ _ _ |
| 63 | 2 , _ PUNCT $, _ _ _ _ _ |
| 64 | 3 Lehrer:innen _ _ _ _ _ _ _ _ |
| 65 | 4 und _ CCONJ KON _ _ _ _ _ |
| 66 | 5 Autor_innen _ _ _ _ _ _ _ _ |
| 67 | 6 schreiben _ VERB VVFIN _ _ _ _ _ |
| 68 | |
| 69 | # foundry = base |
| 70 | # filename = TEST/gender/000006/base/tokens.xml |
| 71 | # text_id = GENDER_TEST.000006 |
| 72 | # text = LehrerInnen, Schüler(innen) und Autor/innen lesen |
| 73 | 1 LehrerInnen _ _ _ _ _ _ _ _ |
| 74 | 2 , _ PUNCT $, _ _ _ _ _ |
| 75 | 3 Schüler(innen) _ _ _ _ _ _ _ _ |
| 76 | 4 und _ CCONJ KON _ _ _ _ _ |
| 77 | 5 Autor/innen _ _ _ _ _ _ _ _ |
| 78 | 6 lesen _ VERB VVFIN _ _ _ _ _ |
| 79 | |
| 80 | # foundry = base |
| 81 | # filename = TEST/gender/000007/base/tokens.xml |
| 82 | # text_id = GENDER_TEST.000007 |
| 83 | # text = die*der Antragssteller*in schreibt jede:r Wirt:in |
| 84 | 1 die*der _ DET ART _ _ _ _ _ |
| 85 | 2 Antragssteller*in _ _ _ _ _ _ _ _ |
| 86 | 3 schreibt _ VERB VVFIN _ _ _ _ _ |
| 87 | 4 jede:r _ DET PIAT _ _ _ _ _ |
| 88 | 5 Wirt:in _ _ _ _ _ _ _ _ |
| 89 | |
| 90 | # foundry = base |
| 91 | # filename = TEST/gender/000008/base/tokens.xml |
| 92 | # text_id = GENDER_TEST.000008 |
| 93 | # text = sie*er schrieb Menschenrechtsanwält:innen |
| 94 | 1 sie*er _ _ _ _ _ _ _ _ |
| 95 | 2 schrieb _ VERB VVFIN _ _ _ _ _ |
| 96 | 3 Menschenrechtsanwält:innen _ _ _ _ _ _ _ _ |
| 97 | |
| 98 | # foundry = base |
| 99 | # filename = TEST/gender/000009/base/tokens.xml |
| 100 | # text_id = GENDER_TEST.000009 |
| 101 | # text = ohne jedEn ZeugIn sprach die Generalstaatsanwält*in |
| 102 | 1 ohne _ ADP APPR _ _ _ _ _ |
| 103 | 2 jedEn _ DET PIAT _ _ _ _ _ |
| 104 | 3 ZeugIn _ _ _ _ _ _ _ _ |
| 105 | 4 sprach _ VERB VVFIN _ _ _ _ _ |
| 106 | 5 die _ DET ART _ _ _ _ _ |
| 107 | 6 Generalstaatsanwält*in _ _ _ _ _ _ _ _ |
| 108 | |
| 109 | # foundry = base |
| 110 | # filename = TEST/gender/000010/base/tokens.xml |
| 111 | # text_id = GENDER_TEST.000010 |
| 112 | # text = Autor/-innen und Spieler/-innen lasen |
| 113 | 1 Autor/-innen _ _ _ _ _ _ _ _ |
| 114 | 2 und _ CCONJ KON _ _ _ _ _ |
| 115 | 3 Spieler/-innen _ _ _ _ _ _ _ _ |
| 116 | 4 lasen _ VERB VVFIN _ _ _ _ _ |
| 117 | |
| Marc Kupietz | 1a9f16e | 2026-03-07 09:50:55 +0100 | [diff] [blame] | 118 | # foundry = base |
| 119 | # filename = TEST/gender/000011/base/tokens.xml |
| 120 | # text_id = GENDER_TEST.000011 |
| 121 | # text = sier trifft xier jeden Tag |
| 122 | 1 sier _ _ _ _ _ _ _ _ |
| 123 | 2 trifft _ VERB VVFIN _ _ _ _ _ |
| 124 | 3 xier _ _ _ _ _ _ _ _ |
| 125 | 4 jeden _ DET PIAT _ _ _ _ _ |
| 126 | 5 Tag _ NOUN NN _ _ _ _ _ |
| 127 | |
| 128 | # foundry = base |
| 129 | # filename = TEST/gender/000012/base/tokens.xml |
| 130 | # text_id = GENDER_TEST.000012 |
| 131 | # text = oj dankte el und hen für die Hilfe |
| 132 | 1 oj _ _ _ _ _ _ _ _ |
| 133 | 2 dankte _ VERB VVFIN _ _ _ _ _ |
| 134 | 3 el _ _ _ _ _ _ _ _ |
| 135 | 4 und _ CCONJ KON _ _ _ _ _ |
| 136 | 5 hen _ _ _ _ _ _ _ _ |
| 137 | 6 für _ ADP APPR _ _ _ _ _ |
| 138 | 7 die _ DET ART _ _ _ _ _ |
| 139 | 8 Hilfe _ NOUN NN _ _ _ _ _ |
| 140 | |
| Marc Kupietz | d2b9279 | 2026-03-10 08:11:06 +0100 | [diff] [blame^] | 141 | # --- Regression tests: false-positive prevention -------------------------- |
| 142 | # Tokens *, Y, per, EL, EM, Ey, sin must NOT be tagged as neo-pronouns when |
| 143 | # they appear mid-sentence in uppercase or are known false positives. |
| 144 | |
| 145 | # foundry = base |
| 146 | # filename = TEST/gender/000013/base/tokens.xml |
| 147 | # text_id = GENDER_TEST.000013 |
| 148 | # text = Hinweis auf * und Y sowie per Einschreiben |
| 149 | 1 Hinweis _ NOUN NN _ _ _ _ _ |
| 150 | 2 auf _ ADP APPR _ _ _ _ _ |
| 151 | 3 * _ PUNCT $( _ _ _ _ _ |
| 152 | 4 und _ CCONJ KON _ _ _ _ _ |
| 153 | 5 Y _ NOUN NN _ _ _ _ _ |
| 154 | 6 sowie _ CCONJ KON _ _ _ _ _ |
| 155 | 7 per _ ADP APPR _ _ _ _ _ |
| 156 | 8 Einschreiben _ NOUN NN _ _ _ _ _ |
| 157 | |
| 158 | # foundry = base |
| 159 | # filename = TEST/gender/000014/base/tokens.xml |
| 160 | # text_id = GENDER_TEST.000014 |
| 161 | # text = Verweise auf EL EM Ey sin im Text |
| 162 | 1 Verweise _ NOUN NN _ _ _ _ _ |
| 163 | 2 auf _ ADP APPR _ _ _ _ _ |
| 164 | 3 EL _ NOUN NN _ _ _ _ _ |
| 165 | 4 EM _ NOUN NN _ _ _ _ _ |
| 166 | 5 Ey _ ITJ ITJ _ _ _ _ _ |
| 167 | 6 sin _ NOUN NN _ _ _ _ _ |
| 168 | 7 im _ ADP APPRART _ _ _ _ _ |
| 169 | 8 Text _ NOUN NN _ _ _ _ _ |
| 170 | |
| 171 | # foundry = base |
| 172 | # filename = TEST/gender/000015/base/tokens.xml |
| 173 | # text_id = GENDER_TEST.000015 |
| 174 | # text = Jeder Mensch hat Würde |
| 175 | 1 Jeder _ DET PIAT _ _ _ _ _ |
| 176 | 2 Mensch _ NOUN NN _ _ _ _ _ |
| 177 | 3 hat _ AUX VAFIN _ _ _ _ _ |
| 178 | 4 Würde _ NOUN NN _ _ _ _ _ |
| 179 | |
| 180 | # --- Regression tests: correct neo-pronoun recognition ------------------- |
| 181 | # Lowercase forms and sentence-initial capitalised neo-pronouns must still |
| 182 | # be tagged; only mid-sentence uppercase ambiguous forms are suppressed. |
| 183 | |
| 184 | # foundry = base |
| 185 | # filename = TEST/gender/000016/base/tokens.xml |
| 186 | # text_id = GENDER_TEST.000016 |
| 187 | # text = dankte el und em für ey und y |
| 188 | 1 dankte _ VERB VVFIN _ _ _ _ _ |
| 189 | 2 el _ _ _ _ _ _ _ _ |
| 190 | 3 und _ CCONJ KON _ _ _ _ _ |
| 191 | 4 em _ _ _ _ _ _ _ _ |
| 192 | 5 für _ ADP APPR _ _ _ _ _ |
| 193 | 6 ey _ _ _ _ _ _ _ _ |
| 194 | 7 und _ CCONJ KON _ _ _ _ _ |
| 195 | 8 y _ _ _ _ _ _ _ _ |
| 196 | |
| 197 | # foundry = base |
| 198 | # filename = TEST/gender/000017/base/tokens.xml |
| 199 | # text_id = GENDER_TEST.000017 |
| 200 | # text = mensch fragte und Mensch antwortete |
| 201 | 1 Mensch _ _ _ _ _ _ _ _ |
| 202 | 2 fragte _ VERB VVFIN _ _ _ _ _ |
| 203 | 3 und _ CCONJ KON _ _ _ _ _ |
| 204 | 4 Mensch _ NOUN NN _ _ _ _ _ |
| 205 | 5 antwortete _ VERB VVFIN _ _ _ _ _ |
| 206 | |
| 207 | # foundry = base |
| 208 | # filename = TEST/gender/000018/base/tokens.xml |
| 209 | # text_id = GENDER_TEST.000018 |
| 210 | # text = Mensch traf xier |
| 211 | 1 Mensch _ _ _ _ _ _ _ _ |
| 212 | 2 traf _ VERB VVFIN _ _ _ _ _ |
| 213 | 3 xier _ _ _ _ _ _ _ _ |
| 214 | |