Blame - src/index.js - KorAP/conllu-gender - Gitiles

blob: cbc0953286415bcb371db420096d64cc002be01d [file] [log] [blame]

Marc Kupietz	b777f9d	2026-03-07 09:26:20 +0100	[diff] [blame]	1	#!/usr/bin/env node
				2
				3	// conllu-gender
				4	// Reads CoNLL-U format from stdin and annotates German gender-sensitive personal
				5	// nouns, gendered determiners/pronouns, and neo-pronouns with correct POS (UPOS
				6	// and XPOS/STTS), lemma, and morphological features.
				7	//
				8	// Based on the morphosyntactic analysis in:
				9	// Ochs, S. (2026). Die morphosyntaktische Integration neuer Gendersuffixe:
				10	// Eine korpusbasierte Analyse deutschsprachiger Pressetexte.
				11	// Gender Linguistics, 2. doi: https://doi.org/10.65020/0619d927
				12	//
				13	// Gender marker types (following Ochs & Rüdiger 2025):
				14	// Non-binary intended: Genderstern (*), Doppelpunkt (:), Unterstrich (_)
				15	// Binary intended: Binnen-I (I), Klammern (()), Schrägstrich (/)
				16
				17	// ---------------------------------------------------------------------------
				18	// Regex patterns for gender-sensitive NOUNS
				19	// ---------------------------------------------------------------------------
				20	// Each regex captures: (base, marker, suffix)
				21	// suffix is either 'in' (singular) or 'innen' (plural)
				22
				23	// Genderstern: Lehrerin, Bürgerinnen, Ärzt*innen
				24	const nounGenderStarRegex = /^(.+)\*(in(?:nen)?)$/i;
				25	// Doppelpunkt: Lehrer:in, Bürger:innen
				26	const nounGenderColonRegex = /^(.+):(in(?:nen)?)$/i;
				27	// Unterstrich: Lehrer_in, Bürger_innen
				28	const nounGenderUnderscoreRegex = /^(.+)_(in(?:nen)?)$/i;
				29	// Binnen-I: LehrerIn, LehrerInnen (case-sensitive – the I is uppercase)
				30	// The base must end in a lowercase letter to avoid matching regular proper nouns
				31	// that start a sentence. We require at least one lowercase letter before the I.
				32	const nounBinnenIRegex = /^([A-ZÄÖÜ][a-zäöüß].*?[a-zäöüß])(In(?:nen)?)$/;
				33	// Klammern: Lehrer(in), Lehrer(innen)
				34	const nounKlammernRegex = /^(.+)\((in(?:nen)?)\)$/i;
				35	// Schrägstrich: Lehrer/in, Lehrer/innen, Lehrer/-in, Lehrer/-innen
				36	const nounSchraegstrichRegex = /^(.+)\/-?(in(?:nen)?)$/i;
				37
				38	// ---------------------------------------------------------------------------
				39	// Regex patterns for gender-sensitive DETERMINERS / PRONOUNS
				40	// (jeder, eine, derdie, desr, eines*r, etc.)
				41	// ---------------------------------------------------------------------------
				42	// Inflected forms of articles, indefinite articles, and pronouns with gender
				43	// markers. Non-binary intended markers (*, :, _) are the most common.
				44	// We match: any known determiner/pronoun stem + gender_marker + ending
				45
				46	// Gendered forms like: jeder, jede:r, jede_r, keine, kein:e, ein*e, ein:e,
				47	// ein_e, derdie, dieder, desr, desder, demder, dendie, etc.
				48	// Strategy: match known Determiner/Pronoun base forms followed by gender marker
				49	// and a short inflectional ending.
				50
				51	// Combined pattern: known pronoun/det base + non-binary marker + short ending
				52	// This covers forms documented in Ochs (2026) §7.3.2–7.3.4
				53	const detNonBinaryRegex = /^(jede[mn]?\|jede[rs]?\|keine?[mrns]?\|eine?[mrns]?\|de[mrns]\|die\|das\|de[rs]\|dem\|den\|aller?\|manche[mrns]?\|solche[mrns]?\|welche[mrns]?\|irgendeine[mrns]?)([*:_])([a-zäöürs]{1,3})$/i;
				54
				55	// Binnen-I variants of determiners: einE, jedeR, jedeN, JedeR, etc.
				56	// Base (lowercase or title-case) + uppercase inflection letter(s)
				57	const detBinnenIRegex = /^(jede[mn]?\|keine?[mrns]?\|eine?[mrns]?\|alle?\|manche?\|solche?\|welche?)([RNSEM]{1,2})$/;
				58
				59	// Doppelform determiners merged with Schrägstrich (the only binary-intended merge
				60	// character for articles per Ochs 2026): ein/e, die/der, einen/r, etc.
				61	// Non-binary markers (*, :, _) are handled by detNonBinaryRegex with Gender=NonBin.
				62	const detDoppelformRegex = /^(der\|die\|das\|dem\|den\|des\|ein\|eine\|einen\|einem\|einer\|eines)\/(der\|die\|das\|dem\|den\|des\|ein\|eine\|einen\|einem\|einer\|eines\|[rns])$/i;
				63
				64	// ---------------------------------------------------------------------------
				65	// Neo-pronouns (new gender-neutral pronouns in German)
				66	// ---------------------------------------------------------------------------
				67	// Gendered-star pronoun pairs (sieer, ersie, ihr*sein, etc.)
				68	const neopronGenderStarPairRegex = /^(sie\|er\|ihr\|ihn?\|ihm?\|dich\|sich\|mich\|mir\|uns\|euch\|ihnen\|seinen?\|ihrem?\|deren?\|denen)([*:_])(sie\|er\|ihr\|ihn?\|ihm?\|dich\|sich\|mich\|mir\|uns\|euch\|ihnen\|seinen?\|ihrem?\|deren?\|denen)$/i;
				69
				70	// ---------------------------------------------------------------------------
Marc Kupietz	1a9f16e	2026-03-07 09:50:55 +0100	[diff] [blame]	71	// Neo-pronoun lexicon (source: pronomen.net/beliebige:neopronomen)
				72	// Maps lowercased surface form → { lemma, upos, xpos, feats }.
				73	//
				74	// Lemma: nominative form as listed on pronomen.net.
Marc Kupietz	b2068f4	2026-03-07 21:58:05 +0100	[diff] [blame]	75	// UPOS: PRON \| XPOS: PPER \| FEATS: Gender=Fem,Masc,NonBin\|PronType=Prs
Marc Kupietz	1a9f16e	2026-03-07 09:50:55 +0100	[diff] [blame]	76	//
				77	// Excluded (too ambiguous with standard German words):
				78	// 'dem' – dative definite article / demonstrative pronoun
				79	// 'deren' – relative/demonstrative genitive pronoun
				80	// 'denen' – relative/demonstrative dative pronoun
				81	// 'per' – common German preposition
				82	// 'pers' – excluded together with 'per'
				83	//
				84	// Shared/ambiguous oblique forms:
				85	// 'sier','siem','sien' – NOM/DAT/ACC of sier-paradigm; also GEN/DAT/ACC of
				86	// et/siem-paradigm (both annotated with lemma 'sier')
				87	// 'em' – NOM of em/em-paradigm; also DAT of el/em and en/em
				88	// 'ems' – GEN of both el/em and em/em (annotated as lemma 'em')
				89	// 'en' – NOM/ACC/DAT of en/en; NOM/ACC of en/em (lemma 'en')
				90	// 'ens' – GEN of en/em; also all forms of ens/ens (lemma 'ens')
				91	// ---------------------------------------------------------------------------
				92
				93	function neoPron(lemma) {
Marc Kupietz	b2068f4	2026-03-07 21:58:05 +0100	[diff] [blame]	94	return { lemma, upos: 'PRON', xpos: 'PPER', feats: 'Gender=Fem,Masc,NonBin\|PronType=Prs' };
Marc Kupietz	1a9f16e	2026-03-07 09:50:55 +0100	[diff] [blame]	95	}
				96
				97	const NEO_PRONOUN_FORMS = new Map([
				98	// ---- Verschmelzung (blend pronouns) ------------------------------------
				99	// sier/siem (NOM=sier, GEN=sies, DAT=siem, ACC=sien)
				100	['sier', neoPron('sier')],
				101	['sies', neoPron('sier')],
				102	['siem', neoPron('sier')],
				103	['sien', neoPron('sier')],
				104	// xier/xiem (NOM=xier, GEN=xies, DAT=xiem, ACC=xien)
				105	['xier', neoPron('xier')],
				106	['xies', neoPron('xier')],
				107	['xiem', neoPron('xier')],
				108	['xien', neoPron('xier')],
				109	// ersie/ihmihr (NOM=ersie, GEN=seinihr, DAT=ihmihr, ACC=ihnsie)
				110	['ersie', neoPron('ersie')],
				111	['seinihr', neoPron('ersie')],
				112	['ihmihr', neoPron('ersie')],
				113	['ihnsie', neoPron('ersie')],
				114
				115	// ---- They-ähnlich (they-like pronouns) ---------------------------------
				116	// dej/denen/dej (NOM=dej, GEN=deren, DAT=denen, ACC=dej)
				117	// 'deren' and 'denen' omitted (overlap with standard German pronouns)
				118	['dej', neoPron('dej')],
				119	// dey/denen/dem and dey/denen/demm (NOM=dey; 'dem' excluded)
				120	['dey', neoPron('dey')],
				121	['demm', neoPron('dey')], // ACC of dey/denen/demm
				122	// ey/emm (NOM=ey, GEN=eys, DAT=emm, ACC=emm)
				123	['ey', neoPron('ey')],
				124	['eys', neoPron('ey')],
				125	['emm', neoPron('ey')],
				126	// they/them (NOM=they, GEN=their, DAT=them, ACC=them)
				127	['they', neoPron('they')],
				128	['their', neoPron('they')],
				129	['them', neoPron('they')],
				130
				131	// ---- Neuer Stamm (new-stem pronouns) -----------------------------------
				132	// el/em (NOM=el, GEN=ems, DAT=em, ACC=en)
				133	// 'ems' mapped to 'em'-paradigm below; 'em'/'en' mapped to their own NOM paradigms
				134	['el', neoPron('el')],
				135	// em/em (NOM=em, GEN=ems, DAT=em, ACC=em)
				136	['em', neoPron('em')],
				137	['ems', neoPron('em')], // GEN shared with el/em paradigm
				138	// en/en (NOM=en, GEN=enses, DAT=en, ACC=en)
				139	// en/em (NOM=en, GEN=ens, DAT=em, ACC=en) — DAT 'em' mapped to em-paradigm
				140	['en', neoPron('en')],
				141	['enses', neoPron('en')],
				142	// ens/ens (NOM=ens, GEN=ens, DAT=ens, ACC=ens)
				143	// 'ens' takes priority as NOM of ens-paradigm (also GEN of en/em)
				144	['ens', neoPron('ens')],
				145	// et/siem (NOM=et, GEN=sier, DAT=siem, ACC=sien)
				146	// oblique forms 'sier'/'siem'/'sien' already mapped to sier-paradigm above
				147	['et', neoPron('et')],
				148	// ex/ex (all forms = ex)
				149	['ex', neoPron('ex')],
Marc Kupietz	d2b9279	2026-03-10 08:11:06 +0100	[diff] [blame^]	150	// hän/sim (NOM=hän, GEN=sir, DAT=sim, ACC=sim)
				151	// Note: ACC 'sin' is omitted — it frequently occurs in German texts as a Spanish
				152	// loan word (e.g. 'Chili sin Carne') and would cause too many false positives.
Marc Kupietz	1a9f16e	2026-03-07 09:50:55 +0100	[diff] [blame]	153	['hän', neoPron('hän')],
				154	['sir', neoPron('hän')],
				155	['sim', neoPron('hän')],
Marc Kupietz	1a9f16e	2026-03-07 09:50:55 +0100	[diff] [blame]	156	// hen/hem (NOM=hen, GEN=hens, DAT=hem, ACC=hen)
				157	['hen', neoPron('hen')],
				158	['hens', neoPron('hen')],
				159	['hem', neoPron('hen')],
				160	// hie/hiem (NOM=hie, GEN=hein, DAT=hiem, ACC=hie)
				161	['hie', neoPron('hie')],
				162	['hein', neoPron('hie')],
				163	['hiem', neoPron('hie')],
				164	// iks/iks (NOM=iks, GEN=ikses, DAT=iks, ACC=iks)
				165	['iks', neoPron('iks')],
				166	['ikses', neoPron('iks')],
				167	// ind/inde (NOM=ind, GEN=inds, DAT=inde, ACC=ind)
				168	['ind', neoPron('ind')],
				169	['inds', neoPron('ind')],
				170	['inde', neoPron('ind')],
				171	// mensch/mensch (NOM=mensch, GEN=menschs, DAT=mensch, ACC=mensch)
Marc Kupietz	d2b9279	2026-03-10 08:11:06 +0100	[diff] [blame^]	172	// Note: 'Mensch' (uppercase) is only tagged as a neo-pronoun when the token is
				173	// sentence-initial (tokenId === 1). Mid-sentence 'Mensch' is treated as the
				174	// common German noun. See lookup logic in classifyToken().
Marc Kupietz	1a9f16e	2026-03-07 09:50:55 +0100	[diff] [blame]	175	['mensch', neoPron('mensch')],
				176	['menschs', neoPron('mensch')],
				177	// nin/nim (NOM=nin, GEN=nims, DAT=nim, ACC=nin)
				178	['nin', neoPron('nin')],
				179	['nims', neoPron('nin')],
				180	['nim', neoPron('nin')],
				181	// oj/ojm (NOM=oj, GEN=juj, DAT=ojm, ACC=ojn)
				182	['oj', neoPron('oj')],
				183	['juj', neoPron('oj')],
				184	['ojm', neoPron('oj')],
				185	['ojn', neoPron('oj')],
				186	// per/per (all forms = per; GEN = pers)
Marc Kupietz	d2b9279	2026-03-10 08:11:06 +0100	[diff] [blame^]	187	// Excluded: 'per' is a common German preposition; 'pers' excluded together with it.
Marc Kupietz	1a9f16e	2026-03-07 09:50:55 +0100	[diff] [blame]	188	// ser/sem (NOM=ser, GEN=ses, DAT=sem, ACC=sen)
				189	['ser', neoPron('ser')],
				190	['ses', neoPron('ser')],
				191	['sem', neoPron('ser')],
				192	['sen', neoPron('ser')],
				193	// Y/Y (all forms = Y; GEN = Ys) — stored lowercase; lemma retains uppercase 'Y'
				194	['y', neoPron('Y')],
				195	['ys', neoPron('Y')],
				196	// zet/zerm (NOM=zet, GEN=zets, DAT=zerm, ACC=zern)
				197	['zet', neoPron('zet')],
				198	['zets', neoPron('zet')],
				199	['zerm', neoPron('zet')],
				200	['zern', neoPron('zet')],
				201	// / (Stern; all forms = ; GEN = s)
Marc Kupietz	d2b9279	2026-03-10 08:11:06 +0100	[diff] [blame^]	202	// Excluded: bare asterisk '*' causes too many false positives (e.g. list bullets,
				203	// Genderstern markers in noun forms). Not included in the lexicon.
Marc Kupietz	1a9f16e	2026-03-07 09:50:55 +0100	[diff] [blame]	204	]);
				205
				206	// ---------------------------------------------------------------------------
Marc Kupietz	b777f9d	2026-03-07 09:26:20 +0100	[diff] [blame]	207	// Helpers
				208	// ---------------------------------------------------------------------------
				209
				210	/**
				211	* Determine if a suffix string represents singular or plural.
				212	* 'in' (length 2) → Sing
				213	* 'innen' (length 5) → Plur
				214	* Works case-insensitively (In / Innen for Binnen-I forms).
				215	*/
				216	function getNumber(suffix) {
				217	return /^innen$/i.test(suffix) ? 'Plur' : 'Sing';
				218	}
				219
				220	/**
				221	* Build the canonical lemma for a gendered noun.
				222	* The lemma is always the nominative singular form, preserving the original
				223	* gender marker. This follows the convention that the lemma reflects the
				224	* citation form of the gendered derivate (Ochs 2026 §2).
				225	*
				226	* @param {string} base - derivation base (before the gender marker)
				227	* @param {string} marker - gender marker character(s), e.g. '*', ':', '_', 'I',
				228	* '(in)', '/in', etc.
				229	* @param {string} markerType - 'star'\|'colon'\|'underscore'\|'binnenI'\|
				230	* 'klammern'\|'schraegstrich'
				231	*/
				232	function buildNounLemma(base, marker, markerType) {
				233	switch (markerType) {
				234	case 'star': return base + '*in';
				235	case 'colon': return base + ':in';
				236	case 'underscore': return base + '_in';
				237	case 'binnenI': return base + 'In';
				238	case 'klammern': return base + '(in)';
				239	case 'schraegstrich':return base + '/in';
				240	default: return base + marker + 'in';
				241	}
				242	}
				243
				244	/**
				245	* Build the morphological features string for a gendered noun token.
				246	* Per CoNLL-U conventions, features are sorted alphabetically by feature name.
				247	*
				248	* Gender values used (extending standard UD practice for German):
				249	* NonBin – non-binary intended forms (*, :, _)
				250	* Masc,Fem – binary inclusive forms (I, (), /)
				251	*
				252	* Case is not set here because it cannot be determined from surface form alone
				253	* for the vast majority of gendered noun tokens (Ochs 2026 §7.1).
				254	*
				255	* @param {string} number - 'Sing' \| 'Plur'
				256	* @param {string} markerType - see buildNounLemma
				257	*/
				258	function buildNounFeatures(number, markerType) {
				259	const genderIsNonBinary = ['star', 'colon', 'underscore'].includes(markerType);
				260	const genderIsBinary = ['binnenI', 'klammern', 'schraegstrich'].includes(markerType);
				261
				262	const feats = [];
				263	if (genderIsNonBinary) {
Marc Kupietz	b2068f4	2026-03-07 21:58:05 +0100	[diff] [blame]	264	feats.push('Gender=Fem,Masc,NonBin');
Marc Kupietz	b777f9d	2026-03-07 09:26:20 +0100	[diff] [blame]	265	} else if (genderIsBinary) {
				266	feats.push('Gender=Masc,Fem');
				267	}
				268	feats.push('Number=' + number);
				269	return feats.join('\|');
				270	}
				271
				272	// ---------------------------------------------------------------------------
				273	// Command-line interface (mirrors conllu-cmc)
				274	// ---------------------------------------------------------------------------
				275
				276	const optionDefinitions = [
				277	{ name: 'sparse', alias: 's', type: Boolean,
				278	description: 'Print only the tokens that received new annotations.' },
				279	{ name: 'help', alias: 'h', type: Boolean,
				280	description: 'Print this usage guide.' },
				281	];
				282
				283	const sections = [
				284	{
				285	header: 'conllu-gender',
				286	content: 'Reads CoNLL-U format from stdin and annotates German gender-sensitive ' +
				287	'personal nouns, gendered determiners/pronouns, and neo-pronouns with ' +
				288	'correct POS, lemma, and morphological features. Writes CoNLL-U to stdout.'
				289	},
				290	{
				291	header: 'Synopsis',
				292	content: '$ conllu-gender [-s] < input.conllu > output.conllu'
				293	},
				294	{
				295	header: 'Options',
				296	optionList: optionDefinitions
				297	}
				298	];
				299
				300	const getUsage = require('command-line-usage');
				301	const commandLineArgs = require('command-line-args');
				302
				303	var options;
				304	try {
				305	options = commandLineArgs(optionDefinitions);
				306	} catch (e) {
				307	console.error(e.message);
				308	options = { help: true };
				309	}
				310
				311	if (options.help) {
				312	const usage = getUsage(sections);
				313	console.log(usage);
				314	process.exit(0);
				315	}
				316
				317	// ---------------------------------------------------------------------------
				318	// CoNLL-U processing
				319	// ---------------------------------------------------------------------------
				320
				321	const readline = require('readline');
				322	global.header = '';
				323	global.fileheader = '';
				324	global.standalone = false;
				325
				326	const rl = readline.createInterface({
				327	input: process.stdin,
				328	output: process.stdout,
				329	terminal: false,
				330	});
				331
				332	/**
				333	* Attempt to annotate a single CoNLL-U token (word form).
				334	* Returns an annotation object on success, or null if the token is not a
				335	* recognised gender-sensitive form.
				336	*
Marc Kupietz	d2b9279	2026-03-10 08:11:06 +0100	[diff] [blame^]	337	* @param {string} word - surface form of the token
				338	* @param {number} tokenId - 1-based position of the token in its sentence
				339	*
Marc Kupietz	b777f9d	2026-03-07 09:26:20 +0100	[diff] [blame]	340	* Annotation object shape:
				341	* { lemma, upos, xpos, feats }
				342	*/
Marc Kupietz	d2b9279	2026-03-10 08:11:06 +0100	[diff] [blame^]	343	function classifyToken(word, tokenId) {
Marc Kupietz	b777f9d	2026-03-07 09:26:20 +0100	[diff] [blame]	344	let m;
				345
				346	// ------------------------------------------------------------------
Marc Kupietz	d2b9279	2026-03-10 08:11:06 +0100	[diff] [blame^]	347	// 0. Neo-pronoun lexicon lookup
Marc Kupietz	1a9f16e	2026-03-07 09:50:55 +0100	[diff] [blame]	348	// ------------------------------------------------------------------
Marc Kupietz	d2b9279	2026-03-10 08:11:06 +0100	[diff] [blame^]	349	// To avoid false positives from capitalised abbreviations (EL, EM),
				350	// title-case exclamations (Ey), or common nouns (Mensch mid-sentence),
				351	// we only perform a case-insensitive lookup when:
				352	// a) the token is already lowercase, OR
				353	// b) it is sentence-initial (tokenId === 1), where capitalisation is
				354	// purely orthographic (e.g. 'Sier trifft xier').
				355	const lc = word.toLowerCase();
				356	let entry;
				357	if (word === lc \|\| tokenId === 1) {
				358	entry = NEO_PRONOUN_FORMS.get(lc);
				359	}
Marc Kupietz	1a9f16e	2026-03-07 09:50:55 +0100	[diff] [blame]	360	if (entry) return entry;
				361
				362	// ------------------------------------------------------------------
Marc Kupietz	b777f9d	2026-03-07 09:26:20 +0100	[diff] [blame]	363	// 1. Gender-sensitive NOUNS
				364	// ------------------------------------------------------------------
				365
				366	// Genderstern (non-binary intended)
				367	if ((m = nounGenderStarRegex.exec(word))) {
				368	const [, base, suffix] = m;
				369	const number = getNumber(suffix);
				370	return {
				371	lemma: buildNounLemma(base, '*', 'star'),
				372	upos: 'NOUN',
				373	xpos: 'NN',
				374	feats: buildNounFeatures(number, 'star'),
				375	};
				376	}
				377
				378	// Doppelpunkt (non-binary intended)
				379	if ((m = nounGenderColonRegex.exec(word))) {
				380	const [, base, suffix] = m;
				381	const number = getNumber(suffix);
				382	return {
				383	lemma: buildNounLemma(base, ':', 'colon'),
				384	upos: 'NOUN',
				385	xpos: 'NN',
				386	feats: buildNounFeatures(number, 'colon'),
				387	};
				388	}
				389
				390	// Unterstrich (non-binary intended)
				391	if ((m = nounGenderUnderscoreRegex.exec(word))) {
				392	const [, base, suffix] = m;
				393	const number = getNumber(suffix);
				394	return {
				395	lemma: buildNounLemma(base, '_', 'underscore'),
				396	upos: 'NOUN',
				397	xpos: 'NN',
				398	feats: buildNounFeatures(number, 'underscore'),
				399	};
				400	}
				401
				402	// Schrägstrich (binary intended) – before Binnen-I to avoid false matches
				403	if ((m = nounSchraegstrichRegex.exec(word))) {
				404	const [, base, suffix] = m;
				405	const number = getNumber(suffix);
				406	return {
				407	lemma: buildNounLemma(base, '/', 'schraegstrich'),
				408	upos: 'NOUN',
				409	xpos: 'NN',
				410	feats: buildNounFeatures(number, 'schraegstrich'),
				411	};
				412	}
				413
				414	// Klammern (binary intended)
				415	if ((m = nounKlammernRegex.exec(word))) {
				416	const [, base, suffix] = m;
				417	const number = getNumber(suffix);
				418	return {
				419	lemma: buildNounLemma(base, '()', 'klammern'),
				420	upos: 'NOUN',
				421	xpos: 'NN',
				422	feats: buildNounFeatures(number, 'klammern'),
				423	};
				424	}
				425
				426	// Binnen-I (binary intended) – requires at least one lowercase letter before
				427	// the I to distinguish from sentence-initial capitalisation
				428	if ((m = nounBinnenIRegex.exec(word))) {
				429	const [, base, suffix] = m;
				430	const number = getNumber(suffix);
				431	return {
				432	lemma: buildNounLemma(base, 'I', 'binnenI'),
				433	upos: 'NOUN',
				434	xpos: 'NN',
				435	feats: buildNounFeatures(number, 'binnenI'),
				436	};
				437	}
				438
				439	// ------------------------------------------------------------------
				440	// 2. Gender-sensitive DETERMINERS / PRONOUNS
				441	// ------------------------------------------------------------------
				442
				443	// Doppelform determiners merged with gender marker (derdie, desr, etc.)
				444	// Checked before detNonBinaryRegex because die*der is a Doppelform, not purely
				445	// non-binary intended, and should receive Gender=Masc,Fem features.
				446	if ((m = detDoppelformRegex.exec(word))) {
				447	const [fullMatch, form1] = m;
				448	return {
				449	lemma: fullMatch,
				450	upos: 'DET',
				451	xpos: inferDetXpos(form1),
				452	feats: 'Gender=Masc,Fem',
				453	};
				454	}
				455
				456	// Non-binary marker determiners (jede*r, ein:e, kein_e, etc.)
				457	if ((m = detNonBinaryRegex.exec(word))) {
				458	const [, detBase, marker, ending] = m;
				459	// Preserve full base + marker + ending as lemma (no stripping needed;
				460	// gendered determiners have no established uninflected citation form).
				461	return {
				462	lemma: detBase + marker + ending,
				463	upos: 'DET',
				464	xpos: inferDetXpos(detBase),
Marc Kupietz	b2068f4	2026-03-07 21:58:05 +0100	[diff] [blame]	465	feats: 'Gender=Fem,Masc,NonBin',
Marc Kupietz	b777f9d	2026-03-07 09:26:20 +0100	[diff] [blame]	466	};
				467	}
				468
				469	// Binnen-I determiners (einE, JedeR, jedeN, etc.)
				470	if ((m = detBinnenIRegex.exec(word))) {
				471	const [, detBase, endings] = m;
				472	return {
				473	lemma: detBase + endings,
				474	upos: 'DET',
				475	xpos: inferDetXpos(detBase),
				476	feats: 'Gender=Masc,Fem',
				477	};
				478	}
				479
				480	// ------------------------------------------------------------------
				481	// 3. Neo-pronouns / gendered pronoun pairs
				482	// ------------------------------------------------------------------
				483
				484	if ((m = neopronGenderStarPairRegex.exec(word))) {
				485	const [fullMatch, pron1, marker, pron2] = m;
				486	const markerType = marker === '*' ? 'star' : marker === ':' ? 'colon' : 'underscore';
				487	return {
				488	lemma: fullMatch,
				489	upos: 'PRON',
				490	xpos: inferPronXpos(pron1),
				491	feats: markerType === 'star' \|\| markerType === 'colon' \|\| markerType === 'underscore'
Marc Kupietz	b2068f4	2026-03-07 21:58:05 +0100	[diff] [blame]	492	? 'Gender=Fem,Masc,NonBin' : 'Gender=Masc,Fem',
Marc Kupietz	b777f9d	2026-03-07 09:26:20 +0100	[diff] [blame]	493	};
				494	}
				495
				496	return null;
				497	}
				498
				499	/**
				500	* Infer STTS XPOS tag for a determiner/article base.
				501	*/
				502	function inferDetXpos(base) {
				503	const b = base.toLowerCase();
				504	if (/^(der\|die\|das\|de[mrns])/.test(b)) return 'ART';
				505	if (/^(ein\|eine\|einen\|einem\|einer\|eines\|kein\|keine\|keinen\|keinem\|keiner\|keines)/.test(b)) return 'ART';
				506	if (/^(jede\|jeder\|jeden\|jedem\|jedes\|jedem)/.test(b)) return 'PIAT';
				507	if (/^(alle\|aller\|allen\|alles\|allem)/.test(b)) return 'PIAT';
				508	if (/^(manche\|mancher\|manchen\|manchem\|manches)/.test(b)) return 'PIAT';
				509	if (/^(solche\|solcher\|solchen\|solchem\|solches)/.test(b)) return 'PIAT';
				510	if (/^(welche\|welcher\|welchen\|welchem\|welches)/.test(b)) return 'PWAT';
				511	if (/^(irgend)/.test(b)) return 'PIAT';
				512	return 'ART';
				513	}
				514
				515	/**
				516	* Infer STTS XPOS tag for a personal pronoun base.
				517	*/
				518	function inferPronXpos(base) {
				519	const b = base.toLowerCase();
				520	if (/^(ich\|du\|er\|sie\|es\|wir\|ihr\|sie\|mich\|mir\|dich\|dir\|sich\|ihn\|ihm\|uns\|euch)$/.test(b)) return 'PPER';
				521	return 'PPER';
				522	}
				523
				524	// ---------------------------------------------------------------------------
				525	// Main line-by-line processing loop (mirrors conllu-cmc approach)
				526	// ---------------------------------------------------------------------------
				527
				528	function parseConllu(line) {
				529	// Handle foundry comment: change to 'gender'
				530	if (line.match('#\\s*foundry')) {
				531	if (line.match('=\\s*base')) {
				532	if (options.sparse) {
				533	global.standalone = true;
				534	}
				535	process.stdout.write('# foundry = gender\n');
				536	} else {
				537	process.stdout.write(`${line}\n`);
				538	}
				539	return;
				540	}
				541
				542	if (global.standalone) {
				543	if (line.match('^#\\s*filename')) {
				544	global.fileheader = `${line}\n`;
				545	return;
				546	} else if (line.match('^#\\s*text_id')) {
				547	global.fileheader += `${line}\n`;
				548	return;
				549	} else if (line.match('^#\\s*eo[ft]')) {
				550	process.stdout.write(`${line}\n`);
				551	return;
				552	} else if (line.match('^#')) {
				553	global.header += `${line}\n`;
				554	return;
				555	} else if (line.trim().match('^$')) {
				556	if (global.header === '') {
				557	process.stdout.write('\n');
				558	}
				559	global.header = '';
				560	return;
				561	}
				562	} else {
				563	if (!line.match('^\\d+')) {
				564	process.stdout.write(`${line}\n`);
				565	return;
				566	}
				567	}
				568
				569	const columns = line.trim().split('\t');
				570	// CoNLL-U columns (0-indexed):
				571	// 0:ID 1:FORM 2:LEMMA 3:UPOS 4:XPOS 5:FEATS 6:HEAD 7:DEPREL 8:DEPS 9:MISC
				572
				573	const word = columns[1];
Marc Kupietz	d2b9279	2026-03-10 08:11:06 +0100	[diff] [blame^]	574	const tokenId = parseInt(columns[0], 10);
				575	const annotation = classifyToken(word, tokenId);
Marc Kupietz	b777f9d	2026-03-07 09:26:20 +0100	[diff] [blame]	576
				577	if (annotation) {
				578	// Replace lemma (col 2), UPOS (col 3), XPOS (col 4), FEATS (col 5)
				579	columns[2] = annotation.lemma;
				580	columns[3] = annotation.upos;
				581	columns[4] = annotation.xpos;
				582	columns[5] = annotation.feats;
				583
				584	if (global.standalone) {
				585	process.stdout.write(global.fileheader);
				586	process.stdout.write(global.header);
				587	global.header = global.fileheader = '';
				588	}
				589	process.stdout.write(columns.join('\t') + '\n');
				590	} else if (!global.standalone) {
				591	process.stdout.write(`${line}\n`);
				592	}
				593	}
				594
				595	rl.on('line', parseConllu);
				596	rl.on('close', () => process.exit(0));