Blame - templates/de/doc/data/annotation.html.ep - KorAP/Kalamar

blob: fc09157657b8157a1028c7cb6d321001e932115d [file] [log] [blame]

Akron	4856781	2017-09-01 16:49:04 +0200	[diff] [blame]	1	% layout 'main', title => 'KorAP: Annotationen';
				2
Akron	1120a58	2017-10-17 12:29:16 +0200	[diff] [blame]	3	<h2 id="tutorial-top">Annotationen</h2>
Akron	4856781	2017-09-01 16:49:04 +0200	[diff] [blame]	4
				5	<p>KorAP bietet Zugriff auf mehrere Ebenen von Annotationen, die aus mehreren Ressourcen stammen, so genannten <em>foundries</em>.</p>
				6
Akron	1bd65d9	2019-07-17 18:26:36 +0200	[diff] [blame]	7
Akron	4856781	2017-09-01 16:49:04 +0200	[diff] [blame]	8	<section id="base">
				9	<h3>Basis Foundry</h3>
Akron	1bd65d9	2019-07-17 18:26:36 +0200	[diff] [blame]	10	<p>Die Basis Foundry steht allen Korpora zur Verfügung und dient als gemeinsame Grundlage für die Dokumentenstrukturannotation im layer <code>s</code>.</p>
				11	<dl>
				12	<dt><abbr data-type="token" title="Structure">s</abbr></dt>
				13	<dd>Dokument Struktur, die folgende Spans unterstützt: <code><base/s=s></code> für Sätze, <code><base/s=p></code> für Paragraphen und <code><base/s=t></code> für die gesamte Textspanne.</dd>
				14	</dl>
				15
Akron	4856781	2017-09-01 16:49:04 +0200	[diff] [blame]	16	%= doc_query poliqarp => '<base/s=s>', cutoff => 1
				17	</section>
				18
Akron	1bd65d9	2019-07-17 18:26:36 +0200	[diff] [blame]	19	<!--
Akron	4856781	2017-09-01 16:49:04 +0200	[diff] [blame]	20	<section id="cnx">
				21	<h3>Connexor (<code>cnx</code>)</h3>
				22	<p>Connexor-Annotationen liefern die folgenden Layer für das <code>cnx</ code> Präfix:</p>
				23	<dl>
				24	<dt><abbr data-type="token" title="Lemma">l</abbr></dt>
				25	<dd>Alle Lemmata sind in Kleinbuchstaben geschrieben. Komposita werden aufgeteilt, z. B. wird das Token "Leitfähigkeit&quot durch die Lemmata "leit" und "fähigkeit" gefunden - nicht durch das Lemma "leitfähigkeit&quot.</dd>
				26	<dt><abbr data-type="token" title="Part-of-Speech">p</abbr></dt>
				27	<dd>Part-of-Speech-Informationen werden in Großbuchstaben geschrieben und basieren auf STTS</dd>
				28	<dt><abbr data-type="token" title="Syntaktische Informationen">syn</abbr></dt>
				29	<dd>Enthält Token-basierte Informationen wie <code>@PREMOD</code>, <code>@NH</code>, <code>@MAIN</code> ...</dd>
				30	<dt><abbr data-type="token" title="Morphosyntaktische Information">m</abbr></dt>
				31	<dd>Enthält Informationen über Tempus (<code>PRES</code> ...), Modus (<code>IND</code>), Numerus (<code>PL</code> ...) etc.</dd>
				32	<dt><abbr data-type="span" title="Phrasen">c</abbr></dt>
				33	<dd>Es stehen nur Nominalphrasen zur Verfügung und alle Nominalphrasen sind in Kleinbuchstaben geschrieben (<code>np</code>)</dd>
				34	</dl>
				35	%= doc_query poliqarp => '[cnx/p=CC]', cutoff => 1
				36	</section>
Akron	1bd65d9	2019-07-17 18:26:36 +0200	[diff] [blame]	37	-->
				38
				39	<section id="dereko">
				40	<h3>DeReKo (<code>dereko</code>)</h3>
				41	<p>DeReKo Annotationen unterstützen die folgenden Layer für das <code>dereko</code> Präfix:</p>
				42	<dl>
				43	<dt><abbr data-type="token" title="Structure">s</abbr></dt>
				44	<dd>Dokument Struktur, wie sie im <%= doc_ext_link_to 'I5 Textmodell', 'http://www1.ids-mannheim.de/kl/projekte/korpora/textmodell.html' %> definiert ist.</dd>
				45	</dl>
				46	%= doc_query poliqarp => 'startsWith(<dereko/s=s>, Fragestunde)', cutoff => 1
				47	</section>
Akron	4856781	2017-09-01 16:49:04 +0200	[diff] [blame]	48
				49
				50	<section id="corenlp">
				51	<h3>CoreNLP (<code>corenlp</code>)</h3>
Akron	1bd65d9	2019-07-17 18:26:36 +0200	[diff] [blame]	52	<p>CoreNLP Annotationen unterstützen die folgenden Layer für das <code>corenlp</code> Präfix:</p>
Akron	4856781	2017-09-01 16:49:04 +0200	[diff] [blame]	53	<dl>
				54	<dt><abbr data-type="token" title="Part-of-Speech">p</abbr></dt>
				55	<dd>Part-of-Speech-Informationen werden in Großbuchstaben geschrieben und basieren auf STTS</dd>
				56	<dt><abbr data-type="token" title="Constituency">c</abbr></dt>
Akron	1bd65d9	2019-07-17 18:26:36 +0200	[diff] [blame]	57	<dd>Konstituenten Informationen folgen den Annotationen des <%= doc_ext_link_to 'negr@ Korpus', 'http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html' %>.</dd>
Akron	4856781	2017-09-01 16:49:04 +0200	[diff] [blame]	58	<dt><abbr data-type="token" title="Named Entity">ne</abbr></dt>
				59	<dd>Enthält benannte Entitäten wie <code>I-PER</code>, <code>I-ORG</code> etc.</dd>
				60	<dt><abbr data-type="token" title="Named Entity">ne_hgc_175m_600</abbr></dt>
				61	<dd>S.o</dd>
				62	<dt><abbr data-type="token" title="Named Entity">ne_dewac_175_175m_600</abbr></dt>
				63	<dd>S.o.</dd>
				64	</dl>
				65	%= doc_query poliqarp => '[corenlp/ne_dewac_175m_600=I-ORG]', cutoff => 1
				66	</section>
				67
				68
				69	<section id="tt">
				70	<h3>TreeTagger (<code>tt</code>)</h3>
Akron	1bd65d9	2019-07-17 18:26:36 +0200	[diff] [blame]	71	<p>TreeTagger Annotationen unterstützen die folgenden Layer für das <code>tt</code> Präfix:</p>
Akron	4856781	2017-09-01 16:49:04 +0200	[diff] [blame]	72	<dl>
				73	<dt><abbr data-type="token" title="Lemma">l</abbr></dt>
				74	<dd>Alle Nicht-Nomen-Lemmata sind in Kleinbuchstaben geschrieben, Substantive sind in Großbuchstaben geschrieben. Komposita bleiben intakt (z. B. <code>Normalbedingung</code>).</dd>
				75	<dt><abbr data-type="token" title="Part-of-Speech">p</abbr></dt>
				76	<dd>Alle Part-of-Speech-Informationen werden in Großbuchstaben geschrieben und basieren auf STTS.</dd>
				77	</dl>
				78	%= doc_query poliqarp => '[tt/p=ADV]', cutoff => 1
				79	</section>
				80
Akron	1bd65d9	2019-07-17 18:26:36 +0200	[diff] [blame]	81	<!--
Akron	4856781	2017-09-01 16:49:04 +0200	[diff] [blame]	82	<section id="mate">
				83	<h3>Mate (<code>mate</code>)</h3>
				84	<dl>
				85	<dt><abbr data-type="token" title="Lemma">l</abbr></dt>
				86	<dd>Alle Lemmata sind in Kleinbuchstaben geschrieben. Komposita bleiben intakt (z. B. <code>buchstabenbezeichnung</code>)</dd>
				87	<dt><abbr data-type="token" title="Part-of-Speech">p</abbr></dt>
				88	<dd>Alle Part-of-Speech-Informationen sind in Großbuchstaben geschrieben und basieren auf STTS</dd>
				89	<dt><abbr data-type="token" title="Morphosyntaktische Informationen">m</abbr></dt>
				90	<dd>Enthält Informationen über Tempus (<code>tense:pres</code> ...), Modus (<code>mood:ind</code>), Nummerus (<code>number:pl</code> ...), Geschlecht (<code>gender:masc</code> ...) etc.</dd>
				91	</dl>
				92	%= doc_query poliqarp => '[mate/m=gender:fem]', cutoff => 1
				93	</section>
Akron	1bd65d9	2019-07-17 18:26:36 +0200	[diff] [blame]	94	-->
				95
				96	<section id="malt">
				97	<h3>Malt (<code>malt</code>)</h3>
				98	<p>Malt Annotationen unterstützen die folgenden Layer für das <code>malt</code> Präfix:</p>
				99	<dl>
				100	<dt><abbr data-type="token" title="Lemma">d</abbr></dt>
				101	<dd>Dependenz-Annotation</dd>
				102	</dl>
				103	%= doc_query annis => 'tt/p="PPOSAT" ->malt/d[func="DET"] node', cutoff => 1
				104	</section>
Akron	4856781	2017-09-01 16:49:04 +0200	[diff] [blame]	105
				106
				107	<section id="opennlp">
				108	<h3>OpenNLP (<code>opennlp</code>)</h3>
Akron	1bd65d9	2019-07-17 18:26:36 +0200	[diff] [blame]	109	<p>OpenNLP Annotationen unterstützen die folgenden Layer für das <code>opennlp</code> Präfix:</p>
Akron	4856781	2017-09-01 16:49:04 +0200	[diff] [blame]	110	<dl>
				111	<dt><abbr data-type="token" title="Part-of-Speech">p</abbr></dt>
				112	<dd>Alle Part-of-Speech-Informationen sind in Großbuchstaben geschrieben und basieren auf STTS</dd>
				113	</dl>
				114	%= doc_query poliqarp => '[opennlp/p=PDAT]', cutoff => 1
				115	</section>
				116
Akron	1bd65d9	2019-07-17 18:26:36 +0200	[diff] [blame]	117
				118	<section id="marmot">
				119	<h3>Marmot (<code>marmot</code>)</h3>
				120	<p>Marmot Annotationen unterstützen die folgenden Layer für das <code>marmot</code> Präfix:</p>
				121	<dl>
				122	<dt><abbr data-type="token" title="Part-of-Speech">p</abbr></dt>
				123	<dd>Alle Part-of-Speech-Informationen sind in Großbuchstaben geschrieben und basieren auf STTS</dd>
				124	<dt><abbr data-type="token" title="Morphosyntactical information">m</abbr></dt>
				125	<dd>Enthält annotationen zu case (<code>acc</code> ...), degree (<code>pos</code>), gender (<code>fem</code> ...) etc.</dd>
				126	</dl>
				127	%= doc_query poliqarp => '[marmot/m=degree:sup & marmot/p=ADJA]', cutoff => 1
				128	</section>
				129
Akron	4856781	2017-09-01 16:49:04 +0200	[diff] [blame]	130	<!--
				131	<section id="xip">
				132	<h3>Xerox Incremental Parser (<code>xip</code>)</h3>
				133	<dl>
				134	<dt><abbr data-type="token" title="Lemma">l</abbr></dt>
				135	<dd>All non-noun lemmas are written in lower case, nouns are written upper case. Composita are split, e.g. the token <code>Leitfähigkeit</code> is matched by the lemmas <code>leiten</code> and <code>Fähigkeit</code> - and by a merged and pretty useless <code>leitenfähigkeit</code> (This is going to change)</dd>
				136	<dt><abbr data-type="token" title="Part-of-Speech">p</abbr></dt>
				137	<dd>All part-of-spech information is written in capital letters and is based on STTS</dd>
				138	<dt><abbr data-type="span" title="Phrases">c</abbr></dt>
				139	<dd>Some phrases to create sentences, all upper case (<code>NP</code>, <code>NPA</code>, <code>NOUN</code>, <code>VERB</code>, <code>PREP</code>, <code>AP</code> ...)</dd>
				140	</dl>
				141	%= doc_query poliqarp => '[xip/p=ADJ]', cutoff => 1
				142	%= doc_query poliqarp => '<xip/c=VERB>', cutoff => 1
				143	</section>
				144	-->
				145
				146	<section id="default-foundries">
				147	<h3>Standard Foundries</h3>
				148	<p>Für Abfragen auf bestimmten Ebenen ohne vorgegebene Foundries stellt KorAP Standard Foundries zur Verfügung. Die Standardfoundries gelten für die folgenden Ebenen:</p>
				149
				150	<ul>
				151	<li><strong>orth</strong>: <code>opennlp</code></li>
				152	<li><strong>lemma</strong>: <code>tt</code></li>
				153	<li><strong>pos</strong>: <code>tt</code></li>
Akron	1bd65d9	2019-07-17 18:26:36 +0200	[diff] [blame]	154	<li>Constituency: <code>corenlp</code></li>
				155	<li>Dependency: <code>malt</code></li>
				156	<li>Morphology: <code>marmot</code></li>
Akron	4856781	2017-09-01 16:49:04 +0200	[diff] [blame]	157	</ul>
				158
				159	<blockquote>
				160	<p>Im Lucene-Backend kann die <code>orth</code>-Ebene nur an eine bestimmte Foundry gebunden werden, da nur eine Tokenisierung unterstützt wird.</p>
				161	</blockquote>
				162	</section>