blob: 9893a336f976b033e5da542dfaa1f941cd132b6e [file] [log] [blame]
Akron48567812017-09-01 16:49:04 +02001% layout 'main', title => 'KorAP: Annotationen';
2
Akron9490e3b2019-10-17 12:26:29 +02003%= page_title
Akron48567812017-09-01 16:49:04 +02004
5<p>KorAP bietet Zugriff auf mehrere Ebenen von Annotationen, die aus mehreren Ressourcen stammen, so genannten <em>foundries</em>.</p>
6
Akron1bd65d92019-07-17 18:26:36 +02007
Akron48567812017-09-01 16:49:04 +02008<section id="base">
9 <h3>Basis Foundry</h3>
Akron1bd65d92019-07-17 18:26:36 +020010 <p>Die Basis Foundry steht allen Korpora zur Verfügung und dient als gemeinsame Grundlage für die Dokumentenstrukturannotation im layer <code>s</code>.</p>
11 <dl>
12 <dt><abbr data-type="token" title="Structure">s</abbr></dt>
13 <dd>Dokument Struktur, die folgende Spans unterstützt: <code>&lt;base/s=s&gt;</code> für Sätze, <code>&lt;base/s=p&gt;</code> für Paragraphen und <code>&lt;base/s=t&gt;</code> für die gesamte Textspanne.</dd>
14 </dl>
15
Akron48567812017-09-01 16:49:04 +020016 %= doc_query poliqarp => '<base/s=s>', cutoff => 1
17</section>
18
Akron1bd65d92019-07-17 18:26:36 +020019<!--
Akron48567812017-09-01 16:49:04 +020020<section id="cnx">
21 <h3>Connexor (<code>cnx</code>)</h3>
22 <p>Connexor-Annotationen liefern die folgenden Layer für das <code>cnx</ code> Präfix:</p>
23 <dl>
24 <dt><abbr data-type="token" title="Lemma">l</abbr></dt>
25 <dd>Alle Lemmata sind in Kleinbuchstaben geschrieben. Komposita werden aufgeteilt, z. B. wird das Token &quot;Leitfähigkeit&quot durch die Lemmata &quot;leit&quot; und &quot;fähigkeit&quot; gefunden - nicht durch das Lemma &quot;leitfähigkeit&quot.</dd>
26 <dt><abbr data-type="token" title="Part-of-Speech">p</abbr></dt>
27 <dd>Part-of-Speech-Informationen werden in Großbuchstaben geschrieben und basieren auf STTS</dd>
28 <dt><abbr data-type="token" title="Syntaktische Informationen">syn</abbr></dt>
29 <dd>Enthält Token-basierte Informationen wie <code>@PREMOD</code>, <code>@NH</code>, <code>@MAIN</code> ...</dd>
30 <dt><abbr data-type="token" title="Morphosyntaktische Information">m</abbr></dt>
31 <dd>Enthält Informationen über Tempus (<code>PRES</code> ...), Modus (<code>IND</code>), Numerus (<code>PL</code> ...) etc.</dd>
32 <dt><abbr data-type="span" title="Phrasen">c</abbr></dt>
33 <dd>Es stehen nur Nominalphrasen zur Verfügung und alle Nominalphrasen sind in Kleinbuchstaben geschrieben (<code>np</code>)</dd>
34 </dl>
35 %= doc_query poliqarp => '[cnx/p=CC]', cutoff => 1
36</section>
Akron1bd65d92019-07-17 18:26:36 +020037-->
38
39<section id="dereko">
40 <h3>DeReKo (<code>dereko</code>)</h3>
41 <p>DeReKo Annotationen unterstützen die folgenden Layer für das <code>dereko</code> Präfix:</p>
42 <dl>
43 <dt><abbr data-type="token" title="Structure">s</abbr></dt>
Akron9490e3b2019-10-17 12:26:29 +020044 <dd>Dokument Struktur, wie sie im <%= ext_link_to 'I5 Textmodell', 'http://www1.ids-mannheim.de/kl/projekte/korpora/textmodell.html' %> definiert ist.</dd>
Akron1bd65d92019-07-17 18:26:36 +020045 </dl>
46 %= doc_query poliqarp => 'startsWith(<dereko/s=s>, Fragestunde)', cutoff => 1
47</section>
Akron48567812017-09-01 16:49:04 +020048
49
50<section id="corenlp">
51 <h3>CoreNLP (<code>corenlp</code>)</h3>
Akron1bd65d92019-07-17 18:26:36 +020052 <p>CoreNLP Annotationen unterstützen die folgenden Layer für das <code>corenlp</code> Präfix:</p>
Akron48567812017-09-01 16:49:04 +020053 <dl>
54 <dt><abbr data-type="token" title="Part-of-Speech">p</abbr></dt>
55 <dd>Part-of-Speech-Informationen werden in Großbuchstaben geschrieben und basieren auf STTS</dd>
56 <dt><abbr data-type="token" title="Constituency">c</abbr></dt>
Akron9490e3b2019-10-17 12:26:29 +020057 <dd>Konstituenten Informationen folgen den Annotationen des <%= ext_link_to 'negr@ Korpus', 'http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html' %>.</dd>
Akron48567812017-09-01 16:49:04 +020058 <dt><abbr data-type="token" title="Named Entity">ne</abbr></dt>
59 <dd>Enthält benannte Entitäten wie <code>I-PER</code>, <code>I-ORG</code> etc.</dd>
60 <dt><abbr data-type="token" title="Named Entity">ne_hgc_175m_600</abbr></dt>
61 <dd>S.o</dd>
62 <dt><abbr data-type="token" title="Named Entity">ne_dewac_175_175m_600</abbr></dt>
63 <dd>S.o.</dd>
64 </dl>
65 %= doc_query poliqarp => '[corenlp/ne_dewac_175m_600=I-ORG]', cutoff => 1
66</section>
67
68
69<section id="tt">
70 <h3>TreeTagger (<code>tt</code>)</h3>
Akron1bd65d92019-07-17 18:26:36 +020071 <p>TreeTagger Annotationen unterstützen die folgenden Layer für das <code>tt</code> Präfix:</p>
Akron48567812017-09-01 16:49:04 +020072 <dl>
73 <dt><abbr data-type="token" title="Lemma">l</abbr></dt>
74 <dd>Alle Nicht-Nomen-Lemmata sind in Kleinbuchstaben geschrieben, Substantive sind in Großbuchstaben geschrieben. Komposita bleiben intakt (z. B. <code>Normalbedingung</code>).</dd>
75 <dt><abbr data-type="token" title="Part-of-Speech">p</abbr></dt>
76 <dd>Alle Part-of-Speech-Informationen werden in Großbuchstaben geschrieben und basieren auf STTS.</dd>
77 </dl>
78 %= doc_query poliqarp => '[tt/p=ADV]', cutoff => 1
79</section>
80
Akron1bd65d92019-07-17 18:26:36 +020081<!--
Akron48567812017-09-01 16:49:04 +020082<section id="mate">
83 <h3>Mate (<code>mate</code>)</h3>
84 <dl>
85 <dt><abbr data-type="token" title="Lemma">l</abbr></dt>
86 <dd>Alle Lemmata sind in Kleinbuchstaben geschrieben. Komposita bleiben intakt (z. B. <code>buchstabenbezeichnung</code>)</dd>
87 <dt><abbr data-type="token" title="Part-of-Speech">p</abbr></dt>
88 <dd>Alle Part-of-Speech-Informationen sind in Großbuchstaben geschrieben und basieren auf STTS</dd>
89 <dt><abbr data-type="token" title="Morphosyntaktische Informationen">m</abbr></dt>
90 <dd>Enthält Informationen über Tempus (<code>tense:pres</code> ...), Modus (<code>mood:ind</code>), Nummerus (<code>number:pl</code> ...), Geschlecht (<code>gender:masc</code> ...) etc.</dd>
91 </dl>
92 %= doc_query poliqarp => '[mate/m=gender:fem]', cutoff => 1
93</section>
Akron1bd65d92019-07-17 18:26:36 +020094-->
95
96<section id="malt">
97 <h3>Malt (<code>malt</code>)</h3>
98 <p>Malt Annotationen unterstützen die folgenden Layer für das <code>malt</code> Präfix:</p>
99 <dl>
100 <dt><abbr data-type="token" title="Lemma">d</abbr></dt>
101 <dd>Dependenz-Annotation</dd>
102 </dl>
103 %= doc_query annis => 'tt/p="PPOSAT" ->malt/d[func="DET"] node', cutoff => 1
104</section>
Akron48567812017-09-01 16:49:04 +0200105
106
107<section id="opennlp">
108 <h3>OpenNLP (<code>opennlp</code>)</h3>
Akron1bd65d92019-07-17 18:26:36 +0200109 <p>OpenNLP Annotationen unterstützen die folgenden Layer für das <code>opennlp</code> Präfix:</p>
Akron48567812017-09-01 16:49:04 +0200110 <dl>
111 <dt><abbr data-type="token" title="Part-of-Speech">p</abbr></dt>
112 <dd>Alle Part-of-Speech-Informationen sind in Großbuchstaben geschrieben und basieren auf STTS</dd>
113 </dl>
114 %= doc_query poliqarp => '[opennlp/p=PDAT]', cutoff => 1
115</section>
116
Akron1bd65d92019-07-17 18:26:36 +0200117
118<section id="marmot">
119 <h3>Marmot (<code>marmot</code>)</h3>
120 <p>Marmot Annotationen unterstützen die folgenden Layer für das <code>marmot</code> Präfix:</p>
121 <dl>
122 <dt><abbr data-type="token" title="Part-of-Speech">p</abbr></dt>
123 <dd>Alle Part-of-Speech-Informationen sind in Großbuchstaben geschrieben und basieren auf STTS</dd>
124 <dt><abbr data-type="token" title="Morphosyntactical information">m</abbr></dt>
125 <dd>Enthält annotationen zu case (<code>acc</code> ...), degree (<code>pos</code>), gender (<code>fem</code> ...) etc.</dd>
126 </dl>
127 %= doc_query poliqarp => '[marmot/m=degree:sup & marmot/p=ADJA]', cutoff => 1
128</section>
129
Akron48567812017-09-01 16:49:04 +0200130<!--
131<section id="xip">
132 <h3>Xerox Incremental Parser (<code>xip</code>)</h3>
133 <dl>
134 <dt><abbr data-type="token" title="Lemma">l</abbr></dt>
135 <dd>All non-noun lemmas are written in lower case, nouns are written upper case. Composita are split, e.g. the token <code>Leitfähigkeit</code> is matched by the lemmas <code>leiten</code> and <code>Fähigkeit</code> - and by a merged and pretty useless <code>leitenfähigkeit</code> (This is going to change)</dd>
136 <dt><abbr data-type="token" title="Part-of-Speech">p</abbr></dt>
137 <dd>All part-of-spech information is written in capital letters and is based on STTS</dd>
138 <dt><abbr data-type="span" title="Phrases">c</abbr></dt>
139 <dd>Some phrases to create sentences, all upper case (<code>NP</code>, <code>NPA</code>, <code>NOUN</code>, <code>VERB</code>, <code>PREP</code>, <code>AP</code> ...)</dd>
140 </dl>
141 %= doc_query poliqarp => '[xip/p=ADJ]', cutoff => 1
142 %= doc_query poliqarp => '<xip/c=VERB>', cutoff => 1
143</section>
144-->
145
146<section id="default-foundries">
147 <h3>Standard Foundries</h3>
148 <p>Für Abfragen auf bestimmten Ebenen ohne vorgegebene Foundries stellt KorAP Standard Foundries zur Verfügung. Die Standardfoundries gelten für die folgenden Ebenen:</p>
149
150 <ul>
151 <li><strong>orth</strong>: <code>opennlp</code></li>
152 <li><strong>lemma</strong>: <code>tt</code></li>
153 <li><strong>pos</strong>: <code>tt</code></li>
Akron1bd65d92019-07-17 18:26:36 +0200154 <li>Constituency: <code>corenlp</code></li>
155 <li>Dependency: <code>malt</code></li>
156 <li>Morphology: <code>marmot</code></li>
Akron48567812017-09-01 16:49:04 +0200157 </ul>
158
159 <blockquote>
160 <p>Im Lucene-Backend kann die <code>orth</code>-Ebene nur an eine bestimmte Foundry gebunden werden, da nur eine Tokenisierung unterstützt wird.</p>
161 </blockquote>
162</section>