Akron | 4856781 | 2017-09-01 16:49:04 +0200 | [diff] [blame] | 1 | % layout 'main', title => 'KorAP: Annotationen'; |
| 2 | |
Akron | 1120a58 | 2017-10-17 12:29:16 +0200 | [diff] [blame^] | 3 | <h2 id="tutorial-top">Annotationen</h2> |
Akron | 4856781 | 2017-09-01 16:49:04 +0200 | [diff] [blame] | 4 | |
| 5 | <p>KorAP bietet Zugriff auf mehrere Ebenen von Annotationen, die aus mehreren Ressourcen stammen, so genannten <em>foundries</em>.</p> |
| 6 | |
| 7 | <section id="base"> |
| 8 | <h3>Basis Foundry</h3> |
| 9 | <p>Die Basis Foundry steht allen Korpora zur Verfügung und dient als gemeinsame Grundlage für die Dokumentenstrukturannotation im layer <code>s</code>. Sie unterstützt drei Arten von Spans: <code><base/s=s></code> für Sätze, <code><base/s=p></code> für Absätze und <code><base/s=t></code> für den gesamten Text.</p> |
| 10 | %= doc_query poliqarp => '<base/s=s>', cutoff => 1 |
| 11 | </section> |
| 12 | |
| 13 | |
| 14 | <section id="cnx"> |
| 15 | <h3>Connexor (<code>cnx</code>)</h3> |
| 16 | <p>Connexor-Annotationen liefern die folgenden Layer für das <code>cnx</ code> Präfix:</p> |
| 17 | <dl> |
| 18 | <dt><abbr data-type="token" title="Lemma">l</abbr></dt> |
| 19 | <dd>Alle Lemmata sind in Kleinbuchstaben geschrieben. Komposita werden aufgeteilt, z. B. wird das Token "Leitfähigkeit" durch die Lemmata "leit" und "fähigkeit" gefunden - nicht durch das Lemma "leitfähigkeit".</dd> |
| 20 | <dt><abbr data-type="token" title="Part-of-Speech">p</abbr></dt> |
| 21 | <dd>Part-of-Speech-Informationen werden in Großbuchstaben geschrieben und basieren auf STTS</dd> |
| 22 | <dt><abbr data-type="token" title="Syntaktische Informationen">syn</abbr></dt> |
| 23 | <dd>Enthält Token-basierte Informationen wie <code>@PREMOD</code>, <code>@NH</code>, <code>@MAIN</code> ...</dd> |
| 24 | <dt><abbr data-type="token" title="Morphosyntaktische Information">m</abbr></dt> |
| 25 | <dd>Enthält Informationen über Tempus (<code>PRES</code> ...), Modus (<code>IND</code>), Numerus (<code>PL</code> ...) etc.</dd> |
| 26 | <dt><abbr data-type="span" title="Phrasen">c</abbr></dt> |
| 27 | <dd>Es stehen nur Nominalphrasen zur Verfügung und alle Nominalphrasen sind in Kleinbuchstaben geschrieben (<code>np</code>)</dd> |
| 28 | </dl> |
| 29 | %= doc_query poliqarp => '[cnx/p=CC]', cutoff => 1 |
| 30 | </section> |
| 31 | |
| 32 | |
| 33 | <section id="corenlp"> |
| 34 | <h3>CoreNLP (<code>corenlp</code>)</h3> |
| 35 | <dl> |
| 36 | <dt><abbr data-type="token" title="Part-of-Speech">p</abbr></dt> |
| 37 | <dd>Part-of-Speech-Informationen werden in Großbuchstaben geschrieben und basieren auf STTS</dd> |
| 38 | <dt><abbr data-type="token" title="Constituency">c</abbr></dt> |
| 39 | <dd>Konstituenten Informationen folgen den Annotationen des <a href="http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html">negr@ Korpus</a>.</dd> |
| 40 | <dt><abbr data-type="token" title="Named Entity">ne</abbr></dt> |
| 41 | <dd>Enthält benannte Entitäten wie <code>I-PER</code>, <code>I-ORG</code> etc.</dd> |
| 42 | <dt><abbr data-type="token" title="Named Entity">ne_hgc_175m_600</abbr></dt> |
| 43 | <dd>S.o</dd> |
| 44 | <dt><abbr data-type="token" title="Named Entity">ne_dewac_175_175m_600</abbr></dt> |
| 45 | <dd>S.o.</dd> |
| 46 | </dl> |
| 47 | %= doc_query poliqarp => '[corenlp/ne_dewac_175m_600=I-ORG]', cutoff => 1 |
| 48 | </section> |
| 49 | |
| 50 | |
| 51 | <section id="tt"> |
| 52 | <h3>TreeTagger (<code>tt</code>)</h3> |
| 53 | <dl> |
| 54 | <dt><abbr data-type="token" title="Lemma">l</abbr></dt> |
| 55 | <dd>Alle Nicht-Nomen-Lemmata sind in Kleinbuchstaben geschrieben, Substantive sind in Großbuchstaben geschrieben. Komposita bleiben intakt (z. B. <code>Normalbedingung</code>).</dd> |
| 56 | <dt><abbr data-type="token" title="Part-of-Speech">p</abbr></dt> |
| 57 | <dd>Alle Part-of-Speech-Informationen werden in Großbuchstaben geschrieben und basieren auf STTS.</dd> |
| 58 | </dl> |
| 59 | %= doc_query poliqarp => '[tt/p=ADV]', cutoff => 1 |
| 60 | </section> |
| 61 | |
| 62 | |
| 63 | <section id="mate"> |
| 64 | <h3>Mate (<code>mate</code>)</h3> |
| 65 | <dl> |
| 66 | <dt><abbr data-type="token" title="Lemma">l</abbr></dt> |
| 67 | <dd>Alle Lemmata sind in Kleinbuchstaben geschrieben. Komposita bleiben intakt (z. B. <code>buchstabenbezeichnung</code>)</dd> |
| 68 | <dt><abbr data-type="token" title="Part-of-Speech">p</abbr></dt> |
| 69 | <dd>Alle Part-of-Speech-Informationen sind in Großbuchstaben geschrieben und basieren auf STTS</dd> |
| 70 | <dt><abbr data-type="token" title="Morphosyntaktische Informationen">m</abbr></dt> |
| 71 | <dd>Enthält Informationen über Tempus (<code>tense:pres</code> ...), Modus (<code>mood:ind</code>), Nummerus (<code>number:pl</code> ...), Geschlecht (<code>gender:masc</code> ...) etc.</dd> |
| 72 | </dl> |
| 73 | %= doc_query poliqarp => '[mate/m=gender:fem]', cutoff => 1 |
| 74 | </section> |
| 75 | |
| 76 | |
| 77 | <section id="opennlp"> |
| 78 | <h3>OpenNLP (<code>opennlp</code>)</h3> |
| 79 | <dl> |
| 80 | <dt><abbr data-type="token" title="Part-of-Speech">p</abbr></dt> |
| 81 | <dd>Alle Part-of-Speech-Informationen sind in Großbuchstaben geschrieben und basieren auf STTS</dd> |
| 82 | </dl> |
| 83 | %= doc_query poliqarp => '[opennlp/p=PDAT]', cutoff => 1 |
| 84 | </section> |
| 85 | |
| 86 | <!-- |
| 87 | <section id="xip"> |
| 88 | <h3>Xerox Incremental Parser (<code>xip</code>)</h3> |
| 89 | <dl> |
| 90 | <dt><abbr data-type="token" title="Lemma">l</abbr></dt> |
| 91 | <dd>All non-noun lemmas are written in lower case, nouns are written upper case. Composita are split, e.g. the token <code>Leitfähigkeit</code> is matched by the lemmas <code>leiten</code> and <code>Fähigkeit</code> - and by a merged and pretty useless <code>leitenfähigkeit</code> (This is going to change)</dd> |
| 92 | <dt><abbr data-type="token" title="Part-of-Speech">p</abbr></dt> |
| 93 | <dd>All part-of-spech information is written in capital letters and is based on STTS</dd> |
| 94 | <dt><abbr data-type="span" title="Phrases">c</abbr></dt> |
| 95 | <dd>Some phrases to create sentences, all upper case (<code>NP</code>, <code>NPA</code>, <code>NOUN</code>, <code>VERB</code>, <code>PREP</code>, <code>AP</code> ...)</dd> |
| 96 | </dl> |
| 97 | %= doc_query poliqarp => '[xip/p=ADJ]', cutoff => 1 |
| 98 | %= doc_query poliqarp => '<xip/c=VERB>', cutoff => 1 |
| 99 | </section> |
| 100 | --> |
| 101 | |
| 102 | <section id="default-foundries"> |
| 103 | <h3>Standard Foundries</h3> |
| 104 | <p>Für Abfragen auf bestimmten Ebenen ohne vorgegebene Foundries stellt KorAP Standard Foundries zur Verfügung. Die Standardfoundries gelten für die folgenden Ebenen:</p> |
| 105 | |
| 106 | <ul> |
| 107 | <li><strong>orth</strong>: <code>opennlp</code></li> |
| 108 | <li><strong>lemma</strong>: <code>tt</code></li> |
| 109 | <li><strong>pos</strong>: <code>tt</code></li> |
| 110 | </ul> |
| 111 | |
| 112 | <blockquote> |
| 113 | <p>Im Lucene-Backend kann die <code>orth</code>-Ebene nur an eine bestimmte Foundry gebunden werden, da nur eine Tokenisierung unterstützt wird.</p> |
| 114 | </blockquote> |
| 115 | </section> |