Rebecca Wilm | 4ce37af | 2024-09-17 12:06:42 +0200 | [diff] [blame] | 1 | % layout 'main', title => 'KorAP: FCS-QL'; |
| 2 | |
| 3 | %= page_title |
| 4 | |
| 5 | <p>FCS-QL ist eine Anfragesprache, die speziell für die erweiterte Suche in der <%= ext_link_to 'CLARIN Federated Content Search (FCS)', "https://www.clarin.eu/content/federated-content-search-clarin-fcs" %> entwickelt wurde und eine Suche über annotierte Daten ermöglicht. FCS-QL ist also vor allem dann als Anfragesprache zu empfehlen, wenn es um Anfragen geht, die Annotationsebenen wie Part-of-Speech oder Lemma einbeziehen. Da FCS-QL zu großen Teilen auf Poliqarp/CQP basiert, sind sich <%= embedded_link_to 'doc', 'Poliqarp', 'ql', 'poliqarp-plus' %> und FCS-QL syntaktisch gesehen recht ähnlich.</p> |
| 6 | |
| 7 | <p>Foundries werden in FCS-QL Qualifikatoren genannt. Um eine bestimmte Annotationsebene einer Foundry anzusprechen, werden Foundry und Annotationsebene mithilfe eines Doppelpunkts verbunden. Zum Beispiel wird die Lemma-Ebene der TreeTagger-Foundry wie folgt repräsentiert: <code>tt:lemma</code>. In Bezug auf FCS-QL unterstützt KorAP die folgenden Annotationsebenen:</p> |
| 8 | |
| 9 | <dl> |
| 10 | <dt>text</dt> |
| 11 | <dd>Oberflächenform</dd> |
| 12 | <dt>lemma</dt> |
| 13 | <dd>Lemma</dd> |
| 14 | <dt>pos</dt> |
| 15 | <dd>Part-of-Speech</dd> |
| 16 | </dl> |
| 17 | |
| 18 | <section id="simple-queries"> |
| 19 | |
| 20 | <h3>Einfache Anfragen</h3> |
| 21 | |
| 22 | <p>Suche nach einzelnen Begriffen</p> |
| 23 | %= doc_query fcsql => '"Semmel"', cutoff => 1 |
| 24 | |
| 25 | <p>Einbindung von regulären Ausdrücken</p> |
| 26 | %= doc_query fcsql => '"gie(ss|ß)en"', cutoff => 1 |
| 27 | |
| 28 | <p>Suche ohne Beachtung der Groß- und Kleinschreibung</p> |
| 29 | %= doc_query fcsql => '"essen"/c', cutoff => 1 |
| 30 | </section> |
| 31 | |
| 32 | <section id="complex-queries"> |
| 33 | |
| 34 | <h3>Komplexe Anfragen</h3> |
| 35 | |
| 36 | <h4>Einbeziehung von Annotationsebenen</h4> |
| 37 | |
| 38 | <p>Suche nach einzelnen Begriffen auf Basis der Annotationsebene für Oberflächenformen</p> |
| 39 | %= doc_query fcsql => '[text = "Semmel"]', cutoff => 1 |
| 40 | %= doc_query fcsql => '[text = "essen"/c]', cutoff => 1 |
| 41 | |
| 42 | <p>Suche nach Adverbien laut <%= embedded_link_to 'doc', 'Standard-Foundry', 'data', 'annotation' %>.</p> |
| 43 | %= doc_query fcsql => '[pos="ADV"]', cutoff => 1 |
| 44 | |
| 45 | <h4>Einbeziehung von Qualifikatoren (Foundries)</h4> |
| 46 | |
| 47 | <p>Suche nach mithilfe von OpenNLP annotierten Adverbien</p> |
| 48 | %= doc_query fcsql => '[opennlp:pos="ADV"]', cutoff => 1 |
| 49 | |
| 50 | <p>Suche nach Tokens mit einem bestimmten TreeTagger-Lemma</p> |
| 51 | %= doc_query fcsql => '[tt:lemma = "leben"]', cutoff => 1 |
| 52 | |
| 53 | <h4>Suche mithilfe von booleschen Operatoren</h4> |
| 54 | |
| 55 | <p>Alle Tokens mit dem Lemma <code>"leben"</code>, die auch finite Vollverben sind</p> |
| 56 | %= doc_query fcsql => '[tt:lemma ="leben" & pos="VVFIN"]', cutoff => 1 |
| 57 | |
| 58 | <p>Alle Tokens mit dem Lemma <code>"leben"</code>, die auch finite Vollverben oder Vollverben im Partizip Perfekt sind</p> |
| 59 | %= doc_query fcsql => '[tt:lemma ="leben" & (pos="VVFIN" | pos="VVPP")]', cutoff => 1 |
| 60 | |
| 61 | <h4>Sequenzanfragen</h4> |
| 62 | |
| 63 | <p>Kombination von zwei Begriffen in einer Sequenzanfrage</p> |
| 64 | %= doc_query fcsql => '[opennlp:pos="ADJA"] "leben"', cutoff => 1 |
| 65 | |
| 66 | <h4>Leeres Token</h4> |
| 67 | |
| 68 | <p>Wie es auch in <%= embedded_link_to 'doc', 'Poliqarp', 'ql', 'poliqarp-plus' %> der Fall ist, stellt <code>[]</code> in FCS-QL ein leeres Token dar, welches für jedes beliebige Token stehen kann. Um eine zu hohe Anzahl von Suchresultaten zu vermeiden, darf das leere Token in Anfragen nicht ganz alleine, sondern nur in Kombination mit anderen Tokens verwendet werden. Es spielt also vor allem bei Sequenzanfragen eine Rolle.</p> |
| 69 | %= doc_query fcsql => '[] "Wolke"', cutoff => 1 |
| 70 | |
| 71 | <h4>Negation</h4> |
| 72 | |
| 73 | <p>Wie das leere Token darf eine Negation in einer Suchanfrage nicht ganz alleine stehen, da dies zu einer unverhältnismäßig hohen Anzahl von Resultaten führen würde. In Sequenzanfragen hingegen ist der Einsatz von Negationen möglich.</p> |
| 74 | %= doc_query fcsql => '[pos != "ADJA"] "Buch"', cutoff => 1 |
| 75 | |
| 76 | <h4>Einsatz von Quantifizierern</h4> |
| 77 | |
| 78 | <p>Quantifizierer machen es möglich, nach Wiederholungen eines Begriffes zu suchen. Sie können zum Beispiel verwendet werden, um nach genau zwei aufeinanderfolgenden Vorkommen von <code>"die"</code> zu suchen.</p> |
| 79 | %= doc_query fcsql => '"die" {2}', cutoff => 1 |
| 80 | |
| 81 | <p>Des Weiteren sind Quantifizierer nützlich, um nach Vorkommen von beliebigen Tokens in der Nähe von anderen ganz spezifischen Tokens zu suchen. Die folgende Anfrage zum Beispiel lässt genau zwei oder drei beliebige Tokens zwischen <code>"wir"</code> und <code>"leben"</code> zu.</p> |
| 82 | %= doc_query fcsql => '"wir" []{2,3} "leben"', cutoff => 1 |
| 83 | |
| 84 | <h4>Suche nach einem Begriff innerhalb eines Satzes</h4> |
| 85 | |
| 86 | %= doc_query fcsql => '"Boot" within s', cutoff => 1 |
| 87 | |
| 88 | </section> |