Akron | bdef2d3 | 2025-02-25 21:14:09 +0100 | [diff] [blame^] | 1 | #!/usr/bin/bash |
| 2 | # Script for building the virtual Corpus Bitmaps of C2-Database W2 |
| 3 | # $1 : Database Name as registered in Server. |
| 4 | # $2 : Path of C2-Server |
| 5 | # $3 : Corpus Definition file (output) |
| 6 | # 21.01.02/FB |
| 7 | # 20.09.02/FB iko90 iko91 |
| 8 | # 15.10.02/FB froh1/froh2 entfernt |
| 9 | # 09.04.03/FB parameter $3 |
| 10 | # 14.04.03/FB W-ALL-BIG |
| 11 | # 25.03.04/FB W2 |
| 12 | # 14.11.05/FB W3 |
| 13 | # 08.06.06/FB dereko als eigenstaendiges Korpus und Defintione entfernt. |
| 14 | # Umlaute öÖäÄüÜß |
| 15 | # |
| 16 | # DeReKo 2024-I - 22.02.23/FB |
| 17 | # IMPORTANT: |
| 18 | # Whhen editing this file, always check for the last 2 years: 2022 and 2023 while in 2024. |
| 19 | |
| 20 | ### Anm. zu den .def-Dateien: |
| 21 | ### diese Methode nicht mehr verwenden (bzw. nicht mehr auf .def-Dateien verzichten), weil |
| 22 | ### Eric fuer die Generierung der CII-HTML-Seiten Informationen aus den .def Dateien holt |
| 23 | |
| 24 | if [ "$1" = "" ] |
| 25 | then |
| 26 | echo "Error: missing registered Database Name!" |
| 27 | return 1 |
| 28 | fi |
| 29 | |
| 30 | if [ "$2" = "" ] |
| 31 | then |
| 32 | echo "Error: missing C2-Server Path!" |
| 33 | return 1 |
| 34 | fi |
| 35 | |
| 36 | if [ "$3" = "" ] |
| 37 | then |
| 38 | echo "Error: missing Corpus Definition file!" |
| 39 | return 1 |
| 40 | fi |
| 41 | |
| 42 | if [ "$5" = "" ] |
| 43 | then |
| 44 | echo "Error: Variable DBHOME must be specified!" |
| 45 | return 1 |
| 46 | fi |
| 47 | |
| 48 | DBN="-n:$1" |
| 49 | SV=-ps:$2 |
| 50 | CDFile=$3 |
| 51 | SL=-s1 |
| 52 | BIN=$4 |
| 53 | DBHOME=$5 |
| 54 | |
| 55 | _THIS_YEAR=2023 |
| 56 | |
| 57 | echo "$0: Ausführung beginnt..." |
| 58 | |
| 59 | # TODO: . graph. Uebersicht, welche virt. Korpora wo inkludiert sind (kann ich so etwas evtl. |
| 60 | # per Skript als HTML-Seite generieren?): z.B. loz enthaelt div u. lit entaelt wiederum |
| 61 | # loz: lit <- loz <- div (mit Eric sprechen: ich habe links stehende Verschachtelung |
| 62 | # in LIST/list.w implementiert, sonst verliere ich die Uebersicht. Ob das seine Webseiten- |
| 63 | # Generierung stoert, weiss ich allerdings nicht |
| 64 | |
| 65 | # |
| 66 | # include functions like build_big_def() |
| 67 | # |
| 68 | . /home/c2admin/c2/ix/cfg/bms/SCRIPT/functions |
| 69 | |
| 70 | echo "$0: functions loaded." |
| 71 | |
| 72 | ### Die Gesamt-Korpora (_Blue_): |
| 73 | # 2024-I: W-gesamt: keine neuen Korpus-Dateien - 16.02.23/FB |
| 74 | |
| 75 | echo -e "W-gesamt - alle Korpora des Archivs W (mit Neuakquisitionen) _B__Blue_\tLOAD('bih bio bio-pub l bvz brz bzk b ct cz dck div div-pub dkg dpa p erk flt faz foc frr fsp fsp-pub goe gr1 gri haz hbk hes hmp iko ix kic kjl klz ksp les lim lmd ltb mk1 mk2 mld m neu new ng nku nkz non nun nuz nzf nzs nzz oon pp prf rei rhp rhz sbl sbn a sid soz s spk sol ste stg u tas t thm ttz van vdi wam wkb wkd wkv wxx11 wwo zca zcw z zge e zwi')" >>$CDFile |
| 76 | |
| 77 | echo -e "N-gesamt - alle Neuakquisitionen von DeReKo-2024-I _B__Blue_\tLOAD('bih bio bio-pub l bvz brz bzk b ct cz dck div div-pub dkg dpa p erk flt faz foc frr fsp fsp-pub goe gr1 gri haz hbk hes hmp iko ix kic kjl klz ksp les lim lmd ltb mk1 mk2 mld m neu new ng nku nkz non nun nuz nzf nzs nzz oon pp prf rei rhp rhz sbl sbn a sid soz s spk sol ste stg u tas t thm ttz van vdi wam wkb wkd wkv wxx11 wwo zca zcw z zge e zwi -corp-w-gesamt.2023-i.16.03.23')" >>$CDFile |
| 78 | |
| 79 | echo -e "W-ohneWikipedia-gesamt - alle Korpora des Archivs W (mit Neuakquisitionen, ohne Wikipedia) _Blue_\tLOAD('bih bio bio-pub l bvz brz bzk b ct cz dck div div-pub dkg dpa p erk flt faz foc frr fsp fsp-pub goe gr1 gri haz hbk hes hmp iko ix kic kjl klz ksp les lim lmd ltb mk1 mk2 mld m neu new ng nku nkz non nun nuz nzf nzs nzz oon pp prf rei rhp rhz sbl sbn a sid soz s spk sol ste stg u tas t thm ttz van vdi wam wkb wkd wkv wwo zca zcw z zge e zwi')" >>$CDFile |
| 80 | |
| 81 | # Neuakquisitionen 2024-I: |
| 82 | # |
| 83 | # - *.def + Bitmaps erzeugt mit /C2/IX2/RES/BMS/NEUAKQUI/doNeuakqui. |
| 84 | # - Dateien automatisch aus dem Vergleich von w-all und w-neu erzeugt. |
| 85 | # - Dateien autom. in /bm/ kopiert und Eintrag cdef.neuakqui.txt erzeugt, der |
| 86 | # hier reinkopiert wurde. |
| 87 | # P.S. letztendlich in die bestehenden Skripte integriert. |
| 88 | # 26.03.21/FB |
| 89 | |
| 90 | #echo "$0: calling $BIN/c2test $SL $DBN $SV -ad2b:o:Name_eines_VC" |
| 91 | |
| 92 | ### Diese Korpora sind eingefroren |
| 93 | ### siehe x4600m2:/export/home1/C2_home2/C2/res/c2/bm/README.uwv !!! |
| 94 | # da der Aufbau der Korpus-Bitmap lange dauert, wird c2test im Hintergrund gestartet. |
| 95 | # last DeReKo-release is accessible to everybody. |
| 96 | |
| 97 | echo -e "W-gesamt-2023-I - W-gesamt von Release DeReKo-2023-I _Blue_\tLOAD('corp-w-gesamt.2023-i.16.03.23')" >> $CDFile |
| 98 | |
| 99 | echo -e "W-gesamt-2022-I - W-gesamt von Release DeReKo-2022-I _Blue_\tLOAD('corp-w-gesamt.2022-i.21.06.22')" >> $CDFile |
| 100 | |
| 101 | echo -e "W-gesamt-2021-I - W-gesamt von Release DeReKo-2021-I _Blue_\tLOAD('corp-w-gesamt.2021-i.11.08.21')" >> $CDFile |
| 102 | |
| 103 | echo -e "W-gesamt-2020-I - W-gesamt von Release DeReKo-2020-I _Blue_\tLOAD('corp-w-gesamt.2020-i.15.05.20')\tG_UWV" >> $CDFile |
| 104 | |
| 105 | echo -e "W-gesamt-2018-II - W-gesamt von Release DeReKo-2018-II _Blue_\tLOAD('corp-w-gesamt.2018-ii.05.12.18')\tG_UWV" >> $CDFile |
| 106 | |
| 107 | echo -e "W-gesamt-2017-I - W-gesamt von Release DeReKo-2017-I _Blue_\tLOAD('corp-w-gesamt.2017-i.17.10.17')\tG_UWV" >> $CDFile |
| 108 | |
| 109 | for c in corp-w-gesamt.2023-i.16.03.23 corp-w-gesamt.2022-i.21.06.22 \ |
| 110 | corp-w-gesamt.2021-i.11.08.21 corp-w-gesamt.2020-i.15.05.20 \ |
| 111 | corp-w-gesamt.2018-ii.05.12.18 corp-w-gesamt.2017-i.17.10.17 |
| 112 | do |
| 113 | build_big_def $c & |
| 114 | done |
| 115 | |
| 116 | ### Gebündelte,allgemeine Korpora (_Maroon_): |
| 117 | |
| 118 | # gri + kjl added to lit - 06.05.22/FB |
| 119 | echo -e "" |
| 120 | echo -e "lit - Belletristik/Trivialliteratur _Maroon_ \tLOAD('bih bio bio-pub div div-pub gr1 gri hes kjl les wam thm-lit misc-lit')" >>$CDFile |
| 121 | $BIN/c2test $SL "$DBN" "$SV" -ad2b:o:thm-lit |
| 122 | $BIN/c2test $SL "$DBN" "$SV" -ad2b:o:misc-lit |
| 123 | |
| 124 | #echo -e "ozk - Österreichisches Zeitungskorpus, 1991 - $_THIS_YEAR _Maroon_\tLOAD('bvz p prf flt klz new nkz non oon sbn ttz van')" >>$CDFile |
| 125 | |
| 126 | echo -e "ndR - Korpora mit überwiegend neuer Rechtschreibung _Maroon_\tLOAD('ndr-all')" >>$CDFile |
| 127 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:ndr-all |
| 128 | |
| 129 | # länderspezifische Korpora |
| 130 | |
| 131 | echo -e "A-Korpora - Korpora aus Österreich _Maroon_\tLOAD('corp-a')" >>$CDFile |
| 132 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:corp-a |
| 133 | |
| 134 | echo -e "CH-Korpora - deutschsprachige Korpora aus der Schweiz _Maroon_\tLOAD('corp-ch')" >>$CDFile |
| 135 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:corp-ch |
| 136 | |
| 137 | echo -e "D-Korpora - Korpora aus Deutschland _Maroon_\tLOAD('corp-d')" >>$CDFile |
| 138 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:corp-d |
| 139 | |
| 140 | echo -e "L-Korpora - deutschsprachige Korpora aus Luxemburg _Maroon_\tLOAD('corp-l')" >>$CDFile |
| 141 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:corp-l |
| 142 | |
| 143 | ### Projektkorpora (_Green_): |
| 144 | |
| 145 | ### TODO: siehe Mail vom 23.02.16 (Mail/converted_from_THB/COSMASII.sbd/Indexierung.sbd/Newsletter) |
| 146 | # Ansprechspartner fuer die Zusammensetzung von dfwb: Herbert Schmidt, IDS |
| 147 | |
| 148 | echo -e "" |
| 149 | echo -e "dfwb - virt. Korpus des Deutschen Fremdwörterbuches _Green_\tLOAD('dfwb33 dfwb-frag bio bio-pub dfwb-p faz fsp fsp-pub hmp dfwb-spiegel a spk vdi')" >> $CDFile |
| 150 | |
| 151 | for name in dfwb33 dfwb-frag dfwb-p dfwb-spiegel |
| 152 | do |
| 153 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:$name |
| 154 | done |
| 155 | |
| 156 | # w-frei: |
| 157 | # Virtuelles Korpus für die WebServices. |
| 158 | # Hier aufbauen, aber nicht in die Listen cdef.all|pub.txt aufnehmen. |
| 159 | # 16.04.21/FB |
| 160 | |
| 161 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:w-frei |
| 162 | |
| 163 | ### TODO: siehe /home/c2admin/ix/ix/cfg/bms/create_ndr.pl |
| 164 | ### NOTE 1: "cat /export/home3/C2/db/off/w/auxdb/aux-dnames.dat|../create_ndr.pl > ndr.def" |
| 165 | ### zur Generierung von 'DEF/ndr.def' ausfuehren! |
| 166 | ### NOTE 2: generierte Datei von Hand pruefen (vi -d ndr.def DEF/ndr.def) |
| 167 | # DeReKo-2021-I: |
| 168 | # MOTE 3: ndr-all.def und ndr-pub.def sind jetzt vordefiniert, passen sich an |
| 169 | # die letzte Aktualisierung automatisch an und ersetzen die Generierung |
| 170 | # von ndr-pub.def und ndr-npub.def. |
| 171 | # cdef.all.txt -> ndr-all.def / cdef.pub.txt -> ndr.pub.def. |
| 172 | |
| 173 | |
| 174 | ### |
| 175 | echo -e "rsrat - Rechtschreibrat-Kernkorpus in W _Green_\tLOAD('corp-w-rsrat')\tG_Rechtschreibrat" >> $CDFile |
| 176 | build_big_def corp-w-rsrat & |
| 177 | ### |
| 178 | echo -e "vas-n91 - Projektkorpus VAS N91, Stand Juli 2013 (korr. 2017) _Green_\tLOAD('corp-w-vas-n91-kor17')\tG_VAS" >> $CDFile |
| 179 | build_big_def corp-w-vas-n91-kor17 & |
| 180 | ### |
| 181 | |
| 182 | echo -e "bih - Herausgebertexte zum Korpus bio\tLOAD('bih')" >>$CDFile |
| 183 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:bih |
| 184 | |
| 185 | echo -e "bio - Biografische Literatur\tLOAD('bio bio-pub')" >>$CDFile |
| 186 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:bio |
| 187 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:bio-pub |
| 188 | |
| 189 | echo -e "div - Belletristik des 20. und 21. Jahrhunderts: Diverse Schriftsteller\tLOAD('div div-pub')" >>$CDFile |
| 190 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:div |
| 191 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:div-pub |
| 192 | |
| 193 | echo -e "bmp - Berliner Morgenpost, 1997 - $_THIS_YEAR\tLOAD('l')" >>$CDFile |
| 194 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:l |
| 195 | |
| 196 | echo -e "brz - Braunschweiger Zeitung, September 2005 - Juni 2013\tLOAD('brz')" >>$CDFile |
| 197 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:brz |
| 198 | |
| 199 | ### 27.06.17: bvz was NOT updated since DeReKo-2015-II |
| 200 | ##echo -e "bvz - Burgenländische Volkszeitung, Januar 2007 - $_BVZ $_THIS_YEAR\tLOAD('bvz')" >>$CDFile |
| 201 | #echo -e "bvz - Burgenländische Volkszeitung, 2007 - $_THIS_YEAR\tLOAD('bvz')" >>$CDFile |
| 202 | echo -e "bvz - Burgenländische Volkszeitung, 2007 - 2015\tLOAD('bvz')" >>$CDFile |
| 203 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:bvz |
| 204 | |
| 205 | echo -e "bzk - Bonner Zeitungskorpus\tLOAD('bzk')" >>$CDFile |
| 206 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:bzk |
| 207 | |
| 208 | echo -e "bzt - Berliner Zeitung, 1997 - $_THIS_YEAR\tLOAD('b')" >>$CDFile |
| 209 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:b |
| 210 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:b-pub |
| 211 | |
| 212 | echo -e "c't - Magazin für Computertechnik, 2017 - $_THIS_YEAR\tLOAD('ct')" >>$CDFile |
| 213 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:ct |
| 214 | |
| 215 | echo -e "cz - Computer Zeitung, Januar 1993 - Dezember 1998\tLOAD('cz')" >>$CDFile |
| 216 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:cz |
| 217 | |
| 218 | echo -e "dck - Dortmunder Chatkorpus 2.2\tLOAD('dck')" >>$CDFile |
| 219 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:dck |
| 220 | |
| 221 | echo -e "dkg - Fachsprachen-Korpus 2: Gentechnologie\tLOAD('dkg')" >>$CDFile |
| 222 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:dkg |
| 223 | |
| 224 | ##echo -e "dpa - Meldungen der Deutschen Presse-Agentur, Januar 2006 - Dezember 2009, April 2010 - $_DPA $_THIS_YEAR\tLOAD('dpa')" >>$CDFile |
| 225 | echo -e "dpa - Meldungen der Deutschen Presse-Agentur, 2006 - $_THIS_YEAR\tLOAD('dpa')" >>$CDFile |
| 226 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:dpa |
| 227 | |
| 228 | ##echo -e "dpr - Die Presse, September 1991 - Dezember 2000\tLOAD('p')" >>$CDFile |
| 229 | echo -e "dpr - Die Presse, 1991 - $_THIS_YEAR\tLOAD('p')" >>$CDFile |
| 230 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:p |
| 231 | |
| 232 | echo -e "erk - Am Erker\tLOAD('erk')" >>$CDFile |
| 233 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:erk |
| 234 | |
| 235 | echo -e "flt - Falter, 2000 - $_THIS_YEAR\tLOAD('flt')" >>$CDFile |
| 236 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:flt |
| 237 | |
| 238 | echo -e "faz - Frankfurter Allgemeine, 1993, 1995 und 1997 - 2005 (ungerade Jahrgänge und Monate)\tLOAD('faz')" >>$CDFile |
| 239 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:faz |
| 240 | |
| 241 | ##echo -e "foc - FOCUS, Januar 2000 - $_FOC $_THIS_YEAR\tLOAD('foc')" >>$CDFile |
| 242 | echo -e "foc - FOCUS, 2000 - $_THIS_YEAR\tLOAD('foc')" >>$CDFile |
| 243 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:foc |
| 244 | |
| 245 | echo -e "frr - Frankfurter Rundschau, Januar 1997 - Dezember 1999\tLOAD('frr')" >>$CDFile |
| 246 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:frr |
| 247 | |
| 248 | echo -e "fsp - Fachsprachen-Korpus 1\tLOAD('fsp fsp-pub')" >>$CDFile |
| 249 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:fsp |
| 250 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:fsp-pub |
| 251 | |
| 252 | echo -e "goe - Goethes Werke\tLOAD('goe')" >>$CDFile |
| 253 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:goe |
| 254 | |
| 255 | echo -e "gr1 - Grammatik-Korpus\tLOAD('gr1')" >>$CDFile |
| 256 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:gr1 |
| 257 | |
| 258 | echo -e "gri - Brüder Grimm: Sagen, Kinder- und Hausmärchen, Kinderlegenden\tLOAD('gri')" >>$CDFile |
| 259 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:gri |
| 260 | |
| 261 | ##echo -e "haz - Hannoversche Allgemeine, August 2007 - $_HAZ $_THIS_YEAR\tLOAD('haz')" >>$CDFile |
| 262 | echo -e "haz - Hannoversche Allgemeine, 2007 - $_THIS_YEAR\tLOAD('haz')" >>$CDFile |
| 263 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:haz |
| 264 | |
| 265 | echo -e "hbk - Handbuch-Korpora, 1985 - 1988\tLOAD('hbk')" >>$CDFile |
| 266 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:hbk |
| 267 | |
| 268 | echo -e "hes - Belletristik des 20. Jahrhunderts: Stefan Heym\tLOAD('hes')" >>$CDFile |
| 269 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:hes |
| 270 | |
| 271 | ##echo -e "hmp - Hamburger Morgenpost, April 2005 - $_HMP $_THIS_YEAR\tLOAD('hmp')" >>$CDFile |
| 272 | echo -e "hmp - Hamburger Morgenpost, 2005 - $_THIS_YEAR\tLOAD('hmp')" >>$CDFile |
| 273 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:hmp |
| 274 | |
| 275 | echo -e "iko - Interviewkorpus\tLOAD('iko')" >>$CDFile |
| 276 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:iko |
| 277 | |
| 278 | echo -e "ix - Magazin für professionelle Informationstechnik, 2017 - $_THIS_YEAR\tLOAD('ix')" >>$CDFile |
| 279 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:ix |
| 280 | |
| 281 | echo -e "kic - Fußball-Liveticker, kicker.de, 2006 - 2016\tLOAD('kic')" >>$CDFile |
| 282 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:kic |
| 283 | |
| 284 | echo -e "kjl - Kinder- und Jugendliteratur\tLOAD('kjl')" >>$CDFile |
| 285 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:kjl |
| 286 | |
| 287 | echo -e "klz - Kleine Zeitung, August 1996 - Dezember 2000\tLOAD('klz')" >>$CDFile |
| 288 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:klz |
| 289 | |
| 290 | echo -e "ksp - Fußball-Spielberichte, kicker.de, 2006 - 2016\tLOAD('ksp')" >>$CDFile |
| 291 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:ksp |
| 292 | |
| 293 | echo -e "les - Belletristik des 20. Jahrhunderts: Siegfried Lenz\tLOAD('les')" >>$CDFile |
| 294 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:les |
| 295 | |
| 296 | echo -e "lim - LIMAS-Korpus\tLOAD('lim')" >>$CDFile |
| 297 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:lim |
| 298 | |
| 299 | echo -e "lmd - Le Monde diplomatique, 2017 - $_THIS_YEAR\tLOAD('lmd')" >>$CDFile |
| 300 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:lmd |
| 301 | |
| 302 | echo -e "loz - Belletristik des 20. und 21. Jahrhunderts\tLOAD('div div-pub hes les wam')" >>$CDFile |
| 303 | |
| 304 | ##echo -e "ltb - Luxemburger Tageblatt, Januar 2008 - $_LTB $_THIS_YEAR\tLOAD('ltb')" >>$CDFile |
| 305 | echo -e "ltb - Luxemburger Tageblatt, 2008 - $_THIS_YEAR\tLOAD('ltb')" >>$CDFile |
| 306 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:ltb |
| 307 | |
| 308 | echo -e "mk - Mannheimer Korpora 1+2\tLOAD('mk1 mk2')" >>$CDFile |
| 309 | |
| 310 | echo -e "mk1 - Mannheimer Korpus 1\tLOAD('mk1')" >>$CDFile |
| 311 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:mk1 |
| 312 | |
| 313 | echo -e "mk2 - Mannheimer Korpus 2\tLOAD('mk2')" >>$CDFile |
| 314 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:mk2 |
| 315 | |
| 316 | echo -e "mld - Korpus Magazin Lufthansa Bordbuch/deutsch\tLOAD('mld')" >>$CDFile |
| 317 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:mld |
| 318 | |
| 319 | ##echo -e "mm - Mannheimer Morgen, Januar 1995 - $_MM $_THIS_YEAR (die Jahrgänge 1995, 1997 und 2000 sind unvollständig)\tLOAD('m')" >>$CDFile |
| 320 | echo -e "mm - Mannheimer Morgen, 1995 - $_THIS_YEAR (die Jahrgänge 1995, 1997 und 2000 sind unvollständig)\tLOAD('m')" >>$CDFile |
| 321 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:m |
| 322 | |
| 323 | echo -e "neu - Neuland: Das Wirtschaftsmagazin der Regionen, Okt. 2007; Mrz.,Jul.,Dez. 2008; Aug. 2009\tLOAD('neu')" >>$CDFile |
| 324 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:neu |
| 325 | |
| 326 | ##echo -e "news - NEWS, Januar 2002 - $_NEWS $_THIS_YEAR\tLOAD('new')" >>$CDFile |
| 327 | echo -e "news - NEWS, 2002 - $_THIS_YEAR\tLOAD('new')" >>$CDFile |
| 328 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:new |
| 329 | |
| 330 | ### 01.07.2017: |
| 331 | ### use the below scripts for generating the approp. new ng-entries in 'DEF/new-npub.def': |
| 332 | ### unset LIST |
| 333 | ### while read; do if [ -z "$LIST" ];then LIST="$REPLY";else LIST="${LIST}\n${REPLY}";fi; done < <(for i in `ls -1 /pool3/DeReKo/DeReKo-2017-I/I5/ng*.i5.xml.bz2`;do bzcat $i|perl -ne 'chomp;if(s/^\s*<d.title>(.+)[0-9]{4}<\/d.title>$/$1/){print " $_\n";last};print if s/^\s*<korpusSigle>([^<]+)<\/korpusSigle>$/$1/';done) |
| 334 | ### export LIST |
| 335 | ### while read; do export REPLY; perl -e '$ENV{REPLY}=~/^([^\/]+).+?([0-9]+)$/;$ks=$1;$year=$2;$ENV{LIST}=~/$ks ([^\\\n]+)/;print "<doc>$ENV{REPLY} ${1}20$year</doc>\n"'; done < <(for i in `cat /pool3/home6/DIFF/diff_cs.DeReKo-2017-I_xs/DA/ng*.da`;do echo $i;done) >> DEF/new-pub.def |
| 336 | ### NOTE: the above while-loop only refers to _added_ documents (.../DA/...) and _not_ completely new ones (in this case like 'ngalt') |
| 337 | ### |
| 338 | echo -e "ng - 'de.*'-Usenet-Newsgruppen, 2013 - 2016\tLOAD('ng')" >>$CDFile |
| 339 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:ng |
| 340 | |
| 341 | echo -e "nku - Nordkurier, 2000 - $_THIS_YEAR\tLOAD('nku')" >>$CDFile |
| 342 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:nku |
| 343 | |
| 344 | echo -e "nkz - Neue Kronen-Zeitung, Januar 1994 - Mai 2000\tLOAD('nkz')" >>$CDFile |
| 345 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:nkz |
| 346 | |
| 347 | echo -e "non - Niederösterreichische Nachrichten, 2007 - $_THIS_YEAR\tLOAD('non')" >>$CDFile |
| 348 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:non |
| 349 | |
| 350 | echo -e "nun - Nürnberger Nachrichten, 1990 - $_THIS_YEAR\tLOAD('nun')" >>$CDFile |
| 351 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:nun |
| 352 | |
| 353 | echo -e "nuz - Nürnberger Zeitung, 2002 - $_THIS_YEAR\tLOAD('nuz')" >>$CDFile |
| 354 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:nuz |
| 355 | |
| 356 | echo -e "nzf - NZZ Folio, 1994 - $_THIS_YEAR\tLOAD('nzf')" >>$CDFile |
| 357 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:nzf |
| 358 | |
| 359 | echo -e "nzs - NZZ am Sonntag, 2002 - $_THIS_YEAR\tLOAD('nzs')" >>$CDFile |
| 360 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:nzs |
| 361 | |
| 362 | echo -e "nzz - Neue Zürcher Zeitung, 2000 - $_THIS_YEAR\tLOAD('nzz')" >>$CDFile |
| 363 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:nzz |
| 364 | |
| 365 | echo -e "oon - Oberösterreichische Nachrichten, 1996 - 1997\tLOAD('oon')" >>$CDFile |
| 366 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:oon |
| 367 | |
| 368 | # Ansprechpartner: Harald Luengen |
| 369 | echo -e "pp - Plenarprotokolle\tLOAD('pp')" >> $CDFile |
| 370 | $BIN/c2test $SL "$DBN" "$SV" -ad2b:o:pp |
| 371 | |
| 372 | echo -e "prf - profil, 2000 - $_THIS_YEAR\tLOAD('prf')" >>$CDFile |
| 373 | $BIN/c2test $SL "$DBN" "$SV" -ad2b:o:prf |
| 374 | |
| 375 | echo -e "rei - Reden und Interviews, Januar 2002 - Dezember 2006\tLOAD('rei')" >>$CDFile |
| 376 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:rei |
| 377 | |
| 378 | echo -e "rhp - Die Rheinpfalz, 2007 - $_THIS_YEAR\tLOAD('rhp')" >>$CDFile |
| 379 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:rhp |
| 380 | |
| 381 | echo -e "rhz - Rhein-Zeitung, 1996 - $_THIS_YEAR\tLOAD('rhz')" >>$CDFile |
| 382 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:rhz |
| 383 | |
| 384 | echo -e "sbl - Sonntagsblick, Feb. 2001; 2005 - $_THIS_YEAR\tLOAD('sbl')" >>$CDFile |
| 385 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:sbl |
| 386 | |
| 387 | echo -e "sbn - Salzburger Nachrichten, Juni 1991 - Dezember 2000\tLOAD('sbn')" >>$CDFile |
| 388 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:sbn |
| 389 | |
| 390 | echo -e "sgt - St. Galler Tagblatt, 1997 - 2001, 2007 - $_THIS_YEAR\tLOAD('a')" >>$CDFile |
| 391 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:a |
| 392 | |
| 393 | echo -e "sid - Fußball-Liveticker, Sport-Informations-Dienst, 2010 - 2016\tLOAD('sid')" >>$CDFile |
| 394 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:sid |
| 395 | |
| 396 | echo -e "soz - Die Südostschweiz, 2005 - 2018\tLOAD('soz')" >>$CDFile |
| 397 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:soz |
| 398 | |
| 399 | echo -e "spiegel - Der Spiegel, 1947 - $_THIS_YEAR\tLOAD('s')" >>$CDFile |
| 400 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:s |
| 401 | |
| 402 | echo -e "spon - Spiegel-Online, 1999 - $_THIS_YEAR\tLOAD('sol')" >>$CDFile |
| 403 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:sol |
| 404 | |
| 405 | echo -e "spk - spektrumdirekt, Januar 1997 - August 2012\tLOAD('spk')" >>$CDFile |
| 406 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:spk |
| 407 | |
| 408 | echo -e "ste - Stern, 1996 - $_THIS_YEAR\tLOAD('ste')" >>$CDFile |
| 409 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:ste |
| 410 | |
| 411 | echo -e "stg - Stern Gesund leben, 2018 - $_THIS_YEAR\tLOAD('stg')" >>$CDFile |
| 412 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:stg |
| 413 | |
| 414 | echo -e "sz - Süddeutsche Zeitung, 1992 - $_THIS_YEAR\tLOAD('u')" >>$CDFile |
| 415 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:u |
| 416 | |
| 417 | echo -e "tas - SonntagsZeitung (Tages-Anzeiger), 2000 - $_THIS_YEAR\tLOAD('tas')" >>$CDFile |
| 418 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:tas |
| 419 | |
| 420 | echo -e "taz - die tageszeitung, 1986 - $_THIS_YEAR\tLOAD('t')" >>$CDFile |
| 421 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:t |
| 422 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:t-pub |
| 423 | |
| 424 | echo -e "thm - Thomas-Mann-Korpus\tLOAD('thm')" >>$CDFile |
| 425 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:thm |
| 426 | |
| 427 | echo -e "ttz - Tiroler Tageszeitung, Januar 1996 - Dezember 2000\tLOAD('ttz')" >>$CDFile |
| 428 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:ttz |
| 429 | |
| 430 | echo -e "van - Vorarlberger Nachrichten, Januar 1997 - Dezember 2000\tLOAD('van')" >>$CDFile |
| 431 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:van |
| 432 | |
| 433 | echo -e "vdi - VDI nachrichten, 2006 - $_THIS_YEAR\tLOAD('vdi')" >>$CDFile |
| 434 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:vdi |
| 435 | |
| 436 | echo -e "wam - Belletristik des 20. Jahrhunderts: Martin Walser\tLOAD('wam')" >>$CDFile |
| 437 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:wam |
| 438 | |
| 439 | echo -e "wkb - Wendekorpus/West\tLOAD('wkb')" >>$CDFile |
| 440 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:wkb |
| 441 | |
| 442 | echo -e "wkd - Wendekorpus/Ost\tLOAD('wkd')" >>$CDFile |
| 443 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:wkd |
| 444 | |
| 445 | echo -e "wk - Wendekorpora West+Ost\tLOAD('wkb wkd')" >>$CDFile |
| 446 | |
| 447 | echo -e "wkv - Wendekorpus/Vereinigung\tLOAD('wkv')" >>$CDFile |
| 448 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:wkv |
| 449 | |
| 450 | echo -e "wpd11 - Wikipedia Artikel (Stand: 29.10.2011)\tLOAD('wpd11')" >> $CDFile |
| 451 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:wpd11 |
| 452 | |
| 453 | echo -e "wdd11 - Wikipedia Diskussionen (Stand: 29.10.2011)\tLOAD('wdd11')" >> $CDFile |
| 454 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:wdd11 |
| 455 | |
| 456 | echo -e "wxx11 - Wikipedia Artikel und Diskussionen (Stand: 29.10.2011)\tLOAD('wxx11')" >> $CDFile |
| 457 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:wxx11 |
| 458 | |
| 459 | echo -e "wwo - Weltwoche, 2005 - $_THIS_YEAR\tLOAD('wwo')" >>$CDFile |
| 460 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:wwo |
| 461 | |
| 462 | echo -e "zca - Zeit Campus, 2009 - $_THIS_YEAR\tLOAD('zca')" >>$CDFile |
| 463 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:zca |
| 464 | |
| 465 | echo -e "zcw - ZEIT Christ und Welt, 2015 - $_THIS_YEAR\tLOAD('zcw')" >>$CDFile |
| 466 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:zcw |
| 467 | |
| 468 | echo -e "zeit - Die Zeit, 1953 - $_THIS_YEAR\tLOAD('z')" >>$CDFile |
| 469 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:z |
| 470 | |
| 471 | echo -e "zge - Zeit Geschichte, 2010 - $_THIS_YEAR\tLOAD('zge')" >>$CDFile |
| 472 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:zge |
| 473 | |
| 474 | echo -e "zta - Tages-Anzeiger, 1996 - $_THIS_YEAR\tLOAD('e')" >>$CDFile |
| 475 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:e |
| 476 | |
| 477 | echo -e "zwi - Zeit Wissen (unvollst.), 2009 - 2015, 2017 - $_THIS_YEAR\tLOAD('zwi')" >>$CDFile |
| 478 | $BIN/c2test $SL "$DBN" $SV -ad2b:o:zwi |
| 479 | |
| 480 | # |
| 481 | # important for the next scripts: |
| 482 | # wait till all build_big_def() calls have returned: |
| 483 | # 01.04.21/FB |
| 484 | |
| 485 | echo "$0: wait for all build_big_def()..." |
| 486 | wait |
| 487 | echo "$0: wait: done." |