blob: 83b4815086e3e544081528a056276ce95d142e2f [file] [log] [blame]
Akrona67de8f2026-02-23 17:54:26 +01001id: wiki-dereko
2type: corpus
3desc: Mapping between Wikipedia and DeReKo textClass categories
4fieldA: wikiCat
5fieldB: textClass
6mappings:
7 # Academic_disciplines (7171 files): wissenschaft.populaerwissenschaft=30.6%, kultur.literatur=24.2%
8 - "Academic_disciplines <> ((wissenschaft & populaerwissenschaft) | (kultur & literatur))"
9 # Communication (2568 files): technik-industrie.edv-elektronik=31.0%, wissenschaft.populaerwissenschaft=25.1%
10 - "Communication <> ((technik-industrie & edv-elektronik) | (wissenschaft & populaerwissenschaft))"
11 # Concepts (2646 files): freizeit-unterhaltung.reisen=23.9%, wissenschaft.populaerwissenschaft=21.7%
12 - "Concepts <> ((freizeit-unterhaltung & reisen) | (wissenschaft & populaerwissenschaft))"
13 # Entities (13372 files): wissenschaft.populaerwissenschaft=30.4%, technik-industrie.edv-elektronik=21.9%
14 - "Entities <> ((wissenschaft & populaerwissenschaft) | (technik-industrie & edv-elektronik))"
15 # Food_drink (4456 files): freizeit-unterhaltung.reisen=37.9%, wissenschaft.populaerwissenschaft=23.2%
16 - "Food_drink <> ((freizeit-unterhaltung & reisen) | (wissenschaft & populaerwissenschaft))"
17 # Health (1952 files): wissenschaft.populaerwissenschaft=30.0%, gesundheit-ernaehrung.gesundheit=28.7%
18 - "Health <> ((wissenschaft & populaerwissenschaft) | (gesundheit-ernaehrung & gesundheit))"
19 # History (59767 files): freizeit-unterhaltung.reisen=22.6%, kultur.literatur=20.6%
20 - "History <> ((freizeit-unterhaltung & reisen) | (kultur & literatur))"
21 # Mathematics (10035 files): wissenschaft.populaerwissenschaft=54.1%, kultur.literatur=24.1%
22 - "Mathematics <> ((wissenschaft & populaerwissenschaft) | (kultur & literatur))"
23 # Philosophy (10961 files): kultur.literatur=51.8%, wissenschaft.populaerwissenschaft=27.3%
24 - "Philosophy <> ((kultur & literatur) | (wissenschaft & populaerwissenschaft))"
25 # Religion (7875 files): staat-gesellschaft.kirche=37.1%, freizeit-unterhaltung.reisen=31.0%
26 - "Religion <> ((staat-gesellschaft & kirche) | (freizeit-unterhaltung & reisen))"
27 # Science (31185 files): wissenschaft.populaerwissenschaft=42.3%, kultur.literatur=21.8%
28 - "Science <> ((wissenschaft & populaerwissenschaft) | (kultur & literatur))"
29 # Sports (49599 files): sport.vermischtes=37.5%, sport.fussball=28.8%
30 - "Sports <> ((sport & vermischtes) | (sport & fussball))"
31 # Time (1023 files): wissenschaft.populaerwissenschaft=29.8%, kultur.film=27.2%
32 - "Time <> ((wissenschaft & populaerwissenschaft) | (kultur & film))"
33 # Culture (21448 files): freizeit-unterhaltung.reisen=37.1%
34 - "Culture <> (freizeit-unterhaltung & reisen)"
35 # Economy (13283 files): wissenschaft.populaerwissenschaft=20.0%
36 - "Economy <> (wissenschaft & populaerwissenschaft)"
37 # Education (7560 files): staat-gesellschaft.bildung=37.1%
38 - "Education <> (staat-gesellschaft & bildung)"
39 # Energy (1642 files): wissenschaft.populaerwissenschaft=41.8%
40 - "Energy <> (wissenschaft & populaerwissenschaft)"
41 # Engineering (10318 files): wissenschaft.populaerwissenschaft=33.6%
42 - "Engineering <> (wissenschaft & populaerwissenschaft)"
43 # Entertainment (1033 files): kultur.musik=34.2%
44 - "Entertainment <> (kultur & musik)"
45 # Geography (18082 files): freizeit-unterhaltung.reisen=68.4%
46 - "Geography <> (freizeit-unterhaltung & reisen)"
47 # Government (6594 files): politik.ausland=45.8%
48 - "Government <> (politik & ausland)"
49 # Human_behavior (10855 files): politik.ausland=35.7%
50 - "Human_behavior <> (politik & ausland)"
51 # Humanities (6897 files): kultur.literatur=31.8%
52 - "Humanities <> (kultur & literatur)"
53 # Information (1480 files): technik-industrie.edv-elektronik=55.0%
54 - "Information <> (technik-industrie & edv-elektronik)"
55 # Internet (1694 files): technik-industrie.edv-elektronik=67.7%
56 - "Internet <> (technik-industrie & edv-elektronik)"
57 # Knowledge (4832 files): wissenschaft.populaerwissenschaft=59.5%
58 - "Knowledge <> (wissenschaft & populaerwissenschaft)"
59 # Language (60359 files): kultur.literatur=64.5%
60 - "Language <> (kultur & literatur)"
61 # Law (26387 files): politik.ausland=42.5%
62 - "Law <> (politik & ausland)"
63 # Life (3117 files): politik.ausland=21.5%
64 - "Life <> (politik & ausland)"
65 # Lists (22019 files): freizeit-unterhaltung.reisen=21.0%
66 - "Lists <> (freizeit-unterhaltung & reisen)"
67 # Mass_media (21707 files): kultur.film=32.1%
68 - "Mass_media <> (kultur & film)"
69 # Military (27580 files): politik.ausland=32.0%
70 - "Military <> (politik & ausland)"
71 # Nature (5573 files): freizeit-unterhaltung.reisen=42.6%
72 - "Nature <> (freizeit-unterhaltung & reisen)"
73 # Politics (9887 files): politik.ausland=48.7%
74 - "Politics <> (politik & ausland)"
75 # Society (12187 files): wissenschaft.populaerwissenschaft=49.4%
76 - "Society <> (wissenschaft & populaerwissenschaft)"
77 # Technology (11385 files): wissenschaft.populaerwissenschaft=44.0%
78 - "Technology <> (wissenschaft & populaerwissenschaft)"
79 # Universe (1967 files): wissenschaft.populaerwissenschaft=41.1%
80 - "Universe <> (wissenschaft & populaerwissenschaft)"
81 # freizeit-unterhaltung.reisen → History, Geography, Culture (AND)
82 - "(History | Geography | Culture) <> (freizeit-unterhaltung & reisen)"
83 # technik-industrie.edv-elektronik → Entities, Internet (AND)
84 - "(Entities | Internet) <> (technik-industrie & edv-elektronik)"
85 # kultur.literatur → Language, History (AND)
86 - "(Language | History) <> (kultur & literatur)"
87 # politik.ausland → Law, Military (AND)
88 - "(Law | Military) <> (politik & ausland)"
89 # Health (1952 files): gesundheit-ernaehrung.gesundheit=28.7%
90 - "Health <> (gesundheit-ernaehrung & gesundheit)"
91 # Religion (7875 files): staat-gesellschaft.kirche=37.1%
92 - "Religion <> (staat-gesellschaft & kirche)"
93 # Science (31185 files): wissenschaft.populaerwissenschaft=42.3%
94 - "Science <> (wissenschaft & populaerwissenschaft)"
95 # Sports (49599 files): sport.fussball=28.8%
96 - "Sports <> (sport & fussball)"
97 # Sports (49599 files): sport.vermischtes=37.5%
98 - "Sports <> (sport & vermischtes)"