Blame - t/real/sgbr/lemma.t - KorAP/KorAP-XML-Krill

blob: 54f94e46c7c20100e17d287a2f0fa9c1b9a9ee49 [file] [log] [blame]

Akron	414ec95	2020-08-03 15:48:43 +0200	[diff] [blame]	1	use strict;
				2	use warnings;
				3	use Test::More;
				4	use File::Basename 'dirname';
				5	use File::Spec::Functions 'catdir';
				6	use Data::Dumper;
				7	use KorAP::XML::Tokenizer;
				8	use KorAP::XML::Krill;
				9	use utf8;
				10
				11	if ($ENV{SKIP_REAL}) {
				12	plan skip_all => 'Skip real tests';
				13	};
				14
				15	my $path = catdir(dirname(__FILE__), 'TEST', 'BSP', 1);
				16
				17	ok(my $doc = KorAP::XML::Krill->new(
				18	path => $path . '/'
				19	), 'Create Document');
				20
				21	ok($doc->parse, 'Parse document');
				22
				23	ok(my $tokens = KorAP::XML::Tokenizer->new(
				24	path => $doc->path,
				25	doc => $doc,
				26	foundry => 'Sgbr',
				27	layer => 'Lemma',
				28	name => 'tokens'
				29	), 'Create tokens based on lemmata');
				30
				31	ok($tokens->parse, 'Parse tokenization based on lemmata');
				32
				33	ok($tokens->add('Sgbr', 'Lemma'), 'Add Structure');
				34
				35	my $data = $tokens->to_data->{data};
				36
				37	my $stream = $data->{stream};
				38	is($stream->[0]->[0], '-:tokens$<i>51', 'Token number');
				39	is($stream->[0]->[1], '<>:base/s:t$<b>64<i>0<i>365<i>51<b>0', 'Text Boundary');
				40	is($stream->[0]->[2], '_0$<i>0<i>18', 'Position');
				41	is($stream->[0]->[3], 'i:sommerüberraschung', 'First term');
				42	is($stream->[0]->[4], 's:Sommerüberraschung', 'First term');
				43	is($stream->[0]->[5], 'sgbr/l:Sommerüberraschung', 'First term');
				44	ok(!defined $stream->[0]->[6], 'First term');
				45
				46	is($stream->[1]->[0], '_1$<i>19<i>21', 'Position');
				47	is($stream->[1]->[1], 'i:es', 'Second term');
				48	is($stream->[1]->[2], 's:Es', 'Second term');
				49	is($stream->[1]->[3], 'sgbr/l:es', 'Second term');
				50	is($stream->[1]->[4], 'sgbr/lv:er', 'Second term');
				51	is($stream->[1]->[5], 'sgbr/lv:sie', 'Second term');
				52
				53	is($stream->[16]->[0], '_16$<i>107<i>115', 'Position');
				54	is($stream->[16]->[1], 'i:guenther', '16th term');
				55	is($stream->[16]->[2], 's:Guenther', '16th term');
				56	is($stream->[16]->[3], 'sgbr/l:Günther', '16th term');
				57	is($stream->[16]->[4], 'sgbr/lv:Günter', '16th term');
				58
				59	is($stream->[-1]->[0], '_50$<i>359<i>364', 'Position');
				60	is($stream->[-1]->[1], 'i:kevin', 'Last term');
				61	is($stream->[-1]->[2], 's:Kevin', 'Last term');
				62	is($stream->[-1]->[3], 'sgbr/l:Kevin', 'Last term');
				63
				64
				65	# Real data 1
				66	$path = catdir(dirname(__FILE__), 'CMC-TSK', '2014-09', '2843');
				67
				68	ok($doc = KorAP::XML::Krill->new(
				69	path => $path . '/'
				70	), 'Create Document');
				71
				72	ok($doc->parse, 'Parse document');
				73
				74	ok($tokens = KorAP::XML::Tokenizer->new(
				75	path => $doc->path,
				76	doc => $doc,
				77	foundry => 'Sgbr',
				78	layer => 'Lemma',
				79	name => 'tokens'
				80	), 'Create tokens based on lemmata');
				81
				82	ok($tokens->parse, 'Parse tokenization based on lemmata');
				83
				84	ok(!$tokens->add('Sgbr', 'Lemma'), 'Add Structure impossible - no token data');
				85
				86
				87	# Real data 2
				88	$path = catdir(dirname(__FILE__), 'CMC-TSK', '2014-09', '3401');
				89
				90	ok($doc = KorAP::XML::Krill->new(
				91	path => $path . '/'
				92	), 'Create Document');
				93
				94	ok($doc->parse, 'Parse document');
				95
				96	ok($tokens = KorAP::XML::Tokenizer->new(
				97	path => $doc->path,
				98	doc => $doc,
				99	foundry => 'Sgbr',
				100	layer => 'Lemma',
				101	name => 'tokens'
				102	), 'Create tokens based on lemmata');
				103
				104	ok($tokens->parse, 'Parse tokenization based on lemmata');
				105
				106	ok($tokens->add('Sgbr', 'Lemma'), 'Add Structure');
				107
				108	done_testing;
				109
				110	__END__