Blame - lib/Krawfish/Koral/Document.pm - KorAP/Krawfish-prototype

blob: ac41d214fbeb8a71bc1f18a58da4effa22ca7111 [file] [log] [blame]

Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	1	package Krawfish::Koral::Document;
Akron	4a46e6e	2017-08-16 17:49:16 +0200	[diff] [blame]	2	use Krawfish::Koral::Document::Stream;
				3	use Krawfish::Koral::Document::Fields;
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	4	use Krawfish::Koral::Query::Term;
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	5	use Krawfish::Log;
				6	use Mojo::File;
				7	use Mojo::JSON qw/encode_json decode_json/;
Akron	927789d	2016-11-01 02:33:04 +0100	[diff] [blame]	8	use strict;
				9	use warnings;
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	10	use List::MoreUtils qw/uniq/;
Akron	927789d	2016-11-01 02:33:04 +0100	[diff] [blame]	11
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	12	# Parses a document and creates a simple forward index list.
				13	#
				14	# primary='...',
				15	# fields=[+field => title],
				16	# terms=[term => [postings]]
				17	#
				18	# Then, when the document is added to certain nodes,
				19	# the keys will be translated to term_ids and the document
				20	# can be added with all freq_in_doc information
				21
Akron	a588d07	2017-10-13 14:45:34 +0200	[diff] [blame^]	22	# foundry and layer may need separated term_ids
				23	# so they are exceptional small.
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	24
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	25	# TODO:
				26	# Don't forget to deal with TUIs!
				27
Akron	94256e6	2017-10-10 17:29:18 +0200	[diff] [blame]	28	use constant DEBUG => 0;
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	29
				30	# Parse the document and create an inverted index file
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	31	sub new {
				32	my $class = shift;
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	33
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	34	my $self = bless {
Akron	cdbe3cb	2017-08-29 21:16:18 +0200	[diff] [blame]	35	# sortable => {},
Akron	4a46e6e	2017-08-16 17:49:16 +0200	[diff] [blame]	36	stream => Krawfish::Koral::Document::Stream->new,
				37	fields => Krawfish::Koral::Document::Fields->new
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	38	}, $class;
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	39
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	40	my $doc = shift;
				41
				42	unless (ref $doc) {
				43	$doc = decode_json(Mojo::File->new($doc)->slurp);
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	44	};
				45
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	46	# Parse the document
				47	$self->_parse($doc);
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	48
				49	return $self;
				50	};
				51
				52
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	53	# Get the stream object
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	54	sub stream {
				55	$_[0]->{stream};
				56	};
				57
				58
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	59	# Get the fields object
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	60	sub fields {
				61	$_[0]->{fields};
				62	};
				63
				64
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	65	# Translate all terms into term_ids and
				66	# add unknown terms to the dictionary
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	67	sub identify {
				68	my ($self, $dict) = @_;
				69	$self->{fields} = $self->{fields}->identify($dict);
				70	$self->{stream} = $self->{stream}->identify($dict);
				71	return $self;
				72	};
				73
				74
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	75	# Stringification
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	76	sub to_string {
Akron	10448e1	2017-10-11 18:04:53 +0200	[diff] [blame]	77	my ($self, $id) = @_;
				78	return '[' . $self->fields->to_string($id) . ']' . $self->stream->to_string($id);
				79	};
				80
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	81
				82	# Parse the file and create a token-ordered document
				83	sub _parse {
				84	my ($self, $doc) = @_;
				85
				86	# Get the document part
				87	# This may - in the future - support multiple documents at once
				88	$doc = $doc->{document};
				89
				90	my $primary = '';
				91	my $stream = $self->stream;
				92	my $fields = $self->fields;
				93
				94	# Remember the primary data for the creation
				95	# of the forward index
				96	if ($doc->{primaryData}) {
				97	$primary = $doc->{primaryData};
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	98	};
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	99
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	100	# Add metadata fields
				101	my $pos = 0;
Akron	cdbe3cb	2017-08-29 21:16:18 +0200	[diff] [blame]	102	# my %sortable;
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	103	foreach my $field (@{$doc->{fields}}) {
				104
				105	# TODO:
				106	# Presort fields based on their field_key_id!
				107	# In that way it's faster to retrieve presorted fields
				108	# for enrichment!
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	109
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	110	# Prepare field for sorting
Akron	a588d07	2017-10-13 14:45:34 +0200	[diff] [blame^]	111	# if ($field->{sortable}) {
				112	# # Which entries need to be sorted?
				113	# $sortable{$field->{key}}++;
				114	# };
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	115
				116	# Prepare for summarization
Akron	df4c163	2017-08-17 16:56:30 +0200	[diff] [blame]	117	if (!$field->{type} \|\| $field->{type} eq 'type:string') {
Akron	cdbe3cb	2017-08-29 21:16:18 +0200	[diff] [blame]	118	if (ref $field->{value} && ref $field->{value} eq 'ARRAY') {
				119
				120	if (DEBUG) {
				121	print_log('doc', 'Field ' . $field->{key} . ' is multivalued');
				122	};
				123
				124	my $key = $field->{key};
				125
				126	# Iterate over all field values and add the value
				127	foreach my $value (@{$field->{value}}) {
				128	$fields->add_string($key, $value);
				129	};
				130	}
				131	else {
				132	$fields->add_string($field->{key}, $field->{value});
				133	};
Akron	df4c163	2017-08-17 16:56:30 +0200	[diff] [blame]	134	}
				135	elsif ($field->{type} eq 'type:integer') {
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	136	$fields->add_int($field->{key}, $field->{value});
				137	}
Akron	df4c163	2017-08-17 16:56:30 +0200	[diff] [blame]	138	elsif ($field->{type} eq 'type:store') {
				139	$fields->add_store($field->{key}, $field->{value});
				140	}
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	141	else {
Akron	df4c163	2017-08-17 16:56:30 +0200	[diff] [blame]	142	warn 'unknown field type: ' . $field->{type};
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	143	};
				144
				145	# This will later be indexed for search as well as retrieval in
				146	# the forward index.
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	147	};
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	148
				149	# Check that the unique field is given, as this is required
Akron	cdbe3cb	2017-08-29 21:16:18 +0200	[diff] [blame]	150	# $self->{sortable} = \%sortable;
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	151
				152	my $primary_index = 0;
				153
				154	# Get all subtokens
				155	if ($doc->{subtokens}) {
				156
				157	print_log('doc', 'Parse subtokens') if DEBUG;
				158
				159	# Get all subtoken offsets
				160	foreach my $subtoken (@{$doc->{subtokens}}) {
				161
				162	# Get start and end of the subtoken
				163	my ($start, $end) = @{$subtoken->{offsets}};
				164
				165	if (DEBUG) {
				166	print_log(
				167	'doc',
				168	'Store subtoken: ' . $pos . '=' . join('-', $start, $end)
				169	);
				170	};
				171
				172	# Get the term surface from the primary text
				173	# TODO:
				174	# Ensure that the offsets are valid!
Akron	1563b0c	2017-08-10 19:58:04 +0200	[diff] [blame]	175	my $preceding = substr($primary, $primary_index, $start - $primary_index) // '';
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	176	my $term = substr($primary, $start, $end - $start);
				177	$primary_index = $end;
				178
				179	print_log('doc', 'Surface form is ' . $term) if DEBUG;
				180
				181	$stream->subtoken($pos, $preceding, $term);
				182	$pos++;
				183	};
				184	};
				185
				186
				187	# There are tokens indexed by subtokens
				188	if ($primary_index) {
				189	my $preceding = substr($primary, $primary_index);
				190	$stream->subtoken($pos, $preceding, '') if $preceding;
				191
				192	# TODO: Probably not a good idea
				193	$primary_index = 0;
				194	};
				195
				196
				197	# Get all annotations
				198	$pos = 0;
				199	my $end;
				200	foreach my $item (@{$doc->{annotations}}) {
				201
				202	# Add token term to term dictionary
				203	if ($item->{'@type'} eq 'koral:token') {
				204
				205	unless ($item->{wrap}) {
				206	warn 'No wrap defined in KoralQuery';
Akron	4204f17	2017-10-02 22:32:02 +0200	[diff] [blame]	207	CORE::next;
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	208	};
				209
				210	# Create key string
				211	my $wrap = $item->{wrap};
				212	my @keys;
				213
				214	# Token wraps a koral:termGroup
				215	if ($wrap->{'@type'} && $wrap->{'@type'} eq 'koral:termGroup') {
				216	foreach (@{$wrap->{operands}}) {
				217	push @keys, _term($_);
				218	};
				219	}
				220
				221	# Token wraps a single koral:term
				222	else {
				223	push @keys, _term($wrap);
				224	};
				225
				226	# Append posting to postings list
				227	my @subtoken_offset = _subtokens($item);
				228
				229	# There are no reference subtokens defined
				230	unless (scalar @subtoken_offset) {
				231
				232	# Use the current position for storing
				233	push @subtoken_offset, $pos;
				234
				235	# But there are offsets defined
				236	if ($item->{offsets}) {
				237
				238	# Get character definitions
				239	my ($start, $end) = @{$item->{offsets}};
				240
				241	# Get the term surface from the primary text
				242	# TODO:
				243	# Ensure that the offsets are valid!
				244	my $preceding = substr($primary, $primary_index, $start - $primary_index);
				245	my $term = substr($primary, $start, $end - $start);
				246	$primary_index = $end;
				247
				248	$stream->subtoken($pos, $preceding, $term);
				249	};
				250	$pos++;
				251	};
				252
				253	# Add token terms
				254	foreach (@keys) {
				255
				256	# Add token annotation
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	257	# my $length = $subtoken_offset[1] ? ($subtoken_offset[1]-$subtoken_offset[0]-1) : 0;
				258	$stream->subtoken(
				259	$subtoken_offset[0]
				260	)->add_annotation($_, $subtoken_offset[1] ? $subtoken_offset[1] : $subtoken_offset[0] + 1);
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	261	};
				262	}
				263
				264	# Add span term to dictionary
				265	elsif ($item->{'@type'} eq 'koral:span') {
				266
				267	# Create key string
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	268	my $term = _term($item->{wrap});
				269	$term->term_type('span');
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	270
				271	# Add span to forward stream
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	272	#my $length = $item->{subtokens}->[1] ? (
				273	# $item->{subtokens}->[-1] - $item->{subtokens}->[0]
				274	#) : 0;
				275	$stream->subtoken($item->{subtokens}->[0])->add_annotation(
				276	$term,
				277	$item->{subtokens}->[-1] + 1
				278	);
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	279	};
				280	};
				281
				282	# There are tokens indexed by subtokens
				283	if ($primary_index) {
				284	my $preceding = substr($primary, $primary_index);
				285	$stream->subtoken($pos, $preceding, '') if $preceding;
				286
				287	# TODO: Probably not a good idea
				288	$primary_index = 0;
				289	};
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	290	};
				291
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	292
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	293	# TODO: Use from_koral()->term
				294	# Potentially with a prefix
				295	sub _term {
				296	my $item = shift;
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	297	my $term = Krawfish::Koral::Query::Term->new;
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	298
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	299	if ($item->{foundry}) {
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	300	$term->foundry($item->{foundry});
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	301	};
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	302
				303	if ($item->{layer}) {
				304	$term->layer($item->{layer});
				305	};
				306
				307	if ($item->{key}) {
				308	$term->key($item->{key});
				309	};
				310
				311	if ($item->{value}) {
				312	$term->value($item->{value});
				313	};
				314
Akron	7b4e4d9	2017-09-25 12:18:29 +0200	[diff] [blame]	315	# Make token default term type
				316	$term->term_type('token');
				317
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	318	return $term;
				319
				320	#my $key = '';
				321	## Create term for term dictionary
				322	#if ($item->{foundry}) {
				323	# $key .= $item->{foundry};
				324	# if ($item->{layer}) {
				325	# $key .= '/' . $item->{layer};
				326	# }
				327	# $key .= '=';
				328	#};
				329	#return $key . ($item->{key} // '');
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	330	}
				331
				332
				333	# Return subtoken list or nothing
				334	sub _subtokens {
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	335	my $item = shift;
				336	my @posting;
				337
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	338	if ($item->{subtokens}) {
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	339
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	340	# Remove!
				341	push @posting, $item->{subtokens}->[0];
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	342
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	343	if ($item->{subtokens}->[1]) {
				344	# The end is AFTER the second subtoken
				345	push @posting, $item->{subtokens}->[1] + 1;
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	346	};
				347
				348	return @posting;
				349	};
				350
				351	return;
				352	};
				353
Akron	927789d	2016-11-01 02:33:04 +0100	[diff] [blame]	354
				355	1;
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	356
				357
				358	__END__