Blame - lib/Krawfish/Koral/Document.pm - KorAP/Krawfish-prototype

blob: bfc465aee7163c88a6004b50f068b12adfe0b8dd [file] [log] [blame]

Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	1	package Krawfish::Koral::Document;
Akron	4a46e6e	2017-08-16 17:49:16 +0200	[diff] [blame]	2	use Krawfish::Koral::Document::Stream;
Akron	1882934	2017-11-03 18:49:22 +0100	[diff] [blame]	3	use Krawfish::Koral::Document::Subtoken;
Akron	4a46e6e	2017-08-16 17:49:16 +0200	[diff] [blame]	4	use Krawfish::Koral::Document::Fields;
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	5	use Krawfish::Koral::Query::Term;
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	6	use Krawfish::Log;
				7	use Mojo::File;
				8	use Mojo::JSON qw/encode_json decode_json/;
Akron	927789d	2016-11-01 02:33:04 +0100	[diff] [blame]	9	use strict;
				10	use warnings;
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	11	use List::MoreUtils qw/uniq/;
Akron	927789d	2016-11-01 02:33:04 +0100	[diff] [blame]	12
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	13	# Parses a document and creates a simple forward index list.
				14	#
				15	# primary='...',
				16	# fields=[+field => title],
				17	# terms=[term => [postings]]
				18	#
				19	# Then, when the document is added to certain nodes,
				20	# the keys will be translated to term_ids and the document
				21	# can be added with all freq_in_doc information
				22
Akron	a588d07	2017-10-13 14:45:34 +0200	[diff] [blame]	23	# foundry and layer may need separated term_ids
				24	# so they are exceptional small.
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	25
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	26	# TODO:
				27	# Don't forget to deal with TUIs!
				28
Akron	94256e6	2017-10-10 17:29:18 +0200	[diff] [blame]	29	use constant DEBUG => 0;
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	30
				31	# Parse the document and create an inverted index file
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	32	sub new {
				33	my $class = shift;
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	34
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	35	my $self = bless {
Akron	cdbe3cb	2017-08-29 21:16:18 +0200	[diff] [blame]	36	# sortable => {},
Akron	4a46e6e	2017-08-16 17:49:16 +0200	[diff] [blame]	37	stream => Krawfish::Koral::Document::Stream->new,
				38	fields => Krawfish::Koral::Document::Fields->new
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	39	}, $class;
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	40
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	41	my $doc = shift;
				42
				43	unless (ref $doc) {
				44	$doc = decode_json(Mojo::File->new($doc)->slurp);
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	45	};
				46
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	47	# Parse the document
				48	$self->_parse($doc);
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	49
				50	return $self;
				51	};
				52
				53
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	54	# Get the stream object
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	55	sub stream {
				56	$_[0]->{stream};
				57	};
				58
				59
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	60	# Get the fields object
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	61	sub fields {
				62	$_[0]->{fields};
				63	};
				64
				65
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	66	# Translate all terms into term_ids and
				67	# add unknown terms to the dictionary
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	68	sub identify {
				69	my ($self, $dict) = @_;
				70	$self->{fields} = $self->{fields}->identify($dict);
				71	$self->{stream} = $self->{stream}->identify($dict);
				72	return $self;
				73	};
				74
				75
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	76	# Stringification
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	77	sub to_string {
Akron	10448e1	2017-10-11 18:04:53 +0200	[diff] [blame]	78	my ($self, $id) = @_;
				79	return '[' . $self->fields->to_string($id) . ']' . $self->stream->to_string($id);
				80	};
				81
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	82
				83	# Parse the file and create a token-ordered document
				84	sub _parse {
				85	my ($self, $doc) = @_;
				86
				87	# Get the document part
				88	# This may - in the future - support multiple documents at once
				89	$doc = $doc->{document};
				90
				91	my $primary = '';
				92	my $stream = $self->stream;
				93	my $fields = $self->fields;
				94
				95	# Remember the primary data for the creation
				96	# of the forward index
				97	if ($doc->{primaryData}) {
				98	$primary = $doc->{primaryData};
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	99	};
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	100
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	101	# Add metadata fields
				102	my $pos = 0;
Akron	cdbe3cb	2017-08-29 21:16:18 +0200	[diff] [blame]	103	# my %sortable;
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	104	foreach my $field (@{$doc->{fields}}) {
				105
				106	# TODO:
				107	# Presort fields based on their field_key_id!
				108	# In that way it's faster to retrieve presorted fields
				109	# for enrichment!
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	110
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	111	# Prepare field for sorting
Akron	a588d07	2017-10-13 14:45:34 +0200	[diff] [blame]	112	# if ($field->{sortable}) {
				113	# # Which entries need to be sorted?
				114	# $sortable{$field->{key}}++;
				115	# };
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	116
				117	# Prepare for summarization
Akron	df4c163	2017-08-17 16:56:30 +0200	[diff] [blame]	118	if (!$field->{type} \|\| $field->{type} eq 'type:string') {
Akron	cdbe3cb	2017-08-29 21:16:18 +0200	[diff] [blame]	119	if (ref $field->{value} && ref $field->{value} eq 'ARRAY') {
				120
				121	if (DEBUG) {
				122	print_log('doc', 'Field ' . $field->{key} . ' is multivalued');
				123	};
				124
				125	my $key = $field->{key};
				126
				127	# Iterate over all field values and add the value
				128	foreach my $value (@{$field->{value}}) {
				129	$fields->add_string($key, $value);
				130	};
				131	}
				132	else {
				133	$fields->add_string($field->{key}, $field->{value});
				134	};
Akron	df4c163	2017-08-17 16:56:30 +0200	[diff] [blame]	135	}
				136	elsif ($field->{type} eq 'type:integer') {
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	137	$fields->add_int($field->{key}, $field->{value});
				138	}
Akron	df4c163	2017-08-17 16:56:30 +0200	[diff] [blame]	139	elsif ($field->{type} eq 'type:store') {
				140	$fields->add_store($field->{key}, $field->{value});
				141	}
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	142	else {
Akron	df4c163	2017-08-17 16:56:30 +0200	[diff] [blame]	143	warn 'unknown field type: ' . $field->{type};
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	144	};
				145
				146	# This will later be indexed for search as well as retrieval in
				147	# the forward index.
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	148	};
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	149
				150	# Check that the unique field is given, as this is required
Akron	cdbe3cb	2017-08-29 21:16:18 +0200	[diff] [blame]	151	# $self->{sortable} = \%sortable;
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	152
				153	my $primary_index = 0;
				154
				155	# Get all subtokens
				156	if ($doc->{subtokens}) {
				157
				158	print_log('doc', 'Parse subtokens') if DEBUG;
				159
				160	# Get all subtoken offsets
				161	foreach my $subtoken (@{$doc->{subtokens}}) {
				162
				163	# Get start and end of the subtoken
				164	my ($start, $end) = @{$subtoken->{offsets}};
				165
				166	if (DEBUG) {
				167	print_log(
				168	'doc',
				169	'Store subtoken: ' . $pos . '=' . join('-', $start, $end)
				170	);
				171	};
				172
				173	# Get the term surface from the primary text
				174	# TODO:
				175	# Ensure that the offsets are valid!
Akron	1563b0c	2017-08-10 19:58:04 +0200	[diff] [blame]	176	my $preceding = substr($primary, $primary_index, $start - $primary_index) // '';
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	177	my $term = substr($primary, $start, $end - $start);
				178	$primary_index = $end;
				179
				180	print_log('doc', 'Surface form is ' . $term) if DEBUG;
				181
Akron	1882934	2017-11-03 18:49:22 +0100	[diff] [blame]	182	$stream->subtoken(
				183	$pos,
				184	Krawfish::Koral::Document::Subtoken->new(
				185	preceding => $preceding,
				186	subterm => $term
				187	));
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	188	$pos++;
				189	};
				190	};
				191
				192
				193	# There are tokens indexed by subtokens
				194	if ($primary_index) {
				195	my $preceding = substr($primary, $primary_index);
Akron	1882934	2017-11-03 18:49:22 +0100	[diff] [blame]	196
				197	if ($preceding) {
				198	$stream->subtoken(
				199	$pos,
				200	Krawfish::Koral::Document::Subtoken->new(
				201	preceding => $preceding
				202	));
				203	};
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	204
				205	# TODO: Probably not a good idea
				206	$primary_index = 0;
				207	};
				208
				209
				210	# Get all annotations
				211	$pos = 0;
				212	my $end;
				213	foreach my $item (@{$doc->{annotations}}) {
				214
				215	# Add token term to term dictionary
				216	if ($item->{'@type'} eq 'koral:token') {
				217
				218	unless ($item->{wrap}) {
				219	warn 'No wrap defined in KoralQuery';
Akron	4204f17	2017-10-02 22:32:02 +0200	[diff] [blame]	220	CORE::next;
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	221	};
				222
				223	# Create key string
				224	my $wrap = $item->{wrap};
				225	my @keys;
				226
				227	# Token wraps a koral:termGroup
				228	if ($wrap->{'@type'} && $wrap->{'@type'} eq 'koral:termGroup') {
				229	foreach (@{$wrap->{operands}}) {
				230	push @keys, _term($_);
				231	};
				232	}
				233
				234	# Token wraps a single koral:term
				235	else {
				236	push @keys, _term($wrap);
				237	};
				238
				239	# Append posting to postings list
				240	my @subtoken_offset = _subtokens($item);
				241
				242	# There are no reference subtokens defined
				243	unless (scalar @subtoken_offset) {
				244
				245	# Use the current position for storing
				246	push @subtoken_offset, $pos;
				247
				248	# But there are offsets defined
				249	if ($item->{offsets}) {
				250
				251	# Get character definitions
				252	my ($start, $end) = @{$item->{offsets}};
				253
				254	# Get the term surface from the primary text
				255	# TODO:
				256	# Ensure that the offsets are valid!
				257	my $preceding = substr($primary, $primary_index, $start - $primary_index);
				258	my $term = substr($primary, $start, $end - $start);
				259	$primary_index = $end;
				260
Akron	1882934	2017-11-03 18:49:22 +0100	[diff] [blame]	261	$stream->subtoken(
				262	$pos,
				263	Krawfish::Koral::Document::Subtoken->new(
				264	preceding => $preceding,
				265	subterm => $term
				266	));
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	267	};
				268	$pos++;
				269	};
				270
				271	# Add token terms
				272	foreach (@keys) {
				273
				274	# Add token annotation
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	275	# my $length = $subtoken_offset[1] ? ($subtoken_offset[1]-$subtoken_offset[0]-1) : 0;
				276	$stream->subtoken(
				277	$subtoken_offset[0]
				278	)->add_annotation($_, $subtoken_offset[1] ? $subtoken_offset[1] : $subtoken_offset[0] + 1);
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	279	};
				280	}
				281
				282	# Add span term to dictionary
				283	elsif ($item->{'@type'} eq 'koral:span') {
				284
				285	# Create key string
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	286	my $term = _term($item->{wrap});
				287	$term->term_type('span');
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	288
				289	# Add span to forward stream
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	290	#my $length = $item->{subtokens}->[1] ? (
				291	# $item->{subtokens}->[-1] - $item->{subtokens}->[0]
				292	#) : 0;
				293	$stream->subtoken($item->{subtokens}->[0])->add_annotation(
				294	$term,
				295	$item->{subtokens}->[-1] + 1
				296	);
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	297	};
				298	};
				299
				300	# There are tokens indexed by subtokens
				301	if ($primary_index) {
				302	my $preceding = substr($primary, $primary_index);
Akron	1882934	2017-11-03 18:49:22 +0100	[diff] [blame]	303
				304	if ($preceding) {
				305	$stream->subtoken(
				306	$pos,
				307	Krawfish::Koral::Document::Subtoken->new(
				308	preceding => $preceding
				309	));
				310	};
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	311
				312	# TODO: Probably not a good idea
				313	$primary_index = 0;
				314	};
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	315	};
				316
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	317
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	318	# TODO: Use from_koral()->term
				319	# Potentially with a prefix
				320	sub _term {
				321	my $item = shift;
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	322	my $term = Krawfish::Koral::Query::Term->new;
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	323
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	324	if ($item->{foundry}) {
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	325	$term->foundry($item->{foundry});
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	326	};
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	327
				328	if ($item->{layer}) {
				329	$term->layer($item->{layer});
				330	};
				331
				332	if ($item->{key}) {
				333	$term->key($item->{key});
				334	};
				335
				336	if ($item->{value}) {
				337	$term->value($item->{value});
				338	};
				339
Akron	7b4e4d9	2017-09-25 12:18:29 +0200	[diff] [blame]	340	# Make token default term type
				341	$term->term_type('token');
				342
Akron	14ff0c4	2017-08-09 20:49:52 +0200	[diff] [blame]	343	return $term;
				344
				345	#my $key = '';
				346	## Create term for term dictionary
				347	#if ($item->{foundry}) {
				348	# $key .= $item->{foundry};
				349	# if ($item->{layer}) {
				350	# $key .= '/' . $item->{layer};
				351	# }
				352	# $key .= '=';
				353	#};
				354	#return $key . ($item->{key} // '');
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	355	}
				356
				357
				358	# Return subtoken list or nothing
				359	sub _subtokens {
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	360	my $item = shift;
				361	my @posting;
				362
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	363	if ($item->{subtokens}) {
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	364
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	365	# Remove!
				366	push @posting, $item->{subtokens}->[0];
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	367
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	368	if ($item->{subtokens}->[1]) {
				369	# The end is AFTER the second subtoken
				370	push @posting, $item->{subtokens}->[1] + 1;
Akron	f0d514a	2016-11-01 14:16:25 +0100	[diff] [blame]	371	};
				372
				373	return @posting;
				374	};
				375
				376	return;
				377	};
				378
Akron	927789d	2016-11-01 02:33:04 +0100	[diff] [blame]	379
				380	1;
Akron	dd10fb9	2017-08-08 20:19:46 +0200	[diff] [blame]	381
				382
				383	__END__