Blame - parser/grammar_parser.go - KorAP/Koral-Mapper

blob: 8ee167f1524e3a4cde3494026a01f254ed92c71a [file] [log] [blame]

Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	1	package parser
				2
				3	import (
				4	"fmt"
				5	"strings"
				6
Akron	fa55bb2	2025-05-26 15:10:42 +0200	[diff] [blame]	7	"github.com/KorAP/KoralPipe-TermMapper/ast"
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	8	"github.com/alecthomas/participle/v2"
				9	"github.com/alecthomas/participle/v2/lexer"
				10	)
				11
				12	// GrammarParser parses a simple grammar into AST nodes
				13	type GrammarParser struct {
				14	defaultFoundry string
				15	defaultLayer string
Akron	bb5065f	2025-05-21 12:44:05 +0200	[diff] [blame]	16	tokenParser *participle.Parser[TokenGrammar]
				17	mappingParser *participle.Parser[MappingGrammar]
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	18	}
				19
Akron	bb5065f	2025-05-21 12:44:05 +0200	[diff] [blame]	20	// TokenGrammar represents a single token expression
				21	type TokenGrammar struct {
				22	Token *TokenExpr `parser:"@@"`
				23	}
				24
				25	// MappingGrammar represents a mapping rule
				26	type MappingGrammar struct {
				27	Mapping *MappingRule `parser:"@@"`
				28	}
				29
Akron	bb5065f	2025-05-21 12:44:05 +0200	[diff] [blame]	30	// MappingRule represents a mapping between two token expressions
				31	type MappingRule struct {
				32	Upper *TokenExpr `parser:"@@"`
				33	Lower *TokenExpr `parser:"'<>' @@"`
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	34	}
				35
				36	// TokenExpr represents a token expression in square brackets
				37	type TokenExpr struct {
Akron	b40f5ac	2025-05-21 11:22:33 +0200	[diff] [blame]	38	Expr *Expr `parser:"'[' @@ ']'"`
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	39	}
				40
				41	// Expr represents a sequence of terms and operators
				42	type Expr struct {
Akron	b40f5ac	2025-05-21 11:22:33 +0200	[diff] [blame]	43	First *Term `parser:"@@"`
				44	Rest []Op `parser:"@@"`
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	45	}
				46
				47	type Op struct {
Akron	b40f5ac	2025-05-21 11:22:33 +0200	[diff] [blame]	48	Operator string `parser:"@('&' \| '\|')"`
				49	Term *Term `parser:"@@"`
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	50	}
				51
				52	// Term represents either a simple term or a parenthesized expression
				53	type Term struct {
Akron	b40f5ac	2025-05-21 11:22:33 +0200	[diff] [blame]	54	Simple *SimpleTerm `parser:"@@"`
				55	Paren *ParenExpr `parser:"\| @@"`
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	56	}
				57
				58	type ParenExpr struct {
Akron	b40f5ac	2025-05-21 11:22:33 +0200	[diff] [blame]	59	Expr *Expr `parser:"'(' @@ ')'"`
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	60	}
				61
				62	// SimpleTerm represents any valid term form
				63	type SimpleTerm struct {
Akron	cc25e93	2025-06-02 19:39:43 +0200	[diff] [blame^]	64	WithFoundryLayer *FoundryLayerTerm `parser:"@@"`
				65	WithFoundryWildcard *FoundryWildcardTerm `parser:"\| @@"`
				66	WithFoundryKey *FoundryKeyTerm `parser:"\| @@"`
				67	WithLayer *LayerTerm `parser:"\| @@"`
				68	SimpleKey *KeyTerm `parser:"\| @@"`
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	69	}
				70
				71	// FoundryLayerTerm represents foundry/layer=key:value
				72	type FoundryLayerTerm struct {
Akron	b40f5ac	2025-05-21 11:22:33 +0200	[diff] [blame]	73	Foundry string `parser:"@Ident '/'"`
				74	Layer string `parser:"@Ident '='"`
				75	Key string `parser:"@Ident"`
				76	Value string `parser:"(':' @Ident)?"`
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	77	}
				78
Akron	cc25e93	2025-06-02 19:39:43 +0200	[diff] [blame^]	79	// FoundryWildcardTerm represents foundry/*=key (wildcard layer)
				80	type FoundryWildcardTerm struct {
				81	Foundry string `parser:"@Ident '/' '*' '='"`
				82	Key string `parser:"@Ident"`
				83	}
				84
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	85	// FoundryKeyTerm represents foundry/key
				86	type FoundryKeyTerm struct {
Akron	b40f5ac	2025-05-21 11:22:33 +0200	[diff] [blame]	87	Foundry string `parser:"@Ident '/'"`
				88	Key string `parser:"@Ident"`
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	89	}
				90
Akron	cc25e93	2025-06-02 19:39:43 +0200	[diff] [blame^]	91	// LayerTerm represents layer=key:value (only when no foundry is present)
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	92	type LayerTerm struct {
Akron	b40f5ac	2025-05-21 11:22:33 +0200	[diff] [blame]	93	Layer string `parser:"@Ident '='"`
				94	Key string `parser:"@Ident"`
				95	Value string `parser:"(':' @Ident)?"`
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	96	}
				97
Akron	cc25e93	2025-06-02 19:39:43 +0200	[diff] [blame^]	98	// KeyTerm represents key:value or key=value
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	99	type KeyTerm struct {
Akron	b40f5ac	2025-05-21 11:22:33 +0200	[diff] [blame]	100	Key string `parser:"@Ident"`
Akron	cc25e93	2025-06-02 19:39:43 +0200	[diff] [blame^]	101	Value string `parser:"((':' \| '=') @Ident)?"`
				102	}
				103
				104	// EscapedPunct represents an escaped punctuation character like \(
				105	type EscapedPunct struct {
				106	Prefix string `parser:"@Ident"`
				107	Punct string `parser:"@Punct"`
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	108	}
				109
				110	// NewGrammarParser creates a new grammar parser with optional default foundry and layer
				111	func NewGrammarParser(defaultFoundry, defaultLayer string) (*GrammarParser, error) {
				112	lex := lexer.MustSimple([]lexer.SimpleRule{
Akron	cc25e93	2025-06-02 19:39:43 +0200	[diff] [blame^]	113	{Name: "Ident", Pattern: `(?:[a-zA-Z$,.]\|\\.)(?:[a-zA-Z0-9_$,.]\|\\.)*`},
				114	{Name: "Punct", Pattern: `[\[\]()&\\|=:/\*]\|<>`},
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	115	{Name: "Whitespace", Pattern: `\s+`},
				116	})
				117
Akron	bb5065f	2025-05-21 12:44:05 +0200	[diff] [blame]	118	tokenParser, err := participle.Build[TokenGrammar](
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	119	participle.Lexer(lex),
				120	participle.UseLookahead(2),
				121	participle.Elide("Whitespace"),
				122	)
				123	if err != nil {
Akron	bb5065f	2025-05-21 12:44:05 +0200	[diff] [blame]	124	return nil, fmt.Errorf("failed to build token parser: %w", err)
				125	}
				126
				127	mappingParser, err := participle.Build[MappingGrammar](
				128	participle.Lexer(lex),
				129	participle.UseLookahead(2),
				130	participle.Elide("Whitespace"),
				131	)
				132	if err != nil {
				133	return nil, fmt.Errorf("failed to build mapping parser: %w", err)
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	134	}
				135
				136	return &GrammarParser{
				137	defaultFoundry: defaultFoundry,
				138	defaultLayer: defaultLayer,
Akron	bb5065f	2025-05-21 12:44:05 +0200	[diff] [blame]	139	tokenParser: tokenParser,
				140	mappingParser: mappingParser,
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	141	}, nil
				142	}
				143
Akron	bb5065f	2025-05-21 12:44:05 +0200	[diff] [blame]	144	// Parse parses a grammar string into an AST node (for backward compatibility)
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	145	func (p *GrammarParser) Parse(input string) (ast.Node, error) {
				146	// Remove extra spaces around operators to help the parser
				147	input = strings.ReplaceAll(input, " & ", "&")
				148	input = strings.ReplaceAll(input, " \| ", "\|")
				149
Akron	76b8797	2025-06-02 16:59:59 +0200	[diff] [blame]	150	// Add spaces around parentheses that are not escaped
				151	// We need to be careful not to break escape sequences like \(
				152	result := make([]rune, 0, len(input)*2)
				153	runes := []rune(input)
				154	for i, r := range runes {
				155	if (r == '(' \|\| r == ')') && (i == 0 \|\| runes[i-1] != '\\') {
Akron	cc25e93	2025-06-02 19:39:43 +0200	[diff] [blame^]	156	// Only add spaces if the parenthesis is not escaped and not part of an identifier
				157	// Check if this parenthesis is inside brackets (part of an identifier)
				158	insideBrackets := false
				159	bracketDepth := 0
				160	for j := 0; j < i; j++ {
				161	if runes[j] == '[' {
				162	bracketDepth++
				163	} else if runes[j] == ']' {
				164	bracketDepth--
				165	}
				166	}
				167	insideBrackets = bracketDepth > 0
				168
				169	if !insideBrackets {
				170	result = append(result, ' ', r, ' ')
				171	} else {
				172	result = append(result, r)
				173	}
Akron	76b8797	2025-06-02 16:59:59 +0200	[diff] [blame]	174	} else {
				175	result = append(result, r)
				176	}
				177	}
				178	input = string(result)
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	179
				180	// Remove any extra spaces
				181	input = strings.TrimSpace(input)
				182
Akron	bb5065f	2025-05-21 12:44:05 +0200	[diff] [blame]	183	grammar, err := p.tokenParser.ParseString("", input)
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	184	if err != nil {
				185	return nil, fmt.Errorf("failed to parse grammar: %w", err)
				186	}
				187
Akron	bb5065f	2025-05-21 12:44:05 +0200	[diff] [blame]	188	if grammar.Token == nil {
				189	return nil, fmt.Errorf("expected token expression, got mapping rule")
				190	}
				191
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	192	wrap, err := p.parseExpr(grammar.Token.Expr)
				193	if err != nil {
				194	return nil, err
				195	}
				196	return &ast.Token{Wrap: wrap}, nil
				197	}
				198
Akron	bb5065f	2025-05-21 12:44:05 +0200	[diff] [blame]	199	// ParseMapping parses a mapping rule string into a MappingResult
				200	func (p GrammarParser) ParseMapping(input string) (MappingResult, error) {
				201	// Remove extra spaces around operators to help the parser
				202	input = strings.ReplaceAll(input, " & ", "&")
				203	input = strings.ReplaceAll(input, " \| ", "\|")
				204	input = strings.ReplaceAll(input, " <> ", "<>")
				205
Akron	76b8797	2025-06-02 16:59:59 +0200	[diff] [blame]	206	// Add spaces around parentheses that are not escaped
				207	// We need to be careful not to break escape sequences like \(
				208	result := make([]rune, 0, len(input)*2)
				209	runes := []rune(input)
				210	for i, r := range runes {
				211	if (r == '(' \|\| r == ')') && (i == 0 \|\| runes[i-1] != '\\') {
Akron	cc25e93	2025-06-02 19:39:43 +0200	[diff] [blame^]	212	// Only add spaces if the parenthesis is not escaped and not part of an identifier
				213	// Check if this parenthesis is inside brackets (part of an identifier)
				214	insideBrackets := false
				215	bracketDepth := 0
				216	for j := 0; j < i; j++ {
				217	if runes[j] == '[' {
				218	bracketDepth++
				219	} else if runes[j] == ']' {
				220	bracketDepth--
				221	}
				222	}
				223	insideBrackets = bracketDepth > 0
				224
				225	if !insideBrackets {
				226	result = append(result, ' ', r, ' ')
				227	} else {
				228	result = append(result, r)
				229	}
Akron	76b8797	2025-06-02 16:59:59 +0200	[diff] [blame]	230	} else {
				231	result = append(result, r)
				232	}
				233	}
				234	input = string(result)
Akron	bb5065f	2025-05-21 12:44:05 +0200	[diff] [blame]	235
				236	// Remove any extra spaces
				237	input = strings.TrimSpace(input)
				238
				239	grammar, err := p.mappingParser.ParseString("", input)
				240	if err != nil {
				241	return nil, fmt.Errorf("failed to parse grammar: %w", err)
				242	}
				243
				244	if grammar.Mapping == nil {
				245	return nil, fmt.Errorf("expected mapping rule, got token expression")
				246	}
				247
				248	upper, err := p.parseExpr(grammar.Mapping.Upper.Expr)
				249	if err != nil {
				250	return nil, err
				251	}
				252
				253	lower, err := p.parseExpr(grammar.Mapping.Lower.Expr)
				254	if err != nil {
				255	return nil, err
				256	}
				257
				258	return &MappingResult{
				259	Upper: &ast.Token{Wrap: upper},
				260	Lower: &ast.Token{Wrap: lower},
				261	}, nil
				262	}
				263
				264	// MappingResult represents the parsed mapping rule
				265	type MappingResult struct {
				266	Upper *ast.Token
				267	Lower *ast.Token
				268	}
				269
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	270	// parseExpr builds the AST from the parsed Expr
				271	func (p GrammarParser) parseExpr(expr Expr) (ast.Node, error) {
				272	var operands []ast.Node
				273	var operators []string
				274
				275	// Parse the first term
				276	first, err := p.parseTerm(expr.First)
				277	if err != nil {
				278	return nil, err
				279	}
				280	operands = append(operands, first)
				281
				282	// Parse the rest
				283	for _, op := range expr.Rest {
				284	node, err := p.parseTerm(op.Term)
				285	if err != nil {
				286	return nil, err
				287	}
				288	operands = append(operands, node)
				289	operators = append(operators, op.Operator)
				290	}
				291
				292	// If only one operand, return it
				293	if len(operands) == 1 {
				294	return operands[0], nil
				295	}
				296
				297	// Group operands by operator precedence (left-to-right, no precedence between & and \|)
				298	// We'll group by runs of the same operator
				299	var groupOperands []ast.Node
				300	var currentOp string
				301	var currentGroup []ast.Node
				302	for i, op := range operators {
				303	if i == 0 {
				304	currentOp = op
				305	currentGroup = append(currentGroup, operands[i])
				306	}
				307	if op == currentOp {
				308	currentGroup = append(currentGroup, operands[i+1])
				309	} else {
				310	groupOperands = append(groupOperands, &ast.TermGroup{
				311	Operands: append([]ast.Node{}, currentGroup...),
				312	Relation: toRelation(currentOp),
				313	})
				314	currentOp = op
				315	currentGroup = []ast.Node{operands[i+1]}
				316	}
				317	}
				318	if len(currentGroup) > 0 {
				319	groupOperands = append(groupOperands, &ast.TermGroup{
				320	Operands: append([]ast.Node{}, currentGroup...),
				321	Relation: toRelation(currentOp),
				322	})
				323	}
				324	if len(groupOperands) == 1 {
				325	return groupOperands[0], nil
				326	}
				327	// If mixed operators, nest them left-to-right
				328	result := groupOperands[0]
				329	for i := 1; i < len(groupOperands); i++ {
				330	result = &ast.TermGroup{
				331	Operands: []ast.Node{result, groupOperands[i]},
				332	Relation: toRelation(operators[0]),
				333	}
				334	}
				335	return result, nil
				336	}
				337
				338	// parseTerm converts a Term into an AST node
				339	func (p GrammarParser) parseTerm(term Term) (ast.Node, error) {
				340	if term.Simple != nil {
				341	return p.parseSimpleTerm(term.Simple)
				342	}
				343	if term.Paren != nil {
				344	return p.parseExpr(term.Paren.Expr)
				345	}
				346	return nil, fmt.Errorf("invalid term: neither simple nor parenthesized")
				347	}
				348
				349	func toRelation(op string) ast.RelationType {
				350	if op == "\|" {
				351	return ast.OrRelation
				352	}
				353	return ast.AndRelation
				354	}
				355
Akron	121c66e	2025-06-02 16:34:05 +0200	[diff] [blame]	356	// unescapeString handles unescaping of backslash-escaped characters
				357	func unescapeString(s string) string {
				358	if s == "" {
				359	return s
				360	}
				361
				362	result := make([]byte, 0, len(s))
				363	i := 0
				364	for i < len(s) {
				365	if s[i] == '\\' && i+1 < len(s) {
				366	// Escape sequence found, add the escaped character
				367	result = append(result, s[i+1])
				368	i += 2
				369	} else {
				370	// Regular character
				371	result = append(result, s[i])
				372	i++
				373	}
				374	}
				375	return string(result)
				376	}
				377
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	378	// parseSimpleTerm converts a SimpleTerm into an AST Term node
				379	func (p GrammarParser) parseSimpleTerm(term SimpleTerm) (ast.Node, error) {
				380	var foundry, layer, key, value string
				381
				382	switch {
				383	case term.WithFoundryLayer != nil:
Akron	121c66e	2025-06-02 16:34:05 +0200	[diff] [blame]	384	foundry = unescapeString(term.WithFoundryLayer.Foundry)
				385	layer = unescapeString(term.WithFoundryLayer.Layer)
				386	key = unescapeString(term.WithFoundryLayer.Key)
				387	value = unescapeString(term.WithFoundryLayer.Value)
Akron	cc25e93	2025-06-02 19:39:43 +0200	[diff] [blame^]	388	case term.WithFoundryWildcard != nil:
				389	foundry = unescapeString(term.WithFoundryWildcard.Foundry)
				390	key = unescapeString(term.WithFoundryWildcard.Key)
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	391	case term.WithFoundryKey != nil:
Akron	121c66e	2025-06-02 16:34:05 +0200	[diff] [blame]	392	foundry = unescapeString(term.WithFoundryKey.Foundry)
				393	key = unescapeString(term.WithFoundryKey.Key)
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	394	case term.WithLayer != nil:
Akron	cc25e93	2025-06-02 19:39:43 +0200	[diff] [blame^]	395	// Special case: if LayerTerm was parsed but the layer doesn't match the default layer,
				396	// treat it as a key=value pattern instead
				397	parsedLayer := unescapeString(term.WithLayer.Layer)
				398	parsedKey := unescapeString(term.WithLayer.Key)
				399	parsedValue := unescapeString(term.WithLayer.Value)
				400
				401	if p.defaultLayer != "" && parsedLayer == p.defaultLayer {
				402	// This is a genuine layer=key pattern when the layer matches the default
				403	layer = parsedLayer
				404	key = parsedKey
				405	value = parsedValue
				406	} else if p.defaultLayer != "" && parsedLayer != p.defaultLayer {
				407	// This should be treated as key=value pattern when there's a default layer but it doesn't match
				408	key = parsedLayer
				409	value = parsedKey
				410	} else {
				411	// No default layer context, treat as genuine layer=key pattern
				412	layer = parsedLayer
				413	key = parsedKey
				414	value = parsedValue
				415	}
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	416	case term.SimpleKey != nil:
Akron	121c66e	2025-06-02 16:34:05 +0200	[diff] [blame]	417	key = unescapeString(term.SimpleKey.Key)
				418	value = unescapeString(term.SimpleKey.Value)
Akron	22322ec	2025-05-21 11:17:30 +0200	[diff] [blame]	419	default:
				420	return nil, fmt.Errorf("invalid term: no valid form found")
				421	}
				422
				423	if foundry == "" {
				424	foundry = p.defaultFoundry
				425	}
				426	if layer == "" {
				427	layer = p.defaultLayer
				428	}
				429
				430	return &ast.Term{
				431	Foundry: foundry,
				432	Key: key,
				433	Layer: layer,
				434	Match: ast.MatchEqual,
				435	Value: value,
				436	}, nil
				437	}