Blame - R/collocationAnalysis.R - KorAP/RKorAPClient

2021-08-29 12:17:45 +0200

[diff] [blame]

36

#' @param exactFrequencies if FALSE, extrapolate observed co-occurrence frequencies from frequencies in search hits sample, otherwise retrieve exact co-occurrence frequencies

37

#' @param seed seed for random page collecting order

Marc Kupietz

67edcb5

2021-09-20 21:54:24 +0200

[diff] [blame]

38

#' @param expand if TRUE, `node` and `vc` parameters are expanded to all of their combinations

Marc Kupietz

7d400e0

2021-12-19 16:39:36 +0100

[diff] [blame]

39

#' @param maxRecurse apply collocation analysis recursively `maxRecurse` times

40

#' @param addExamples If TRUE, examples for instances of collocations will be added in a column `example`. This makes a difference in particular if `node` is given as a lemma query.

41

#' @param thresholdScore association score function (see \code{\link{association-score-functions}}) to use for computing the threshold that is applied for recursive collocation analysis calls

42

#' @param threshold minimum value of `thresholdScore` function call to apply collocation analysis recursively

43

#' @param localStopwords vector of stopwords that will not be considered as collocates in the current function call, but that will not be passed to recursive calls

Marc Kupietz

47d0d2b

2021-12-19 16:38:52 +0100

[diff] [blame]

44

#' @param collocateFilterRegex allow only collocates matching the regular expression

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

45

#' @param missingScoreQuantile lower quantile (evaluated per association measure) that anchors the adaptive floor used for imputing missing scores between virtual corpora

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

46

#' @param vcLabel optional label override for the current virtual corpus (used internally when named VC collections are expanded)

Marc Kupietz

67edcb5

2021-09-20 21:54:24 +0200

[diff] [blame]

47

#' @param ... more arguments will be passed to [collocationScoreQuery()]

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

48

#' @inheritParams collocationScoreQuery,KorAPConnection-method

Marc Kupietz

2025-10-18 16:09:23 +0200

[diff] [blame^]

49

#' @return

50

#' A tibble where each row represents a candidate collocate for the requested node.

51

#' Columns include (depending on the selected association measures):

52

#'

53

#' \itemize{

54

#' \item \code{node}, \code{collocate}, \code{vc}, \code{label}: identifiers for the query node, collocate, virtual corpus, and optional label.

55

#' \item Frequency and contingency information such as \code{frequency}, \code{O}, \code{O1}, \code{O2}, \code{E}, \code{leftContextSize}, \code{rightContextSize}, and \code{w}.

56

#' \item Association measures (e.g. \code{logDice}, \code{ll}, \code{mi}, ...), one column per requested scorer.

57

#' \item Per-labelled association scores produced by multi-VC comparisons using the pattern \code{<measure>_<label>}.

58

#' \item Ranks per label/measure with the pattern \code{rank_<label>_<measure>} (1 is best) and the corresponding percentile ranks \code{percentile_rank_<label>_<measure>}.

59

#' \item Pairwise contrasts for two-label comparisons, e.g. \code{delta_<measure>}, \code{delta_rank_<measure>}, and \code{delta_percentile_rank_<measure>}.

60

#' \item Summary columns describing the strongest labels per measure (\code{winner_*}, \code{runner_up_*}, \code{loser_*}, and \code{max_delta_*}).

61

#' \item Optional helper columns such as \code{query}, \code{example}, or \code{url} when example retrieval is requested.

62

#' }

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

63

#' @importFrom dplyr arrange desc slice_head bind_rows group_by mutate ungroup left_join select row_number all_of first

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

64

#' @importFrom purrr pmap

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

65

#' @importFrom tidyr expand_grid pivot_wider

66

#' @importFrom rlang sym

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

67

#'

68

#' @examples

Marc Kupietz

6ae7605

2021-09-21 10:34:00 +0200

[diff] [blame]

69

#' \dontrun{

70

#'

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

71

#' # Find top collocates of "Packung" inside and outside the sports domain.

72

#' KorAPConnection(verbose = TRUE) |>

73

#' collocationAnalysis("Packung",

74

#' vc = c("textClass=sport", "textClass!=sport"),

75

#' leftContextSize = 1, rightContextSize = 1, topCollocatesLimit = 20

76

#' ) |>

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

77

#' dplyr::filter(logDice >= 5)

78

#' }

79

#'

Marc Kupietz

6ae7605

2021-09-21 10:34:00 +0200

[diff] [blame]

80

#' \dontrun{

81

#'

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

82

#' # Identify the most prominent light verb construction with "in ... setzen".

83

#' # Note that, currently, the use of focus function disallows exactFrequencies.

Marc Kupietz

2025-02-28 15:48:23 +0100

[diff] [blame]

84

#' KorAPConnection(verbose = TRUE) |>

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

85

#' collocationAnalysis("focus(in [tt/p=NN] {[tt/l=setzen]})",

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

86

#' leftContextSize = 1, rightContextSize = 0, exactFrequencies = FALSE, topCollocatesLimit = 20

87

#' )

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

88

#' }

89

#'

90

#' @export

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

91

setMethod(

92

"collocationAnalysis", "KorAPConnection",

function(kco,

node,

vc = "",

lemmatizeNodeQuery = FALSE,

97

minOccur = 5,

98

leftContextSize = 5,

99

rightContextSize = 5,

100

topCollocatesLimit = 200,

101

searchHitsSampleLimit = 20000,

102

ignoreCollocateCase = FALSE,

103

withinSpan = ifelse(exactFrequencies, "base/s=s", ""),

104

exactFrequencies = TRUE,

105

stopwords = append(RKorAPClient::synsemanticStopwords(), node),

106

seed = 7,

107

expand = length(vc) != length(node),

108

maxRecurse = 0,

109

addExamples = FALSE,

110

thresholdScore = "logDice",

111

threshold = 2.0,

112

localStopwords = c(),

113

collocateFilterRegex = "^[:alnum:]+-?[:alnum:]*$",

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

114

missingScoreQuantile = 0.05,

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

115

vcLabel = NA_character_,

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

116

...) {

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

117

word <- frequency <- O <- NULL

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

118

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

119

if (!exactFrequencies && (!is.na(withinSpan) && !is.null(withinSpan) && nzchar(withinSpan))) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

120

stop(sprintf("Not empty withinSpan (='%s') requires exactFrequencies=TRUE", withinSpan), call. = FALSE)

121

}

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

122

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

123

warnIfNotAuthorized(kco)

Marc Kupietz

581a29b

2021-09-04 20:51:04 +0200

[diff] [blame]

124

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

125

if (lemmatizeNodeQuery) {

126

node <- lemmatizeWordQuery(node)

127

}

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

128

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

129

vcNames <- names(vc)

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

130

if (is.null(vcNames)) {

131

vcNames <- rep(NA_character_, length(vc))

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

132

}

133

134

label_lookup <- NULL

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

135

if (!is.null(names(vc)) && length(vc) > 0) {

136

raw_names <- names(vc)

137

if (any(!is.na(raw_names) & raw_names != "")) {

138

label_lookup <- stats::setNames(raw_names, vc)

139

}

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

140

}

141

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

142

result <- if (length(node) > 1 || length(vc) > 1) {

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

143

grid <- if (expand) {

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

144

tmp_grid <- tidyr::expand_grid(node = node, idx = seq_along(vc))

145

tmp_grid$vc <- vc[tmp_grid$idx]

146

tmp_grid$vcLabel <- vcNames[tmp_grid$idx]

147

tmp_grid[, c("node", "vc", "vcLabel"), drop = FALSE]

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

148

} else {

149

tibble(node = node, vc = vc, vcLabel = vcNames)

150

}

151

152

multi_result <- purrr::pmap(grid, function(node, vc, vcLabel, ...) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

153

collocationAnalysis(kco,

node = node,

vc = vc,

minOccur = minOccur,

leftContextSize = leftContextSize,

158

rightContextSize = rightContextSize,

159

topCollocatesLimit = topCollocatesLimit,

160

searchHitsSampleLimit = searchHitsSampleLimit,

161

ignoreCollocateCase = ignoreCollocateCase,

162

withinSpan = withinSpan,

163

exactFrequencies = exactFrequencies,

164

stopwords = stopwords,

165

addExamples = TRUE,

166

localStopwords = localStopwords,

167

seed = seed,

168

expand = expand,

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

169

missingScoreQuantile = missingScoreQuantile,

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

170

collocateFilterRegex = collocateFilterRegex,

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

171

vcLabel = vcLabel,

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

172

...

173

)

174

}) |>

Marc Kupietz

e31322e

2025-10-17 18:55:36 +0200

[diff] [blame]

175

bind_rows()

176

177

if (!"vc" %in% names(multi_result) || nrow(multi_result) == 0) {

178

multi_result

179

} else {

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

180

if (!"label" %in% names(multi_result)) {

181

multi_result$label <- NA_character_

182

}

183

184

if (!is.null(label_lookup)) {

185

override <- unname(label_lookup[multi_result$vc])

186

missing_idx <- is.na(multi_result$label) | multi_result$label == ""

187

if (any(missing_idx)) {

188

multi_result$label[missing_idx] <- override[missing_idx]

}

}

missing_idx <- is.na(multi_result$label) | multi_result$label == ""

193

if (any(missing_idx)) {

194

multi_result$label[missing_idx] <- queryStringToLabel(multi_result$vc[missing_idx])

195

}

196

Marc Kupietz

e31322e

2025-10-17 18:55:36 +0200

[diff] [blame]

197

multi_result |>

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

198

add_multi_vc_comparisons(

199

thresholdScore = thresholdScore,

200

missingScoreQuantile = missingScoreQuantile

201

)

Marc Kupietz

e31322e

2025-10-17 18:55:36 +0200

[diff] [blame]

202

}

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

203

} else {

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

204

if ((is.na(vcLabel) || vcLabel == "") && length(vcNames) >= 1) {

205

vcLabel <- vcNames[1]

206

}

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

207

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

208

set.seed(seed)

209

candidates <- collocatesQuery(

kco,

node,

vc = vc,

minOccur = minOccur,

leftContextSize = leftContextSize,

215

rightContextSize = rightContextSize,

216

searchHitsSampleLimit = searchHitsSampleLimit,

217

ignoreCollocateCase = ignoreCollocateCase,

218

stopwords = append(stopwords, localStopwords),

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

219

collocateFilterRegex = collocateFilterRegex,

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

220

...

221

)

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

222

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

223

if (nrow(candidates) > 0) {

224

candidates <- candidates |>

225

filter(frequency >= minOccur) |>

226

slice_head(n = topCollocatesLimit)

227

collocationScoreQuery(

228

kco,

229

node = node,

230

collocate = candidates$word,

231

vc = vc,

232

leftContextSize = leftContextSize,

233

rightContextSize = rightContextSize,

234

observed = if (exactFrequencies) NA else candidates$frequency,

235

ignoreCollocateCase = ignoreCollocateCase,

236

withinSpan = withinSpan,

237

...

238

) |>

239

filter(O >= minOccur) |>

240

dplyr::arrange(dplyr::desc(logDice))

} else {

tibble()

}

}

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

245

246

if (!is.na(vcLabel) && vcLabel != "" && "label" %in% names(result)) {

247

result$label <- rep(vcLabel, nrow(result))

248

}

249

250

threshold_col <- thresholdScore

251

if (maxRecurse > 0 && nrow(result) > 0 && threshold_col %in% names(result)) {

252

threshold_values <- result[[threshold_col]]

253

eligible_idx <- which(!is.na(threshold_values) & threshold_values >= threshold)

254

if (length(eligible_idx) > 0) {

255

recurseWith <- result[eligible_idx, , drop = FALSE]

256

result <- collocationAnalysis(

257

kco,

258

node = paste0("(", buildCollocationQuery(

259

removeWithinSpan(recurseWith$node, withinSpan),

260

recurseWith$collocate,

261

leftContextSize = leftContextSize,

262

rightContextSize = rightContextSize,

withinSpan = ""

), ")"),

vc = vc,

minOccur = minOccur,

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

267

leftContextSize = leftContextSize,

268

rightContextSize = rightContextSize,

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

269

withinSpan = withinSpan,

270

maxRecurse = maxRecurse - 1,

271

stopwords = stopwords,

272

localStopwords = recurseWith$collocate,

273

exactFrequencies = exactFrequencies,

274

searchHitsSampleLimit = searchHitsSampleLimit,

275

topCollocatesLimit = topCollocatesLimit,

276

addExamples = FALSE,

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

277

missingScoreQuantile = missingScoreQuantile,

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

278

collocateFilterRegex = collocateFilterRegex,

vcLabel = vcLabel

) |>

bind_rows(result) |>

filter(logDice >= 2) |>

283

filter(O >= minOccur) |>

284

dplyr::arrange(dplyr::desc(logDice))

285

}

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

286

}

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

287

288

if (addExamples && nrow(result) > 0) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

289

result$query <- buildCollocationQuery(

290

result$node,

291

result$collocate,

292

leftContextSize = leftContextSize,

293

rightContextSize = rightContextSize,

294

withinSpan = withinSpan

295

)

296

result$example <- findExample(

297

kco,

298

query = result$query,

299

vc = result$vc

300

)

301

}

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

302

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

303

result

304

}

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

305

)

306

Marc Kupietz

76b0559

2021-12-19 16:26:15 +0100

[diff] [blame]

307

# #' @export

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

308

removeWithinSpan <- function(query, withinSpan) {

309

if (withinSpan == "") {

310

return(query)

311

}

312

needle <- sprintf("^\$contains\\(<%s>, ?(.*)\${2}$", withinSpan)

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

313

res <- gsub(needle, "\\1", query)

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

314

needle <- sprintf("^contains\$<%s>, ?(.*)\$$", withinSpan)

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

315

res <- gsub(needle, "\\1", res)

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

return(res)

}

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

319

add_multi_vc_comparisons <- function(result, thresholdScore, missingScoreQuantile = 0.05) {

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

320

label <- node <- collocate <- NULL

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

321

322

if (!"label" %in% names(result) || dplyr::n_distinct(result$label) < 2) {

return(result)

}

numeric_cols <- names(result)[vapply(result, is.numeric, logical(1))]

327

non_score_cols <- c("N", "O", "O1", "O2", "E", "w", "leftContextSize", "rightContextSize", "frequency")

328

score_cols <- setdiff(numeric_cols, non_score_cols)

329

330

if (length(score_cols) == 0) {

return(result)

}

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

334

compute_score_floor <- function(values) {

335

finite_values <- values[is.finite(values)]

336

if (length(finite_values) == 0) {

return(0)

}

prob <- min(max(missingScoreQuantile, 0), 0.5)

341

q_val <- suppressWarnings(stats::quantile(finite_values,

probs = prob,

names = FALSE,

type = 7

))

if (!is.finite(q_val)) {

348

q_val <- suppressWarnings(min(finite_values, na.rm = TRUE))

349

}

350

351

min_val <- suppressWarnings(min(finite_values, na.rm = TRUE))

352

if (!is.finite(min_val)) {

min_val <- 0

}

spread_candidates <- c(

357

suppressWarnings(stats::IQR(finite_values, na.rm = TRUE, type = 7)),

358

stats::sd(finite_values, na.rm = TRUE),

abs(q_val) * 0.1,

abs(min_val - q_val)

)

spread_candidates <- spread_candidates[is.finite(spread_candidates)]

363

364

spread <- 0

365

if (length(spread_candidates) > 0) {

366

spread <- max(spread_candidates)

367

}

368

if (!is.finite(spread) || spread == 0) {

369

spread <- max(abs(q_val), abs(min_val), 1e-06)

370

}

371

372

candidate <- q_val - spread

373

if (!is.finite(candidate)) {

candidate <- min_val

}

floor_value <- suppressWarnings(min(c(candidate, min_val), na.rm = TRUE))

378

if (!is.finite(floor_value)) {

379

floor_value <- min_val

380

}

381

if (!is.finite(floor_value)) {

floor_value <- 0

}

floor_value

}

score_replacements <- stats::setNames(

389

vapply(score_cols, function(col) {

390

compute_score_floor(result[[col]])

}, numeric(1)),

score_cols

)

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

395

comparison <- result |>

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

396

dplyr::select(node, collocate, label, dplyr::all_of(score_cols)) |>

397

tidyr::pivot_wider(

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

398

names_from = label,

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

399

values_from = dplyr::all_of(score_cols),

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

400

names_glue = "{.value}_{make.names(label)}",

401

values_fn = dplyr::first

402

)

403

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

404

raw_labels <- unique(result$label)

405

labels <- make.names(raw_labels)

406

label_map <- stats::setNames(raw_labels, labels)

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

407

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

408

rank_data <- result |>

409

dplyr::distinct(node, collocate)

410

411

for (i in seq_along(raw_labels)) {

412

raw_lab <- raw_labels[i]

413

safe_lab <- labels[i]

414

label_df <- result[result$label == raw_lab, c("node", "collocate", score_cols), drop = FALSE]

415

if (nrow(label_df) == 0) {

416

}

418

label_df <- dplyr::distinct(label_df)

419

rank_tbl <- label_df[, c("node", "collocate"), drop = FALSE]

420

for (col in score_cols) {

421

rank_col_name <- paste0("rank_", safe_lab, "_", col)

Marc Kupietz

2025-10-18 16:09:23 +0200

[diff] [blame^]

422

percentile_col_name <- paste0("percentile_rank_", safe_lab, "_", col)

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

423

values <- label_df[[col]]

424

ranks <- rep(NA_real_, length(values))

Marc Kupietz

2025-10-18 16:09:23 +0200

[diff] [blame^]

425

percentiles <- rep(NA_real_, length(values))

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

426

valid_idx <- which(!is.na(values))

427

if (length(valid_idx) > 0) {

428

ranks[valid_idx] <- rank(-values[valid_idx], ties.method = "first")

Marc Kupietz

2025-10-18 16:09:23 +0200

[diff] [blame^]

429

total <- length(valid_idx)

430

percentiles[valid_idx] <- 1 - (ranks[valid_idx] - 1) / total

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

431

}

432

rank_tbl[[rank_col_name]] <- ranks

Marc Kupietz

2025-10-18 16:09:23 +0200

[diff] [blame^]

433

rank_tbl[[percentile_col_name]] <- percentiles

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

434

}

435

rank_data <- dplyr::left_join(rank_data, rank_tbl, by = c("node", "collocate"))

436

}

437

438

comparison <- dplyr::left_join(comparison, rank_data, by = c("node", "collocate"))

439

440

rank_replacements <- numeric(0)

441

rank_column_names <- grep("^rank_", names(comparison), value = TRUE)

442

if (length(rank_column_names) > 0) {

443

rank_replacements <- stats::setNames(

444

vapply(rank_column_names, function(col) {

445

col_values <- comparison[[col]]

446

valid_values <- col_values[!is.na(col_values)]

447

if (length(valid_values) == 0) {

448

nrow(comparison) + 1

449

} else {

450

suppressWarnings(max(valid_values, na.rm = TRUE)) + 1

}

}, numeric(1)),

rank_column_names

)

}

Marc Kupietz

2025-10-18 16:09:23 +0200

[diff] [blame^]

457

percentile_replacements <- numeric(0)

458

percentile_column_names <- grep("^percentile_rank_", names(comparison), value = TRUE)

459

if (length(percentile_column_names) > 0) {

460

percentile_replacements <- stats::setNames(

461

rep(0, length(percentile_column_names)),

462

percentile_column_names

)

}

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

466

collapse_label_values <- function(indices, safe_labels_vec) {

467

if (length(indices) == 0) {

468

return(NA_character_)

469

}

470

labs <- label_map[safe_labels_vec[indices]]

471

fallback <- safe_labels_vec[indices]

472

labs[is.na(labs) | labs == ""] <- fallback[is.na(labs) | labs == ""]

473

labs <- labs[!is.na(labs) & labs != ""]

474

if (length(labs) == 0) {

475

return(NA_character_)

476

}

477

paste(unique(labs), collapse = ", ")

478

}

479

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

480

if (length(labels) == 2) {

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

481

fill_scores <- function(x, y, measure_col) {

482

replacement <- score_replacements[[measure_col]]

483

fallback_min <- suppressWarnings(min(c(x, y), na.rm = TRUE))

484

if (!is.finite(fallback_min)) {

485

fallback_min <- 0

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

486

}

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

487

if (!is.null(replacement) && is.finite(replacement)) {

488

replacement <- min(replacement, fallback_min)

489

} else {

490

replacement <- fallback_min

491

}

492

if (!is.finite(replacement)) {

replacement <- 0

}

if (any(is.na(x))) {

x[is.na(x)] <- replacement

497

}

498

if (any(is.na(y))) {

499

y[is.na(y)] <- replacement

500

}

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

list(x = x, y = y)

}

Marc Kupietz

2025-10-18 16:09:23 +0200

[diff] [blame^]

504

fill_percentiles <- function(x, y, left_pct_col, right_pct_col) {

505

replacement_left <- percentile_replacements[[left_pct_col]]

506

if (is.null(replacement_left) || !is.finite(replacement_left)) {

507

replacement_left <- 0

508

}

509

replacement_right <- percentile_replacements[[right_pct_col]]

510

if (is.null(replacement_right) || !is.finite(replacement_right)) {

511

replacement_right <- 0

512

}

513

if (any(is.na(x))) {

514

x[is.na(x)] <- replacement_left

515

}

516

if (any(is.na(y))) {

517

y[is.na(y)] <- replacement_right

}

list(x = x, y = y)

}

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

522

fill_ranks <- function(x, y, left_rank_col, right_rank_col) {

523

fallback <- nrow(comparison) + 1

524

replacement_left <- rank_replacements[[left_rank_col]]

525

if (is.null(replacement_left) || !is.finite(replacement_left)) {

526

replacement_left <- fallback

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

527

}

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

528

replacement_right <- rank_replacements[[right_rank_col]]

529

if (is.null(replacement_right) || !is.finite(replacement_right)) {

530

replacement_right <- fallback

531

}

532

if (any(is.na(x))) {

533

x[is.na(x)] <- replacement_left

534

}

535

if (any(is.na(y))) {

536

y[is.na(y)] <- replacement_right

537

}

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

list(x = x, y = y)

}

left_label <- labels[1]

542

right_label <- labels[2]

543

544

for (col in score_cols) {

545

left_col <- paste0(col, "_", left_label)

546

right_col <- paste0(col, "_", right_label)

547

if (!all(c(left_col, right_col) %in% names(comparison))) {

548

}

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

550

filled <- fill_scores(comparison[[left_col]], comparison[[right_col]], col)

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

551

comparison[[left_col]] <- filled$x

552

comparison[[right_col]] <- filled$y

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

553

comparison[[paste0("delta_", col)]] <- filled$x - filled$y

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

554

rank_left <- paste0("rank_", left_label, "_", col)

555

rank_right <- paste0("rank_", right_label, "_", col)

556

if (all(c(rank_left, rank_right) %in% names(comparison))) {

557

filled_rank <- fill_ranks(

558

comparison[[rank_left]],

559

comparison[[rank_right]],

rank_left,

rank_right

)

comparison[[paste0("delta_rank_", col)]] <- filled_rank$x - filled_rank$y

564

}

Marc Kupietz

2025-10-18 16:09:23 +0200

[diff] [blame^]

565

pct_left <- paste0("percentile_rank_", left_label, "_", col)

566

pct_right <- paste0("percentile_rank_", right_label, "_", col)

567

if (all(c(pct_left, pct_right) %in% names(comparison))) {

568

filled_pct <- fill_percentiles(

569

comparison[[pct_left]],

570

comparison[[pct_right]],

pct_left,

pct_right

)

comparison[[paste0("delta_percentile_rank_", col)]] <- filled_pct$x - filled_pct$y

575

}

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

}

}

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

579

for (col in score_cols) {

580

value_cols <- paste0(col, "_", labels)

581

existing <- value_cols %in% names(comparison)

582

if (!any(existing)) {

583

}

585

value_cols <- value_cols[existing]

586

safe_labels <- labels[existing]

587

588

score_values <- comparison[, value_cols, drop = FALSE]

589

590

winner_label_col <- paste0("winner_", col)

591

winner_value_col <- paste0("winner_", col, "_value")

592

runner_label_col <- paste0("runner_up_", col)

593

runner_value_col <- paste0("runner_up_", col, "_value")

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

594

loser_label_col <- paste0("loser_", col)

595

loser_value_col <- paste0("loser_", col, "_value")

596

max_delta_col <- paste0("max_delta_", col)

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

597

598

if (nrow(score_values) == 0) {

599

comparison[[winner_label_col]] <- character(0)

600

comparison[[winner_value_col]] <- numeric(0)

601

comparison[[runner_label_col]] <- character(0)

602

comparison[[runner_value_col]] <- numeric(0)

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

603

comparison[[loser_label_col]] <- character(0)

604

comparison[[loser_value_col]] <- numeric(0)

605

comparison[[max_delta_col]] <- numeric(0)

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

606

}

608

609

score_matrix <- as.matrix(score_values)

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

610

storage.mode(score_matrix) <- "numeric"

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

611

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

612

n_rows <- nrow(score_matrix)

613

winner_labels <- rep(NA_character_, n_rows)

614

winner_values <- rep(NA_real_, n_rows)

615

runner_labels <- rep(NA_character_, n_rows)

616

runner_values <- rep(NA_real_, n_rows)

617

loser_labels <- rep(NA_character_, n_rows)

618

loser_values <- rep(NA_real_, n_rows)

619

max_deltas <- rep(NA_real_, n_rows)

620

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

621

if (n_rows > 0) {

622

for (i in seq_len(n_rows)) {

623

numeric_row <- as.numeric(score_matrix[i, ])

624

if (all(is.na(numeric_row))) {

625

}

627

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

628

replacement <- score_replacements[[col]]

629

fallback_min <- suppressWarnings(min(numeric_row, na.rm = TRUE))

630

if (!is.finite(fallback_min)) {

631

fallback_min <- 0

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

632

}

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

633

if (!is.null(replacement) && is.finite(replacement)) {

634

replacement <- min(replacement, fallback_min)

635

} else {

636

replacement <- fallback_min

637

}

638

if (!is.finite(replacement)) {

639

replacement <- 0

640

}

641

if (any(is.na(numeric_row))) {

642

numeric_row[is.na(numeric_row)] <- replacement

643

}

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

644

score_matrix[i, ] <- numeric_row

645

646

max_val <- suppressWarnings(max(numeric_row, na.rm = TRUE))

647

max_idx <- which(numeric_row == max_val)

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

648

winner_labels[i] <- collapse_label_values(max_idx, safe_labels)

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

649

winner_values[i] <- max_val

650

651

unique_vals <- sort(unique(numeric_row), decreasing = TRUE)

652

if (length(unique_vals) >= 2) {

653

runner_val <- unique_vals[2]

654

runner_idx <- which(numeric_row == runner_val)

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

655

runner_labels[i] <- collapse_label_values(runner_idx, safe_labels)

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

656

runner_values[i] <- runner_val

657

}

658

659

min_val <- suppressWarnings(min(numeric_row, na.rm = TRUE))

660

min_idx <- which(numeric_row == min_val)

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

661

loser_labels[i] <- collapse_label_values(min_idx, safe_labels)

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

662

loser_values[i] <- min_val

663

664

if (is.finite(max_val) && is.finite(min_val)) {

665

max_deltas[i] <- max_val - min_val

666

}

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

667

}

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

668

}

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

669

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

670

comparison[, value_cols] <- score_matrix

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

671

comparison[[winner_label_col]] <- winner_labels

672

comparison[[winner_value_col]] <- winner_values

673

comparison[[runner_label_col]] <- runner_labels

674

comparison[[runner_value_col]] <- runner_values

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

675

comparison[[loser_label_col]] <- loser_labels

676

comparison[[loser_value_col]] <- loser_values

677

comparison[[max_delta_col]] <- max_deltas

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

678

}

679

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

680

for (col in score_cols) {

681

rank_cols <- paste0("rank_", labels, "_", col)

682

existing <- rank_cols %in% names(comparison)

683

if (!any(existing)) {

684

}

686

rank_cols <- rank_cols[existing]

687

safe_labels <- labels[existing]

688

rank_values <- comparison[, rank_cols, drop = FALSE]

689

690

winner_rank_label_col <- paste0("winner_rank_", col)

691

winner_rank_value_col <- paste0("winner_rank_", col, "_value")

692

runner_rank_label_col <- paste0("runner_up_rank_", col)

693

runner_rank_value_col <- paste0("runner_up_rank_", col, "_value")

694

loser_rank_label_col <- paste0("loser_rank_", col)

695

loser_rank_value_col <- paste0("loser_rank_", col, "_value")

696

max_delta_rank_col <- paste0("max_delta_rank_", col)

697

698

if (nrow(rank_values) == 0) {

699

comparison[[winner_rank_label_col]] <- character(0)

700

comparison[[winner_rank_value_col]] <- numeric(0)

701

comparison[[runner_rank_label_col]] <- character(0)

702

comparison[[runner_rank_value_col]] <- numeric(0)

703

comparison[[loser_rank_label_col]] <- character(0)

704

comparison[[loser_rank_value_col]] <- numeric(0)

705

comparison[[max_delta_rank_col]] <- numeric(0)

706

}

708

709

rank_matrix <- as.matrix(rank_values)

710

storage.mode(rank_matrix) <- "numeric"

711

712

n_rows <- nrow(rank_matrix)

713

winner_labels <- rep(NA_character_, n_rows)

714

winner_values <- rep(NA_real_, n_rows)

715

runner_labels <- rep(NA_character_, n_rows)

716

runner_values <- rep(NA_real_, n_rows)

717

loser_labels <- rep(NA_character_, n_rows)

718

loser_values <- rep(NA_real_, n_rows)

719

max_deltas <- rep(NA_real_, n_rows)

720

721

for (i in seq_len(n_rows)) {

722

numeric_row <- as.numeric(rank_matrix[i, ])

723

if (all(is.na(numeric_row))) {

724

}

726

727

if (length(rank_cols) > 0) {

728

replacement_vec <- rank_replacements[rank_cols]

729

replacement_vec[is.na(replacement_vec)] <- nrow(comparison) + 1

730

missing_idx <- which(is.na(numeric_row))

731

if (length(missing_idx) > 0) {

732

numeric_row[missing_idx] <- replacement_vec[missing_idx]

}

}

valid_idx <- seq_along(numeric_row)

737

valid_values <- numeric_row[valid_idx]

738

min_val <- suppressWarnings(min(valid_values, na.rm = TRUE))

739

min_positions <- valid_idx[which(valid_values == min_val)]

740

winner_labels[i] <- collapse_label_values(min_positions, safe_labels)

741

winner_values[i] <- min_val

742

743

ordered_vals <- sort(unique(valid_values), decreasing = FALSE)

744

if (length(ordered_vals) >= 2) {

745

runner_val <- ordered_vals[2]

746

runner_positions <- valid_idx[which(valid_values == runner_val)]

747

runner_labels[i] <- collapse_label_values(runner_positions, safe_labels)

748

runner_values[i] <- runner_val

749

}

750

751

max_val <- suppressWarnings(max(valid_values, na.rm = TRUE))

752

max_positions <- valid_idx[which(valid_values == max_val)]

753

loser_labels[i] <- collapse_label_values(max_positions, safe_labels)

754

loser_values[i] <- max_val

755

756

if (is.finite(max_val) && is.finite(min_val)) {

757

max_deltas[i] <- max_val - min_val

}

}

comparison[[winner_rank_label_col]] <- winner_labels

762

comparison[[winner_rank_value_col]] <- winner_values

763

comparison[[runner_rank_label_col]] <- runner_labels

764

comparison[[runner_rank_value_col]] <- runner_values

765

comparison[[loser_rank_label_col]] <- loser_labels

766

comparison[[loser_rank_value_col]] <- loser_values

767

comparison[[max_delta_rank_col]] <- max_deltas

768

}

769

Marc Kupietz

2025-10-18 16:09:23 +0200

[diff] [blame^]

770

for (col in score_cols) {

771

pct_cols <- paste0("percentile_rank_", labels, "_", col)

772

existing <- pct_cols %in% names(comparison)

773

if (!any(existing)) {

774

}

776

pct_cols <- pct_cols[existing]

777

safe_labels <- labels[existing]

778

pct_values <- comparison[, pct_cols, drop = FALSE]

779

780

winner_pct_label_col <- paste0("winner_percentile_rank_", col)

781

winner_pct_value_col <- paste0("winner_percentile_rank_", col, "_value")

782

runner_pct_label_col <- paste0("runner_up_percentile_rank_", col)

783

runner_pct_value_col <- paste0("runner_up_percentile_rank_", col, "_value")

784

loser_pct_label_col <- paste0("loser_percentile_rank_", col)

785

loser_pct_value_col <- paste0("loser_percentile_rank_", col, "_value")

786

max_delta_pct_col <- paste0("max_delta_percentile_rank_", col)

787

788

if (nrow(pct_values) == 0) {

789

comparison[[winner_pct_label_col]] <- character(0)

790

comparison[[winner_pct_value_col]] <- numeric(0)

791

comparison[[runner_pct_label_col]] <- character(0)

792

comparison[[runner_pct_value_col]] <- numeric(0)

793

comparison[[loser_pct_label_col]] <- character(0)

794

comparison[[loser_pct_value_col]] <- numeric(0)

795

comparison[[max_delta_pct_col]] <- numeric(0)

796

}

798

799

pct_matrix <- as.matrix(pct_values)

800

storage.mode(pct_matrix) <- "numeric"

801

802

n_rows <- nrow(pct_matrix)

803

winner_labels <- rep(NA_character_, n_rows)

804

winner_values <- rep(NA_real_, n_rows)

805

runner_labels <- rep(NA_character_, n_rows)

806

runner_values <- rep(NA_real_, n_rows)

807

loser_labels <- rep(NA_character_, n_rows)

808

loser_values <- rep(NA_real_, n_rows)

809

max_deltas <- rep(NA_real_, n_rows)

810

811

if (n_rows > 0) {

812

for (i in seq_len(n_rows)) {

813

numeric_row <- as.numeric(pct_matrix[i, ])

814

if (all(is.na(numeric_row))) {

815

}

817

818

if (any(is.na(numeric_row))) {

819

numeric_row[is.na(numeric_row)] <- 0

820

}

821

pct_matrix[i, ] <- numeric_row

822

823

max_val <- suppressWarnings(max(numeric_row, na.rm = TRUE))

824

max_idx <- which(numeric_row == max_val)

825

winner_labels[i] <- collapse_label_values(max_idx, safe_labels)

826

winner_values[i] <- max_val

827

828

unique_vals <- sort(unique(numeric_row), decreasing = TRUE)

829

if (length(unique_vals) >= 2) {

830

runner_val <- unique_vals[2]

831

runner_idx <- which(numeric_row == runner_val)

832

runner_labels[i] <- collapse_label_values(runner_idx, safe_labels)

833

runner_values[i] <- runner_val

834

}

835

836

min_val <- suppressWarnings(min(numeric_row, na.rm = TRUE))

837

min_idx <- which(numeric_row == min_val)

838

loser_labels[i] <- collapse_label_values(min_idx, safe_labels)

839

loser_values[i] <- min_val

840

841

if (is.finite(max_val) && is.finite(min_val)) {

842

max_deltas[i] <- max_val - min_val

}

}

}

comparison[, pct_cols] <- pct_matrix

848

comparison[[winner_pct_label_col]] <- winner_labels

849

comparison[[winner_pct_value_col]] <- winner_values

850

comparison[[runner_pct_label_col]] <- runner_labels

851

comparison[[runner_pct_value_col]] <- runner_values

852

comparison[[loser_pct_label_col]] <- loser_labels

853

comparison[[loser_pct_value_col]] <- loser_values

854

comparison[[max_delta_pct_col]] <- max_deltas

855

}

856

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

857

dplyr::left_join(result, comparison, by = c("node", "collocate"))

858

}

859

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

860

#' @importFrom magrittr debug_pipe

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

861

#' @importFrom stringr str_detect

862

#' @importFrom dplyr as_tibble tibble rename filter anti_join tibble bind_rows case_when

863

#'

864

matches2FreqTable <- function(matches,

index = 0,

minOccur = 5,

leftContextSize = 5,

rightContextSize = 5,

869

ignoreCollocateCase = FALSE,

870

stopwords = c(),

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

871

collocateFilterRegex = "^[:alnum:]+-?[:alnum:]*$",

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

872

oldTable = data.frame(word = rep(NA, 1), frequency = rep(NA, 1)),

873

verbose = TRUE) {

874

word <- NULL # https://stackoverflow.com/questions/8096313/no-visible-binding-for-global-variable-note-in-r-cmd-check

875

frequency <- NULL

876

877

if (nrow(matches) < 1) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

878

dplyr::tibble(word = c(), frequency = c())

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

879

} else if (index == 0) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

880

if (!"tokens" %in% colnames(matches) || !is.list(matches$tokens)) {

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

881

log_info(verbose, "Outdated KorAP server: Falling back to client side tokenization.\n")

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

882

return(snippet2FreqTable(matches$snippet, minOccur, leftContextSize, rightContextSize,

883

ignoreCollocateCase = ignoreCollocateCase,

884

stopwords = stopwords, oldTable = oldTable, verbose = verbose

885

))

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

886

}

887

log_info(verbose, paste("Joining", nrow(matches), "kwics\n"))

Marc Kupietz

a25fbd9

2025-10-14 17:38:09 +0200

[diff] [blame]

888

for (i in seq_len(nrow(matches))) {

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

889

oldTable <- matches2FreqTable(

890

matches,

891

i,

892

leftContextSize = leftContextSize,

893

rightContextSize = rightContextSize,

894

collocateFilterRegex = collocateFilterRegex,

895

oldTable = oldTable,

896

stopwords = stopwords

897

)

898

}

899

log_info(verbose, paste("Aggregating", length(oldTable$word), "tokens\n"))

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

900

oldTable |>

Marc Kupietz

2025-02-28 15:48:23 +0100

[diff] [blame]

901

group_by(word) |>

902

mutate(word = dplyr::case_when(ignoreCollocateCase ~ tolower(word), TRUE ~ word)) |>

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

903

summarise(frequency = sum(frequency), .groups = "drop") |>

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

904

arrange(desc(frequency))

905

} else {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

906

stopwordsTable <- dplyr::tibble(word = stopwords)

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

907

908

left <- tail(unlist(matches$tokens$left[index]), leftContextSize)

909

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

910

# cat(paste("left:", left, "\n", collapse=" "))

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

911

912

right <- head(unlist(matches$tokens$right[index]), rightContextSize)

913

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

914

# cat(paste("right:", right, "\n", collapse=" "))

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

915

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

916

if (length(left) + length(right) == 0) {

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

917

oldTable

918

} else {

Marc Kupietz

2025-02-28 15:48:23 +0100

[diff] [blame]

919

table(c(left, right)) |>

920

dplyr::as_tibble(.name_repair = "minimal") |>

921

dplyr::rename(word = 1, frequency = 2) |>

922

dplyr::filter(str_detect(word, collocateFilterRegex)) |>

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

923

dplyr::anti_join(stopwordsTable, by = "word") |>

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

924

dplyr::bind_rows(oldTable)

}

}

}

#' @importFrom magrittr debug_pipe

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

930

#' @importFrom stringr str_match str_split str_detect

931

#' @importFrom dplyr as_tibble tibble rename filter anti_join tibble bind_rows case_when

932

#'

933

snippet2FreqTable <- function(snippet,

934

minOccur = 5,

935

leftContextSize = 5,

936

rightContextSize = 5,

937

ignoreCollocateCase = FALSE,

938

stopwords = c(),

939

tokenizeRegex = "([! )(\uc2\uab,.:?\u201e\u201c\'\"]+|")",

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

940

collocateFilterRegex = "^[:alnum:]+-?[:alnum:]*$",

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

941

oldTable = data.frame(word = rep(NA, 1), frequency = rep(NA, 1)),

942

verbose = TRUE) {

943

word <- NULL # https://stackoverflow.com/questions/8096313/no-visible-binding-for-global-variable-note-in-r-cmd-check

944

frequency <- NULL

945

946

if (length(snippet) < 1) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

947

dplyr::tibble(word = c(), frequency = c())

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

948

} else if (length(snippet) > 1) {

Marc Kupietz

a47d150

2023-04-18 15:26:47 +0200

[diff] [blame]

949

log_info(verbose, paste("Joining", length(snippet), "kwics\n"))

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

950

for (s in snippet) {

951

oldTable <- snippet2FreqTable(

952

s,

953

leftContextSize = leftContextSize,

954

rightContextSize = rightContextSize,

Marc Kupietz

47d0d2b

2021-12-19 16:38:52 +0100

[diff] [blame]

955

collocateFilterRegex = collocateFilterRegex,

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

956

oldTable = oldTable,

957

stopwords = stopwords

958

)

959

}

Marc Kupietz

a47d150

2023-04-18 15:26:47 +0200

[diff] [blame]

960

log_info(verbose, paste("Aggregating", length(oldTable$word), "tokens\n"))

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

961

oldTable |>

Marc Kupietz

2025-02-28 15:48:23 +0100

[diff] [blame]

962

group_by(word) |>

963

mutate(word = dplyr::case_when(ignoreCollocateCase ~ tolower(word), TRUE ~ word)) |>

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

964

summarise(frequency = sum(frequency), .groups = "drop") |>

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

965

arrange(desc(frequency))

966

} else {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

967

stopwordsTable <- dplyr::tibble(word = stopwords)

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

match <-

str_match(

snippet,

'()?(.*[^ ]) *.* *([^<]*)'

972

)

973

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

974

left <- if (leftContextSize > 0) {

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

975

tail(unlist(str_split(match[1, 3], tokenizeRegex)), leftContextSize)

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

976

} else {

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

977

""

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

978

}

979

# cat(paste("left:", left, "\n", collapse=" "))

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

980

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

981

right <- if (rightContextSize > 0) {

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

982

head(unlist(str_split(match[1, 4], tokenizeRegex)), rightContextSize)

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

} else {

""

}

# cat(paste("right:", right, "\n", collapse=" "))

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

987

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

988

if (is.na(left[1]) || is.na(right[1]) || length(left) + length(right) == 0) {

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

989

oldTable

990

} else {

Marc Kupietz

2025-02-28 15:48:23 +0100

[diff] [blame]

991

table(c(left, right)) |>

992

dplyr::as_tibble(.name_repair = "minimal") |>

993

dplyr::rename(word = 1, frequency = 2) |>

994

dplyr::filter(str_detect(word, collocateFilterRegex)) |>

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

995

dplyr::anti_join(stopwordsTable, by = "word") |>

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

996

dplyr::bind_rows(oldTable)

}

}

}

#' Preliminary synsemantic stopwords function

1002

#'

1003

#' @description

Marc Kupietz

67edcb5

2021-09-20 21:54:24 +0200

[diff] [blame]

1004

#' `r lifecycle::badge("experimental")`

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

1005

#'

1006

#' Preliminary synsemantic stopwords function to be used in collocation analysis.

1007

#'

1008

#' @details

1009

#' Currently only suitable for German. See stopwords package for other languages.

1010

#'

1011

#' @param ... future arguments for language detection

1012

#'

1013

#' @family collocation analysis functions

1014

#' @return Vector of synsemantic stopwords.

1015

#' @export

1016

synsemanticStopwords <- function(...) {

res <- c(

"der",

"die",

"und",

"in",

"den",

"von",

"mit",

"das",

"zu",

"im",

"ist",

"auf",

"sich",

"Die",

"des",

"dem",

"nicht",

"ein",

Marc Kupietz

d2c08cb

2021-12-07 10:28:21 +0100

[diff] [blame]

1036

"Ein",

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

1037

"eine",

Marc Kupietz

d2c08cb

2021-12-07 10:28:21 +0100

[diff] [blame]

1038

"Eine",

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

"es",

"auch",

"an",

"als",

"am",

"aus",

"Der",

"bei",

"er",

"dass",

"sie",

"nach",

"um",

"Das",

"zum",

"noch",

"war",

"einen",

"einer",

"wie",

"einem",

"vor",

"bis",

"\u00fcber",

"so",

"aber",

"Eine",

"diese",

"Diese",

Marc Kupietz

2025-10-18 16:09:23 +0200

[diff] [blame^]

1068

"oder",

1069

"Es",

1070

"Und"

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

)

return(res)

}

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

1075

Marc Kupietz

76b0559

2021-12-19 16:26:15 +0100

[diff] [blame]

1076

# #' @export

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

findExample <-

function(kco,

query,

vc = "",

matchOnly = TRUE) {

out <- character(length = length(query))

1083

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

1084

if (length(vc) < length(query)) {

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

1085

vc <- rep(vc, length(query))

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

1086

}

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

1087

1088

for (i in seq_along(query)) {

1089

q <- corpusQuery(kco, paste0("(", query[i], ")"), vc = vc[i], metadataOnly = FALSE)

Marc Kupietz

2021-12-07 10:34:10 +0100

[diff] [blame]

1090

if (q@totalResults > 0) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

1091

q <- fetchNext(q, maxFetch = 50, randomizePageOrder = F)

Marc Kupietz

2021-12-07 10:34:10 +0100

[diff] [blame]

1092

example <- as.character((q@collectedMatches)$snippet[1])

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

1093

out[i] <- if (matchOnly) {

1094

gsub(".*(.+).*", "\\1", example)

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

1095

} else {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

1096

stringr::str_replace(example, "<[^>]*>", "")

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

1097

}

Marc Kupietz

2021-12-07 10:34:10 +0100

[diff] [blame]

1098

} else {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

1099

out[i] <- ""

Marc Kupietz

2021-12-07 10:34:10 +0100

[diff] [blame]

1100

}

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

}

out

}

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

collocatesQuery <-

function(kco,

query,

vc = "",

minOccur = 5,

leftContextSize = 5,

rightContextSize = 5,

1112

searchHitsSampleLimit = 20000,

1113

ignoreCollocateCase = FALSE,

1114

stopwords = c(),

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

1115

collocateFilterRegex = "^[:alnum:]+-?[:alnum:]*$",

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

1116

...) {

1117

frequency <- NULL

1118

q <- corpusQuery(kco, query, vc, metadataOnly = F, ...)

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

1119

if (q@totalResults == 0) {

1120

tibble(word = c(), frequency = c())

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

1121

} else {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

1122

q <- fetchNext(q, maxFetch = searchHitsSampleLimit, randomizePageOrder = TRUE)

1123

matches2FreqTable(q@collectedMatches,

1124

0,

1125

minOccur = minOccur,

1126

leftContextSize = leftContextSize,

1127

rightContextSize = rightContextSize,

1128

ignoreCollocateCase = ignoreCollocateCase,

1129

stopwords = stopwords,

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

1130

collocateFilterRegex = collocateFilterRegex,

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

1131

...,

1132

verbose = kco@verbose

1133

) |>

Marc Kupietz

2025-02-28 15:48:23 +0100

[diff] [blame]

1134

mutate(frequency = frequency * q@totalResults / min(q@totalResults, searchHitsSampleLimit)) |>

Marc Kupietz