Blame - R/collocationAnalysis.R - KorAP/RKorAPClient

2021-08-29 12:17:45 +0200

[diff] [blame]

36

#' @param exactFrequencies if FALSE, extrapolate observed co-occurrence frequencies from frequencies in search hits sample, otherwise retrieve exact co-occurrence frequencies

37

#' @param seed seed for random page collecting order

Marc Kupietz

67edcb5

2021-09-20 21:54:24 +0200

[diff] [blame]

38

#' @param expand if TRUE, `node` and `vc` parameters are expanded to all of their combinations

Marc Kupietz

7d400e0

2021-12-19 16:39:36 +0100

[diff] [blame]

39

#' @param maxRecurse apply collocation analysis recursively `maxRecurse` times

40

#' @param addExamples If TRUE, examples for instances of collocations will be added in a column `example`. This makes a difference in particular if `node` is given as a lemma query.

41

#' @param thresholdScore association score function (see \code{\link{association-score-functions}}) to use for computing the threshold that is applied for recursive collocation analysis calls

42

#' @param threshold minimum value of `thresholdScore` function call to apply collocation analysis recursively

43

#' @param localStopwords vector of stopwords that will not be considered as collocates in the current function call, but that will not be passed to recursive calls

Marc Kupietz

47d0d2b

2021-12-19 16:38:52 +0100

[diff] [blame]

44

#' @param collocateFilterRegex allow only collocates matching the regular expression

Marc Kupietz

2025-10-19 12:15:25 +0200

[diff] [blame^]

45

#' @param missingScoreQuantile lower quantile (evaluated per association measure) that anchors the adaptive floor used for imputing missing scores between virtual corpora; a robust spread is subtracted from this anchor so the imputed values stay below the weakest observed scores

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

46

#' @param vcLabel optional label override for the current virtual corpus (used internally when named VC collections are expanded)

Marc Kupietz

67edcb5

2021-09-20 21:54:24 +0200

[diff] [blame]

47

#' @param ... more arguments will be passed to [collocationScoreQuery()]

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

48

#' @inheritParams collocationScoreQuery,KorAPConnection-method

Marc Kupietz

2025-10-18 16:09:23 +0200

[diff] [blame]

49

#' @return

50

#' A tibble where each row represents a candidate collocate for the requested node.

51

#' Columns include (depending on the selected association measures):

52

#'

53

#' \itemize{

54

#' \item \code{node}, \code{collocate}, \code{vc}, \code{label}: identifiers for the query node, collocate, virtual corpus, and optional label.

55

#' \item Frequency and contingency information such as \code{frequency}, \code{O}, \code{O1}, \code{O2}, \code{E}, \code{leftContextSize}, \code{rightContextSize}, and \code{w}.

56

#' \item Association measures (e.g. \code{logDice}, \code{ll}, \code{mi}, ...), one column per requested scorer.

57

#' \item Per-labelled association scores produced by multi-VC comparisons using the pattern \code{<measure>_<label>}.

58

#' \item Ranks per label/measure with the pattern \code{rank_<label>_<measure>} (1 is best) and the corresponding percentile ranks \code{percentile_rank_<label>_<measure>}.

59

#' \item Pairwise contrasts for two-label comparisons, e.g. \code{delta_<measure>}, \code{delta_rank_<measure>}, and \code{delta_percentile_rank_<measure>}.

60

#' \item Summary columns describing the strongest labels per measure (\code{winner_*}, \code{runner_up_*}, \code{loser_*}, and \code{max_delta_*}).

61

#' \item Optional helper columns such as \code{query}, \code{example}, or \code{url} when example retrieval is requested.

62

#' }

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

63

#' @importFrom dplyr arrange desc slice_head bind_rows group_by mutate ungroup left_join select row_number all_of first

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

64

#' @importFrom purrr pmap

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

65

#' @importFrom tidyr expand_grid pivot_wider

66

#' @importFrom rlang sym

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

67

#'

68

#' @examples

Marc Kupietz

6ae7605

2021-09-21 10:34:00 +0200

[diff] [blame]

69

#' \dontrun{

70

#'

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

71

#' # Find top collocates of "Packung" inside and outside the sports domain.

72

#' KorAPConnection(verbose = TRUE) |>

73

#' collocationAnalysis("Packung",

74

#' vc = c("textClass=sport", "textClass!=sport"),

75

#' leftContextSize = 1, rightContextSize = 1, topCollocatesLimit = 20

76

#' ) |>

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

77

#' dplyr::filter(logDice >= 5)

78

#' }

79

#'

Marc Kupietz

6ae7605

2021-09-21 10:34:00 +0200

[diff] [blame]

80

#' \dontrun{

81

#'

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

82

#' # Identify the most prominent light verb construction with "in ... setzen".

83

#' # Note that, currently, the use of focus function disallows exactFrequencies.

Marc Kupietz

2025-02-28 15:48:23 +0100

[diff] [blame]

84

#' KorAPConnection(verbose = TRUE) |>

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

85

#' collocationAnalysis("focus(in [tt/p=NN] {[tt/l=setzen]})",

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

86

#' leftContextSize = 1, rightContextSize = 0, exactFrequencies = FALSE, topCollocatesLimit = 20

87

#' )

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

88

#' }

89

#'

90

#' @export

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

91

setMethod(

92

"collocationAnalysis", "KorAPConnection",

function(kco,

node,

vc = "",

lemmatizeNodeQuery = FALSE,

97

minOccur = 5,

98

leftContextSize = 5,

99

rightContextSize = 5,

100

topCollocatesLimit = 200,

101

searchHitsSampleLimit = 20000,

102

ignoreCollocateCase = FALSE,

103

withinSpan = ifelse(exactFrequencies, "base/s=s", ""),

104

exactFrequencies = TRUE,

105

stopwords = append(RKorAPClient::synsemanticStopwords(), node),

106

seed = 7,

107

expand = length(vc) != length(node),

108

maxRecurse = 0,

109

addExamples = FALSE,

110

thresholdScore = "logDice",

111

threshold = 2.0,

112

localStopwords = c(),

113

collocateFilterRegex = "^[:alnum:]+-?[:alnum:]*$",

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

114

missingScoreQuantile = 0.05,

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

115

vcLabel = NA_character_,

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

116

...) {

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

117

word <- frequency <- O <- NULL

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

118

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

119

if (!exactFrequencies && (!is.na(withinSpan) && !is.null(withinSpan) && nzchar(withinSpan))) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

120

stop(sprintf("Not empty withinSpan (='%s') requires exactFrequencies=TRUE", withinSpan), call. = FALSE)

121

}

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

122

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

123

warnIfNotAuthorized(kco)

Marc Kupietz

581a29b

2021-09-04 20:51:04 +0200

[diff] [blame]

124

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

125

if (lemmatizeNodeQuery) {

126

node <- lemmatizeWordQuery(node)

127

}

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

128

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

129

vcNames <- names(vc)

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

130

if (is.null(vcNames)) {

131

vcNames <- rep(NA_character_, length(vc))

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

132

}

133

134

label_lookup <- NULL

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

135

if (!is.null(names(vc)) && length(vc) > 0) {

136

raw_names <- names(vc)

137

if (any(!is.na(raw_names) & raw_names != "")) {

138

label_lookup <- stats::setNames(raw_names, vc)

139

}

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

140

}

141

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

142

result <- if (length(node) > 1 || length(vc) > 1) {

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

143

grid <- if (expand) {

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

144

tmp_grid <- tidyr::expand_grid(node = node, idx = seq_along(vc))

145

tmp_grid$vc <- vc[tmp_grid$idx]

146

tmp_grid$vcLabel <- vcNames[tmp_grid$idx]

147

tmp_grid[, c("node", "vc", "vcLabel"), drop = FALSE]

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

148

} else {

149

tibble(node = node, vc = vc, vcLabel = vcNames)

150

}

151

152

multi_result <- purrr::pmap(grid, function(node, vc, vcLabel, ...) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

153

collocationAnalysis(kco,

node = node,

vc = vc,

minOccur = minOccur,

leftContextSize = leftContextSize,

158

rightContextSize = rightContextSize,

159

topCollocatesLimit = topCollocatesLimit,

160

searchHitsSampleLimit = searchHitsSampleLimit,

161

ignoreCollocateCase = ignoreCollocateCase,

162

withinSpan = withinSpan,

163

exactFrequencies = exactFrequencies,

164

stopwords = stopwords,

165

addExamples = TRUE,

166

localStopwords = localStopwords,

167

seed = seed,

168

expand = expand,

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

169

missingScoreQuantile = missingScoreQuantile,

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

170

collocateFilterRegex = collocateFilterRegex,

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

171

vcLabel = vcLabel,

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

172

...

173

)

174

}) |>

Marc Kupietz

e31322e

2025-10-17 18:55:36 +0200

[diff] [blame]

175

bind_rows()

176

177

if (!"vc" %in% names(multi_result) || nrow(multi_result) == 0) {

178

multi_result

179

} else {

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

180

if (!"label" %in% names(multi_result)) {

181

multi_result$label <- NA_character_

182

}

183

184

if (!is.null(label_lookup)) {

185

override <- unname(label_lookup[multi_result$vc])

186

missing_idx <- is.na(multi_result$label) | multi_result$label == ""

187

if (any(missing_idx)) {

188

multi_result$label[missing_idx] <- override[missing_idx]

}

}

missing_idx <- is.na(multi_result$label) | multi_result$label == ""

193

if (any(missing_idx)) {

194

multi_result$label[missing_idx] <- queryStringToLabel(multi_result$vc[missing_idx])

195

}

196

Marc Kupietz

e31322e

2025-10-17 18:55:36 +0200

[diff] [blame]

197

multi_result |>

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

198

add_multi_vc_comparisons(

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

199

missingScoreQuantile = missingScoreQuantile

200

)

Marc Kupietz

e31322e

2025-10-17 18:55:36 +0200

[diff] [blame]

201

}

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

202

} else {

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

203

if ((is.na(vcLabel) || vcLabel == "") && length(vcNames) >= 1) {

204

vcLabel <- vcNames[1]

205

}

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

206

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

207

set.seed(seed)

208

candidates <- collocatesQuery(

kco,

node,

vc = vc,

minOccur = minOccur,

leftContextSize = leftContextSize,

214

rightContextSize = rightContextSize,

215

searchHitsSampleLimit = searchHitsSampleLimit,

216

ignoreCollocateCase = ignoreCollocateCase,

217

stopwords = append(stopwords, localStopwords),

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

218

collocateFilterRegex = collocateFilterRegex,

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

219

...

220

)

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

221

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

222

if (nrow(candidates) > 0) {

223

candidates <- candidates |>

224

filter(frequency >= minOccur) |>

225

slice_head(n = topCollocatesLimit)

226

collocationScoreQuery(

227

kco,

228

node = node,

229

collocate = candidates$word,

230

vc = vc,

231

leftContextSize = leftContextSize,

232

rightContextSize = rightContextSize,

233

observed = if (exactFrequencies) NA else candidates$frequency,

234

ignoreCollocateCase = ignoreCollocateCase,

235

withinSpan = withinSpan,

236

...

237

) |>

238

filter(O >= minOccur) |>

239

dplyr::arrange(dplyr::desc(logDice))

} else {

tibble()

}

}

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

244

245

if (!is.na(vcLabel) && vcLabel != "" && "label" %in% names(result)) {

246

result$label <- rep(vcLabel, nrow(result))

247

}

248

249

threshold_col <- thresholdScore

250

if (maxRecurse > 0 && nrow(result) > 0 && threshold_col %in% names(result)) {

251

threshold_values <- result[[threshold_col]]

252

eligible_idx <- which(!is.na(threshold_values) & threshold_values >= threshold)

253

if (length(eligible_idx) > 0) {

254

recurseWith <- result[eligible_idx, , drop = FALSE]

255

result <- collocationAnalysis(

256

kco,

257

node = paste0("(", buildCollocationQuery(

258

removeWithinSpan(recurseWith$node, withinSpan),

259

recurseWith$collocate,

260

leftContextSize = leftContextSize,

261

rightContextSize = rightContextSize,

withinSpan = ""

), ")"),

vc = vc,

minOccur = minOccur,

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

266

leftContextSize = leftContextSize,

267

rightContextSize = rightContextSize,

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

268

withinSpan = withinSpan,

269

maxRecurse = maxRecurse - 1,

270

stopwords = stopwords,

271

localStopwords = recurseWith$collocate,

272

exactFrequencies = exactFrequencies,

273

searchHitsSampleLimit = searchHitsSampleLimit,

274

topCollocatesLimit = topCollocatesLimit,

275

addExamples = FALSE,

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

276

missingScoreQuantile = missingScoreQuantile,

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

277

collocateFilterRegex = collocateFilterRegex,

vcLabel = vcLabel

) |>

bind_rows(result) |>

filter(logDice >= 2) |>

282

filter(O >= minOccur) |>

283

dplyr::arrange(dplyr::desc(logDice))

284

}

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

285

}

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

286

287

if (addExamples && nrow(result) > 0) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

288

result$query <- buildCollocationQuery(

289

result$node,

290

result$collocate,

291

leftContextSize = leftContextSize,

292

rightContextSize = rightContextSize,

293

withinSpan = withinSpan

294

)

295

result$example <- findExample(

296

kco,

297

query = result$query,

298

vc = result$vc

299

)

300

}

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

301

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

302

result

303

}

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

304

)

305

Marc Kupietz

76b0559

2021-12-19 16:26:15 +0100

[diff] [blame]

306

# #' @export

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

307

removeWithinSpan <- function(query, withinSpan) {

308

if (withinSpan == "") {

309

return(query)

310

}

311

needle <- sprintf("^\$contains\\(<%s>, ?(.*)\${2}$", withinSpan)

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

312

res <- gsub(needle, "\\1", query)

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

313

needle <- sprintf("^contains\$<%s>, ?(.*)\$$", withinSpan)

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

314

res <- gsub(needle, "\\1", res)

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

return(res)

}

Marc Kupietz

2025-10-19 11:35:34 +0200

[diff] [blame]

318

add_multi_vc_comparisons <- function(result, missingScoreQuantile = 0.05) {

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

319

label <- node <- collocate <- NULL

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

320

321

if (!"label" %in% names(result) || dplyr::n_distinct(result$label) < 2) {

return(result)

}

numeric_cols <- names(result)[vapply(result, is.numeric, logical(1))]

326

non_score_cols <- c("N", "O", "O1", "O2", "E", "w", "leftContextSize", "rightContextSize", "frequency")

327

score_cols <- setdiff(numeric_cols, non_score_cols)

328

329

if (length(score_cols) == 0) {

return(result)

}

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

333

compute_score_floor <- function(values) {

Marc Kupietz

2025-10-19 12:15:25 +0200

[diff] [blame^]

334

# Estimate a conservative floor so missing scores can be imputed without favoring any label

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

335

finite_values <- values[is.finite(values)]

336

if (length(finite_values) == 0) {

return(0)

}

prob <- min(max(missingScoreQuantile, 0), 0.5)

Marc Kupietz

2025-10-19 12:15:25 +0200

[diff] [blame^]

341

# Use a lower quantile as the anchor to stay near the weakest attested scores

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

342

q_val <- suppressWarnings(stats::quantile(finite_values,

probs = prob,

names = FALSE,

type = 7

))

if (!is.finite(q_val)) {

349

q_val <- suppressWarnings(min(finite_values, na.rm = TRUE))

350

}

351

352

min_val <- suppressWarnings(min(finite_values, na.rm = TRUE))

353

if (!is.finite(min_val)) {

min_val <- 0

}

spread_candidates <- c(

358

suppressWarnings(stats::IQR(finite_values, na.rm = TRUE, type = 7)),

359

stats::sd(finite_values, na.rm = TRUE),

abs(q_val) * 0.1,

abs(min_val - q_val)

)

spread_candidates <- spread_candidates[is.finite(spread_candidates)]

364

365

spread <- 0

366

if (length(spread_candidates) > 0) {

367

spread <- max(spread_candidates)

368

}

369

if (!is.finite(spread) || spread == 0) {

370

spread <- max(abs(q_val), abs(min_val), 1e-06)

371

}

372

Marc Kupietz

2025-10-19 12:15:25 +0200

[diff] [blame^]

373

# Step away from the anchor by a robust spread estimate to avoid ties with real scores

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

374

candidate <- q_val - spread

375

if (!is.finite(candidate)) {

candidate <- min_val

}

floor_value <- suppressWarnings(min(c(candidate, min_val), na.rm = TRUE))

380

if (!is.finite(floor_value)) {

381

floor_value <- min_val

382

}

383

if (!is.finite(floor_value)) {

floor_value <- 0

}

floor_value

}

score_replacements <- stats::setNames(

391

vapply(score_cols, function(col) {

392

compute_score_floor(result[[col]])

}, numeric(1)),

score_cols

)

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

397

comparison <- result |>

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

398

dplyr::select(node, collocate, label, dplyr::all_of(score_cols)) |>

399

tidyr::pivot_wider(

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

400

names_from = label,

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

401

values_from = dplyr::all_of(score_cols),

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

402

names_glue = "{.value}_{make.names(label)}",

403

values_fn = dplyr::first

404

)

405

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

406

raw_labels <- unique(result$label)

407

labels <- make.names(raw_labels)

408

label_map <- stats::setNames(raw_labels, labels)

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

409

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

410

rank_data <- result |>

411

dplyr::distinct(node, collocate)

412

413

for (i in seq_along(raw_labels)) {

414

raw_lab <- raw_labels[i]

415

safe_lab <- labels[i]

416

label_df <- result[result$label == raw_lab, c("node", "collocate", score_cols), drop = FALSE]

417

if (nrow(label_df) == 0) {

418

}

420

label_df <- dplyr::distinct(label_df)

421

rank_tbl <- label_df[, c("node", "collocate"), drop = FALSE]

422

for (col in score_cols) {

423

rank_col_name <- paste0("rank_", safe_lab, "_", col)

Marc Kupietz

2025-10-18 16:09:23 +0200

[diff] [blame]

424

percentile_col_name <- paste0("percentile_rank_", safe_lab, "_", col)

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

425

values <- label_df[[col]]

426

ranks <- rep(NA_real_, length(values))

Marc Kupietz

2025-10-18 16:09:23 +0200

[diff] [blame]

427

percentiles <- rep(NA_real_, length(values))

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

428

valid_idx <- which(!is.na(values))

429

if (length(valid_idx) > 0) {

430

ranks[valid_idx] <- rank(-values[valid_idx], ties.method = "first")

Marc Kupietz

2025-10-18 16:09:23 +0200

[diff] [blame]

431

total <- length(valid_idx)

432

percentiles[valid_idx] <- 1 - (ranks[valid_idx] - 1) / total

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

433

}

434

rank_tbl[[rank_col_name]] <- ranks

Marc Kupietz

2025-10-18 16:09:23 +0200

[diff] [blame]

435

rank_tbl[[percentile_col_name]] <- percentiles

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

436

}

437

rank_data <- dplyr::left_join(rank_data, rank_tbl, by = c("node", "collocate"))

438

}

439

440

comparison <- dplyr::left_join(comparison, rank_data, by = c("node", "collocate"))

441

442

rank_replacements <- numeric(0)

443

rank_column_names <- grep("^rank_", names(comparison), value = TRUE)

444

if (length(rank_column_names) > 0) {

445

rank_replacements <- stats::setNames(

446

vapply(rank_column_names, function(col) {

447

col_values <- comparison[[col]]

448

valid_values <- col_values[!is.na(col_values)]

449

if (length(valid_values) == 0) {

450

nrow(comparison) + 1

451

} else {

452

suppressWarnings(max(valid_values, na.rm = TRUE)) + 1

}

}, numeric(1)),

rank_column_names

)

}

Marc Kupietz

2025-10-18 16:09:23 +0200

[diff] [blame]

459

percentile_replacements <- numeric(0)

460

percentile_column_names <- grep("^percentile_rank_", names(comparison), value = TRUE)

461

if (length(percentile_column_names) > 0) {

462

percentile_replacements <- stats::setNames(

463

rep(0, length(percentile_column_names)),

464

percentile_column_names

)

}

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

468

collapse_label_values <- function(indices, safe_labels_vec) {

469

if (length(indices) == 0) {

470

return(NA_character_)

471

}

472

labs <- label_map[safe_labels_vec[indices]]

473

fallback <- safe_labels_vec[indices]

474

labs[is.na(labs) | labs == ""] <- fallback[is.na(labs) | labs == ""]

475

labs <- labs[!is.na(labs) & labs != ""]

476

if (length(labs) == 0) {

477

return(NA_character_)

478

}

479

paste(unique(labs), collapse = ", ")

480

}

481

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

482

if (length(labels) == 2) {

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

483

fill_scores <- function(x, y, measure_col) {

484

replacement <- score_replacements[[measure_col]]

485

fallback_min <- suppressWarnings(min(c(x, y), na.rm = TRUE))

486

if (!is.finite(fallback_min)) {

487

fallback_min <- 0

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

488

}

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

489

if (!is.null(replacement) && is.finite(replacement)) {

490

replacement <- min(replacement, fallback_min)

491

} else {

492

replacement <- fallback_min

493

}

494

if (!is.finite(replacement)) {

replacement <- 0

}

if (any(is.na(x))) {

x[is.na(x)] <- replacement

499

}

500

if (any(is.na(y))) {

501

y[is.na(y)] <- replacement

502

}

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

list(x = x, y = y)

}

Marc Kupietz

2025-10-18 16:09:23 +0200

[diff] [blame]

506

fill_percentiles <- function(x, y, left_pct_col, right_pct_col) {

507

replacement_left <- percentile_replacements[[left_pct_col]]

508

if (is.null(replacement_left) || !is.finite(replacement_left)) {

509

replacement_left <- 0

510

}

511

replacement_right <- percentile_replacements[[right_pct_col]]

512

if (is.null(replacement_right) || !is.finite(replacement_right)) {

513

replacement_right <- 0

514

}

515

if (any(is.na(x))) {

516

x[is.na(x)] <- replacement_left

517

}

518

if (any(is.na(y))) {

519

y[is.na(y)] <- replacement_right

}

list(x = x, y = y)

}

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

524

fill_ranks <- function(x, y, left_rank_col, right_rank_col) {

525

fallback <- nrow(comparison) + 1

526

replacement_left <- rank_replacements[[left_rank_col]]

527

if (is.null(replacement_left) || !is.finite(replacement_left)) {

528

replacement_left <- fallback

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

529

}

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

530

replacement_right <- rank_replacements[[right_rank_col]]

531

if (is.null(replacement_right) || !is.finite(replacement_right)) {

532

replacement_right <- fallback

533

}

534

if (any(is.na(x))) {

535

x[is.na(x)] <- replacement_left

536

}

537

if (any(is.na(y))) {

538

y[is.na(y)] <- replacement_right

539

}

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

list(x = x, y = y)

}

left_label <- labels[1]

544

right_label <- labels[2]

545

546

for (col in score_cols) {

547

left_col <- paste0(col, "_", left_label)

548

right_col <- paste0(col, "_", right_label)

549

if (!all(c(left_col, right_col) %in% names(comparison))) {

550

}

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

552

filled <- fill_scores(comparison[[left_col]], comparison[[right_col]], col)

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

553

comparison[[left_col]] <- filled$x

554

comparison[[right_col]] <- filled$y

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

555

comparison[[paste0("delta_", col)]] <- filled$x - filled$y

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

556

rank_left <- paste0("rank_", left_label, "_", col)

557

rank_right <- paste0("rank_", right_label, "_", col)

558

if (all(c(rank_left, rank_right) %in% names(comparison))) {

559

filled_rank <- fill_ranks(

560

comparison[[rank_left]],

561

comparison[[rank_right]],

rank_left,

rank_right

)

comparison[[paste0("delta_rank_", col)]] <- filled_rank$x - filled_rank$y

566

}

Marc Kupietz

2025-10-18 16:09:23 +0200

[diff] [blame]

567

pct_left <- paste0("percentile_rank_", left_label, "_", col)

568

pct_right <- paste0("percentile_rank_", right_label, "_", col)

569

if (all(c(pct_left, pct_right) %in% names(comparison))) {

570

filled_pct <- fill_percentiles(

571

comparison[[pct_left]],

572

comparison[[pct_right]],

pct_left,

pct_right

)

comparison[[paste0("delta_percentile_rank_", col)]] <- filled_pct$x - filled_pct$y

577

}

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

}

}

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

581

for (col in score_cols) {

582

value_cols <- paste0(col, "_", labels)

583

existing <- value_cols %in% names(comparison)

584

if (!any(existing)) {

585

}

587

value_cols <- value_cols[existing]

588

safe_labels <- labels[existing]

589

590

score_values <- comparison[, value_cols, drop = FALSE]

591

592

winner_label_col <- paste0("winner_", col)

593

winner_value_col <- paste0("winner_", col, "_value")

594

runner_label_col <- paste0("runner_up_", col)

595

runner_value_col <- paste0("runner_up_", col, "_value")

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

596

loser_label_col <- paste0("loser_", col)

597

loser_value_col <- paste0("loser_", col, "_value")

598

max_delta_col <- paste0("max_delta_", col)

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

599

600

if (nrow(score_values) == 0) {

601

comparison[[winner_label_col]] <- character(0)

602

comparison[[winner_value_col]] <- numeric(0)

603

comparison[[runner_label_col]] <- character(0)

604

comparison[[runner_value_col]] <- numeric(0)

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

605

comparison[[loser_label_col]] <- character(0)

606

comparison[[loser_value_col]] <- numeric(0)

607

comparison[[max_delta_col]] <- numeric(0)

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

608

}

610

611

score_matrix <- as.matrix(score_values)

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

612

storage.mode(score_matrix) <- "numeric"

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

613

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

614

n_rows <- nrow(score_matrix)

615

winner_labels <- rep(NA_character_, n_rows)

616

winner_values <- rep(NA_real_, n_rows)

617

runner_labels <- rep(NA_character_, n_rows)

618

runner_values <- rep(NA_real_, n_rows)

619

loser_labels <- rep(NA_character_, n_rows)

620

loser_values <- rep(NA_real_, n_rows)

621

max_deltas <- rep(NA_real_, n_rows)

622

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

623

if (n_rows > 0) {

624

for (i in seq_len(n_rows)) {

625

numeric_row <- as.numeric(score_matrix[i, ])

626

if (all(is.na(numeric_row))) {

627

}

629

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

630

replacement <- score_replacements[[col]]

631

fallback_min <- suppressWarnings(min(numeric_row, na.rm = TRUE))

632

if (!is.finite(fallback_min)) {

633

fallback_min <- 0

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

634

}

Marc Kupietz

2025-10-18 14:51:29 +0200

[diff] [blame]

635

if (!is.null(replacement) && is.finite(replacement)) {

636

replacement <- min(replacement, fallback_min)

637

} else {

638

replacement <- fallback_min

639

}

640

if (!is.finite(replacement)) {

641

replacement <- 0

642

}

643

if (any(is.na(numeric_row))) {

644

numeric_row[is.na(numeric_row)] <- replacement

645

}

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

646

score_matrix[i, ] <- numeric_row

647

648

max_val <- suppressWarnings(max(numeric_row, na.rm = TRUE))

649

max_idx <- which(numeric_row == max_val)

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

650

winner_labels[i] <- collapse_label_values(max_idx, safe_labels)

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

651

winner_values[i] <- max_val

652

653

unique_vals <- sort(unique(numeric_row), decreasing = TRUE)

654

if (length(unique_vals) >= 2) {

655

runner_val <- unique_vals[2]

656

runner_idx <- which(numeric_row == runner_val)

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

657

runner_labels[i] <- collapse_label_values(runner_idx, safe_labels)

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

658

runner_values[i] <- runner_val

659

}

660

661

min_val <- suppressWarnings(min(numeric_row, na.rm = TRUE))

662

min_idx <- which(numeric_row == min_val)

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

663

loser_labels[i] <- collapse_label_values(min_idx, safe_labels)

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

664

loser_values[i] <- min_val

665

666

if (is.finite(max_val) && is.finite(min_val)) {

667

max_deltas[i] <- max_val - min_val

668

}

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

669

}

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

670

}

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

671

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

672

comparison[, value_cols] <- score_matrix

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

673

comparison[[winner_label_col]] <- winner_labels

674

comparison[[winner_value_col]] <- winner_values

675

comparison[[runner_label_col]] <- runner_labels

676

comparison[[runner_value_col]] <- runner_values

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

677

comparison[[loser_label_col]] <- loser_labels

678

comparison[[loser_value_col]] <- loser_values

679

comparison[[max_delta_col]] <- max_deltas

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

680

}

681

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame]

682

for (col in score_cols) {

683

rank_cols <- paste0("rank_", labels, "_", col)

684

existing <- rank_cols %in% names(comparison)

685

if (!any(existing)) {

686

}

688

rank_cols <- rank_cols[existing]

689

safe_labels <- labels[existing]

690

rank_values <- comparison[, rank_cols, drop = FALSE]

691

692

winner_rank_label_col <- paste0("winner_rank_", col)

693

winner_rank_value_col <- paste0("winner_rank_", col, "_value")

694

runner_rank_label_col <- paste0("runner_up_rank_", col)

695

runner_rank_value_col <- paste0("runner_up_rank_", col, "_value")

696

loser_rank_label_col <- paste0("loser_rank_", col)

697

loser_rank_value_col <- paste0("loser_rank_", col, "_value")

698

max_delta_rank_col <- paste0("max_delta_rank_", col)

699

700

if (nrow(rank_values) == 0) {

701

comparison[[winner_rank_label_col]] <- character(0)

702

comparison[[winner_rank_value_col]] <- numeric(0)

703

comparison[[runner_rank_label_col]] <- character(0)

704

comparison[[runner_rank_value_col]] <- numeric(0)

705

comparison[[loser_rank_label_col]] <- character(0)

706

comparison[[loser_rank_value_col]] <- numeric(0)

707

comparison[[max_delta_rank_col]] <- numeric(0)

708

}

710

711

rank_matrix <- as.matrix(rank_values)

712

storage.mode(rank_matrix) <- "numeric"

713

714

n_rows <- nrow(rank_matrix)

715

winner_labels <- rep(NA_character_, n_rows)

716

winner_values <- rep(NA_real_, n_rows)

717

runner_labels <- rep(NA_character_, n_rows)

718

runner_values <- rep(NA_real_, n_rows)

719

loser_labels <- rep(NA_character_, n_rows)

720

loser_values <- rep(NA_real_, n_rows)

721

max_deltas <- rep(NA_real_, n_rows)

722

723

for (i in seq_len(n_rows)) {

724

numeric_row <- as.numeric(rank_matrix[i, ])

725

if (all(is.na(numeric_row))) {

726

}

728

729

if (length(rank_cols) > 0) {

730

replacement_vec <- rank_replacements[rank_cols]

731

replacement_vec[is.na(replacement_vec)] <- nrow(comparison) + 1

732

missing_idx <- which(is.na(numeric_row))

733

if (length(missing_idx) > 0) {

734

numeric_row[missing_idx] <- replacement_vec[missing_idx]

}

}

valid_idx <- seq_along(numeric_row)

739

valid_values <- numeric_row[valid_idx]

740

min_val <- suppressWarnings(min(valid_values, na.rm = TRUE))

741

min_positions <- valid_idx[which(valid_values == min_val)]

742

winner_labels[i] <- collapse_label_values(min_positions, safe_labels)

743

winner_values[i] <- min_val

744

745

ordered_vals <- sort(unique(valid_values), decreasing = FALSE)

746

if (length(ordered_vals) >= 2) {

747

runner_val <- ordered_vals[2]

748

runner_positions <- valid_idx[which(valid_values == runner_val)]

749

runner_labels[i] <- collapse_label_values(runner_positions, safe_labels)

750

runner_values[i] <- runner_val

751

}

752

753

max_val <- suppressWarnings(max(valid_values, na.rm = TRUE))

754

max_positions <- valid_idx[which(valid_values == max_val)]

755

loser_labels[i] <- collapse_label_values(max_positions, safe_labels)

756

loser_values[i] <- max_val

757

758

if (is.finite(max_val) && is.finite(min_val)) {

759

max_deltas[i] <- max_val - min_val

}

}

comparison[[winner_rank_label_col]] <- winner_labels

764

comparison[[winner_rank_value_col]] <- winner_values

765

comparison[[runner_rank_label_col]] <- runner_labels

766

comparison[[runner_rank_value_col]] <- runner_values

767

comparison[[loser_rank_label_col]] <- loser_labels

768

comparison[[loser_rank_value_col]] <- loser_values

769

comparison[[max_delta_rank_col]] <- max_deltas

770

}

771

Marc Kupietz

2025-10-18 16:09:23 +0200

[diff] [blame]

772

for (col in score_cols) {

773

pct_cols <- paste0("percentile_rank_", labels, "_", col)

774

existing <- pct_cols %in% names(comparison)

775

if (!any(existing)) {

776

}

778

pct_cols <- pct_cols[existing]

779

safe_labels <- labels[existing]

780

pct_values <- comparison[, pct_cols, drop = FALSE]

781

782

winner_pct_label_col <- paste0("winner_percentile_rank_", col)

783

winner_pct_value_col <- paste0("winner_percentile_rank_", col, "_value")

784

runner_pct_label_col <- paste0("runner_up_percentile_rank_", col)

785

runner_pct_value_col <- paste0("runner_up_percentile_rank_", col, "_value")

786

loser_pct_label_col <- paste0("loser_percentile_rank_", col)

787

loser_pct_value_col <- paste0("loser_percentile_rank_", col, "_value")

788

max_delta_pct_col <- paste0("max_delta_percentile_rank_", col)

789

790

if (nrow(pct_values) == 0) {

791

comparison[[winner_pct_label_col]] <- character(0)

792

comparison[[winner_pct_value_col]] <- numeric(0)

793

comparison[[runner_pct_label_col]] <- character(0)

794

comparison[[runner_pct_value_col]] <- numeric(0)

795

comparison[[loser_pct_label_col]] <- character(0)

796

comparison[[loser_pct_value_col]] <- numeric(0)

797

comparison[[max_delta_pct_col]] <- numeric(0)

798

}

800

801

pct_matrix <- as.matrix(pct_values)

802

storage.mode(pct_matrix) <- "numeric"

803

804

n_rows <- nrow(pct_matrix)

805

winner_labels <- rep(NA_character_, n_rows)

806

winner_values <- rep(NA_real_, n_rows)

807

runner_labels <- rep(NA_character_, n_rows)

808

runner_values <- rep(NA_real_, n_rows)

809

loser_labels <- rep(NA_character_, n_rows)

810

loser_values <- rep(NA_real_, n_rows)

811

max_deltas <- rep(NA_real_, n_rows)

812

813

if (n_rows > 0) {

814

for (i in seq_len(n_rows)) {

815

numeric_row <- as.numeric(pct_matrix[i, ])

816

if (all(is.na(numeric_row))) {

817

}

819

820

if (any(is.na(numeric_row))) {

821

numeric_row[is.na(numeric_row)] <- 0

822

}

823

pct_matrix[i, ] <- numeric_row

824

825

max_val <- suppressWarnings(max(numeric_row, na.rm = TRUE))

826

max_idx <- which(numeric_row == max_val)

827

winner_labels[i] <- collapse_label_values(max_idx, safe_labels)

828

winner_values[i] <- max_val

829

830

unique_vals <- sort(unique(numeric_row), decreasing = TRUE)

831

if (length(unique_vals) >= 2) {

832

runner_val <- unique_vals[2]

833

runner_idx <- which(numeric_row == runner_val)

834

runner_labels[i] <- collapse_label_values(runner_idx, safe_labels)

835

runner_values[i] <- runner_val

836

}

837

838

min_val <- suppressWarnings(min(numeric_row, na.rm = TRUE))

839

min_idx <- which(numeric_row == min_val)

840

loser_labels[i] <- collapse_label_values(min_idx, safe_labels)

841

loser_values[i] <- min_val

842

843

if (is.finite(max_val) && is.finite(min_val)) {

844

max_deltas[i] <- max_val - min_val

}

}

}

comparison[, pct_cols] <- pct_matrix

850

comparison[[winner_pct_label_col]] <- winner_labels

851

comparison[[winner_pct_value_col]] <- winner_values

852

comparison[[runner_pct_label_col]] <- runner_labels

853

comparison[[runner_pct_value_col]] <- runner_values

854

comparison[[loser_pct_label_col]] <- loser_labels

855

comparison[[loser_pct_value_col]] <- loser_values

856

comparison[[max_delta_pct_col]] <- max_deltas

857

}

858

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

859

dplyr::left_join(result, comparison, by = c("node", "collocate"))

860

}

861

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

862

#' @importFrom magrittr debug_pipe

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

863

#' @importFrom stringr str_detect

864

#' @importFrom dplyr as_tibble tibble rename filter anti_join tibble bind_rows case_when

865

#'

866

matches2FreqTable <- function(matches,

index = 0,

minOccur = 5,

leftContextSize = 5,

rightContextSize = 5,

871

ignoreCollocateCase = FALSE,

872

stopwords = c(),

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

873

collocateFilterRegex = "^[:alnum:]+-?[:alnum:]*$",

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

874

oldTable = data.frame(word = rep(NA, 1), frequency = rep(NA, 1)),

875

verbose = TRUE) {

876

word <- NULL # https://stackoverflow.com/questions/8096313/no-visible-binding-for-global-variable-note-in-r-cmd-check

877

frequency <- NULL

878

879

if (nrow(matches) < 1) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

880

dplyr::tibble(word = c(), frequency = c())

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

881

} else if (index == 0) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

882

if (!"tokens" %in% colnames(matches) || !is.list(matches$tokens)) {

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

883

log_info(verbose, "Outdated KorAP server: Falling back to client side tokenization.\n")

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

884

return(snippet2FreqTable(matches$snippet, minOccur, leftContextSize, rightContextSize,

885

ignoreCollocateCase = ignoreCollocateCase,

886

stopwords = stopwords, oldTable = oldTable, verbose = verbose

887

))

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

888

}

889

log_info(verbose, paste("Joining", nrow(matches), "kwics\n"))

Marc Kupietz

a25fbd9

2025-10-14 17:38:09 +0200

[diff] [blame]

890

for (i in seq_len(nrow(matches))) {

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

891

oldTable <- matches2FreqTable(

892

matches,

893

i,

894

leftContextSize = leftContextSize,

895

rightContextSize = rightContextSize,

896

collocateFilterRegex = collocateFilterRegex,

897

oldTable = oldTable,

898

stopwords = stopwords

899

)

900

}

901

log_info(verbose, paste("Aggregating", length(oldTable$word), "tokens\n"))

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

902

oldTable |>

Marc Kupietz

2025-02-28 15:48:23 +0100

[diff] [blame]

903

group_by(word) |>

904

mutate(word = dplyr::case_when(ignoreCollocateCase ~ tolower(word), TRUE ~ word)) |>

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

905

summarise(frequency = sum(frequency), .groups = "drop") |>

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

906

arrange(desc(frequency))

907

} else {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

908

stopwordsTable <- dplyr::tibble(word = stopwords)

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

909

910

left <- tail(unlist(matches$tokens$left[index]), leftContextSize)

911

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

912

# cat(paste("left:", left, "\n", collapse=" "))

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

913

914

right <- head(unlist(matches$tokens$right[index]), rightContextSize)

915

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

916

# cat(paste("right:", right, "\n", collapse=" "))

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

917

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

918

if (length(left) + length(right) == 0) {

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

919

oldTable

920

} else {

Marc Kupietz

2025-02-28 15:48:23 +0100

[diff] [blame]

921

table(c(left, right)) |>

922

dplyr::as_tibble(.name_repair = "minimal") |>

923

dplyr::rename(word = 1, frequency = 2) |>

924

dplyr::filter(str_detect(word, collocateFilterRegex)) |>

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

925

dplyr::anti_join(stopwordsTable, by = "word") |>

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

926

dplyr::bind_rows(oldTable)

}

}

}

#' @importFrom magrittr debug_pipe

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

932

#' @importFrom stringr str_match str_split str_detect

933

#' @importFrom dplyr as_tibble tibble rename filter anti_join tibble bind_rows case_when

934

#'

935

snippet2FreqTable <- function(snippet,

936

minOccur = 5,

937

leftContextSize = 5,

938

rightContextSize = 5,

939

ignoreCollocateCase = FALSE,

940

stopwords = c(),

941

tokenizeRegex = "([! )(\uc2\uab,.:?\u201e\u201c\'\"]+|")",

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

942

collocateFilterRegex = "^[:alnum:]+-?[:alnum:]*$",

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

943

oldTable = data.frame(word = rep(NA, 1), frequency = rep(NA, 1)),

944

verbose = TRUE) {

945

word <- NULL # https://stackoverflow.com/questions/8096313/no-visible-binding-for-global-variable-note-in-r-cmd-check

946

frequency <- NULL

947

948

if (length(snippet) < 1) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

949

dplyr::tibble(word = c(), frequency = c())

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

950

} else if (length(snippet) > 1) {

Marc Kupietz

a47d150

2023-04-18 15:26:47 +0200

[diff] [blame]

951

log_info(verbose, paste("Joining", length(snippet), "kwics\n"))

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

952

for (s in snippet) {

953

oldTable <- snippet2FreqTable(

954

s,

955

leftContextSize = leftContextSize,

956

rightContextSize = rightContextSize,

Marc Kupietz

47d0d2b

2021-12-19 16:38:52 +0100

[diff] [blame]

957

collocateFilterRegex = collocateFilterRegex,

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

958

oldTable = oldTable,

959

stopwords = stopwords

960

)

961

}

Marc Kupietz

a47d150

2023-04-18 15:26:47 +0200

[diff] [blame]

962

log_info(verbose, paste("Aggregating", length(oldTable$word), "tokens\n"))

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

963

oldTable |>

Marc Kupietz

2025-02-28 15:48:23 +0100

[diff] [blame]

964

group_by(word) |>

965

mutate(word = dplyr::case_when(ignoreCollocateCase ~ tolower(word), TRUE ~ word)) |>

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

966

summarise(frequency = sum(frequency), .groups = "drop") |>

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

967

arrange(desc(frequency))

968

} else {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

969

stopwordsTable <- dplyr::tibble(word = stopwords)

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

match <-

str_match(

snippet,

'()?(.*[^ ]) *.* *([^<]*)'

974

)

975

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

976

left <- if (leftContextSize > 0) {

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

977

tail(unlist(str_split(match[1, 3], tokenizeRegex)), leftContextSize)

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

978

} else {

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

979

""

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

980

}

981

# cat(paste("left:", left, "\n", collapse=" "))

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

982

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

983

right <- if (rightContextSize > 0) {

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

984

head(unlist(str_split(match[1, 4], tokenizeRegex)), rightContextSize)

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

} else {

""

}

# cat(paste("right:", right, "\n", collapse=" "))

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

989

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

990

if (is.na(left[1]) || is.na(right[1]) || length(left) + length(right) == 0) {

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

991

oldTable

992

} else {

Marc Kupietz

2025-02-28 15:48:23 +0100

[diff] [blame]

993

table(c(left, right)) |>

994

dplyr::as_tibble(.name_repair = "minimal") |>

995

dplyr::rename(word = 1, frequency = 2) |>

996

dplyr::filter(str_detect(word, collocateFilterRegex)) |>

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

997

dplyr::anti_join(stopwordsTable, by = "word") |>

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

998

dplyr::bind_rows(oldTable)

}

}

}

#' Preliminary synsemantic stopwords function

1004

#'

1005

#' @description

Marc Kupietz

67edcb5

2021-09-20 21:54:24 +0200

[diff] [blame]

1006

#' `r lifecycle::badge("experimental")`

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

1007

#'

1008

#' Preliminary synsemantic stopwords function to be used in collocation analysis.

1009

#'

1010

#' @details

1011

#' Currently only suitable for German. See stopwords package for other languages.

1012

#'

1013

#' @param ... future arguments for language detection

1014

#'

1015

#' @family collocation analysis functions

1016

#' @return Vector of synsemantic stopwords.

1017

#' @export

1018

synsemanticStopwords <- function(...) {

res <- c(

"der",

"die",

"und",

"in",

"den",

"von",

"mit",

"das",

"zu",

"im",

"ist",

"auf",

"sich",

"Die",

"des",

"dem",

"nicht",

"ein",

Marc Kupietz

d2c08cb

2021-12-07 10:28:21 +0100

[diff] [blame]

1038

"Ein",

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

1039

"eine",

Marc Kupietz

d2c08cb

2021-12-07 10:28:21 +0100

[diff] [blame]

1040

"Eine",

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

"es",

"auch",

"an",

"als",

"am",

"aus",

"Der",

"bei",

"er",

"dass",

"sie",

"nach",

"um",

"Das",

"zum",

"noch",

"war",

"einen",

"einer",

"wie",

"einem",

"vor",

"bis",

"\u00fcber",

"so",

"aber",

"Eine",

"diese",

"Diese",

Marc Kupietz

2025-10-18 16:09:23 +0200

[diff] [blame]

1070

"oder",

1071

"Es",

1072

"Und"

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

)

return(res)

}

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

1077

Marc Kupietz

76b0559

2021-12-19 16:26:15 +0100

[diff] [blame]

1078

# #' @export

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

findExample <-

function(kco,

query,

vc = "",

matchOnly = TRUE) {

out <- character(length = length(query))

1085

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

1086

if (length(vc) < length(query)) {

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

1087

vc <- rep(vc, length(query))

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

1088

}

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

1089

1090

for (i in seq_along(query)) {

1091

q <- corpusQuery(kco, paste0("(", query[i], ")"), vc = vc[i], metadataOnly = FALSE)

Marc Kupietz

2021-12-07 10:34:10 +0100

[diff] [blame]

1092

if (q@totalResults > 0) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

1093

q <- fetchNext(q, maxFetch = 50, randomizePageOrder = F)

Marc Kupietz

2021-12-07 10:34:10 +0100

[diff] [blame]

1094

example <- as.character((q@collectedMatches)$snippet[1])

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

1095

out[i] <- if (matchOnly) {

1096

gsub(".*(.+).*", "\\1", example)

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

1097

} else {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

1098

stringr::str_replace(example, "<[^>]*>", "")

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

1099

}

Marc Kupietz

2021-12-07 10:34:10 +0100

[diff] [blame]

1100

} else {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

1101

out[i] <- ""

Marc Kupietz

2021-12-07 10:34:10 +0100

[diff] [blame]

1102

}

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

}

out

}

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

collocatesQuery <-

function(kco,

query,

vc = "",

minOccur = 5,

leftContextSize = 5,

rightContextSize = 5,

1114

searchHitsSampleLimit = 20000,

1115

ignoreCollocateCase = FALSE,

1116

stopwords = c(),

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

1117

collocateFilterRegex = "^[:alnum:]+-?[:alnum:]*$",

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

1118

...) {

1119

frequency <- NULL

1120

q <- corpusQuery(kco, query, vc, metadataOnly = F, ...)

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

1121

if (q@totalResults == 0) {

1122

tibble(word = c(), frequency = c())

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

1123

} else {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

1124

q <- fetchNext(q, maxFetch = searchHitsSampleLimit, randomizePageOrder = TRUE)

1125

matches2FreqTable(q@collectedMatches,

1126

0,

1127

minOccur = minOccur,

1128

leftContextSize = leftContextSize,

1129

rightContextSize = rightContextSize,

1130

ignoreCollocateCase = ignoreCollocateCase,

1131

stopwords = stopwords,

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

1132

collocateFilterRegex = collocateFilterRegex,

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

1133

...,

1134

verbose = kco@verbose

1135

) |>

Marc Kupietz

2025-02-28 15:48:23 +0100

[diff] [blame]

1136

mutate(frequency = frequency * q@totalResults / min(q@totalResults, searchHitsSampleLimit)) |>

Marc Kupietz