Blame - R/collocationAnalysis.R - KorAP/RKorAPClient

2021-08-29 12:17:45 +0200

[diff] [blame]

36

#' @param exactFrequencies if FALSE, extrapolate observed co-occurrence frequencies from frequencies in search hits sample, otherwise retrieve exact co-occurrence frequencies

37

#' @param seed seed for random page collecting order

Marc Kupietz

67edcb5

2021-09-20 21:54:24 +0200

[diff] [blame]

38

#' @param expand if TRUE, `node` and `vc` parameters are expanded to all of their combinations

Marc Kupietz

7d400e0

2021-12-19 16:39:36 +0100

[diff] [blame]

39

#' @param maxRecurse apply collocation analysis recursively `maxRecurse` times

40

#' @param addExamples If TRUE, examples for instances of collocations will be added in a column `example`. This makes a difference in particular if `node` is given as a lemma query.

41

#' @param thresholdScore association score function (see \code{\link{association-score-functions}}) to use for computing the threshold that is applied for recursive collocation analysis calls

42

#' @param threshold minimum value of `thresholdScore` function call to apply collocation analysis recursively

43

#' @param localStopwords vector of stopwords that will not be considered as collocates in the current function call, but that will not be passed to recursive calls

Marc Kupietz

47d0d2b

2021-12-19 16:38:52 +0100

[diff] [blame]

44

#' @param collocateFilterRegex allow only collocates matching the regular expression

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

45

#' @param multiVcMissingScoreFactor factor that is multiplied with the minimum observed score when imputing missing scores for delta computations between virtual corpora

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

46

#' @param vcLabel optional label override for the current virtual corpus (used internally when named VC collections are expanded)

Marc Kupietz

67edcb5

2021-09-20 21:54:24 +0200

[diff] [blame]

47

#' @param ... more arguments will be passed to [collocationScoreQuery()]

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

48

#' @inheritParams collocationScoreQuery,KorAPConnection-method

49

#' @return Tibble with top collocates, association scores, corresponding URLs for web user interface queries, etc.

50

#'

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

51

#' @importFrom dplyr arrange desc slice_head bind_rows group_by mutate ungroup left_join select row_number all_of first

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

52

#' @importFrom purrr pmap

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

53

#' @importFrom tidyr expand_grid pivot_wider

54

#' @importFrom rlang sym

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

55

#'

56

#' @examples

Marc Kupietz

6ae7605

2021-09-21 10:34:00 +0200

[diff] [blame]

57

#' \dontrun{

58

#'

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

59

#' # Find top collocates of "Packung" inside and outside the sports domain.

60

#' KorAPConnection(verbose = TRUE) |>

61

#' collocationAnalysis("Packung",

62

#' vc = c("textClass=sport", "textClass!=sport"),

63

#' leftContextSize = 1, rightContextSize = 1, topCollocatesLimit = 20

64

#' ) |>

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

65

#' dplyr::filter(logDice >= 5)

66

#' }

67

#'

Marc Kupietz

6ae7605

2021-09-21 10:34:00 +0200

[diff] [blame]

68

#' \dontrun{

69

#'

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

70

#' # Identify the most prominent light verb construction with "in ... setzen".

71

#' # Note that, currently, the use of focus function disallows exactFrequencies.

Marc Kupietz

2025-02-28 15:48:23 +0100

[diff] [blame]

72

#' KorAPConnection(verbose = TRUE) |>

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

73

#' collocationAnalysis("focus(in [tt/p=NN] {[tt/l=setzen]})",

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

74

#' leftContextSize = 1, rightContextSize = 0, exactFrequencies = FALSE, topCollocatesLimit = 20

75

#' )

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

76

#' }

77

#'

78

#' @export

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

79

setMethod(

80

"collocationAnalysis", "KorAPConnection",

function(kco,

node,

vc = "",

lemmatizeNodeQuery = FALSE,

85

minOccur = 5,

86

leftContextSize = 5,

87

rightContextSize = 5,

88

topCollocatesLimit = 200,

89

searchHitsSampleLimit = 20000,

90

ignoreCollocateCase = FALSE,

91

withinSpan = ifelse(exactFrequencies, "base/s=s", ""),

92

exactFrequencies = TRUE,

93

stopwords = append(RKorAPClient::synsemanticStopwords(), node),

94

seed = 7,

95

expand = length(vc) != length(node),

96

maxRecurse = 0,

97

addExamples = FALSE,

98

thresholdScore = "logDice",

99

threshold = 2.0,

100

localStopwords = c(),

101

collocateFilterRegex = "^[:alnum:]+-?[:alnum:]*$",

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

102

multiVcMissingScoreFactor = 0.9,

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

103

vcLabel = NA_character_,

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

104

...) {

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

105

word <- frequency <- O <- NULL

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

106

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

107

if (!exactFrequencies && (!is.na(withinSpan) && !is.null(withinSpan) && nzchar(withinSpan))) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

108

stop(sprintf("Not empty withinSpan (='%s') requires exactFrequencies=TRUE", withinSpan), call. = FALSE)

109

}

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

110

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

111

warnIfNotAuthorized(kco)

Marc Kupietz

581a29b

2021-09-04 20:51:04 +0200

[diff] [blame]

112

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

113

if (lemmatizeNodeQuery) {

114

node <- lemmatizeWordQuery(node)

115

}

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

116

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

117

vcNames <- names(vc)

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

118

if (is.null(vcNames)) {

119

vcNames <- rep(NA_character_, length(vc))

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

120

}

121

122

label_lookup <- NULL

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

123

if (!is.null(names(vc)) && length(vc) > 0) {

124

raw_names <- names(vc)

125

if (any(!is.na(raw_names) & raw_names != "")) {

126

label_lookup <- stats::setNames(raw_names, vc)

127

}

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

128

}

129

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

130

result <- if (length(node) > 1 || length(vc) > 1) {

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

131

grid <- if (expand) {

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

132

tmp_grid <- tidyr::expand_grid(node = node, idx = seq_along(vc))

133

tmp_grid$vc <- vc[tmp_grid$idx]

134

tmp_grid$vcLabel <- vcNames[tmp_grid$idx]

135

tmp_grid[, c("node", "vc", "vcLabel"), drop = FALSE]

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

136

} else {

137

tibble(node = node, vc = vc, vcLabel = vcNames)

138

}

139

140

multi_result <- purrr::pmap(grid, function(node, vc, vcLabel, ...) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

141

collocationAnalysis(kco,

node = node,

vc = vc,

minOccur = minOccur,

leftContextSize = leftContextSize,

146

rightContextSize = rightContextSize,

147

topCollocatesLimit = topCollocatesLimit,

148

searchHitsSampleLimit = searchHitsSampleLimit,

149

ignoreCollocateCase = ignoreCollocateCase,

150

withinSpan = withinSpan,

151

exactFrequencies = exactFrequencies,

152

stopwords = stopwords,

153

addExamples = TRUE,

154

localStopwords = localStopwords,

155

seed = seed,

156

expand = expand,

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

157

multiVcMissingScoreFactor = multiVcMissingScoreFactor,

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

158

collocateFilterRegex = collocateFilterRegex,

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

159

vcLabel = vcLabel,

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

160

...

161

)

162

}) |>

Marc Kupietz

e31322e

2025-10-17 18:55:36 +0200

[diff] [blame]

163

bind_rows()

164

165

if (!"vc" %in% names(multi_result) || nrow(multi_result) == 0) {

166

multi_result

167

} else {

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

168

if (!"label" %in% names(multi_result)) {

169

multi_result$label <- NA_character_

170

}

171

172

if (!is.null(label_lookup)) {

173

override <- unname(label_lookup[multi_result$vc])

174

missing_idx <- is.na(multi_result$label) | multi_result$label == ""

175

if (any(missing_idx)) {

176

multi_result$label[missing_idx] <- override[missing_idx]

}

}

missing_idx <- is.na(multi_result$label) | multi_result$label == ""

181

if (any(missing_idx)) {

182

multi_result$label[missing_idx] <- queryStringToLabel(multi_result$vc[missing_idx])

183

}

184

Marc Kupietz

e31322e

2025-10-17 18:55:36 +0200

[diff] [blame]

185

multi_result |>

Marc Kupietz

e31322e

2025-10-17 18:55:36 +0200

[diff] [blame]

186

add_multi_vc_comparisons(thresholdScore = thresholdScore, missingScoreFactor = multiVcMissingScoreFactor)

187

}

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

188

} else {

Marc Kupietz

2025-10-17 20:13:42 +0200

[diff] [blame]

189

if ((is.na(vcLabel) || vcLabel == "") && length(vcNames) >= 1) {

190

vcLabel <- vcNames[1]

191

}

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

192

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

193

set.seed(seed)

194

candidates <- collocatesQuery(

kco,

node,

vc = vc,

minOccur = minOccur,

leftContextSize = leftContextSize,

200

rightContextSize = rightContextSize,

201

searchHitsSampleLimit = searchHitsSampleLimit,

202

ignoreCollocateCase = ignoreCollocateCase,

203

stopwords = append(stopwords, localStopwords),

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

204

collocateFilterRegex = collocateFilterRegex,

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

205

...

206

)

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

207

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

208

if (nrow(candidates) > 0) {

209

candidates <- candidates |>

210

filter(frequency >= minOccur) |>

211

slice_head(n = topCollocatesLimit)

212

collocationScoreQuery(

213

kco,

214

node = node,

215

collocate = candidates$word,

216

vc = vc,

217

leftContextSize = leftContextSize,

218

rightContextSize = rightContextSize,

219

observed = if (exactFrequencies) NA else candidates$frequency,

220

ignoreCollocateCase = ignoreCollocateCase,

221

withinSpan = withinSpan,

222

...

223

) |>

224

filter(O >= minOccur) |>

225

dplyr::arrange(dplyr::desc(logDice))

} else {

tibble()

}

}

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

230

231

if (!is.na(vcLabel) && vcLabel != "" && "label" %in% names(result)) {

232

result$label <- rep(vcLabel, nrow(result))

233

}

234

235

threshold_col <- thresholdScore

236

if (maxRecurse > 0 && nrow(result) > 0 && threshold_col %in% names(result)) {

237

threshold_values <- result[[threshold_col]]

238

eligible_idx <- which(!is.na(threshold_values) & threshold_values >= threshold)

239

if (length(eligible_idx) > 0) {

240

recurseWith <- result[eligible_idx, , drop = FALSE]

241

result <- collocationAnalysis(

242

kco,

243

node = paste0("(", buildCollocationQuery(

244

removeWithinSpan(recurseWith$node, withinSpan),

245

recurseWith$collocate,

246

leftContextSize = leftContextSize,

247

rightContextSize = rightContextSize,

withinSpan = ""

), ")"),

vc = vc,

minOccur = minOccur,

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

252

leftContextSize = leftContextSize,

253

rightContextSize = rightContextSize,

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

254

withinSpan = withinSpan,

255

maxRecurse = maxRecurse - 1,

256

stopwords = stopwords,

257

localStopwords = recurseWith$collocate,

258

exactFrequencies = exactFrequencies,

259

searchHitsSampleLimit = searchHitsSampleLimit,

260

topCollocatesLimit = topCollocatesLimit,

261

addExamples = FALSE,

262

multiVcMissingScoreFactor = multiVcMissingScoreFactor,

263

collocateFilterRegex = collocateFilterRegex,

vcLabel = vcLabel

) |>

bind_rows(result) |>

filter(logDice >= 2) |>

268

filter(O >= minOccur) |>

269

dplyr::arrange(dplyr::desc(logDice))

270

}

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

271

}

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

272

273

if (addExamples && nrow(result) > 0) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

274

result$query <- buildCollocationQuery(

275

result$node,

276

result$collocate,

277

leftContextSize = leftContextSize,

278

rightContextSize = rightContextSize,

279

withinSpan = withinSpan

280

)

281

result$example <- findExample(

282

kco,

283

query = result$query,

284

vc = result$vc

285

)

286

}

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

287

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

288

result

289

}

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

290

)

291

Marc Kupietz

76b0559

2021-12-19 16:26:15 +0100

[diff] [blame]

292

# #' @export

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

293

removeWithinSpan <- function(query, withinSpan) {

294

if (withinSpan == "") {

295

return(query)

296

}

297

needle <- sprintf("^\$contains\\(<%s>, ?(.*)\${2}$", withinSpan)

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

298

res <- gsub(needle, "\\1", query)

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

299

needle <- sprintf("^contains\$<%s>, ?(.*)\$$", withinSpan)

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

300

res <- gsub(needle, "\\1", res)

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

return(res)

}

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

304

add_multi_vc_comparisons <- function(result, thresholdScore, missingScoreFactor) {

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame^]

305

label <- node <- collocate <- NULL

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

306

307

if (!"label" %in% names(result) || dplyr::n_distinct(result$label) < 2) {

return(result)

}

numeric_cols <- names(result)[vapply(result, is.numeric, logical(1))]

312

non_score_cols <- c("N", "O", "O1", "O2", "E", "w", "leftContextSize", "rightContextSize", "frequency")

313

score_cols <- setdiff(numeric_cols, non_score_cols)

314

315

if (length(score_cols) == 0) {

return(result)

}

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

319

comparison <- result |>

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame^]

320

dplyr::select(node, collocate, label, dplyr::all_of(score_cols)) |>

321

tidyr::pivot_wider(

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

322

names_from = label,

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame^]

323

values_from = dplyr::all_of(score_cols),

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

324

names_glue = "{.value}_{make.names(label)}",

325

values_fn = dplyr::first

326

)

327

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

328

raw_labels <- unique(result$label)

329

labels <- make.names(raw_labels)

330

label_map <- stats::setNames(raw_labels, labels)

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

331

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame^]

332

rank_data <- result |>

333

dplyr::distinct(node, collocate)

334

335

for (i in seq_along(raw_labels)) {

336

raw_lab <- raw_labels[i]

337

safe_lab <- labels[i]

338

label_df <- result[result$label == raw_lab, c("node", "collocate", score_cols), drop = FALSE]

339

if (nrow(label_df) == 0) {

340

}

342

label_df <- dplyr::distinct(label_df)

343

rank_tbl <- label_df[, c("node", "collocate"), drop = FALSE]

344

for (col in score_cols) {

345

rank_col_name <- paste0("rank_", safe_lab, "_", col)

346

values <- label_df[[col]]

347

ranks <- rep(NA_real_, length(values))

348

valid_idx <- which(!is.na(values))

349

if (length(valid_idx) > 0) {

350

ranks[valid_idx] <- rank(-values[valid_idx], ties.method = "first")

351

}

352

rank_tbl[[rank_col_name]] <- ranks

353

}

354

rank_data <- dplyr::left_join(rank_data, rank_tbl, by = c("node", "collocate"))

355

}

356

357

comparison <- dplyr::left_join(comparison, rank_data, by = c("node", "collocate"))

358

359

rank_replacements <- numeric(0)

360

rank_column_names <- grep("^rank_", names(comparison), value = TRUE)

361

if (length(rank_column_names) > 0) {

362

rank_replacements <- stats::setNames(

363

vapply(rank_column_names, function(col) {

364

col_values <- comparison[[col]]

365

valid_values <- col_values[!is.na(col_values)]

366

if (length(valid_values) == 0) {

367

nrow(comparison) + 1

368

} else {

369

suppressWarnings(max(valid_values, na.rm = TRUE)) + 1

}

}, numeric(1)),

rank_column_names

)

}

collapse_label_values <- function(indices, safe_labels_vec) {

377

if (length(indices) == 0) {

378

return(NA_character_)

379

}

380

labs <- label_map[safe_labels_vec[indices]]

381

fallback <- safe_labels_vec[indices]

382

labs[is.na(labs) | labs == ""] <- fallback[is.na(labs) | labs == ""]

383

labs <- labs[!is.na(labs) & labs != ""]

384

if (length(labs) == 0) {

385

return(NA_character_)

386

}

387

paste(unique(labs), collapse = ", ")

388

}

389

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

390

if (length(labels) == 2) {

391

fill_scores <- function(x, y) {

392

min_val <- suppressWarnings(min(c(x, y), na.rm = TRUE))

393

if (!is.finite(min_val)) {

394

min_val <- 0

395

}

396

x[is.na(x)] <- missingScoreFactor * min_val

397

y[is.na(y)] <- missingScoreFactor * min_val

list(x = x, y = y)

}

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame^]

401

fill_ranks <- function(x, y, left_rank_col, right_rank_col) {

402

fallback <- nrow(comparison) + 1

403

replacement_left <- rank_replacements[[left_rank_col]]

404

if (is.null(replacement_left) || !is.finite(replacement_left)) {

405

replacement_left <- fallback

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

406

}

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame^]

407

replacement_right <- rank_replacements[[right_rank_col]]

408

if (is.null(replacement_right) || !is.finite(replacement_right)) {

409

replacement_right <- fallback

410

}

411

if (any(is.na(x))) {

412

x[is.na(x)] <- replacement_left

413

}

414

if (any(is.na(y))) {

415

y[is.na(y)] <- replacement_right

416

}

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

list(x = x, y = y)

}

left_label <- labels[1]

421

right_label <- labels[2]

422

423

for (col in score_cols) {

424

left_col <- paste0(col, "_", left_label)

425

right_col <- paste0(col, "_", right_label)

426

if (!all(c(left_col, right_col) %in% names(comparison))) {

427

}

429

filled <- fill_scores(comparison[[left_col]], comparison[[right_col]])

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

430

comparison[[left_col]] <- filled$x

431

comparison[[right_col]] <- filled$y

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

432

comparison[[paste0("delta_", col)]] <- filled$x - filled$y

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame^]

433

rank_left <- paste0("rank_", left_label, "_", col)

434

rank_right <- paste0("rank_", right_label, "_", col)

435

if (all(c(rank_left, rank_right) %in% names(comparison))) {

436

filled_rank <- fill_ranks(

437

comparison[[rank_left]],

438

comparison[[rank_right]],

rank_left,

rank_right

)

comparison[[paste0("delta_rank_", col)]] <- filled_rank$x - filled_rank$y

443

}

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

}

}

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

447

for (col in score_cols) {

448

value_cols <- paste0(col, "_", labels)

449

existing <- value_cols %in% names(comparison)

450

if (!any(existing)) {

451

}

453

value_cols <- value_cols[existing]

454

safe_labels <- labels[existing]

455

456

score_values <- comparison[, value_cols, drop = FALSE]

457

458

winner_label_col <- paste0("winner_", col)

459

winner_value_col <- paste0("winner_", col, "_value")

460

runner_label_col <- paste0("runner_up_", col)

461

runner_value_col <- paste0("runner_up_", col, "_value")

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

462

loser_label_col <- paste0("loser_", col)

463

loser_value_col <- paste0("loser_", col, "_value")

464

max_delta_col <- paste0("max_delta_", col)

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

465

466

if (nrow(score_values) == 0) {

467

comparison[[winner_label_col]] <- character(0)

468

comparison[[winner_value_col]] <- numeric(0)

469

comparison[[runner_label_col]] <- character(0)

470

comparison[[runner_value_col]] <- numeric(0)

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

471

comparison[[loser_label_col]] <- character(0)

472

comparison[[loser_value_col]] <- numeric(0)

473

comparison[[max_delta_col]] <- numeric(0)

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

474

}

476

477

score_matrix <- as.matrix(score_values)

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

478

storage.mode(score_matrix) <- "numeric"

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

479

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

480

n_rows <- nrow(score_matrix)

481

winner_labels <- rep(NA_character_, n_rows)

482

winner_values <- rep(NA_real_, n_rows)

483

runner_labels <- rep(NA_character_, n_rows)

484

runner_values <- rep(NA_real_, n_rows)

485

loser_labels <- rep(NA_character_, n_rows)

486

loser_values <- rep(NA_real_, n_rows)

487

max_deltas <- rep(NA_real_, n_rows)

488

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

489

if (n_rows > 0) {

490

for (i in seq_len(n_rows)) {

491

numeric_row <- as.numeric(score_matrix[i, ])

492

if (all(is.na(numeric_row))) {

493

}

495

496

min_val <- suppressWarnings(min(numeric_row, na.rm = TRUE))

497

if (!is.finite(min_val)) {

498

min_val <- 0

499

}

500

numeric_row[is.na(numeric_row)] <- missingScoreFactor * min_val

501

score_matrix[i, ] <- numeric_row

502

503

max_val <- suppressWarnings(max(numeric_row, na.rm = TRUE))

504

max_idx <- which(numeric_row == max_val)

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame^]

505

winner_labels[i] <- collapse_label_values(max_idx, safe_labels)

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

506

winner_values[i] <- max_val

507

508

unique_vals <- sort(unique(numeric_row), decreasing = TRUE)

509

if (length(unique_vals) >= 2) {

510

runner_val <- unique_vals[2]

511

runner_idx <- which(numeric_row == runner_val)

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame^]

512

runner_labels[i] <- collapse_label_values(runner_idx, safe_labels)

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

513

runner_values[i] <- runner_val

514

}

515

516

min_val <- suppressWarnings(min(numeric_row, na.rm = TRUE))

517

min_idx <- which(numeric_row == min_val)

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame^]

518

loser_labels[i] <- collapse_label_values(min_idx, safe_labels)

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

519

loser_values[i] <- min_val

520

521

if (is.finite(max_val) && is.finite(min_val)) {

522

max_deltas[i] <- max_val - min_val

523

}

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

524

}

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

525

}

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

526

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

527

comparison[, value_cols] <- score_matrix

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

528

comparison[[winner_label_col]] <- winner_labels

529

comparison[[winner_value_col]] <- winner_values

530

comparison[[runner_label_col]] <- runner_labels

531

comparison[[runner_value_col]] <- runner_values

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

532

comparison[[loser_label_col]] <- loser_labels

533

comparison[[loser_value_col]] <- loser_values

534

comparison[[max_delta_col]] <- max_deltas

Marc Kupietz

2025-10-17 21:21:22 +0200

[diff] [blame]

535

}

536

Marc Kupietz

2025-10-18 12:25:09 +0200

[diff] [blame^]

537

for (col in score_cols) {

538

rank_cols <- paste0("rank_", labels, "_", col)

539

existing <- rank_cols %in% names(comparison)

540

if (!any(existing)) {

541

}

543

rank_cols <- rank_cols[existing]

544

safe_labels <- labels[existing]

545

rank_values <- comparison[, rank_cols, drop = FALSE]

546

547

winner_rank_label_col <- paste0("winner_rank_", col)

548

winner_rank_value_col <- paste0("winner_rank_", col, "_value")

549

runner_rank_label_col <- paste0("runner_up_rank_", col)

550

runner_rank_value_col <- paste0("runner_up_rank_", col, "_value")

551

loser_rank_label_col <- paste0("loser_rank_", col)

552

loser_rank_value_col <- paste0("loser_rank_", col, "_value")

553

max_delta_rank_col <- paste0("max_delta_rank_", col)

554

555

if (nrow(rank_values) == 0) {

556

comparison[[winner_rank_label_col]] <- character(0)

557

comparison[[winner_rank_value_col]] <- numeric(0)

558

comparison[[runner_rank_label_col]] <- character(0)

559

comparison[[runner_rank_value_col]] <- numeric(0)

560

comparison[[loser_rank_label_col]] <- character(0)

561

comparison[[loser_rank_value_col]] <- numeric(0)

562

comparison[[max_delta_rank_col]] <- numeric(0)

563

}

565

566

rank_matrix <- as.matrix(rank_values)

567

storage.mode(rank_matrix) <- "numeric"

568

569

n_rows <- nrow(rank_matrix)

570

winner_labels <- rep(NA_character_, n_rows)

571

winner_values <- rep(NA_real_, n_rows)

572

runner_labels <- rep(NA_character_, n_rows)

573

runner_values <- rep(NA_real_, n_rows)

574

loser_labels <- rep(NA_character_, n_rows)

575

loser_values <- rep(NA_real_, n_rows)

576

max_deltas <- rep(NA_real_, n_rows)

577

578

for (i in seq_len(n_rows)) {

579

numeric_row <- as.numeric(rank_matrix[i, ])

580

if (all(is.na(numeric_row))) {

581

}

583

584

if (length(rank_cols) > 0) {

585

replacement_vec <- rank_replacements[rank_cols]

586

replacement_vec[is.na(replacement_vec)] <- nrow(comparison) + 1

587

missing_idx <- which(is.na(numeric_row))

588

if (length(missing_idx) > 0) {

589

numeric_row[missing_idx] <- replacement_vec[missing_idx]

}

}

valid_idx <- seq_along(numeric_row)

594

valid_values <- numeric_row[valid_idx]

595

min_val <- suppressWarnings(min(valid_values, na.rm = TRUE))

596

min_positions <- valid_idx[which(valid_values == min_val)]

597

winner_labels[i] <- collapse_label_values(min_positions, safe_labels)

598

winner_values[i] <- min_val

599

600

ordered_vals <- sort(unique(valid_values), decreasing = FALSE)

601

if (length(ordered_vals) >= 2) {

602

runner_val <- ordered_vals[2]

603

runner_positions <- valid_idx[which(valid_values == runner_val)]

604

runner_labels[i] <- collapse_label_values(runner_positions, safe_labels)

605

runner_values[i] <- runner_val

606

}

607

608

max_val <- suppressWarnings(max(valid_values, na.rm = TRUE))

609

max_positions <- valid_idx[which(valid_values == max_val)]

610

loser_labels[i] <- collapse_label_values(max_positions, safe_labels)

611

loser_values[i] <- max_val

612

613

if (is.finite(max_val) && is.finite(min_val)) {

614

max_deltas[i] <- max_val - min_val

}

}

comparison[[winner_rank_label_col]] <- winner_labels

619

comparison[[winner_rank_value_col]] <- winner_values

620

comparison[[runner_rank_label_col]] <- runner_labels

621

comparison[[runner_rank_value_col]] <- runner_values

622

comparison[[loser_rank_label_col]] <- loser_labels

623

comparison[[loser_rank_value_col]] <- loser_values

624

comparison[[max_delta_rank_col]] <- max_deltas

625

}

626

Marc Kupietz

2025-10-14 17:39:53 +0200

[diff] [blame]

627

dplyr::left_join(result, comparison, by = c("node", "collocate"))

628

}

629

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

630

#' @importFrom magrittr debug_pipe

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

631

#' @importFrom stringr str_detect

632

#' @importFrom dplyr as_tibble tibble rename filter anti_join tibble bind_rows case_when

633

#'

634

matches2FreqTable <- function(matches,

index = 0,

minOccur = 5,

leftContextSize = 5,

rightContextSize = 5,

639

ignoreCollocateCase = FALSE,

640

stopwords = c(),

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

641

collocateFilterRegex = "^[:alnum:]+-?[:alnum:]*$",

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

642

oldTable = data.frame(word = rep(NA, 1), frequency = rep(NA, 1)),

643

verbose = TRUE) {

644

word <- NULL # https://stackoverflow.com/questions/8096313/no-visible-binding-for-global-variable-note-in-r-cmd-check

645

frequency <- NULL

646

647

if (nrow(matches) < 1) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

648

dplyr::tibble(word = c(), frequency = c())

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

649

} else if (index == 0) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

650

if (!"tokens" %in% colnames(matches) || !is.list(matches$tokens)) {

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

651

log_info(verbose, "Outdated KorAP server: Falling back to client side tokenization.\n")

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

652

return(snippet2FreqTable(matches$snippet, minOccur, leftContextSize, rightContextSize,

653

ignoreCollocateCase = ignoreCollocateCase,

654

stopwords = stopwords, oldTable = oldTable, verbose = verbose

655

))

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

656

}

657

log_info(verbose, paste("Joining", nrow(matches), "kwics\n"))

Marc Kupietz

a25fbd9

2025-10-14 17:38:09 +0200

[diff] [blame]

658

for (i in seq_len(nrow(matches))) {

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

659

oldTable <- matches2FreqTable(

660

matches,

661

i,

662

leftContextSize = leftContextSize,

663

rightContextSize = rightContextSize,

664

collocateFilterRegex = collocateFilterRegex,

665

oldTable = oldTable,

666

stopwords = stopwords

667

)

668

}

669

log_info(verbose, paste("Aggregating", length(oldTable$word), "tokens\n"))

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

670

oldTable |>

Marc Kupietz

2025-02-28 15:48:23 +0100

[diff] [blame]

671

group_by(word) |>

672

mutate(word = dplyr::case_when(ignoreCollocateCase ~ tolower(word), TRUE ~ word)) |>

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

673

summarise(frequency = sum(frequency), .groups = "drop") |>

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

674

arrange(desc(frequency))

675

} else {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

676

stopwordsTable <- dplyr::tibble(word = stopwords)

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

677

678

left <- tail(unlist(matches$tokens$left[index]), leftContextSize)

679

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

680

# cat(paste("left:", left, "\n", collapse=" "))

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

681

682

right <- head(unlist(matches$tokens$right[index]), rightContextSize)

683

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

684

# cat(paste("right:", right, "\n", collapse=" "))

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

685

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

686

if (length(left) + length(right) == 0) {

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

687

oldTable

688

} else {

Marc Kupietz

2025-02-28 15:48:23 +0100

[diff] [blame]

689

table(c(left, right)) |>

690

dplyr::as_tibble(.name_repair = "minimal") |>

691

dplyr::rename(word = 1, frequency = 2) |>

692

dplyr::filter(str_detect(word, collocateFilterRegex)) |>

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

693

dplyr::anti_join(stopwordsTable, by = "word") |>

Marc Kupietz

2023-08-27 17:47:26 +0200

[diff] [blame]

694

dplyr::bind_rows(oldTable)

}

}

}

#' @importFrom magrittr debug_pipe

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

700

#' @importFrom stringr str_match str_split str_detect

701

#' @importFrom dplyr as_tibble tibble rename filter anti_join tibble bind_rows case_when

702

#'

703

snippet2FreqTable <- function(snippet,

704

minOccur = 5,

705

leftContextSize = 5,

706

rightContextSize = 5,

707

ignoreCollocateCase = FALSE,

708

stopwords = c(),

709

tokenizeRegex = "([! )(\uc2\uab,.:?\u201e\u201c\'\"]+|")",

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

710

collocateFilterRegex = "^[:alnum:]+-?[:alnum:]*$",

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

711

oldTable = data.frame(word = rep(NA, 1), frequency = rep(NA, 1)),

712

verbose = TRUE) {

713

word <- NULL # https://stackoverflow.com/questions/8096313/no-visible-binding-for-global-variable-note-in-r-cmd-check

714

frequency <- NULL

715

716

if (length(snippet) < 1) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

717

dplyr::tibble(word = c(), frequency = c())

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

718

} else if (length(snippet) > 1) {

Marc Kupietz

a47d150

2023-04-18 15:26:47 +0200

[diff] [blame]

719

log_info(verbose, paste("Joining", length(snippet), "kwics\n"))

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

720

for (s in snippet) {

721

oldTable <- snippet2FreqTable(

722

s,

723

leftContextSize = leftContextSize,

724

rightContextSize = rightContextSize,

Marc Kupietz

47d0d2b

2021-12-19 16:38:52 +0100

[diff] [blame]

725

collocateFilterRegex = collocateFilterRegex,

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

726

oldTable = oldTable,

727

stopwords = stopwords

728

)

729

}

Marc Kupietz

a47d150

2023-04-18 15:26:47 +0200

[diff] [blame]

730

log_info(verbose, paste("Aggregating", length(oldTable$word), "tokens\n"))

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

731

oldTable |>

Marc Kupietz

2025-02-28 15:48:23 +0100

[diff] [blame]

732

group_by(word) |>

733

mutate(word = dplyr::case_when(ignoreCollocateCase ~ tolower(word), TRUE ~ word)) |>

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

734

summarise(frequency = sum(frequency), .groups = "drop") |>

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

735

arrange(desc(frequency))

736

} else {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

737

stopwordsTable <- dplyr::tibble(word = stopwords)

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

match <-

str_match(

snippet,

'()?(.*[^ ]) *.* *([^<]*)'

742

)

743

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

744

left <- if (leftContextSize > 0) {

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

745

tail(unlist(str_split(match[1, 3], tokenizeRegex)), leftContextSize)

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

746

} else {

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

747

""

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

748

}

749

# cat(paste("left:", left, "\n", collapse=" "))

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

750

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

751

right <- if (rightContextSize > 0) {

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

752

head(unlist(str_split(match[1, 4], tokenizeRegex)), rightContextSize)

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

} else {

""

}

# cat(paste("right:", right, "\n", collapse=" "))

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

757

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

758

if (is.na(left[1]) || is.na(right[1]) || length(left) + length(right) == 0) {

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

759

oldTable

760

} else {

Marc Kupietz

2025-02-28 15:48:23 +0100

[diff] [blame]

761

table(c(left, right)) |>

762

dplyr::as_tibble(.name_repair = "minimal") |>

763

dplyr::rename(word = 1, frequency = 2) |>

764

dplyr::filter(str_detect(word, collocateFilterRegex)) |>

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

765

dplyr::anti_join(stopwordsTable, by = "word") |>

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

766

dplyr::bind_rows(oldTable)

}

}

}

#' Preliminary synsemantic stopwords function

772

#'

773

#' @description

Marc Kupietz

67edcb5

2021-09-20 21:54:24 +0200

[diff] [blame]

774

#' `r lifecycle::badge("experimental")`

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

775

#'

776

#' Preliminary synsemantic stopwords function to be used in collocation analysis.

777

#'

778

#' @details

779

#' Currently only suitable for German. See stopwords package for other languages.

780

#'

781

#' @param ... future arguments for language detection

782

#'

783

#' @family collocation analysis functions

784

#' @return Vector of synsemantic stopwords.

785

#' @export

786

synsemanticStopwords <- function(...) {

res <- c(

"der",

"die",

"und",

"in",

"den",

"von",

"mit",

"das",

"zu",

"im",

"ist",

"auf",

"sich",

"Die",

"des",

"dem",

"nicht",

"ein",

Marc Kupietz

d2c08cb

2021-12-07 10:28:21 +0100

[diff] [blame]

806

"Ein",

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

807

"eine",

Marc Kupietz

d2c08cb

2021-12-07 10:28:21 +0100

[diff] [blame]

808

"Eine",

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

"es",

"auch",

"an",

"als",

"am",

"aus",

"Der",

"bei",

"er",

"dass",

"sie",

"nach",

"um",

"Das",

"zum",

"noch",

"war",

"einen",

"einer",

"wie",

"einem",

"vor",

"bis",

"\u00fcber",

"so",

"aber",

"Eine",

"diese",

"Diese",

"oder"

)

return(res)

}

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

843

Marc Kupietz

76b0559

2021-12-19 16:26:15 +0100

[diff] [blame]

844

# #' @export

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

findExample <-

function(kco,

query,

vc = "",

matchOnly = TRUE) {

out <- character(length = length(query))

851

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

852

if (length(vc) < length(query)) {

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

853

vc <- rep(vc, length(query))

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

854

}

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

855

856

for (i in seq_along(query)) {

857

q <- corpusQuery(kco, paste0("(", query[i], ")"), vc = vc[i], metadataOnly = FALSE)

Marc Kupietz

2021-12-07 10:34:10 +0100

[diff] [blame]

858

if (q@totalResults > 0) {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

859

q <- fetchNext(q, maxFetch = 50, randomizePageOrder = F)

Marc Kupietz

2021-12-07 10:34:10 +0100

[diff] [blame]

860

example <- as.character((q@collectedMatches)$snippet[1])

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

861

out[i] <- if (matchOnly) {

862

gsub(".*(.+).*", "\\1", example)

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

863

} else {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

864

stringr::str_replace(example, "<[^>]*>", "")

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

865

}

Marc Kupietz

2021-12-07 10:34:10 +0100

[diff] [blame]

866

} else {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

867

out[i] <- ""

Marc Kupietz

2021-12-07 10:34:10 +0100

[diff] [blame]

868

}

Marc Kupietz

2021-11-27 17:51:35 +0100

[diff] [blame]

}

out

}

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

collocatesQuery <-

function(kco,

query,

vc = "",

minOccur = 5,

leftContextSize = 5,

rightContextSize = 5,

880

searchHitsSampleLimit = 20000,

881

ignoreCollocateCase = FALSE,

882

stopwords = c(),

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

883

collocateFilterRegex = "^[:alnum:]+-?[:alnum:]*$",

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

884

...) {

885

frequency <- NULL

886

q <- corpusQuery(kco, query, vc, metadataOnly = F, ...)

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

887

if (q@totalResults == 0) {

888

tibble(word = c(), frequency = c())

Marc Kupietz

2021-08-29 12:17:45 +0200

[diff] [blame]

889

} else {

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

890

q <- fetchNext(q, maxFetch = searchHitsSampleLimit, randomizePageOrder = TRUE)

891

matches2FreqTable(q@collectedMatches,

892

0,

893

minOccur = minOccur,

894

leftContextSize = leftContextSize,

895

rightContextSize = rightContextSize,

896

ignoreCollocateCase = ignoreCollocateCase,

897

stopwords = stopwords,

Marc Kupietz

2025-10-18 10:17:49 +0200

[diff] [blame]

898

collocateFilterRegex = collocateFilterRegex,

Marc Kupietz

2025-06-03 11:58:06 +0200

[diff] [blame]

899

...,

900

verbose = kco@verbose

901

) |>

Marc Kupietz

2025-02-28 15:48:23 +0100

[diff] [blame]

902

mutate(frequency = frequency * q@totalResults / min(q@totalResults, searchHitsSampleLimit)) |>

Marc Kupietz