Skratky a metódy vyhľadávania v Slovenskom národnom korpuse

Rate this post

Slovenský národný korpus (SNK) je rozsiahly jazykový zdroj, ktorý poskytuje bohatý materiál pre lingvistický výskum, analýzu jazyka a rôzne aplikácie v oblasti spracovania prirodzeného jazyka. Tento článok sa zameriava na metódy vyhľadávania v SNK, s dôrazom na používané nástroje, metaznaky a podmienky, ktoré umožňujú efektívne extrahovať relevantné informácie z korpusu.

Nástroje na vyhľadávanie v Slovenskom národnom korpuse

NoSketch Engine

Primárnym nástrojom na vyhľadávanie v Slovenskom národnom korpuse je NoSketch Engine. Tento nástroj umožňuje komplexné vyhľadávanie v rozsiahlych dátach SNK.

Manatee a Bonito (historicky)

V minulosti sa používal korpusový manažér Manatee s klientom Bonito, ktorý bol vyvinutý na Fakulte informatiky Masarykovej univerzity v Brne. Aktuálne je však preferovaným nástrojom NoSketch Engine.

Registrácia a prístup ku korpusu

Pre plnohodnotné využívanie NoSketch Engine je nevyhnutná registrácia. Táto registrácia umožňuje prístup k rozsiahlejším častiam korpusu a pokročilejším funkciám vyhľadávania.

Jednoduché vyhľadávanie bez registrácie

Je možné aj jednoduché vyhľadávanie bez registrácie prostredníctvom webového rozhrania. Avšak, tento prístup je obmedzený na vybrané korpusy (prim-6.0-public-all, r-mak-3.0 a iné) a neumožňuje vytváranie podkorpusov. Pred použitím webového rozhrania je potrebné prečítať si a odsúhlasiť podmienky používania SNK.

Prečítajte si tiež: Používanie latinských skratiek v optike

Citovanie korpusu

Verzie a podkorpusy SNK, ako aj jednotlivé zdroje z nich, by mali byť citované podľa platných smerníc. Správne citovanie zabezpečuje transparentnosť a umožňuje overenie výsledkov výskumu.

Anotácie textov v SNK

SNK obsahuje rôzne typy anotácií, ktoré poskytujú doplňujúce informácie o textoch a ich štruktúre. Medzi tieto anotácie patria:

Bibliografická a štýlovo-žánrová anotácia

Táto anotácia poskytuje informácie o pôvode textu, jeho autorovi, žánri a iných relevantných bibliografických údajoch.

Morfologická anotácia

Morfologická anotácia priraďuje jednotlivým slovám v texte ich morfologické značky, ktoré určujú ich slovný druh, pád, číslo, rod a ďalšie gramatické kategórie.

Nástroje na tvorbu a rekonštrukciu morfologických značiek

SNK disponuje nástrojmi, ktoré umožňujú automatickú tvorbu a rekonštrukciu morfologických značiek. Tieto nástroje uľahčujú analýzu textov a umožňujú efektívne vyhľadávanie na základe morfologických kritérií.

Prečítajte si tiež: Špeciálne znaky a ich klávesové skratky: Praktický návod

Metaznaky na vyhľadávanie v SNK

Metaznaky sú špeciálne znaky, ktoré sa používajú pri vyhľadávaní v korpuse na definovanie komplexných vzorov a podmienok. Používajú sa s atribútom CQL, pričom spôsob hľadania jedného tokenu má tvar [atribút=“hľadaný_token“], napr. [lemma=“hlava“]. Regulárny výraz môžeme utvoriť aj pomocou kombinácie atribútov, napr. [word=“.ací“ & tag!=“A.“] (vyhľadanie všetkých tvarov slov zakončených na -ací, ktoré nie sú adjektívami). Znak v korpuse sa chápe ako ľubovoľný znak okrem medzery. Formulácia metaznak BODKA nahrádza ľubovoľný znak, čo znamená, že bodka v tomto prípade nahrádza aj ľubovoľnú číslicu, interpunkčné znamienko, zátvorku a pod.

Prehľad metaznakov a ich použitie

MetaznakVýznamPríklad použitiaOčakávaný výsledok vyhľadávania
BODKA (.)Nahrádza jeden ľubovoľný znak.dom..domov, domec
HVIEZDIČKA (*)Určuje, že znak pred hviezdičkou sa opakuje ľubovoľný počet krát (aj nula krát).hm*h, hm, hmm, hmmm
PLUS (+)Určuje, že znak pred týmto regulárnym výrazom sa opakuje raz alebo viackrát.hm+hm, hmm, hmmm…
{}ZLOŽENÉ ZÁTVORKY. V nich umiestnené číslo určuje, koľkokrát sa má regulárny výraz opakovať.hm{2}hmm
ZVISLÁ ČIARA ()Má funkciu operátora ALEBO.dom|doma
HRANATÉ ZÁTVORKY ([])Definuje množinu znakov, ktoré sa môžu vyskytovať v danom výraze na mieste zátvoriek.r[áa]mrám, sám, tám, uám, vám (ak sa takéto tokeny v korpuse vyskytujú)
JEDNODUCHÉ ZÁTVORKY (())Slúžia na zápis súboru požiadaviek na určitý znak vyhľadávaného výrazu pomocou regulárneho výrazu.Kam|tamKam, tam
(?i)Ignoruje rozlišovanie veľkých a malých písmen.(?i)domDom, dom
Obrátený LOMENÉ (\)Znak sa nebude chápať ako regulárny výraz, ale ako jednotka textu.napr\.napr. (a nie napri, napre, naprd…)
OTÁZNIK (?)Predstavuje žiaden alebo jeden výskyt predchádzajúceho znaku.i?šloišlo, šlo
STRIEŠKA (^)Znak za ňou nesmie byť v slove na danej pozícii.Sfs^2SSfs1, SSfs3, SSfs4, SSfs5, SSfs6, SSfs7…
AMPERSAND (&)Vyjadruje funkciu A SÚČASNE, ktorá umožňuje definovať viaceré hodnoty naraz.[tag=“SAms4″ & lemma=“.*ci“]všetky substantíva (S), s adjektívnou paradigmou (A), s mužským životným rodom (m), v singulári (s) a akuzatíve (4) - ktorých lema sa končí na -ci, napr.
.*Kombinácia BODKA HVIEZDIČKA nahrádza ľubovoľný znak ľubovoľný početkrát..*istáistá, sebaistá, neistá, hmlistá,…
.+Kombinácia BODKA PLUS sa používa pri vyhľadávaní slov s určitým prefixom, sufixom, skupinou písmen a pod.za.+všetky slová začínajúce sa písmenami za- (okrem slova za)

Príklady použitia kombinácií metaznakov

  • .*istá: Vyhľadá slová zakončené na -istá (istá, sebaistá, neistá, hmlistá).
  • za.+ík: Vyhľadá slová začínajúce sa na za- a končiace na -ík (okrem zaík).
  • .*koreň.*: Vyhľadá slová s bázou koreň (koreň, koreniny, vykorenený).
  • .*kore(ň|n).*: Vyhľadá slová s bázou koreň, vrátane alternácií (koreniny, vykorenený).

Podmienky používané pri vyhľadávaní v korpuse

Pri vyhľadávaní v korpuse je možné použiť rôzne podmienky, ktoré spresňujú hľadané výsledky. Medzi najčastejšie používané podmienky patria within, containing, meet a union.

1. within

Podmienka within umožňuje vyhľadávanie v rámci určitého kontextu, napríklad vety, dokumentu alebo iného definovaného segmentu textu.

Príklady:

  • [tag=“S.*“]{2} within [tag=“V.*“] []* [tag=“V.*“] - Dve bezprostredne za sebou nasledujúce substantíva v skupine výrazov medzi dvoma slovesami.
    • Príklad: "… že to všetko je vlastne vecou histórie, spoločenského poriadku, nanovo sa vo mne ozvali…"
  • [lemma="zelený"] within <doc auth="Vincent Šikula"/> - Všetky lemy „zelený“ v dielach Vincenta Šikulu.
    • Príklad: "Aký je zelený, - divili sa chlapci."
  • [lemma=“hlava“] [lemma=“deravý“] within <s/> []* </s> - Spojenie lem hlava a deravý v rámci vety.
    • Príklad: "Každý má na hlave deravý klobúk a pred sebou šálku, z ktorej stúpa riedky dym."

2. containing

Podmienka containing vyhľadáva výrazy, ktoré obsahujú určité špecifikované elementy.

Príklady:

  • containing [lemma=“hlava“] [lemma=“deravý“] - Zobrazenie celých viet, ktoré obsahujú lemy hlava a deravý.
    • Príklad: "Sňal si z hlavy deravý slamený širák, zotrel z čela pot."
  • [tag=“V.*“] []{5} [tag=“V.*“] containing [tag=“S.*“]{3} - Zobrazenie celých 7-tokenových fráz obsahujúcich mennú skupinu zloženú z troch substantív stojacich bezprostredne za sebou, pričom frázy sú ohraničené slovesami.
    • Príklad: "vybral z vrecka balíček cigariet a podal"

3. meet

Podmienka meet umožňuje vyhľadávanie kolokácií, teda slov, ktoré sa často vyskytujú v blízkosti seba.

Prečítajte si tiež: Ako rozumieť skratkám v receptoch

Príklad:

  • (meet [tag=“S.*“] [tag=“VL.*“] -3 3) - Zobrazenie substantíva, ktoré je obklopené slovesami v minulom čase v rozsahu pozícií -3 až 3.

4. union

Podmienka union funguje ako operátor ALEBO pri vyhľadávaní kolokácií, pričom zobrazí len jeden z hľadaných výrazov.

Príklad:

  • (union (meet [lemma=“hovoriť“] [lemma=“pravda“] -4 4) (meet [lemma=“vysloviť“] [lemma=“lož“] -4 4)) - Zobrazí sa len lema hovoriť alebo vysloviť.

Všeobecné podmienky používané v SketchEngine

SketchEngine ponúka aj všeobecné podmienky, ktoré umožňujú pokročilé vyhľadávanie na základe rôznych kritérií.

Príklady:

  • 1:[] 2:[] & 1.tag = 2.tag - Všetky slová stojace vedľa seba, ktorých morfologické kategórie sú totožné.
    • Príklady: "príliš automaticky", "exkluzívne ekologické", "až prakticky", "celkom mimovoľne"
  • 1:[] 2:[] & 1.tag = 2.tag & f(1.tag) > 1000 - Všetky slová stojace bezprostredne vedľa seba, ktoré majú rovnakú morfologickú značku, ale frekvencia prvej morfologickej značky musí byť viac ako 1000 v danom korpuse.