Slovenský národný korpus (SNK) je rozsiahly jazykový zdroj, ktorý poskytuje bohatý materiál pre lingvistický výskum, analýzu jazyka a rôzne aplikácie v oblasti spracovania prirodzeného jazyka. Tento článok sa zameriava na metódy vyhľadávania v SNK, s dôrazom na používané nástroje, metaznaky a podmienky, ktoré umožňujú efektívne extrahovať relevantné informácie z korpusu.
Nástroje na vyhľadávanie v Slovenskom národnom korpuse
NoSketch Engine
Primárnym nástrojom na vyhľadávanie v Slovenskom národnom korpuse je NoSketch Engine. Tento nástroj umožňuje komplexné vyhľadávanie v rozsiahlych dátach SNK.
Manatee a Bonito (historicky)
V minulosti sa používal korpusový manažér Manatee s klientom Bonito, ktorý bol vyvinutý na Fakulte informatiky Masarykovej univerzity v Brne. Aktuálne je však preferovaným nástrojom NoSketch Engine.
Registrácia a prístup ku korpusu
Pre plnohodnotné využívanie NoSketch Engine je nevyhnutná registrácia. Táto registrácia umožňuje prístup k rozsiahlejším častiam korpusu a pokročilejším funkciám vyhľadávania.
Jednoduché vyhľadávanie bez registrácie
Je možné aj jednoduché vyhľadávanie bez registrácie prostredníctvom webového rozhrania. Avšak, tento prístup je obmedzený na vybrané korpusy (prim-6.0-public-all, r-mak-3.0 a iné) a neumožňuje vytváranie podkorpusov. Pred použitím webového rozhrania je potrebné prečítať si a odsúhlasiť podmienky používania SNK.
Prečítajte si tiež: Používanie latinských skratiek v optike
Citovanie korpusu
Verzie a podkorpusy SNK, ako aj jednotlivé zdroje z nich, by mali byť citované podľa platných smerníc. Správne citovanie zabezpečuje transparentnosť a umožňuje overenie výsledkov výskumu.
Anotácie textov v SNK
SNK obsahuje rôzne typy anotácií, ktoré poskytujú doplňujúce informácie o textoch a ich štruktúre. Medzi tieto anotácie patria:
Bibliografická a štýlovo-žánrová anotácia
Táto anotácia poskytuje informácie o pôvode textu, jeho autorovi, žánri a iných relevantných bibliografických údajoch.
Morfologická anotácia
Morfologická anotácia priraďuje jednotlivým slovám v texte ich morfologické značky, ktoré určujú ich slovný druh, pád, číslo, rod a ďalšie gramatické kategórie.
Nástroje na tvorbu a rekonštrukciu morfologických značiek
SNK disponuje nástrojmi, ktoré umožňujú automatickú tvorbu a rekonštrukciu morfologických značiek. Tieto nástroje uľahčujú analýzu textov a umožňujú efektívne vyhľadávanie na základe morfologických kritérií.
Prečítajte si tiež: Špeciálne znaky a ich klávesové skratky: Praktický návod
Metaznaky na vyhľadávanie v SNK
Metaznaky sú špeciálne znaky, ktoré sa používajú pri vyhľadávaní v korpuse na definovanie komplexných vzorov a podmienok. Používajú sa s atribútom CQL, pričom spôsob hľadania jedného tokenu má tvar [atribút=“hľadaný_token“], napr. [lemma=“hlava“]. Regulárny výraz môžeme utvoriť aj pomocou kombinácie atribútov, napr. [word=“.ací“ & tag!=“A.“] (vyhľadanie všetkých tvarov slov zakončených na -ací, ktoré nie sú adjektívami). Znak v korpuse sa chápe ako ľubovoľný znak okrem medzery. Formulácia metaznak BODKA nahrádza ľubovoľný znak, čo znamená, že bodka v tomto prípade nahrádza aj ľubovoľnú číslicu, interpunkčné znamienko, zátvorku a pod.
Prehľad metaznakov a ich použitie
| Metaznak | Význam | Príklad použitia | Očakávaný výsledok vyhľadávania |
|---|---|---|---|
| BODKA (.) | Nahrádza jeden ľubovoľný znak. | dom.. | domov, domec |
| HVIEZDIČKA (*) | Určuje, že znak pred hviezdičkou sa opakuje ľubovoľný počet krát (aj nula krát). | hm* | h, hm, hmm, hmmm |
| PLUS (+) | Určuje, že znak pred týmto regulárnym výrazom sa opakuje raz alebo viackrát. | hm+ | hm, hmm, hmmm… |
| {} | ZLOŽENÉ ZÁTVORKY. V nich umiestnené číslo určuje, koľkokrát sa má regulárny výraz opakovať. | hm{2} | hmm |
| ZVISLÁ ČIARA ( | ) | Má funkciu operátora ALEBO. | dom|doma |
| HRANATÉ ZÁTVORKY ([]) | Definuje množinu znakov, ktoré sa môžu vyskytovať v danom výraze na mieste zátvoriek. | r[áa]m | rám, sám, tám, uám, vám (ak sa takéto tokeny v korpuse vyskytujú) |
| JEDNODUCHÉ ZÁTVORKY (()) | Slúžia na zápis súboru požiadaviek na určitý znak vyhľadávaného výrazu pomocou regulárneho výrazu. | Kam|tam | Kam, tam |
| (?i) | Ignoruje rozlišovanie veľkých a malých písmen. | (?i)dom | Dom, dom |
| Obrátený LOMENÉ (\) | Znak sa nebude chápať ako regulárny výraz, ale ako jednotka textu. | napr\. | napr. (a nie napri, napre, naprd…) |
| OTÁZNIK (?) | Predstavuje žiaden alebo jeden výskyt predchádzajúceho znaku. | i?šlo | išlo, šlo |
| STRIEŠKA (^) | Znak za ňou nesmie byť v slove na danej pozícii. | Sfs^2 | SSfs1, SSfs3, SSfs4, SSfs5, SSfs6, SSfs7… |
| AMPERSAND (&) | Vyjadruje funkciu A SÚČASNE, ktorá umožňuje definovať viaceré hodnoty naraz. | [tag=“SAms4″ & lemma=“.*ci“] | všetky substantíva (S), s adjektívnou paradigmou (A), s mužským životným rodom (m), v singulári (s) a akuzatíve (4) - ktorých lema sa končí na -ci, napr. |
| .* | Kombinácia BODKA HVIEZDIČKA nahrádza ľubovoľný znak ľubovoľný početkrát. | .*istá | istá, sebaistá, neistá, hmlistá,… |
| .+ | Kombinácia BODKA PLUS sa používa pri vyhľadávaní slov s určitým prefixom, sufixom, skupinou písmen a pod. | za.+ | všetky slová začínajúce sa písmenami za- (okrem slova za) |
Príklady použitia kombinácií metaznakov
- .*istá: Vyhľadá slová zakončené na -istá (istá, sebaistá, neistá, hmlistá).
- za.+ík: Vyhľadá slová začínajúce sa na za- a končiace na -ík (okrem zaík).
- .*koreň.*: Vyhľadá slová s bázou koreň (koreň, koreniny, vykorenený).
- .*kore(ň|n).*: Vyhľadá slová s bázou koreň, vrátane alternácií (koreniny, vykorenený).
Podmienky používané pri vyhľadávaní v korpuse
Pri vyhľadávaní v korpuse je možné použiť rôzne podmienky, ktoré spresňujú hľadané výsledky. Medzi najčastejšie používané podmienky patria within, containing, meet a union.
1. within
Podmienka within umožňuje vyhľadávanie v rámci určitého kontextu, napríklad vety, dokumentu alebo iného definovaného segmentu textu.
Príklady:
[tag=“S.*“]{2} within [tag=“V.*“] []* [tag=“V.*“]- Dve bezprostredne za sebou nasledujúce substantíva v skupine výrazov medzi dvoma slovesami.- Príklad: "… že to všetko je vlastne vecou histórie, spoločenského poriadku, nanovo sa vo mne ozvali…"
[lemma="zelený"] within <doc auth="Vincent Šikula"/>- Všetky lemy „zelený“ v dielach Vincenta Šikulu.- Príklad: "Aký je zelený, - divili sa chlapci."
[lemma=“hlava“] [lemma=“deravý“] within <s/> []* </s>- Spojenie lem hlava a deravý v rámci vety.- Príklad: "Každý má na hlave deravý klobúk a pred sebou šálku, z ktorej stúpa riedky dym."
2. containing
Podmienka containing vyhľadáva výrazy, ktoré obsahujú určité špecifikované elementy.
Príklady:
containing [lemma=“hlava“] [lemma=“deravý“]- Zobrazenie celých viet, ktoré obsahujú lemy hlava a deravý.- Príklad: "Sňal si z hlavy deravý slamený širák, zotrel z čela pot."
[tag=“V.*“] []{5} [tag=“V.*“] containing [tag=“S.*“]{3}- Zobrazenie celých 7-tokenových fráz obsahujúcich mennú skupinu zloženú z troch substantív stojacich bezprostredne za sebou, pričom frázy sú ohraničené slovesami.- Príklad: "vybral z vrecka balíček cigariet a podal"
3. meet
Podmienka meet umožňuje vyhľadávanie kolokácií, teda slov, ktoré sa často vyskytujú v blízkosti seba.
Prečítajte si tiež: Ako rozumieť skratkám v receptoch
Príklad:
(meet [tag=“S.*“] [tag=“VL.*“] -3 3)- Zobrazenie substantíva, ktoré je obklopené slovesami v minulom čase v rozsahu pozícií -3 až 3.
4. union
Podmienka union funguje ako operátor ALEBO pri vyhľadávaní kolokácií, pričom zobrazí len jeden z hľadaných výrazov.
Príklad:
(union (meet [lemma=“hovoriť“] [lemma=“pravda“] -4 4) (meet [lemma=“vysloviť“] [lemma=“lož“] -4 4))- Zobrazí sa len lema hovoriť alebo vysloviť.
Všeobecné podmienky používané v SketchEngine
SketchEngine ponúka aj všeobecné podmienky, ktoré umožňujú pokročilé vyhľadávanie na základe rôznych kritérií.
Príklady:
1:[] 2:[] & 1.tag = 2.tag- Všetky slová stojace vedľa seba, ktorých morfologické kategórie sú totožné.- Príklady: "príliš automaticky", "exkluzívne ekologické", "až prakticky", "celkom mimovoľne"
1:[] 2:[] & 1.tag = 2.tag & f(1.tag) > 1000- Všetky slová stojace bezprostredne vedľa seba, ktoré majú rovnakú morfologickú značku, ale frekvencia prvej morfologickej značky musí byť viac ako 1000 v danom korpuse.
