Slovenský národný korpus: Kompletný sprievodca, príklady a praktické využitie

Rate this post

Slovenský národný korpus (SNK) je rozsiahla elektronická databáza textov v slovenskom jazyku, ktorá slúži ako cenný nástroj pre výskum jazyka, jeho vývoja a používania v rôznych kontextoch. Obsahuje texty od roku 1955 z rôznych štýlov, žánrov, vecných oblastí a regiónov. Tento článok poskytuje komplexný pohľad na SNK, jeho definíciu, štruktúru, možnosti vyhľadávania a praktické príklady jeho využitia.

Čo je Slovenský národný korpus?

Slovenský národný korpus je rozsiahly vedecko-výskumný projekt zameraný na tvorbu komplexu slovenských elektronických jazykových zdrojov. Ide o elektronickú databázu, ktorá primárne obsahuje slovenské texty, a to od roku 1955. Tieto texty pochádzajú z rozličných štýlov, žánrov, vecných oblastí a regiónov Slovenska. Rozsah korpusu je daný množstvom textov, ktoré poskytli autori a majitelia autorských práv na základe licenčnej zmluvy. Medzi poskytovateľmi textov nájdeme inštitúcie, organizácie, ale aj jednotlivých autorov. Korpus zahŕňa aj slovníkové databázy a paralelné korpusy.

Prístup a vyhľadávanie v SNK

Na vyhľadávanie v Slovenskom národnom korpuse sa využíva nástroj NoSketch Engine. Pôvodne sa používal korpusový manažér Manatee s klientom Bonito, vyvinutý na Fakulte informatiky Masarykovej univerzity v Brne.

Registrácia a jednoduché vyhľadávanie

Pre plnohodnotné využívanie SNK je nevyhnutná registrácia. Tá umožňuje prístup k rozsiahlejším možnostiam a funkciám. Jednoduché vyhľadávanie je však možné aj bez registrácie prostredníctvom webového rozhrania. Tento spôsob má obmedzený prístup ku korpusom (prim-6.0-public-all, r-mak-3.0 a iné) a neumožňuje vytváranie podkorpusov. Pred použitím webového rozhrania je potrebné prečítať si a odsúhlasiť podmienky používania SNK.

Ako citovať korpus

Verzie a podkorpusy SNK, ako aj jednotlivé zdroje z nich, sa citujú podľa špecifického návodu, ktorý zabezpečuje jednotnosť a správnu identifikáciu použitých dát.

Prečítajte si tiež: Test zmrzlín

Anotácie textov v SNK

Texty v Slovenskom národnom korpuse sú anotované, čo znamená, že sú obohatené o dodatočné informácie, ktoré uľahčujú ich analýzu. Medzi základné typy anotácií patria:

Bibliografická a štýlovo-žánrová anotácia: Poskytuje informácie o pôvode textu, jeho autorovi, žánri a štýle.
Morfologická anotácia: Označuje slovné druhy, gramatické kategórie (pád, číslo, rod, atď.) a iné morfologické vlastnosti slov.

Pre tvorbu a rekonštrukciu morfologických značiek existujú špeciálne nástroje, ktoré zjednodušujú a automatizujú tento proces.

Metaznaky a regulárne výrazy vo vyhľadávaní

Pri vyhľadávaní v SNK sa používajú metaznaky a regulárne výrazy, ktoré umožňujú presnejšie a flexibilnejšie definovanie hľadaných výrazov. Metaznaky sa používajú pri vyhľadávaní pomocou atribútu CQL. Spôsob hľadania jedného tokenu je vždy záväzný a má tvar [atribút=“hľadaný_token“], napríklad [lemma=“hlava“].

Príklady metaznakov a ich použitie

. (BODKA): Nahrádza jeden ľubovoľný znak. Napríklad, dom.. nájde slová ako domov alebo domec.
* (HVIEZDIČKA): Určuje, že znak pred hviezdičkou sa opakuje ľubovoľný počet krát (aj nula krát). Napríklad, hm* nájde h, hm, hmm, hmmm.
+ (PLUS): Určuje, že znak pred týmto regulárnym výrazom sa opakuje raz alebo viackrát. Napríklad, hm+ nájde hm, hmm, hmmm.
| (ZVISLÁ ČIARA): Má funkciu operátora ALEBO. Napríklad, dom|doma nájde dom alebo doma.
[ ] (HRANATÉ ZÁTVORKY): Definuje množinu znakov, ktoré sa môžu vyskytovať v danom výraze na mieste zátvoriek. Napríklad, r[áa]m nájde rám, ram.
( ) (JEDNODUCHÉ ZÁTVORKY): Slúžia na zápis súboru požiadaviek na určitý znak vyhľadávaného výrazu pomocou regulárneho výrazu.
(?i): Ignoruje rozlišovanie veľkých a malých písmen. Napríklad, (?i)dom nájde Dom aj dom.
\ (OBRÁTENÝ ZNAK LOMENÉ): Pred znakom regulárneho výrazu znamená, že sa daný znak nebude pri vyhľadávaní chápať ako regulárny výraz, ale ako jednotka textu. Napríklad, napr\. nájde napr. (a nie napri, napre, naprd…).
? (OTÁZNIK): Predstavuje žiaden alebo jeden výskyt predchádzajúceho znaku. Napríklad, i?šlo nájde išlo aj šlo.
^ (STRIEŠKA): Spôsobí, že znak za ňou nesmie byť v slove na danej pozícii. Napríklad, SSfs^2 nesmie byť za „s“, teda sú to všetky feminína v singulári okrem genitívnych tvarov.
& (AMPERSAND): Vyjadruje funkciu A SÚČASNE, ktorá umožňuje definovať viaceré hodnoty naraz. Napríklad, [tag=“SAms4″ & lemma=“.*ci“] nájde všetky substantíva (S), s adjektívnou paradigmou (A), s mužským životným rodom (m), v singulári (s) a akuzatíve (4) - ktorých lema sa končí na -ci.
.* (Kombinácia BODKA HVIEZDIČKA): Nahrádza ľubovoľný znak ľubovoľný početkrát. Výsledkom vyhľadávania zápisu .*istá budú slová zakončené sufixom -istá, ale aj samotné slovo istá. Napríklad, istá, sebaistá, neistá, hmlistá.
.+ (Kombinácia BODKA PLUS): Používa sa pri vyhľadávaní slov s určitým prefixom, sufixom, skupinou písmen a pod. Výsledok vyhľadávania zápisu za.+ zobrazí všetky slová začínajúce sa písmenami za- (okrem slova za).

Podmienky používané pri vyhľadávaní v korpuse

Pri vyhľadávaní v korpuse sa používajú rôzne podmienky, ktoré upresňujú kontext a vzťahy medzi hľadanými výrazmi.

1. within

Podmienka within umožňuje vyhľadávanie v rámci určitej štruktúry alebo kontextu.

Prečítajte si tiež: Dovoz a preferencie bravčového mäsa

[tag=“S.*“]{2} within [tag=“V.*“][]*[tag=“V.*“]: Vyhľadá dve bezprostredne za sebou nasledujúce substantíva v skupine výrazov medzi dvoma slovesami.
[lemma="zelený"] within <doc auth="Vincent Šikula"/>: Vyhľadá všetky lemy „zelený“ v dielach Vincenta Šikulu.
[lemma=“hlava“][lemma=“deravý“] within <s/>[]*</s>: Zobrazí spojenia dvoch lem hlava a deravý v rámci vety.

2. containing

Podmienka containing zobrazuje celok (napr. vetu), ktorý obsahuje zadané výrazy.

containing [lemma=“hlava“] [lemma=“deravý“]: Zobrazí celé vety, ktoré obsahujú lemy hlava a deravý.
[tag=“V.*“] []{5} [tag=“V.*“] containing [tag=“S.*“]{3}: Zobrazí celé 7-tokenové frázy obsahujúce mennú skupinu zloženú z troch substantív stojacich bezprostredne za sebou, pričom frázy sú ohraničené slovesami.

3. meet

Podmienka meet zobrazuje výrazy v určitej vzdialenosti od seba.

(meet [tag=“S.*“] [tag=“VL.*“] -3 3): Zobrazí substantívum, ktoré je obklopené slovesami v minulom čase v rozsahu pozícií -3 až 3.

4. union

Podmienka union predstavuje funkciu ALEBO pri vyhľadávaní kolokácií.

(union (meet [lemma=“hovoriť“] [lemma=“pravda“] -4 4) (meet [lemma=“vysloviť“] [lemma=“lož“] -4 4)): Zobrazí lemu hovoriť alebo vysloviť v spojení s pravdou, resp. lemu vysloviť v spojení s ložou.

Všeobecné podmienky používané v SketchEngine

SketchEngine ponúka ďalšie možnosti pre prácu s korpusom, vrátane pokročilých podmienok vyhľadávania.

1:[] 2:[] & 1.tag = 2.tag: Vyhľadá všetky slová stojace vedľa seba, ktorých morfologické kategórie sú totožné.
1:[] 2:[] & 1.tag = 2.tag & f(1.tag) > 1000: Vyhľadá všetky slová stojace bezprostredne vedľa seba, ktoré majú rovnakú morfologickú značku, ale frekvencia prvej morfologickej značky musí byť viac ako 1000 v danom korpuse.

Historický korpus (HKS)

HKS obsahuje transliterované texty (jednej graféme v pôvodnom texte zodpovedá jedna graféma v počítačovom spracovaní). Toto pravidlo obsahuje niekoľko výnimiek pri grafémach, ktoré sa i napriek tvarovej variantnosti vo funkcii nelíšia:

Prečítajte si tiež: Fakty o Svatošovi v slovenskom národnom tíme

varianty grafémy s (s, ʃ) v pôvodnom rukopise nahradzujeme jednotne ako s
varianty diakritiky - napr. š aj s̈ sú jednotne nahradzované ako š
ǔ používané (napr. v kurente) na zápis u prepisujeme ako obyčajné u
ẏ (najmä v diele Valaská Škola) je nahradené obyčajným y.

Špecifické znaky v HKS

V korpuse sú zachované špecifické znaky, ktoré sa v súčasnej slovenčine nenachádzajú. Ide predovšetkým o znaky, kde nebolo isté, nakoľko v texte môžu alebo nemôžu mať ďalšiu funkciu.

Konsonanty:

ß v pozícii s (nielen v nemeckých, ale i slovenských výrazoch)
konsonanty s dĺžňom, napr.: ć, ń, ś, ź
gravis: ǹ
bodka: ż
mäkčeň (resp. háčik): ǧ s výslovnosťou [g], ř

Vokály:

æ v latinských výrazoch
nosovky ǫ, ą, ę
prehlásky, napr. ä, ë, ö, ü, ÿ; dlhé prehlásky, napr. ő, ű
vodorovná čiara nad vokálom, napr. ā, ē, ō
cirkumflex, napr. â
gravis, napr.: à
mäkčeň (resp. háčik), napr. ě, ŏ
ů

Pri väčšine týchto znakov je potrebné zadať pri vyhľadávaní správny znak. Všetky slová s daným znakom je možné vyhľadať pomocou jednoduchého hľadania v tvare *znak*, teda všetky slová s ÿ nájdeme pomocou *ÿ*.

Vyhľadávanie grafémy ÿ v hist-6.0

Výnimočné postavenie má vzhľadom na svoje použitie graféma ÿ (vyskytuje sa často v pozícii, kde by sa mohol v súčasnosti vyskytovať ypsilon; v historických textoch v tejto pozícii často nachádzame varianty y, ij, ii. Preto bolo pri tejto graféme pri tvorbe verzie hist-6.0 zjednodušené vyhľadávanie takto:

Tvary s y aj ÿ: ak zadáme do jednoduchého vyhľadávania y (resp. nejaké slovo s y), tak korpus zobrazí príslušné tvary tak s y ako aj s ÿ.
- napr.: pri vyhľadaní výrazu stary sa nám zobrazia tvary stary aj starÿ.
Tvary len s y (bez ÿ): ak chceme vyhľadať len tvary bez ÿ, nestačí jednoduché vyhľadávanie, je potrebné použiť typ hľadania -> slovný tvar.
- napr.: pri vyhľadaní výrazu stary sa nám zobrazia len tvary stary.
Tvary len s ÿ (bez y): ak chceme vyhľadať len tvary bez y, stačí ak v jednoduchom hľadaní (ale aj v type hľadania - slovný tvar) zadáme výraz aj s grafémou ÿ.
- napr.: pri vyhľadaní výrazu starÿ sa nám zobrazia len tvary starÿ

V hist-7.0 bolo takto zjednodušené vyhľadávanie pri všetkých znakoch s diakritikou. Slovo obsahujúce znak s ľubovoľným diakritickým znamienkom je možné vyhľadať cez jednoduché vyhľadávanie aj bez použitia diakritiky. Ak chceme vyhľadať špecifickú grafému, je potrebné použiť typ hľadania -> slovný tvar.

Zoznam znakov (rovnako platí aj pre kapitálky):

a: a, á, ä, à, â, ã, å, ā, ą\c: c, č, ç, ć\d: d, ď\e: e, ě, è, ê, ë, ę, ė, ē, ё\i: i, í, î, ï, ì, į, ī\l: l, ľ, ĺ, ł\n: n, ň, ñ, ń, ǹ\o: o, ô, ó, ö, ò, õ, ø, ō, ő, ǫ, ӧ\r: r, ŕ, ř\s: s, š, ś, ß\t: t, ť\u: u, ú, ů, û, ü, ù, ū\v: v, w\y: y, ý, ÿ, ỳ\z: z, ž, ź, ż

Rozkolísanosť ortografie a zložky

Pre predspisovný jazyk je charakteristická rozkolísaná ortografia, ktorá umožňuje zapísať rovnaké slovo (aj v rámci jedného dokumentu) viacerými spôsobmi. Navyše sa stretávame s miešaním diakritického a zložkového pravopisu. To značí, že jedna fonéma môže byť zapísaná viacerými grafémami (resp. multigrafémami), ale zároveň jedna zložka môže mať viac významov.

Príklady významov zložky sz v Osturnianskom receptári:

Fonetická hodnota (význam)	Pôvodný zápis	Fonetický prepis [1]
[š]	Szaffranu	[šafránu]
[ž]	Musze	[múže]
[z/s] + [š]	Szmiszay	[zmíšaj/smíšaj]

[1] Kvantita nie je rekonštruovaná, ale doplnená z dôvodu, aby nedošlo k zamieňaniu významu (najmä pri druhom slove).

Príklady variantov grafémy: v prvých dvoch riadkoch ide o výskyt jednej grafémy s viacerými variantmi (vrátane zložiek), v poslednom riadku nachádzame kombináciu dvoch takýchto grafém v rámci jedného slova.

Varianty grafém	„Alolexie“ - varianty lexém
«č»	= clowek, člowek, czlowek, …
«š»	= lepšj, lepssj, lepsj, …
«š»; «i»	= lepssi, lepssy, lepssj, …; lepši, lepšy, lepšj, …; lepsi, lepsy, …

Pomôckou pri jednoduchom vyhľadávaní môže byť použitie * ako zástupného znaku (resp. i znakov). Napr. ak by sme chceli nájsť varianty grafémy «š» = v slove «š»affran, tak možnosti s môžeme zachytiť prostredníctvom reťazca s*affranu v jednoduchom vyhľadávaní. Výsledky vyhľadávania budú obsahovať v tomto prípade 3 druhy zápisu: saffranu, ssaffranu, szaffranu.

Príklady využitia SNK

SNK je neoceniteľným zdrojom pre rôzne typy výskumu:

Jazykovedný výskum: Analýza frekvencie slov, slovných spojení, gramatických konštrukcií a ich vývoja v čase.
Lexikografia: Tvorba slovníkov a terminologických databáz s reálnymi príkladmi použitia slov.
Štúdium štýlu a žánrov: Analýza jazykových charakteristík rôznych typov textov (napr. publicistických, umeleckých, odborných).
Výučba slovenského jazyka: Poskytovanie autentických jazykových dát pre študentov a učiteľov.
Automatické spracovanie jazyka: Trénovanie algoritmov pre automatickú analýzu textu, strojový preklad a iné aplikácie.