Slovenský národný korpus (SNK) je rozsiahla elektronická databáza textov v slovenskom jazyku, ktorá slúži ako cenný nástroj pre výskum jazyka, jeho vývoja a používania v rôznych kontextoch. Obsahuje texty od roku 1955 z rôznych štýlov, žánrov, vecných oblastí a regiónov. Tento článok poskytuje komplexný pohľad na SNK, jeho definíciu, štruktúru, možnosti vyhľadávania a praktické príklady jeho využitia.
Čo je Slovenský národný korpus?
Slovenský národný korpus je rozsiahly vedecko-výskumný projekt zameraný na tvorbu komplexu slovenských elektronických jazykových zdrojov. Ide o elektronickú databázu, ktorá primárne obsahuje slovenské texty, a to od roku 1955. Tieto texty pochádzajú z rozličných štýlov, žánrov, vecných oblastí a regiónov Slovenska. Rozsah korpusu je daný množstvom textov, ktoré poskytli autori a majitelia autorských práv na základe licenčnej zmluvy. Medzi poskytovateľmi textov nájdeme inštitúcie, organizácie, ale aj jednotlivých autorov. Korpus zahŕňa aj slovníkové databázy a paralelné korpusy.
Prístup a vyhľadávanie v SNK
Na vyhľadávanie v Slovenskom národnom korpuse sa využíva nástroj NoSketch Engine. Pôvodne sa používal korpusový manažér Manatee s klientom Bonito, vyvinutý na Fakulte informatiky Masarykovej univerzity v Brne.
Registrácia a jednoduché vyhľadávanie
Pre plnohodnotné využívanie SNK je nevyhnutná registrácia. Tá umožňuje prístup k rozsiahlejším možnostiam a funkciám. Jednoduché vyhľadávanie je však možné aj bez registrácie prostredníctvom webového rozhrania. Tento spôsob má obmedzený prístup ku korpusom (prim-6.0-public-all, r-mak-3.0 a iné) a neumožňuje vytváranie podkorpusov. Pred použitím webového rozhrania je potrebné prečítať si a odsúhlasiť podmienky používania SNK.
Ako citovať korpus
Verzie a podkorpusy SNK, ako aj jednotlivé zdroje z nich, sa citujú podľa špecifického návodu, ktorý zabezpečuje jednotnosť a správnu identifikáciu použitých dát.
Prečítajte si tiež: Test zmrzlín
Anotácie textov v SNK
Texty v Slovenskom národnom korpuse sú anotované, čo znamená, že sú obohatené o dodatočné informácie, ktoré uľahčujú ich analýzu. Medzi základné typy anotácií patria:
- Bibliografická a štýlovo-žánrová anotácia: Poskytuje informácie o pôvode textu, jeho autorovi, žánri a štýle.
- Morfologická anotácia: Označuje slovné druhy, gramatické kategórie (pád, číslo, rod, atď.) a iné morfologické vlastnosti slov.
Pre tvorbu a rekonštrukciu morfologických značiek existujú špeciálne nástroje, ktoré zjednodušujú a automatizujú tento proces.
Metaznaky a regulárne výrazy vo vyhľadávaní
Pri vyhľadávaní v SNK sa používajú metaznaky a regulárne výrazy, ktoré umožňujú presnejšie a flexibilnejšie definovanie hľadaných výrazov. Metaznaky sa používajú pri vyhľadávaní pomocou atribútu CQL. Spôsob hľadania jedného tokenu je vždy záväzný a má tvar [atribút=“hľadaný_token“], napríklad [lemma=“hlava“].
Príklady metaznakov a ich použitie
- . (BODKA): Nahrádza jeden ľubovoľný znak. Napríklad,
dom..nájde slová akodomovalebodomec. * (HVIEZDIČKA):Určuje, že znak pred hviezdičkou sa opakuje ľubovoľný počet krát (aj nula krát). Napríklad,hm*nájdeh,hm,hmm,hmmm.+ (PLUS):Určuje, že znak pred týmto regulárnym výrazom sa opakuje raz alebo viackrát. Napríklad,hm+nájdehm,hmm,hmmm.| (ZVISLÁ ČIARA):Má funkciu operátora ALEBO. Napríklad,dom|domanájdedomalebodoma.[ ] (HRANATÉ ZÁTVORKY):Definuje množinu znakov, ktoré sa môžu vyskytovať v danom výraze na mieste zátvoriek. Napríklad,r[áa]mnájderám,ram.( ) (JEDNODUCHÉ ZÁTVORKY):Slúžia na zápis súboru požiadaviek na určitý znak vyhľadávaného výrazu pomocou regulárneho výrazu.(?i):Ignoruje rozlišovanie veľkých a malých písmen. Napríklad,(?i)domnájdeDomajdom.\ (OBRÁTENÝ ZNAK LOMENÉ):Pred znakom regulárneho výrazu znamená, že sa daný znak nebude pri vyhľadávaní chápať ako regulárny výraz, ale ako jednotka textu. Napríklad,napr\.nájdenapr.(a nie napri, napre, naprd…).? (OTÁZNIK):Predstavuje žiaden alebo jeden výskyt predchádzajúceho znaku. Napríklad,i?šlonájdeišloajšlo.^ (STRIEŠKA):Spôsobí, že znak za ňou nesmie byť v slove na danej pozícii. Napríklad,SSfs^2nesmie byť za „s“, teda sú to všetky feminína v singulári okrem genitívnych tvarov.& (AMPERSAND):Vyjadruje funkciu A SÚČASNE, ktorá umožňuje definovať viaceré hodnoty naraz. Napríklad,[tag=“SAms4″ & lemma=“.*ci“]nájde všetky substantíva (S), s adjektívnou paradigmou (A), s mužským životným rodom (m), v singulári (s) a akuzatíve (4) - ktorých lema sa končí na -ci..* (Kombinácia BODKA HVIEZDIČKA):Nahrádza ľubovoľný znak ľubovoľný početkrát. Výsledkom vyhľadávania zápisu.*istábudú slová zakončené sufixom -istá, ale aj samotné slovo istá. Napríklad,istá, sebaistá, neistá, hmlistá..+ (Kombinácia BODKA PLUS):Používa sa pri vyhľadávaní slov s určitým prefixom, sufixom, skupinou písmen a pod. Výsledok vyhľadávania zápisuza.+zobrazí všetky slová začínajúce sa písmenami za- (okrem slova za).
Podmienky používané pri vyhľadávaní v korpuse
Pri vyhľadávaní v korpuse sa používajú rôzne podmienky, ktoré upresňujú kontext a vzťahy medzi hľadanými výrazmi.
1. within
Podmienka within umožňuje vyhľadávanie v rámci určitej štruktúry alebo kontextu.
Prečítajte si tiež: Dovoz a preferencie bravčového mäsa
[tag=“S.*“]{2} within [tag=“V.*“][]*[tag=“V.*“]: Vyhľadá dve bezprostredne za sebou nasledujúce substantíva v skupine výrazov medzi dvoma slovesami.[lemma="zelený"] within <doc auth="Vincent Šikula"/>: Vyhľadá všetky lemy „zelený“ v dielach Vincenta Šikulu.[lemma=“hlava“][lemma=“deravý“] within <s/>[]*</s>: Zobrazí spojenia dvoch lem hlava a deravý v rámci vety.
2. containing
Podmienka containing zobrazuje celok (napr. vetu), ktorý obsahuje zadané výrazy.
containing [lemma=“hlava“] [lemma=“deravý“]: Zobrazí celé vety, ktoré obsahujú lemy hlava a deravý.[tag=“V.*“] []{5} [tag=“V.*“] containing [tag=“S.*“]{3}: Zobrazí celé 7-tokenové frázy obsahujúce mennú skupinu zloženú z troch substantív stojacich bezprostredne za sebou, pričom frázy sú ohraničené slovesami.
3. meet
Podmienka meet zobrazuje výrazy v určitej vzdialenosti od seba.
(meet [tag=“S.*“] [tag=“VL.*“] -3 3): Zobrazí substantívum, ktoré je obklopené slovesami v minulom čase v rozsahu pozícií -3 až 3.
4. union
Podmienka union predstavuje funkciu ALEBO pri vyhľadávaní kolokácií.
(union (meet [lemma=“hovoriť“] [lemma=“pravda“] -4 4) (meet [lemma=“vysloviť“] [lemma=“lož“] -4 4)): Zobrazí lemu hovoriť alebo vysloviť v spojení s pravdou, resp. lemu vysloviť v spojení s ložou.
Všeobecné podmienky používané v SketchEngine
SketchEngine ponúka ďalšie možnosti pre prácu s korpusom, vrátane pokročilých podmienok vyhľadávania.
1:[] 2:[] & 1.tag = 2.tag: Vyhľadá všetky slová stojace vedľa seba, ktorých morfologické kategórie sú totožné.1:[] 2:[] & 1.tag = 2.tag & f(1.tag) > 1000: Vyhľadá všetky slová stojace bezprostredne vedľa seba, ktoré majú rovnakú morfologickú značku, ale frekvencia prvej morfologickej značky musí byť viac ako 1000 v danom korpuse.
Historický korpus (HKS)
HKS obsahuje transliterované texty (jednej graféme v pôvodnom texte zodpovedá jedna graféma v počítačovom spracovaní). Toto pravidlo obsahuje niekoľko výnimiek pri grafémach, ktoré sa i napriek tvarovej variantnosti vo funkcii nelíšia:
Prečítajte si tiež: Fakty o Svatošovi v slovenskom národnom tíme
- varianty grafémy s (s, ʃ) v pôvodnom rukopise nahradzujeme jednotne ako s
- varianty diakritiky - napr. š aj s̈ sú jednotne nahradzované ako š
- ǔ používané (napr. v kurente) na zápis u prepisujeme ako obyčajné u
- ẏ (najmä v diele Valaská Škola) je nahradené obyčajným y.
Špecifické znaky v HKS
V korpuse sú zachované špecifické znaky, ktoré sa v súčasnej slovenčine nenachádzajú. Ide predovšetkým o znaky, kde nebolo isté, nakoľko v texte môžu alebo nemôžu mať ďalšiu funkciu.
Konsonanty:
- ß v pozícii s (nielen v nemeckých, ale i slovenských výrazoch)
- konsonanty s dĺžňom, napr.: ć, ń, ś, ź
- gravis: ǹ
- bodka: ż
- mäkčeň (resp. háčik): ǧ s výslovnosťou [g], ř
Vokály:
- æ v latinských výrazoch
- nosovky ǫ, ą, ę
- prehlásky, napr. ä, ë, ö, ü, ÿ; dlhé prehlásky, napr. ő, ű
- vodorovná čiara nad vokálom, napr. ā, ē, ō
- cirkumflex, napr. â
- gravis, napr.: à
- mäkčeň (resp. háčik), napr. ě, ŏ
- ů
Pri väčšine týchto znakov je potrebné zadať pri vyhľadávaní správny znak. Všetky slová s daným znakom je možné vyhľadať pomocou jednoduchého hľadania v tvare *znak*, teda všetky slová s ÿ nájdeme pomocou *ÿ*.
Vyhľadávanie grafémy ÿ v hist-6.0
Výnimočné postavenie má vzhľadom na svoje použitie graféma ÿ (vyskytuje sa často v pozícii, kde by sa mohol v súčasnosti vyskytovať ypsilon; v historických textoch v tejto pozícii často nachádzame varianty y, ij, ii. Preto bolo pri tejto graféme pri tvorbe verzie hist-6.0 zjednodušené vyhľadávanie takto:
- Tvary s y aj ÿ: ak zadáme do jednoduchého vyhľadávania y (resp. nejaké slovo s y), tak korpus zobrazí príslušné tvary tak s y ako aj s ÿ.
- napr.: pri vyhľadaní výrazu stary sa nám zobrazia tvary stary aj starÿ.
- Tvary len s y (bez ÿ): ak chceme vyhľadať len tvary bez ÿ, nestačí jednoduché vyhľadávanie, je potrebné použiť typ hľadania -> slovný tvar.
- napr.: pri vyhľadaní výrazu stary sa nám zobrazia len tvary stary.
- Tvary len s ÿ (bez y): ak chceme vyhľadať len tvary bez y, stačí ak v jednoduchom hľadaní (ale aj v type hľadania - slovný tvar) zadáme výraz aj s grafémou ÿ.
- napr.: pri vyhľadaní výrazu starÿ sa nám zobrazia len tvary starÿ
V hist-7.0 bolo takto zjednodušené vyhľadávanie pri všetkých znakoch s diakritikou. Slovo obsahujúce znak s ľubovoľným diakritickým znamienkom je možné vyhľadať cez jednoduché vyhľadávanie aj bez použitia diakritiky. Ak chceme vyhľadať špecifickú grafému, je potrebné použiť typ hľadania -> slovný tvar.
Zoznam znakov (rovnako platí aj pre kapitálky):
a: a, á, ä, à, â, ã, å, ā, ą\c: c, č, ç, ć\d: d, ď\e: e, ě, è, ê, ë, ę, ė, ē, ё\i: i, í, î, ï, ì, į, ī\l: l, ľ, ĺ, ł\n: n, ň, ñ, ń, ǹ\o: o, ô, ó, ö, ò, õ, ø, ō, ő, ǫ, ӧ\r: r, ŕ, ř\s: s, š, ś, ß\t: t, ť\u: u, ú, ů, û, ü, ù, ū\v: v, w\y: y, ý, ÿ, ỳ\z: z, ž, ź, ż
Rozkolísanosť ortografie a zložky
Pre predspisovný jazyk je charakteristická rozkolísaná ortografia, ktorá umožňuje zapísať rovnaké slovo (aj v rámci jedného dokumentu) viacerými spôsobmi. Navyše sa stretávame s miešaním diakritického a zložkového pravopisu. To značí, že jedna fonéma môže byť zapísaná viacerými grafémami (resp. multigrafémami), ale zároveň jedna zložka môže mať viac významov.
Príklady významov zložky sz v Osturnianskom receptári:
| Fonetická hodnota (význam) | Pôvodný zápis | Fonetický prepis [1] |
|---|---|---|
| [š] | Szaffranu | [šafránu] |
| [ž] | Musze | [múže] |
| [z/s] + [š] | Szmiszay | [zmíšaj/smíšaj] |
[1] Kvantita nie je rekonštruovaná, ale doplnená z dôvodu, aby nedošlo k zamieňaniu významu (najmä pri druhom slove).
Príklady variantov grafémy: v prvých dvoch riadkoch ide o výskyt jednej grafémy s viacerými variantmi (vrátane zložiek), v poslednom riadku nachádzame kombináciu dvoch takýchto grafém v rámci jedného slova.
| Varianty grafém | „Alolexie“ - varianty lexém |
|---|---|
| «č» | = |
| «š» | = |
| «š»; «i» | = lepssi, lepssy, lepssj, …; lepši, lepšy, lepšj, …; lepsi, lepsy, … |
Pomôckou pri jednoduchom vyhľadávaní môže byť použitie * ako zástupného znaku (resp. i znakov). Napr. ak by sme chceli nájsť varianty grafémy «š» = v slove «š»affran, tak možnosti s môžeme zachytiť prostredníctvom reťazca s*affranu v jednoduchom vyhľadávaní. Výsledky vyhľadávania budú obsahovať v tomto prípade 3 druhy zápisu: saffranu, ssaffranu, szaffranu.
Príklady využitia SNK
SNK je neoceniteľným zdrojom pre rôzne typy výskumu:
- Jazykovedný výskum: Analýza frekvencie slov, slovných spojení, gramatických konštrukcií a ich vývoja v čase.
- Lexikografia: Tvorba slovníkov a terminologických databáz s reálnymi príkladmi použitia slov.
- Štúdium štýlu a žánrov: Analýza jazykových charakteristík rôznych typov textov (napr. publicistických, umeleckých, odborných).
- Výučba slovenského jazyka: Poskytovanie autentických jazykových dát pre študentov a učiteľov.
- Automatické spracovanie jazyka: Trénovanie algoritmov pre automatickú analýzu textu, strojový preklad a iné aplikácie.
