Slovenský národný korpus: Brána do sveta slovenského jazyka

Rate this post

Slovenský národný korpus (SNK) je rozsiahla databáza textov v slovenskom jazyku, ktorá slúži ako cenný nástroj pre lingvistický výskum, vzdelávanie a prax. Od svojho vzniku v roku 2002 sa stal nepostrádateľným zdrojom pre všetkých, ktorí sa zaoberajú slovenským jazykom - od vedcov a učiteľov až po prekladateľov a redaktorov.

Čo je Slovenský národný korpus?

SNK je rozsiahla databáza publikovaných textov v slovenskom jazyku. Tieto texty pochádzajú z rôznych zdrojov, vrátane odborných publikácií, publicistických článkov a beletristických diel. Sú spracované jednotným spôsobom a obohatené o jazykové informácie, tzv. anotácie. To umožňuje používateľom vyhľadávať a analyzovať jazykové javy v rozsiahlych textových dátach. Dá sa v nej vyhľadávať a používať rôzne nástroje na prácu s vyhľadaným materiálom.

História a vývoj SNK

Oddelenie Slovenského národného korpusu vzniklo v roku 2002, čím sa Slovensko zaradilo medzi posledné slovanské krajiny, ktoré takýto korpus nemali. Vznik SNK bol iniciovaný a podporený Ministerstvom školstva, Ministerstvom kultúry a Slovenskou akadémiou vied. Ide o národný projekt, ktorý sa zameriava na budovanie korpusu národného jazyka.

Účel a využitie SNK

Slovenský národný korpus má široké spektrum využitia. Slúži ako primárny zdroj materiálu pre lingvistický výskum. Využívajú ho však aj korektori, redaktori, editori, prekladatelia, všetci tí, ktorí pracujú s jazykom. Učitelia si z korpusových dát pripravujú cvičenia pre svojich študentov, ale máme aj používateľov z iných oblastí, napríklad neurológie.

Jedným z praktických výstupov korpusu je frekvenčný slovník. Je cenným zdrojom informácií napríklad pre tých, ktorí pracujú s pacientmi po mozgových príhodách, keď stratili schopnosť reči a učia sa nanovo hovoriť. Pacientov nebudú učiť napríklad slovo krokodíl, ktoré nepatrí k vysoko frekventovaným, ale budú ich učiť také slová, ktoré sú častejšie a možno s nimi veľmi ľahko tvoriť základné vetné konštrukcie, napríklad byť, mať, a, sa.

Prečítajte si tiež: Recepty pre zemiakový šalát

Je užitočný aj pre tých, ktorí vyvíjajú aplikácie pracujúce s textom, napríklad na kontrolu gramatiky v textových editoroch. Pre nich slúži korpus ako testovací a trénovací materiál.

Štruktúra a obsah SNK

Súčasná desiata verzia písaného korpusu obsahuje viac ako 1,6 miliardy textových jednotiek. V najbližších dňoch zverejnia jedenástu verziu, v nej ich bude viac ako 1,8 miliardy. Primárny korpus, ktorý zahŕňa súčasný slovenský jazyk, sa buduje z textov od roku 1955. V päťdesiatom treťom roku bola posledná jazyková reforma, a kým sa začala reálne uplatňovať, mohli uplynúť aj dva roky.

Okrem neho máme rôzne iné typy korpusov. Napríklad časovo vymedzené - historický korpus, kde sa nachádzajú texty predspisovného obdobia. Takisto u nás nájdete webový korpus, ktorý obsahuje texty zo slovenskej internetovej domény. Toto všetko sú samostatné korpusy v rámci celku Slovenského národného korpusu. V ponuke používateľ nájde viac ako sto korpusov.

Prístup a registrácia do SNK

Slovenský národný korpus je dostupný bezplatne po registrácii. Do základného rozhrania Slovenského národného korpusu sa dostanete priamo cez hlavnú stránku (vyhľadávacie okno sa nachádza hore mierne vpravo). Do pokročilejšieho rozhrania, kde budete mať prístup k viacerým databázam a podkorpusom, sa dostanete až po bezplatnej registrácii.

Ako používať SNK

Na hlavnej stránke Slovenského národného korpusu používatelia nájdu informácie o korpusoch a ich štruktúre. Okrem primárneho korpusu tam nájdu informácie napríklad aj o paralelných, teda dvojjazyčných slovensko-inojazyčných korpusoch. Najväčší z nich je slovensko-anglický. Niektoré z paralelných korpusov obsahujú aj texty z Európskej únie, iné sú zložené len z beletrie. Na začiatku všetkého je teda výber korpusu, v ktorom budeme hľadať.

Prečítajte si tiež: Skopové mäso v slovenskej kuchyni

Vyhľadávanie v SNK

Vyhľadávať môžeme rôznymi spôsobmi, začiatočníkom poslúži najlepšie jednoduché hľadanie, kam možno zapísať slovo alebo slovné spojenie. Ukáže sa nám výpis vyhľadaného slova, v ktorom jeden riadok zodpovedá jednému výskytu slova v konkrétnom texte. Vidíme, že hľadané kľúčové slovo sa našlo v rôznych tvaroch. Keď nás zaujíma širší kontext okolo slova, rozšíriť ho môžeme do istého rozsahu.

Je dôležité si uvedomiť, že korpus nie je elektronická knižnica, takže my môžeme ten kontext rozširovať, ale len do rozsahu päťdesiat textových jednotiek vpravo a vľavo okolo hľadaného slova. Koncový používateľ nikdy nemá k dispozícii celý text. Každému textu je priradená vonkajšia anotácia: čo je to za text, kto je jeho autorom, aký má názov, kedy vyšiel. V prípade prekladov aj kto ho prekladal, z akého jazyka a ďalej podrobná štýlovo-žánrová notácia. Na základe parametrov o texte si používateľ vie vyfiltrovať len tie vo vybraných typoch textov.

Nástroje a funkcie SNK

SNK ponúka množstvo nástrojov a funkcií, ktoré uľahčujú prácu s jazykovými dátami. Medzi najpoužívanejšie patria:

  • Frekvencia: Umožňuje zistiť, ktorý tvar slova je najčastejší.
  • Tvary KWIC: Zobrazuje graf, ktorý odhaľuje najčastejší tvar slova.
  • Kolokácie: Ponúka kolokáty so slovom postoj na základe štatistických mier.
  • Filter: Umožňuje filtrovať výsledky vyhľadávania podľa rôznych kritérií, napríklad podľa slovného druhu.
  • Trendy: Zobrazuje výskyt slova v textoch na časovej osi.

Kolokácie v SNK

Kolokácie sú slová, ktoré sa často vyskytujú spolu v texte. Nástroj Kolokácie v SNK umožňuje identifikovať tieto slovné spojenia a zistiť, ktoré slová sa najčastejšie spájajú s hľadaným slovom. Jazyková jednotka, s ktorou sa naše kľúčové vyhľadané slovo spája v kontextoch a to spojenie nie je náhodné.

Slovníky Slovenského národného korpusu

Pri príležitosti Európskeho dňa jazykov SNK ponúka ukážku slovných spojení slov jazyk a jazykový. Slovné spojenia na plagáte pochádzajú z kolokačných slovníkov z produkcie Slovenského národného korpusu:

Prečítajte si tiež: Cestoviny pre každého

  • Slovník slovných spojení. Podstatné mená (2017)
  • Slovník kolokácií prídavných mien v slovenčine (2017)

Ak vás ale zaujíma, ako napísať jazyk v inštrumentáli plurálu - jazykmi či jazykami, dávame vám do pozornosti slovníkové dielo Skloňovanie podstatných mien v slovenčine s korpusovými príkladmi. Alebo ak dumáte nad tým, aké slovné spojenia a príklady sa viažu so slovami jazyk či jazykový aj v iných slovníkových zdrojoch, zavítajte na stránku Slovníkového portálu Jazykovedného ústavu Ľ. Štúra SAV.

Pri príležitosti mesiaca lásky SNK ponúka ukážku slovných spojení so slovom láska. Slovné spojenia na plagáte pochádzajú z kolokačného slovníka z produkcie Slovenského národného korpusu - Slovník slovných spojení. Podstatné mená z roku 2017. Ak vás ale zaujíma, ako zapisoval slovo láska Anton Bernolák, nazrite do pozoruhodného slovníkového diela Slowár Slowenskí Češko-Laťinsko-Ňemecko-Uherskí z roku 1825. Alebo ak dumáte nad tým, aké príklady sú použité vo výklade slova láska v Historickom slovníku slovenského jazyka z roku 1992, zavítajte na stránku Slovníkového portálu Jazykovedného ústavu Ľ. Štúra SAV. A vedeli ste, že priezvisko Láska sa v roku 1995 nachádzalo na Slovensku až 159-krát? Bližšie informácie nájdete v Databáze priezvisk na Slovensku, ktorá je súčasťou Slovníkového portálu Jazykovedného ústavu Ľ.

Projekt VEGA: Slovník príslovkových kolokácií

V súčasnosti prebieha projekt VEGA s názvom "Slovník príslovkových kolokácií v slovenčine", ktorý sa zameriava na hĺbkovú korpusovo-lingvistickú analýzu prísloviek a vytvorenie kolokačného slovníka prísloviek na báze dát Slovenského národného korpusu.

Ciele projektu

Podstatou projektu je prispieť k rozšíreniu poznatkov o spájateľnosti prísloviek v slovenskom jazyku jednak hĺbkovou korpusovo-lingvistickou analýzou týchto jazykových jednotiek a jednak vytvorením kolokačného slovníka prísloviek na báze dát Slovenského národného korpusu. V prvej fáze projektu bude vytvorený špecializovaný korpus, ktorý sa použije na tvorbu štatistických zoznamov, základného heslára, ako aj na extrakciu kolokácií vybraných prísloviek. Slovník bude obsahovať viac ako 700 kolokačných profilov najfrekventovanejších prísloviek v slovenskom jazyku a štatistickú časť, ktorá bude pozostávať z frekvenčných zoznamov týkajúcich sa spájateľnosti vybraných prísloviek. V záverečnej fáze projektu bude slovník odovzdaný do tlače.

Výstupy projektu

  • PIATKOVÁ, Kristína - STANKOVÁ, Mária: Adverbs and Particles: Part-of-speech Homonymy in Corpus Data and Media Discourse. In: Jazykovedný časopis, 2025, roč. 76, č. 1, s. 63 - 74. ISSN 0021-5597. PDF
  • Majchráková Daniela: Compiling the Slovak Dictionary of Adverbial Collocations. In: 1st International Conference on Lexicology and Lexicography. Book of abstracts (Budapešť, 29. 9 - 1. 10. 2025). Ed. Júlia Ballagó - Veronika Lipp. Budapest: ELTE Research Centre for Linguistics 2025, s. 39.

KOLOKAT: Vizualizácia kolokácií

KOLOKAT je nástroj na vizualizáciu kolokácií. Slúži na vizualizáciu vzdialenosti komponentov v (dvoj)slovných spojeniach v textových korpusoch. Keďže niektoré slovné spojenia sú ustálené viac, iné menej, prostredníctvom grafického zobrazenia kolokácií sa dá vidieť, či je slovné spojenie „tesné“ alebo „voľné“, koľko slov sa medzi jednotlivými komponentmi nachádza a s akou početnosťou. Niektoré spojenia sú fixné (cica mica), pri iných môže byť druhé slovo rozvíjané inými atribútmi (dať pozor, ale aj dať veľký pozor, dať dobrý pozor, dať veľmi dobrý pozor), niekedy druhý člen „musí“ byť rozvinutý («veľvyslanec kráľovstva» sa prakticky nevyskytuje, vždy je to veľvyslanec Spojeného kráľovstva, veľvyslanec Španielskeho kráľovstva, veľvyslanec Belgického kráľovstva…) a pod.

Semináre a vzdelávanie

SNK organizuje semináre pre používateľov korpusu. Tie sú buď adresné, teda pozývajú nás inštitúcie, aby sme naučili ich zamestnancov pracovať s korpusom. Ide zväčša o homogénne skupiny - vysoké, stredné či základné školy. V každom roku máme sériu takýchto seminárov, záleží nám, aby študenti končiaci slovakistiku odchádzali do praxe s praktickou zručnosťou práce s korpusom. Máme tiež otvorené semináre väčšinou raz do roka, kam sa môže prihlásiť ktokoľvek. Stačí len sledovať stránku Slovenského národného korpusu, kde zverejňujeme pozvánky na semináre.

Mapka: Nárečová aplikácia

SNK nedávno predstavil novinku - aplikáciu Mapka, ktorá zobrazuje nárečové ukážky na mape. Používateľ má k dispozícii názov obce, ukážku a nárečovú charakteristiku. Každý záznam na mape obsahuje zvukovú stopu, nárečový prepis, slovníček pri tých slovách, ktoré môžu byť pre čitateľa problematické. Okrem toho je tu odborná charakteristika nárečia z príslušnej publikácie. Mapa je interaktívna, mení sa podľa voľby používateľa a možno v nej vyhľadať aj lokality, z ktorých aktuálne nemáme zdroje. Radi by sme Mapku obohatili tak, aby bolo Slovensko pokryté rovnomerne.