Slovenský národný korpus (SNK) je rozsiahly vedecko-výskumný projekt, ktorý systematicky spracúva slovenský jazyk a realizuje elektronizáciu jazykovedného výskumu na Slovensku. Tento článok poskytuje návod na vyhľadávanie v písaných korpusoch SNK.
Čo je Slovenský národný korpus?
Slovenský národný korpus je elektronický korpus textov, ktorý obsahuje texty rôznych štýlov a žánrov. Ku každému textu sú pridané lingvistické informácie na úrovni slova, vety a celého textu. SNK nie je elektronická knižnica a texty v ňom sa nedajú čítať ako jeden celok. Taktiež nenahrádza kodifikačné či gramatické príručky. Jeho cieľom je poskytnúť rozsiahly a štruktúrovaný súbor jazykových dát pre lingvistický výskum a praktické poznávanie slovenského jazyka.
SNK sa začal budovať v roku 2002 v Jazykovednom ústave Ľ. Štúra Slovenskej akadémie vied (SAV) s podporou Ministerstva kultúry SR a Ministerstva školstva, vedy, výskumu a športu SR.
Fázy budovania Slovenského národného korpusu
Vývoj SNK prebieha v niekoľkých fázach:
- Prvá fáza: Zameranie na písané texty súčasného slovenského jazyka z obdobia 1955 - 2005.
- Druhá a tretia fáza: Rozšírenie o texty z ďalších období (spred roka 1955 až do začiatkov spisovného obdobia a do predspisovného obdobia, ako aj po roku 2005) a sfér používania slovenského jazyka (hovorená slovenčina, dialekty).
- Štvrtá fáza: Vydanie kolokačných a frekvenčných slovníkov, dobudovanie špecializovaných korpusov (korpus nárečí, historický korpus slovenčiny) a sprístupňovanie nových verzií vybraných korpusov.
- Piata fáza (súčasná): Rozširovanie a skvalitňovanie zdrojov SNK prostredníctvom prípravy a sprístupnenia nových verzií korpusov (nová verzia hlavného korpusu písaných textov, korpus pomenovaných entít, webový korpus, vybrané paralelné korpusy, akvizičný korpus).
Štruktúra textov v korpuse
Korpusový materiál sa získava najčastejšie v elektronickej podobe, menej často technickým spracovaním tlačeného diela. Nasledujú technické úpravy:
Prečítajte si tiež: Recepty pre zemiakový šalát
- Odstraňovanie znakov a symbolov editačných softvérov alebo grafických súčastí textu.
- Konverzia do jednotného formátu.
- Segmentácia textu na najmenšie jednotky.
- Značkovanie textu (pridávanie dodatočných informácií):
- bibliografické údaje
- informácie o štruktúre textu
- jazykové informácie na úrovni slov (slovný druh, lema)
- jazykové informácie na úrovni viet (funkcia vo vete, sémantika)
Typy korpusov v SNK
SNK ponúka rôzne typy korpusov, ktoré sú zamerané na rôzne aspekty slovenského jazyka:
Písané korpusy
Do korpusov písaných textov sa zaraďujú elektronicky spracované texty podľa typu zamerania korpusu. Medzi písané korpusy patria:
- Hlavný korpus (prim): Obsahuje písané texty súčasného slovenského jazyka z rôznych štýlov, žánrov, vecných oblastí a regiónov, ktoré vznikli po roku 1955. Podmienkou zaradenia textu do korpusu je získanie súhlasu autora alebo držiteľa autorských práv.
- Špecializované korpusy: Zamerané na konkrétne oblasti, napr. korpus ekonomických textov. Aj tu platí podmienka získania súhlasu autora s výnimkou textov právnych predpisov, úradných či súdnych rozhodnutí.
- Nárečový korpus: Obsahuje existujúce textové prepisy nárečových zvukových alebo transkribovaných záznamov v elektronickom formáte. Tieto texty sú obohatené o sociolingvistické údaje o informátoroch a explorátoroch, ako aj informácie o pôvode a obsahu nahrávky.
- Historické korpusy: Obsahujú texty v slovenskom jazyku, ktoré vznikli pred rokom 1955.
- r864az1843-1.0 a r1843az1954-1.0: Texty z publikácií dostupných v Zlatom fonde SME v prepise podľa gramatických zásad spisovnej slovenčiny v čase vydania.
- Historický korpus slovenčiny: Pramenné materiály v pôvodnom pravopise, vydané predovšetkým v publikáciách Pramene k dejinám slovenčiny, prípadne dosiaľ nepublikované historické texty.
- Webový korpus: Obsahuje slovenské texty dostupné na internete, ktoré boli automaticky stiahnuté a spracované.
- Paralelné korpusy: Obsahujú identické texty v dvoch rôznych jazykoch (vzájomné preklady alebo preklady z tretieho jazyka). Medzi paralelné korpusy patria anglicko-slovenský, bulharsko-slovenský, česko-slovenský, francúzsko-slovenský, maďarsko-slovenský a nemecko-slovenský. Texty sú spárované na úrovni viet.
Hovorené korpusy
Hovorený korpus pozostáva zo zvukových nahrávok prepojených s príslušným prepisom zaznamenaných prehovorov. Pri prepisoch je vždy uvedená sociolingvistická informácia o respondentoch a základné informácie o pôvode a obsahu nahrávky.
Prepis výpovedí sa realizuje v dvoch rovinách:
- Základný prepis: Zapisuje sa v súlade s pravidlami spisovnej slovenčiny.
- Výslovnostná rovina: Zachytávajú sa sprievodné, neverbálne javy, prekrývajúce sa, nedokončené či opakujúce sa výpovede alebo ich časti, lapsusy a pod. Zaznamenávajú sa aj výrazné odchýlky hovoriacich od bežného štandardu.
Ako vyhľadávať v SNK
Pre aktívne pracovanie s korpusmi SNK je potrebné mať vlastné prihlasovacie meno a heslo. Bezplatná registrácia je možná na webovej stránke SNK.
Prečítajte si tiež: Skopové mäso v slovenskej kuchyni
Slovenský národný korpus ponúka výkonné vyhľadávacie nástroje, ktoré umožňujú vyhľadávanie a triedenie skúmaných jazykových prostriedkov a informácií. Používatelia si môžu vybrať konkrétny korpus alebo kombináciu korpusov, ktoré chcú prehľadávať. Vyhľadávanie je možné realizovať na základe rôznych kritérií, ako sú:
- Slovo alebo slovné spojenie: Vyhľadávanie konkrétnych výrazov v texte.
- Lemma: Vyhľadávanie základného tvaru slova.
- Slovný druh: Vyhľadávanie slov podľa ich gramatickej kategórie (napr. podstatné meno, sloveso, prídavné meno).
- Iné lingvistické atribúty: Vyhľadávanie na základe ďalších jazykových informácií, ako sú pád, číslo, rod, čas, spôsob.
- Bibliografické údaje: Vyhľadávanie textov podľa autora, roku vydania, zdroja a pod.
Využitie Slovenského národného korpusu
Slovenský národný korpus má široké využitie v rôznych oblastiach:
- Lingvistický výskum: Opis významov a funkcií slov a ďalších jazykových javov, ich štatistiky, spájateľnosti a pod.
- Jazyková prax: Zdroj praktického poznania systému jazyka a overenia či doplnenia jednotlivých poznatkov o reálnom fungovaní jazykových prostriedkov v praxi.
- Výučba slovenského jazyka: Nástroj na ilustráciu a precvičovanie gramatických a lexikálnych javov.
- Lexikografia: Zdroj autentických príkladov použitia slov pre tvorbu slovníkov.
- Prekladateľstvo: Nástroj na overovanie správnosti prekladov a hľadanie vhodných ekvivalentov.
- Štúdium nárečí: Komplexný nárečový výskum vďaka jednotnému spracovaniu a obohateniu textov o sociolingvistické údaje.
- Analýza textov: Identifikácia špecifických jazykových čŕt rôznych textových typov a žánrov.
Prednášky a workshopy SNK
Oddelenie Slovenského národného korpusu Jazykovedného ústavu Ľ. Štúra SAV v Bratislave ponúka záujemcom prednášky a praktické workshopy zamerané na používanie databáz SNK. Prednášky a workshopy sú prispôsobené jednotlivým skupinám používateľov a realizujú sa po dohode v oddelení SNK alebo v prostredí záujemcov (školy, akademické pracoviská, vydavateľstvá).
Workshopy sa konajú nepravidelne po dohode s konkrétnymi záujemcami v SNK. Účastníci workshopu budú aktívne pracovať s vybranými korpusmi, preto je potrebné, aby mali vlastné prihlasovacie meno a heslo. V prípade väčšej skupiny záujemcov z jednej inštitúcie je možné po dohode usporiadať workshop priamo v konkrétnej inštitúcii.
Prečítajte si tiež: Cestoviny pre každého
