Úvod
Slovenský národný korpus (SNK) predstavuje rozsiahlu elektronickú databázu textov v slovenskom jazyku, ktorá slúži ako neoceniteľný nástroj pre jazykovedcov, prekladateľov, redaktorov, učiteľov, študentov a všetkých používateľov slovenského jazyka. Jeho systematické budovanie a spracúvanie umožňuje komplexný pohľad na slovenský jazyk a jeho fungovanie v rôznych kontextoch.
Čo je Slovenský národný korpus?
Slovenský národný korpus je špecifický súbor jazykových dát, ktorý sa buduje v elektronickej podobe. Jeho základ tvoria texty rôznych štýlov a žánrov, ku ktorým sa pridávajú lingvistické informácie na úrovni slova (textovej jednotky), vety aj celého textu. Ide o vedecko-výskumný projekt budovania elektronického korpusu textov. Využívajú sa všetky podmienky na počítačové spracovanie slovenčiny ako prirodzeného jazyka.
História a vývoj SNK
V roku 2001 Ministerstvo kultúry SR v spolupráci s Ministerstvom školstva a Slovenskou akadémiou vied pripravilo návrh projektu vybudovania SNK a projektu elektronizácie jazykovedného výskumu v rokoch 2002 - 2006, ktorý schválila vláda SR uznesením č. 137 z 13. februára 2002. Na základe tohto projektu sa v Jazykovednom ústave Ľudovíta Štúra SAV 22. novembra 2002 otvorilo pracovisko Slovenského národného korpusu s cieľom vybudovať do roku 2006 korpus s kapacitou 200 miliónov tokenov - základných textových jednotiek používaných v korpusoch (napr. slov).
Slovenský národný korpus má 20 rokov. V Jazykovednom ústave Ľ. Štúra Slovenskej akadémie vied, kde sa SNK začal v r. 2002 budovať s podporou Ministerstva kultúry SR a Ministerstva školstva, vedy, výskumu a športu SR, sa tak systematicky a komplexne spracúva slovenský jazyk a realizuje sa elektronizácia jazykovedného výskumu na Slovensku.
Projekt budovania SNK prebieha v niekoľkých fázach:
Prečítajte si tiež: Ako citovať SNK
- Prvá fáza: Zameranie na písané texty súčasného slovenského jazyka (1955 - 2005).
- Druhá a tretia fáza: Rozšírenie o texty z ďalších období (spred roka 1955 až do začiatkov spisovného obdobia a do predspisovného obdobia, ako aj po roku 2005) a sfér používania slovenského jazyka (hovorená slovenčina, podľa možností výberovo aj dialekty).
- Štvrtá fáza: Vydanie kolokačných a frekvenčných slovníkov, dobudovanie špecializovaných korpusov, napríklad korpusu nárečí, historického korpusu slovenčiny či sprístupňovanie nových verzií vybraných korpusov.
- Piata fáza (2022 - 2026): Rozširovanie a skvalitňovanie zdrojov Slovenského národného korpusu prostredníctvom prípravy a sprístupnenia nových verzií korpusov, a to predovšetkým novej verzie hlavného korpusu písaných textov, korpusu pomenovaných entít, webového korpusu, vybraných paralelných korpusov či akvizičného korpusu.
Len za minulý rok preskenovali 35 000 strán textu. Majú aj taký typ historického korpusu, ktorý zahŕňa obdobie po kodifikácii spisovnej slovenčiny až po rok 1955, keď sa začal tvoriť hlavný korpus.
Obsah a štruktúra SNK
Hlavný korpus písaných textov Slovenského národného korpusu, jeho aktuálna verzia prim-8.0, bola sprístupnená 31. januára 2018 v rozsahu takmer 1,5 miliardy tokenov.
SNK obsahuje rôzne typy korpusov, napríklad:
- Hlavný korpus písaných textov
- Korpus hovorenej slovenčiny
- Historický korpus
- Paralelné korpusy (s inými jazykmi)
- Korpus nárečí
- Webový korpus
- Korpus pomenovaných entít
- Akvizičný korpus
Funkcie a využitie SNK
Výkonné vyhľadávacie nástroje umožňujú vyhľadávanie a triedenie skúmaných jazykových prostriedkov a informácií. Lingvisti na základe autentického jazykového materiálu opisujú významy a funkcie slov i ďalších jazykových javov, ich štatistiky, spájateľnosti a pod.
SNK slúži na:
Prečítajte si tiež: Slovenský národný korpus: Ako na to
- Jazykovedný výskum: Analýza jazykových javov, zisťovanie frekvencie slov a slovných spojení, skúmanie gramatických štruktúr a štylistických vlastností textov.
- Lexikografiu: Tvorba slovníkov a encyklopédií, overovanie významov slov a ich použitia v praxi.
- Prekladateľstvo: Hľadanie ekvivalentov pre slová a frázy v iných jazykoch, overovanie správnosti prekladov. Paralelný korpus je najviac využívaný prekladateľmi, spisovateľmi a publicistami, ale tiež pedagógmi a študentmi.
- Redakčnú prácu: Overovanie správnosti jazyka, hľadanie vhodných výrazov a formulácií.
- Výučbu slovenského jazyka: Ukazovanie reálneho používania jazyka, demonštrácia gramatických pravidiel a štylistických postupov. Bežným používateľom jazyka môže korpus poslúžiť ako zdroj praktického poznania systému jazyka a overenia či doplnenia jednotlivých poznatkov o reálnom fungovaní jazykových prostriedkov v praxi.
- Zodpovedanie otázok o slovenskom jazyku: Ktoré slovo v slovenčine je najdlhšie? Ktoré slovo začína na hlásku é? Ako prenikajú anglické slová do slovenčiny? Aké zmeny v slovnej zásobe nastali v posledných desaťročiach? Je slovenčina mäkká a ľubozvučná? Nezrušíme konečne ypsilon?
Prístup k SNK
Jednoduché vyhľadávanie je možné aj bez registrácie prostredníctvom webového rozhrania, ale s veľmi obmedzeným prístupom ku korpusom (prim-6.0-public-all, r-mak-3.0 a iné), bez možnosti vytvárania podkorpusov.
Pred začatím používania webového rozhrania si treba prečítať a odsúhlasiť nasledujúce podmienky:
- Texty sa do Slovenského národného korpusu (SNK) získavajú priamo od autorov alebo vlastníkov autorských či distribučných práv na základe zmluvy o inom, t. j. nekomerčnom použití v súlade so zákonom o autorských právach.
- Ako používateľ sa zaväzujete, že texty budete používať len na vedecké, výskumné, učebné alebo iné nekomerčné ciele.
- Budete citovať všetky údaje získané zo Slovenského národného korpusu (kontexty, frekvencie a iné údaje zo všetkých alebo z vybraných textov) podľa príslušnej verzie a časti SNK. Pri citovaní konkrétneho diela (novín, časopisu, knihy, článku atď.) uvediete SNK ako hlavný zdroj, takisto uvediete citáciu daného textu podľa bibliografickej normy.
Čo SNK nie je
Korpus nie je elektronickou knižnicou (texty v ňom sa nedajú čítať ako jeden celok), ani nenahrádza kodifikačné či gramatické príručky.
Osobnosti spojené s SNK
RNDr. Radovan Garabík pracuje v Slovenskom národnom korpuse na oddelení Jazykovedného ústavu Ľudovíta Štúra SAV. Zaoberá sa všetkými aspektmi počítačového spracovania slovenčiny, paralelnými inojazyčnými korpusmi, lexikografiou, vyučovaním, históriou a vývojom slovenského jazyka.
Jana Levická dodáva, že len za minulý rok preskenovali 35 000 strán textu.
Prečítajte si tiež: Prístup k rozsiahlej databáze textov
