Slovenský národný korpus (SNK) je rozsiahla a systematicky budovaná databáza textov v slovenskom jazyku, ktorá predstavuje neoceniteľný zdroj pre jazykovedný výskum, didaktiku a rôzne aplikácie v oblasti spracovania prirodzeného jazyka. Jeho cieľom je zachytiť a sprístupniť čo najširšie spektrum jazykových prejavov v súčasnej i historickej slovenčine.
História a vývoj SNK
Myšlienka vytvorenia SNK sa začala formovať na prelome tisícročí. V roku 2001 Ministerstvo kultúry SR v spolupráci s Ministerstvom školstva SR a Slovenskou akadémiou vied (SAV) pripravilo návrh projektu vybudovania SNK a projektu elektronizácie jazykovedného výskumu v rokoch 2002 - 2006. Tento návrh bol schválený vládou SR uznesením č. 137 z 13. februára 2002. Na základe tohto projektu bolo 22. novembra 2002 v Jazykovednom ústave Ľudovíta Štúra SAV (JÚĽŠ SAV) otvorené pracovisko Slovenského národného korpusu s cieľom vybudovať do roku 2006 korpus s kapacitou 200 miliónov tokenov. Tokeny sú základné textové jednotky používané v korpusoch, napríklad slová.
V súčasnosti sa realizuje už 5. etapa tohto projektu (2022 - 2026). Tvorbou, skvalitňovaním, spravovaním a sprístupňovaním zdrojov SNK je poverený kolektív Slovenského národného korpusu Jazykovedného ústavu Ľ. Štúra SAV aktuálne na základe Zmluvy o združení prostriedkov na tvorbu a rozvoj Slovenského národného korpusu (č. 0323/2017) uzavretej medzi Ministerstvom školstva, vedy, výskumu a športu SR, Ministerstvom kultúry SR, SAV, JÚĽŠ SAV.
Štruktúra a obsah SNK
Slovenský národný korpus je komplexný systém, ktorý zahŕňa rôzne typy korpusov a jazykových databáz. Používateľom sú k dispozícii najmä:
- Korpusy súčasných textov: Obsahujú rozsiahly súbor textov z rôznych oblastí, ako sú beletria, publicistika, odborná literatúra, administratívne texty a internetové zdroje.
- Paralelné korpusy: Obsahujú texty v slovenskom jazyku a ich preklady do iných jazykov, čo umožňuje komparatívny výskum jazykov a podporuje prekladateľské aktivity.
- Hovorený korpus: Zahŕňa prepisy autentických hovorených prejavov, ktoré poskytujú cenné informácie o spontánnej komunikácii a variabilite jazyka.
- Nárečový korpus: Obsahuje texty v rôznych nárečiach slovenského jazyka, čo umožňuje štúdium regionálnych jazykových rozdielov a kultúrneho dedičstva.
- Historický korpus: Zahŕňa texty z rôznych období vývoja slovenského jazyka, čo umožňuje sledovať historické zmeny v jazyku a jeho vývoji.
- Morfologická databáza: Obsahuje informácie o morfologických vlastnostiach slovenských slov, ako sú slovné druhy, gramatické kategórie a tvary.
- Terminologická databáza: Obsahuje terminológiu z rôznych odborných oblastí, čo uľahčuje prácu s odbornými textami a podporuje štandardizáciu terminológie.
Hlavný korpus písaných textov Slovenského národného korpusu, jeho aktuálna verzia prim-8.0, bola sprístupnená 31. januára 2018 v rozsahu takmer 1,5 miliardy tokenov.
Prečítajte si tiež: Recepty pre zemiakový šalát
Využitie SNK
SNK je cenný nástroj pre širokú škálu používateľov:
- Jazykovedci: SNK poskytuje rozsiahly a reprezentatívny súbor dát pre výskum rôznych aspektov slovenského jazyka, ako sú gramatika, lexikológia, štylistika a sociolingvistika.
- Učitelia slovenského jazyka: SNK umožňuje učiteľom pripravovať zaujímavé a interaktívne hodiny, ktoré demonštrujú reálne používanie jazyka a jeho variabilitu. Publikácia umožňuje predstaviť možnosti využitia korpusov v školskej praxi pri príprave konkrétnych úloh alebo ukážok preberaného učiva.
- Prekladatelia: Paralelné korpusy v SNK uľahčujú prekladateľom prácu s odbornými textami a pomáhajú im nájsť vhodné ekvivalenty pre slová a frázy.
- Študenti: SNK umožňuje študentom skúmať jazyk v autentickom prostredí a rozvíjať svoje jazykové zručnosti. Učebnica naväzuje na publikáciu Slovenský národný korpus Texty, anotácie, vyhľadávania, je určená lingvistom, učiteľom slovenského jazyka a cudzích jazykov na všetkých stupňoch škôl, prekladateľom, študentom a všetkým záujemcom o korpusové a jazykové databázy.
- Redaktori a novinári: SNK pomáha redaktorom a novinárom overovať správnosť používania jazyka a nájsť vhodné formulácie pre ich texty.
- Vývojári softvéru: SNK sa využíva aj v oblasti počítačového spracovania prirodzeného jazyka, napríklad pri vývoji systémov na automatickú analýzu textu, strojový preklad a rozpoznávanie reči. 2002 a sú online dostupné odborníkom aj širokej verejnosti na vyhľadávanie jazykových informácií, na využitie v oblasti počítačového spracovania prirodzeného jazyka a vo výučbe slovenčiny ako materinského i cudzieho jazyka.
- Široká verejnosť: SNK je prístupný aj širokej verejnosti, ktorá sa zaujíma o slovenský jazyk a jeho používanie.
Prístup k SNK
SNK je online dostupný odborníkom aj širokej verejnosti na vyhľadávanie jazykových informácií. Na ich tvorbu sa vyvíjajú vlastné alebo sa využívajú existujúce počítačové nástroje.
Slovenský národný korpus - Používanie, príklady, postupy
Učebnica naväzuje na publikáciu Slovenský národný korpus Texty, anotácie, vyhľadávania. Rámcovým cieľom autorov je predstavenie čo najviac spôsobov vyhľadávania v istej postupnosti aj podľa poznaných potrieb a daností doterajších používateľov a zároveň poukázať na pestrosť jazyka a jeho dynamiku.
Otázky o slovenskom jazyku a SNK
SNK môže pomôcť nájsť odpovede na rôzne otázky týkajúce sa slovenského jazyka, napríklad:
- Ktoré slovo v slovenčine je najdlhšie?
- Ktoré slovo začína na hlásku é?
- Ako prenikajú anglické slová do slovenčiny?
- Aké zmeny v slovnej zásobe nastali v posledných desaťročiach?
SNK neposkytuje subjektívne hodnotenia, ako napríklad "Je slovenčina mäkká a ľubozvučná?", ani nenavrhuje reformy jazyka, ako napríklad "Nezrušíme konečne ypsilon?". Jeho cieľom je poskytovať objektívne dáta o jazyku a jeho používaní.
Prečítajte si tiež: Skopové mäso v slovenskej kuchyni
Osobnosť spojená so SNK
RNDr. Radovan Garabík pracuje v Slovenskom národnom korpuse na oddelení Jazykovedného ústavu Ľudovíta Štúra SAV. Zaoberá sa všetkými aspektmi počítačového spracovania slovenčiny, paralelnými inojazyčnými korpusmi, lexikografiou, vyučovaním, históriou a vývojom slovenského jazyka.
Vedecká cukráreň
Vedecká cukráreň je pravidelná séria stretnutí žiakov stredných škôl s osobnosťami slovenskej vedy, výskumu a techniky. Je to príležitosť pre mladých ľudí stretnúť sa s odborníkmi a dozvedieť sa viac o ich práci a výskume.
Prečítajte si tiež: Cestoviny pre každého
