Slovenský nemecký jazykový korpus predstavuje rozsiahly a systematicky usporiadaný súbor textov v slovenskom a nemeckom jazyku. Tieto korpusy sú neoceniteľným zdrojom pre jazykový výskum, prekladateľstvo, výučbu jazykov a ďalšie oblasti. Vďaka nim je možné analyzovať jazykové javy, zisťovať frekvenciu používania slov a slovných spojení, skúmať gramatické štruktúry a sledovať vývoj jazyka v čase.
Vznik a vývoj Slovenského národného korpusu
Myšlienka vytvorenia Slovenského národného korpusu (SNK) sa začala formovať už v roku 2001, kedy Ministerstvo kultúry v spolupráci s Ministerstvom školstva a Slovenskou akadémiou vied pripravilo návrh projektu jeho vybudovania. Vláda SR tento projekt schválila uznesením č. 137 z 13. februára 2002. Cieľom bolo vytvoriť rozsiahlu elektronickú databázu textov súčasného slovenského jazyka, ktorá by slúžila na vyhľadávanie slov, slovných spojení a jazykových prostriedkov. Pracovisko Slovenského národného korpusu bolo oficiálne otvorené 22. novembra 2002 v Jazykovednom ústave Ľudovíta Štúra SAV. Pôvodným cieľom bolo vybudovať do roku 2006 korpus s kapacitou 200 miliónov tokenov, čo sú základné textové jednotky používané v korpusoch. V súčasnosti prebieha už 5. etapa tohto projektu (2022 - 2026). Hlavný korpus písaných textov SNK, aktuálna verzia prim-8.0, bol sprístupnený 31. januára 2018 a dosahuje rozsah takmer 1,5 miliardy tokenov.
Štruktúra a typy korpusov v SNK
Slovenský národný korpus sa delí na niekoľko typov korpusov, ktoré sa líšia svojim zameraním a obsahom:
- Hlavný korpus (prim): Obsahuje rozsiahly súbor písaných textov súčasného slovenského jazyka z rôznych štýlov, žánrov a oblastí. Texty pochádzajú z obdobia po roku 1955.
- Špecializované korpusy: Zameriavajú sa na konkrétne oblasti jazyka, napríklad korpus ekonomických textov.
- Nárečový korpus: Obsahuje prepisy nárečových zvukových záznamov v elektronickom formáte.
- Historické korpusy: Obsahujú texty v slovenskom jazyku, ktoré vznikli pred rokom 1955.
- Webový korpus: Obsahuje slovenské texty dostupné na internete, ktoré boli automaticky stiahnuté a spracované.
- Paralelné korpusy: Obsahujú identické texty v dvoch rôznych jazykoch, najčastejšie preklady. Medzi paralelné korpusy patrí aj nemecko-slovenský a slovensko-nemecký paralelný korpus.
- Hovorené korpusy: Pozostávajú zo zvukových nahrávok prepojených s prepismi hovorených prejavov.
Písané korpusy
Do korpusov písaných textov sú zaraďované elektronicky spracované texty. Hlavný korpus, označený ako prim, obsahuje písané texty súčasného slovenského jazyka z rôznych štýlov, žánrov, vecných oblastí, regiónov a pod., ktoré vznikli po roku 1955. Nevyhnutnou podmienkou zaradenia textu do korpusu je získanie súhlasu jeho autora alebo držiteľa autorských práv, ktorý je zakotvený v licenčnej zmluve. Rovnako to platí aj o špecializovaných korpusoch (napr. o korpuse ekonomických textov), nie však o korpusoch obsahujúcich texty právnych predpisov, úradných či súdnych rozhodnutí, keďže na ne sa slovenský autorský zákon nevzťahuje.
Nárečový korpus
Do korpusu nárečí SNK sa zaraďujú existujúce, predovšetkým už publikované textové prepisy nárečových zvukových alebo transkribovaných záznamov v elektronickom formáte. Ich jednotné spracovanie korpusovou metodikou a nástrojmi, obohatenie textov o sociolingvistické údaje o informátoroch a explorátoroch, ako aj informácie o pôvode a obsahu nahrávky umožňujú komplexný nárečový výskum.
Prečítajte si tiež: Objavte typické koláče východného Slovenska
Historické korpusy
Oddelenie SNK ponúka tri korpusy obsahujúce texty v slovenskom jazyku, ktoré vznikli pred rokom 1955. Do prvých dvoch korpusov r864az1843-1.0 a r1843az1954-1.0 boli zaradené korpusovo spracované texty z publikácií dostupných v Zlatom fonde SME vďaka spolupráci so spoločnosťou Petit Press, a. s. Významným rozdielom oproti tretiemu korpusu historických textov je fakt, že obsahujú texty v prepise podľa gramatických zásad spisovnej slovenčiny v čase vydania a podľa zásad editorov, resp. vydavateľstiev. Pre Historický korpus slovenčiny sa vyberali a korpusovo spracovali pramenné materiály v pôvodnom pravopise, vydané predovšetkým v publikáciách Pramene k dejinám slovenčiny, v menšom meradle sa v rámci projektu Slovenského národného korpusu prepisujú dosiaľ nepublikované historické texty.
Webový korpus
Jednotlivé verzie webového korpusu obsahujú slovenské texty dostupné na webovej stránke, ktoré boli v jednotlivých rokoch automaticky stiahnuté a následne spracované. Základom prvej verzie webového korpusu z roku 2010 boli dáta poskytnuté na základe spolupráce s Fakultou informatiky MU v Brne. Od tretej verzie webového korpusu majú pracovníci SNK neoceniteľnú možnosť využívať dáta projektu Araneum.
Paralelné korpusy
Každý paralelný korpus obsahuje identické texty v dvoch rôznych jazykoch, pričom môže ísť o vzájomné preklady, alebo preklady z tretieho jazyka. Slovenské texty, v prevažnej väčšine preklady, sú do týchto korpusov zaraďované na základe licenčnej zmluvy, cudzojazyčné texty sa pre tento účel získavajú z internetových zdrojov. Na časť zaradených textov do anglicko-slovenského, bulharsko-slovenského, česko-slovenského, francúzsko-slovenského, maďarsko-slovenského a nemecko-slovenského paralelného korpusu sa autorské práva nevzťahujú, keďže ide o texty európskej legislatívy. Texty v paralelných korpusoch SNK sú spárované na úrovni viet. Hoci každý paralelný korpus oddelenia SNK ponúka obojstranné vyhľadávanie, neznamená to, že v smere zo slovenčiny do cudzieho jazyka ide vždy o originálne slovenské texty a v opačnom smere o originálne cudzojazyčné texty. V prípade veľkých jazykov, ako je angličtina, nemčina či francúzština, je pôvodným jazykom takmer alebo úplne všetkých textov práve cudzí jazyk. Pomer pôvodného a prekladového jazyka textov je pri ostatných paralelných korpusoch rôzny - napríklad pri slovensko-českom paralelnom korpuse tvoria vyše 53 % texty, ktorých pôvodný jazyk je slovenčina, kým čeština je pôvodným jazykom len vyše 20 % textov.
Hovorené korpusy
Hovorený korpus pozostáva zo zvukových nahrávok prepojených s príslušným prepisom zaznamenaných prehovorov. Pri prepisoch je vždy uvedená sociolingvistická informácia o respondentoch a základné informácie o pôvode a obsahu nahrávky. Tieto nahrávky buď vytvorili pracovníci Slovenského národného korpusu priamo „v teréne“, alebo ich do projektu SNK poskytli zo svojich archívov viaceré inštitúcie. Okrem základného prepisu výpovedí, ktoré sa zapisujú v súlade s pravidlami spisovnej slovenčiny rovnako ako pri písanom texte (napr. divadelné a filmové scenáre, dialógy v beletrii, prepisy interview v novinách), sa v druhej, tzv. výslovnostnej rovine, zachytávajú sprievodné, neverbálne javy, ale aj prekrývajúce sa, nedokončené či opakujúce sa výpovede alebo ich časti, lapsusy a pod. Zároveň sa zaznamenávajú veľmi výrazné odchýlky hovoriacich od bežného štandardu v prípade ne/mäkčenia, ne/dĺženia, ne/spodobovania, pričom sa berie do úvahy profil respondenta.
Využitie Slovenského nemeckého jazykového korpusu
Slovenský nemecký jazykový korpus má široké spektrum využitia v rôznych oblastiach:
Prečítajte si tiež: Prehľad druhov rýb Slovenska
- Jazykový výskum: Korpus umožňuje skúmať jazykové javy, ako sú frekvencia slov, gramatické štruktúry, kolokácie a ďalšie.
- Prekladateľstvo: Korpus slúži ako zdroj autentických textov v oboch jazykoch, čo pomáha prekladateľom pri hľadaní správnych ekvivalentov a overovaní prekladateľských rozhodnutí.
- Výučba jazykov: Korpus sa využíva pri tvorbe učebných materiálov, cvičebníc a slovníkov. Pomáha študentom spoznávať reálny jazyk a zlepšovať si svoje jazykové zručnosti.
- Lexikografia: Korpus je dôležitým zdrojom informácií pre tvorbu slovníkov a encyklopédií. Umožňuje lexikografom sledovať vývoj slovnej zásoby a zaznamenávať nové slová a významy.
- Spracovanie prirodzeného jazyka: Korpus sa používa na trénovanie algoritmov pre automatickú analýzu textu, strojový preklad a ďalšie aplikácie.
Didaktické materiály a publikácie založené na korpusových dátach
Na základe dát získaných zo Slovenského národného korpusu vznikajú rôzne didaktické materiály a publikácie, ktoré slúžia na výučbu slovenčiny ako cudzieho jazyka. Medzi ne patria napríklad:
- Učíme sa na chybách. ERRKORP - akvizičný korpus: Didaktická príručka určená pre vysokoškolských študentov a lektorov slovenčiny ako cudzieho jazyka. Vychádza z dát obsiahnutých v korpuse písaných textov študentov s názvom ERRKORP.
- Jazykové chyby v slovenčine ako cudzom jazyku na báze akvizičného korpusu (2024): Editovaná kniha, ktorá prezentuje výsledky analýzy jazykových chýb v slovenčine ako cudzom jazyku na základe akvizičného korpusu ERRKORP 1.0.
- Krížom-krážom. Metodická príručka - slovenčina A1: Sprievodný didaktický materiál pre lektorov, ktorí pracujú so sériou učebníc slovenského jazyka ako cudzieho Krížom-krážom.
Tieto materiály a publikácie pomáhajú študentom a lektorom slovenčiny ako cudzieho jazyka efektívnejšie sa učiť a vyučovať. Poskytujú im autentické príklady jazykových javov a umožňujú im analyzovať a opravovať chyby.
Jazykové vydavateľstvo MIKULA s.r.o.
Jazykové vydavateľstvo MIKULA s.r.o., pôvodne KNIHA - SPOLOČNÍK, vzniklo v roku 1992. V tom období bol na Slovensku nedostatok slovníkov, učebníc a iných jazykových pomôcok, čo vytvorilo priestor pre prácu vydavateľstva. Vydavateľstvo sa zameriava na tvorbu a vydávanie jazykových materiálov pre rôzne jazyky, vrátane nemčiny.
Slovníky a jazykové príručky
Medzi produkty jazykových vydavateľstiev patria rôzne slovníky a jazykové príručky, ktoré sú určené pre rôzne úrovne pokročilosti a rôzne účely. Napríklad:
- Španielsko-slovenský slovensko-španielsky vreckový slovník: Slovník malý veľkosťou, no veľký rozsahom. Obsahuje slovnú zásobu, ktorú môžete v bežnom živote skutočne použiť.
- Nemecko-slovenský slovensko-nemecký slovník: Slovník je určený pre všetky typy škôl a širokej verejnosti. Uprednostňuje moderné výrazy z oblasti každodennej komunikácie, vedy, techniky, práva, ekonomiky, obchodu, kultúry, politiky, športu.
- Malý nemecko-slovenský a slovensko-nemecký slovník: Určený širokej verejnosti a jeho cieľom je poskytnúť pomôcku pri bežnej komunikácii v tomto jazyku.
- Moderný nemecko-slovenský a slovensko-nemecký stredný slovník: Určený širokej verejnosti a jeho cieľom je poskytnúť kvalitnú pomôcku pri štúdiu nemeckého jazyka a pri komunikácií v tomto jazyku.
Prečítajte si tiež: Slovenské polievky ideálne na zimu
