Slovenský národný korpus: Návod na vyhľadávanie v písaných korpusoch

Rate this post

Slovenský národný korpus (SNK) je rozsiahly vedecko-výskumný projekt, ktorý systematicky spracúva slovenský jazyk a realizuje elektronizáciu jazykovedného výskumu na Slovensku. Tento článok poskytuje návod na vyhľadávanie v písaných korpusoch SNK.

Čo je Slovenský národný korpus?

Slovenský národný korpus je elektronický korpus textov, ktorý obsahuje texty rôznych štýlov a žánrov. Ku každému textu sú pridané lingvistické informácie na úrovni slova, vety a celého textu. SNK nie je elektronická knižnica a texty v ňom sa nedajú čítať ako jeden celok. Taktiež nenahrádza kodifikačné či gramatické príručky. Jeho cieľom je poskytnúť rozsiahly a štruktúrovaný súbor jazykových dát pre lingvistický výskum a praktické poznávanie slovenského jazyka.

SNK sa začal budovať v roku 2002 v Jazykovednom ústave Ľ. Štúra Slovenskej akadémie vied (SAV) s podporou Ministerstva kultúry SR a Ministerstva školstva, vedy, výskumu a športu SR.

Fázy budovania Slovenského národného korpusu

Vývoj SNK prebieha v niekoľkých fázach:

  1. Prvá fáza: Zameranie na písané texty súčasného slovenského jazyka z obdobia 1955 - 2005.
  2. Druhá a tretia fáza: Rozšírenie o texty z ďalších období (spred roka 1955 až do začiatkov spisovného obdobia a do predspisovného obdobia, ako aj po roku 2005) a sfér používania slovenského jazyka (hovorená slovenčina, dialekty).
  3. Štvrtá fáza: Vydanie kolokačných a frekvenčných slovníkov, dobudovanie špecializovaných korpusov (korpus nárečí, historický korpus slovenčiny) a sprístupňovanie nových verzií vybraných korpusov.
  4. Piata fáza (súčasná): Rozširovanie a skvalitňovanie zdrojov SNK prostredníctvom prípravy a sprístupnenia nových verzií korpusov (nová verzia hlavného korpusu písaných textov, korpus pomenovaných entít, webový korpus, vybrané paralelné korpusy, akvizičný korpus).

Štruktúra textov v korpuse

Korpusový materiál sa získava najčastejšie v elektronickej podobe, menej často technickým spracovaním tlačeného diela. Nasledujú technické úpravy:

Prečítajte si tiež: Recepty pre zemiakový šalát

  • Odstraňovanie znakov a symbolov editačných softvérov alebo grafických súčastí textu.
  • Konverzia do jednotného formátu.
  • Segmentácia textu na najmenšie jednotky.
  • Značkovanie textu (pridávanie dodatočných informácií):
    • bibliografické údaje
    • informácie o štruktúre textu
    • jazykové informácie na úrovni slov (slovný druh, lema)
    • jazykové informácie na úrovni viet (funkcia vo vete, sémantika)

Typy korpusov v SNK

SNK ponúka rôzne typy korpusov, ktoré sú zamerané na rôzne aspekty slovenského jazyka:

Písané korpusy

Do korpusov písaných textov sa zaraďujú elektronicky spracované texty podľa typu zamerania korpusu. Medzi písané korpusy patria:

  • Hlavný korpus (prim): Obsahuje písané texty súčasného slovenského jazyka z rôznych štýlov, žánrov, vecných oblastí a regiónov, ktoré vznikli po roku 1955. Podmienkou zaradenia textu do korpusu je získanie súhlasu autora alebo držiteľa autorských práv.
  • Špecializované korpusy: Zamerané na konkrétne oblasti, napr. korpus ekonomických textov. Aj tu platí podmienka získania súhlasu autora s výnimkou textov právnych predpisov, úradných či súdnych rozhodnutí.
  • Nárečový korpus: Obsahuje existujúce textové prepisy nárečových zvukových alebo transkribovaných záznamov v elektronickom formáte. Tieto texty sú obohatené o sociolingvistické údaje o informátoroch a explorátoroch, ako aj informácie o pôvode a obsahu nahrávky.
  • Historické korpusy: Obsahujú texty v slovenskom jazyku, ktoré vznikli pred rokom 1955.
    • r864az1843-1.0 a r1843az1954-1.0: Texty z publikácií dostupných v Zlatom fonde SME v prepise podľa gramatických zásad spisovnej slovenčiny v čase vydania.
    • Historický korpus slovenčiny: Pramenné materiály v pôvodnom pravopise, vydané predovšetkým v publikáciách Pramene k dejinám slovenčiny, prípadne dosiaľ nepublikované historické texty.
  • Webový korpus: Obsahuje slovenské texty dostupné na internete, ktoré boli automaticky stiahnuté a spracované.
  • Paralelné korpusy: Obsahujú identické texty v dvoch rôznych jazykoch (vzájomné preklady alebo preklady z tretieho jazyka). Medzi paralelné korpusy patria anglicko-slovenský, bulharsko-slovenský, česko-slovenský, francúzsko-slovenský, maďarsko-slovenský a nemecko-slovenský. Texty sú spárované na úrovni viet.

Hovorené korpusy

Hovorený korpus pozostáva zo zvukových nahrávok prepojených s príslušným prepisom zaznamenaných prehovorov. Pri prepisoch je vždy uvedená sociolingvistická informácia o respondentoch a základné informácie o pôvode a obsahu nahrávky.

Prepis výpovedí sa realizuje v dvoch rovinách:

  • Základný prepis: Zapisuje sa v súlade s pravidlami spisovnej slovenčiny.
  • Výslovnostná rovina: Zachytávajú sa sprievodné, neverbálne javy, prekrývajúce sa, nedokončené či opakujúce sa výpovede alebo ich časti, lapsusy a pod. Zaznamenávajú sa aj výrazné odchýlky hovoriacich od bežného štandardu.

Ako vyhľadávať v SNK

Pre aktívne pracovanie s korpusmi SNK je potrebné mať vlastné prihlasovacie meno a heslo. Bezplatná registrácia je možná na webovej stránke SNK.

Prečítajte si tiež: Skopové mäso v slovenskej kuchyni

Slovenský národný korpus ponúka výkonné vyhľadávacie nástroje, ktoré umožňujú vyhľadávanie a triedenie skúmaných jazykových prostriedkov a informácií. Používatelia si môžu vybrať konkrétny korpus alebo kombináciu korpusov, ktoré chcú prehľadávať. Vyhľadávanie je možné realizovať na základe rôznych kritérií, ako sú:

  • Slovo alebo slovné spojenie: Vyhľadávanie konkrétnych výrazov v texte.
  • Lemma: Vyhľadávanie základného tvaru slova.
  • Slovný druh: Vyhľadávanie slov podľa ich gramatickej kategórie (napr. podstatné meno, sloveso, prídavné meno).
  • Iné lingvistické atribúty: Vyhľadávanie na základe ďalších jazykových informácií, ako sú pád, číslo, rod, čas, spôsob.
  • Bibliografické údaje: Vyhľadávanie textov podľa autora, roku vydania, zdroja a pod.

Využitie Slovenského národného korpusu

Slovenský národný korpus má široké využitie v rôznych oblastiach:

  • Lingvistický výskum: Opis významov a funkcií slov a ďalších jazykových javov, ich štatistiky, spájateľnosti a pod.
  • Jazyková prax: Zdroj praktického poznania systému jazyka a overenia či doplnenia jednotlivých poznatkov o reálnom fungovaní jazykových prostriedkov v praxi.
  • Výučba slovenského jazyka: Nástroj na ilustráciu a precvičovanie gramatických a lexikálnych javov.
  • Lexikografia: Zdroj autentických príkladov použitia slov pre tvorbu slovníkov.
  • Prekladateľstvo: Nástroj na overovanie správnosti prekladov a hľadanie vhodných ekvivalentov.
  • Štúdium nárečí: Komplexný nárečový výskum vďaka jednotnému spracovaniu a obohateniu textov o sociolingvistické údaje.
  • Analýza textov: Identifikácia špecifických jazykových čŕt rôznych textových typov a žánrov.

Prednášky a workshopy SNK

Oddelenie Slovenského národného korpusu Jazykovedného ústavu Ľ. Štúra SAV v Bratislave ponúka záujemcom prednášky a praktické workshopy zamerané na používanie databáz SNK. Prednášky a workshopy sú prispôsobené jednotlivým skupinám používateľov a realizujú sa po dohode v oddelení SNK alebo v prostredí záujemcov (školy, akademické pracoviská, vydavateľstvá).

Workshopy sa konajú nepravidelne po dohode s konkrétnymi záujemcami v SNK. Účastníci workshopu budú aktívne pracovať s vybranými korpusmi, preto je potrebné, aby mali vlastné prihlasovacie meno a heslo. V prípade väčšej skupiny záujemcov z jednej inštitúcie je možné po dohode usporiadať workshop priamo v konkrétnej inštitúcii.

Prečítajte si tiež: Cestoviny pre každého