Slovenský Národný Korpus (SNK): Komplexný prehľad zdrojov slovenského jazyka

Rate this post

Slovenský národný korpus (SNK) je rozsiahla databáza textov v slovenskom jazyku, ktorá slúži ako neoceniteľný nástroj pre výskumníkov, lingvistov, študentov a všetkých, ktorí sa zaoberajú štúdiom a analýzou slovenského jazyka. Tento článok poskytuje komplexný prehľad SNK, jeho obsahu, prístupu a možností využitia.

Čo je Slovenský národný korpus?

SNK predstavuje rozsiahly súbor textov rôzneho charakteru, od beletrie cez publicistiku až po odborné texty. Jeho cieľom je zachytiť jazykovú realitu v celej jej šírke a poskytnúť reprezentatívny vzorku slovenského jazyka v písomnej podobe.

Obsah SNK

SNK obsahuje rôzne typy korpusov, ktoré sa líšia zameraním, veľkosťou a spôsobom spracovania:

  • Hlavný korpus písaných textov: Aktuálna verzia prim-11.0 (vytvorená 26. 2. 2025 a sprístupnená 11. 4. 2025) obsahuje vyše 1,85 miliardy tokenov. K dispozícii je aj predchádzajúca verzia prim-10.0 s vyše 1,68 miliardy tokenov. Na požiadanie je možný prístup aj k starším verziám.
  • Ručne morfologicky anotovaný korpus: Verzie r-mak.
  • Ďalšie korpusy súčasných písaných textov.
  • Paralelné korpusy.
  • Webový korpus.
  • Korpusy textov z Wikipédie (a Necyklopédie).
  • Špecializované korpusy.
  • Súbor korpusov Omnia.
  • Časovo vymedzené korpusy:
    • Korpus textov z obdobia 864 - 1843.
    • Korpus textov z obdobia 1843 - 1954.
    • Korpus textov denníka SME z určitého roku.

Prístup k SNK

Prístup k SNK je možný dvoma spôsobmi:

  • Jednoduché vyhľadávanie: Dostupné aj bez registrácie prostredníctvom webového rozhrania, ale s obmedzeným prístupom ku korpusom (prim-6.0-public-all, r-mak-3.0 a iné) a bez možnosti vytvárania podkorpusov.
  • Plný prístup: Vyžaduje registráciu prostredníctvom webového formulára. Po vyplnení a odoslaní formulára sa vygeneruje dokument "Podmienky používania SNK", ktorý je potrebné podpísať a doručiť poštou alebo osobne na adresu Jazykovedného ústavu Ľ. Štúra SAV, v. v. i.

Podmienky používania SNK

Pred začatím používania webového rozhrania je potrebné prečítať si a odsúhlasiť podmienky používania. Používateľ sa zaväzuje, že texty bude používať len na vedecké, výskumné, učebné alebo iné nekomerčné ciele.

Prečítajte si tiež: Tajomstvo vláčneho korpusu

Dôležité je citovať všetky údaje získané zo SNK (kontexty, frekvencie a iné údaje) podľa príslušnej verzie a časti SNK. Pri citovaní konkrétneho diela sa SNK uvádza ako hlavný zdroj spolu s bibliografickou citáciou daného textu.

Súhlas s podmienkami používania a záväzok korektného prístupu k dátam sa potvrdzuje vlastnoručným podpisom. Registrovaný používateľ sa zaväzuje, že sa nebude usilovať o znefunkčnenie infraštruktúry SNK a ani o neoprávnené získavanie dát nad rámec poskytovaného rozsahu.

Využitie SNK

SNK ponúka široké možnosti využitia pre rôzne účely:

  • Výskum jazyka: Analýza frekvencie slov, slovných spojení, gramatických konštrukcií a iných jazykových javov.
  • Lexikografia: Tvorba slovníkov a encyklopédií.
  • Didaktika: Výučba slovenského jazyka, tvorba učebníc a cvičebníc.
  • Prekladateľstvo: Hľadanie ekvivalentov v cieľovom jazyku, overovanie správnosti prekladu.
  • Štýlistika: Analýza štýlu rôznych textov, identifikácia charakteristických znakov autora.
  • Automatické spracovanie jazyka: Trénovanie algoritmov na rozpoznávanie a generovanie slovenského jazyka.

Frekvenčné zoznamy

SNK poskytuje frekvenčné zoznamy lem, tvarov slov a slovných druhov z dostupných korpusov. Tieto zoznamy sú užitočné pre identifikáciu najčastejšie používaných slov a gramatických konštrukcií v slovenskom jazyku.

Licenčná zmluva a ochrana autorských práv

Texty sa do SNK zaraďujú na základe licenčnej zmluvy, v ktorej sa Jazykovedný ústav Ľ. Štúra SAV, v. v. i. zaväzuje autorom či majiteľom autorských práv, že tieto texty nebude poskytovať tretím osobám a že sa z nich používateľom zobrazí len bezprostredný kontext hľadaného jazykového javu.

Prečítajte si tiež: Ako pripraviť bezlepkový pizza korpus

Problémy s registráciou

Ak ste zaslali požadované údaje a prihlasovacie údaje vám doteraz neprišli, odporúča sa kontaktovať priamo Jazykovedný ústav Ľ. Štúra SAV, v. v. i. pre overenie stavu vašej registrácie.

Prečítajte si tiež: Korpusy a plnky na torty