Slovenský národný korpus: Návod na použitie

Rate this post

Slovenský národný korpus (SNK) je rozsiahly a systematicky budovaný súbor textov v slovenskom jazyku, ktorý slúži ako cenný zdroj pre jazykovedný výskum, vývoj jazykových technológií a pre širokú kultúrnu verejnosť. Tento článok poskytuje návod na jeho používanie, s dôrazom na morfologickú anotáciu a lematizáciu, ktoré sú kľúčové pre efektívnu prácu s korpusom.

Čo je Slovenský národný korpus?

Korpus predstavuje rozsiahly súbor elektronicky zaznamenaných textov, ktoré pochádzajú z rozličných zdrojov a oblastí. Tieto texty sú reprezentatívnou vzorkou jazyka, ktorá sa využíva na jazykovedný výskum, tvorbu slovníkov a gramatík. Vďaka digitalizácii je možné s textami pracovať efektívne pomocou špecializovaných programov.

Význam korpusu

  1. Jazykovedný výskum: Korpus je základom pre empirický jazykovedný výskum, poskytuje rozsiahle dáta pre analýzu jazykových javov.
  2. Informačné technológie: Zohráva dôležitú úlohu vo vývoji informačných technológií, ako sú systémy vyhľadávania textu, automatická analýza jazyka a ďalšie.
  3. Kultúrny fenomén: Má status kultúrneho fenoménu, pretože predstavuje bohatý zdroj informácií o národnom jazyku.

Morfologická anotácia a lematizácia v SNK

Morfologická anotácia je proces priraďovania slovnodruhových a tvarových charakteristík slovám v kontexte. Lematizácia je priradenie základného (slovníkového) tvaru každému slovu. V SNK existujú dva druhy:

  1. Ručná anotácia: Nachádza sa v podkorpuse r-mak, ktorá je založená na presných pravidlách a značkách.
  2. Automatizovaná anotácia: Používa sa pre ostatné korpusy a podkorpusy, pričom využíva tager MorphoDiTa, ktorý bol natrénovaný na podkorpuse r-mak.

Všetky textové jednotky (tokeny) podliehajú morfologickej anotácii. Tokeny sú reťazce znakov medzi medzerami, vrátane interpunkcie, pred ktorú sa medzery pridávajú. Každému tokenu sa priraďujú atribúty lema a tag.

Lema

Lema je základný, slovníkový tvar tokenu. Do verzie r-mak-4.0 sa nerozlišovalo medzi malými a veľkými písmenami, lemy mali vždy malé začiatočné písmeno a propriálnosť sa označovala písmenom "r" na konci tagu. Od verzie r-mak-5.0 sa vlastné mená lematizujú s veľkým začiatočným písmenom.

Prečítajte si tiež: Recepty pre zemiakový šalát

Negované tvary slovies a iných slovných druhov sa lematizujú negovaným tvarom, pričom pri slovesách sa afirmácia a negácia označuje aj na úrovni tagu.

Tag

Tag vyjadruje hodnoty formálnych kategórií relevantných pre daný token. V SNK sa používajú tagy s variabilným počtom znakov, pričom poradie znakov v tagu je záväzné. Na prvom mieste je informácia o slovnom druhu.

Zoznam slovných druhov a značiek

V Slovenskom národnom korpuse sa používajú nasledujúce značky pre slovné druhy:

  • Substantívum (S)
  • Adjektívum (A)
  • Pronominum (P)
  • Numerále (N)
  • Verbum (V)
  • Particípium (G)
  • Adverbium (D)
  • Prepozícia (E)
  • Konjunkcia (O)
  • Partikula (T)
  • Interjekcia (J)
  • Neurčiteľný slovný druh (Q)
  • Reflexívum (R)
  • Interpunkcia (Z)
  • Neslovný element (#)
  • Citátový výraz (%)
  • Číslica (0)
  • Kondicionálová morféma (Y)
  • Vlastné meno (:r)
  • Abreviácia, značka (W)
  • Chybný zápis (:q)

Praktické využitie SNK

SNK je neoceniteľným nástrojom pre:

  • Jazykovedcov: Na analýzu jazykových štruktúr, frekvencie slov a slovných spojení, a na štúdium vývoja jazyka.
  • Lexikografov: Na tvorbu slovníkov a encyklopédií, kde korpus slúži ako zdroj autentických príkladov použitia slov.
  • Prekladateľov: Na overovanie správnosti prekladov a na hľadanie vhodných ekvivalentov v cieľovom jazyku.
  • Učiteľov: Na prípravu učebných materiálov a na ilustráciu gramatických a lexikálnych javov.
  • Študentov: Na písanie seminárnych a diplomových prác, kde môžu využiť rozsiahle dáta z korpusu na podporu svojich argumentov.

Ako citovať SNK

Pri použití citácie z korpusových databáz alebo výsledkov hľadania z jednotlivých zdrojov SNK, je potrebné odkazovať na konkrétnu verziu a/alebo podkorpus SNK (napr. prim-10.0-public-sane, s-hovor-7.0, r-mak-6.0, par-sken-all-4.0). V bibliografii sa citácia celého korpusu uvádza nasledovne:

Prečítajte si tiež: Skopové mäso v slovenskej kuchyni

  • Verzia prim-10.0 a jej podkorpusy: Slovenský národný korpus - prim-10.0-public-all. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 2022.

Prednášky a workshopy SNK

Oddelenie Slovenského národného korpusu Jazykovedného ústavu Ľ. Štúra SAV ponúka prednášky a praktické workshopy zamerané na používanie databáz SNK. Workshopy sa konajú nepravidelne po dohode so záujemcami. Účastníci by mali mať vlastné prihlasovacie meno a heslo na prácu s databázami SNK, ktoré je možné bezplatne získať registráciou.

Vývoj SNK

Vláda Slovenskej republiky schválila projekt vybudovania Národného korpusu slovenského jazyka a elektronizácie jazykovedného výskumu v roku 2002. Cieľom projektu bolo vybudovať pracovisko Národného korpusu slovenského jazyka a zabezpečiť jeho fungovanie v rokoch 2002 - 2006.

Princípy budovania korpusu

  • Reprezentatívnosť: Zabezpečenie vyváženého zastúpenia rôznych typov textov a komunikačných oblastí.
  • Bibliografická anotácia: Detailné informácie o zdroji textu (autor, vydavateľstvo, rok vydania, žáner).
  • Lingvistická anotácia: Označovanie gramatických kategórií každého slova pomocou značiek SGML.

Softvér a nástroje pre prácu s SNK

Na efektívnu prácu s korpusom je potrebný špecializovaný softvér, ktorý umožňuje rýchle vyhľadávanie slov a slovných spojení, automatické vyhodnocovanie a spracovanie dát. Medzi takéto nástroje patria:

  • Korpusový manažér Bonito: Umožňuje vyhľadávanie a analýzu textov v korpuse.
  • Programy na automatizovanú morfologickú analýzu: Identifikujú slovný druh a gramatické kategórie slov.
  • Lematizátory: Prevádzajú slová do ich základného tvaru (lemy).

Jazykové technológie a SNK

SNK je dôležitý pre vývoj jazykových technológií, ktoré zahŕňajú:

  • Používateľské rozhrania: Umožňujú interakciu s počítačom v prirodzenom jazyku.
  • Systémy vyhľadávania metódou úplného textu: Vyhľadávajú informácie v textoch na základe zadaných kľúčových slov.
  • Programy na syntézu a analýzu rečového signálu: Prevod textu na reč a naopak.
  • Korektory pravopisu a štýlu: Kontrolujú a opravujú pravopisné a štylistické chyby v textoch.
  • Interaktívne jazykové učebnice a slovníky: Poskytujú interaktívny spôsob učenia sa jazykov.

Prečítajte si tiež: Cestoviny pre každého