Katarína Gajdošová a Slovenský národný korpus: Hlboký ponor do sveta jazyka

Rate this post

Mgr. Katarína Gajdošová, Ph.D., je významnou vedeckou pracovníčkou Oddelenia Slovenského národného korpusu (SNK) v Jazykovednom ústave Ľ. Štúra SAV, v. v. i. Už viac ako dvadsať rokov sa venuje výskumu a budovaniu tohto unikátneho nástroja na skúmanie slovenského jazyka. Okrem toho sa angažuje v sprevádzaní, koučingu a osobnostnom rozvoji akademických pracovníkov. Jej práca má široký dosah, od lingvistického výskumu až po praktické aplikácie v oblasti vzdelávania a jazykových technológií.

Čo je Slovenský národný korpus?

Slovenský národný korpus (SNK) je rozsiahla databáza textov, ktorá slúži na skúmanie slovenského jazyka v jeho rôznych podobách. Ako uviedla Dr. Gajdošová, je to "databáza publikovaných textov - odborných, publicistických a beletristických - zhromaždených na jednom mieste". Tieto texty sú spracované jednotným spôsobom a obohatené o jazykové informácie, tzv. anotácie.

História a vývoj SNK

Oddelenie Slovenského národného korpusu vzniklo v roku 2002, čím sa Slovensko zaradilo medzi posledné slovanské krajiny, ktoré takýto korpus nemali. Vznik SNK bol podporený Ministerstvom školstva, Ministerstvom kultúry a Slovenskou akadémiou vied. Od svojho vzniku sa SNK neustále rozvíja a rozširuje.

Účel a využitie SNK

Hlavným účelom SNK je poskytovať rozsiahly jazykový zdroj pre lingvistický výskum. Využívajú ho však aj:

  • korektori,
  • redaktori,
  • editori,
  • prekladatelia,
  • učitelia,
  • vývojári aplikácií pracujúcich s textom.

SNK slúži ako "tortový korpus", pripravená materiálová báza, ktorú môžu vedci a odborníci používať na objavovanie zákonitostí a nuáns slovenského jazyka.

Prečítajte si tiež: Informácie o Divina 394

Obsah a štruktúra korpusu

Súčasná, desiata verzia písaného korpusu obsahuje viac ako 1,6 miliardy textových jednotiek (slov vrátane interpunkcie). Najnovšia, jedenásta verzia, ktorá bola zverejnená v blízkej budúcnosti, by mala obsahovať viac ako 1,8 miliardy textových jednotiek.

Typy textov v SNK

SNK obsahuje rôznorodé texty, vrátane:

  • odborných textov,
  • publicistických textov,
  • beletristických textov,
  • textov zo slovenskej internetovej domény (webový korpus),
  • textov z historického obdobia (historický korpus).

Používatelia majú k dispozícii viac ako sto korpusov, ku ktorým získajú plný prístup po bezplatnej registrácii.

Aktualizácia a rozširovanie korpusu

SNK je neustále aktualizovaný a rozširovaný o nové texty. Nová verzia korpusu je vydávaná v dvojročných intervaloch. Koncepcia budovania korpusu je postavená na princípe obohacovania, čo znamená, že každá nová verzia obsahuje všetky texty z predchádzajúcej verzie a nové texty.

Ako používať Slovenský národný korpus?

Používanie SNK je pomerne jednoduché, avšak vyžaduje si základnú znalosť jeho štruktúry a funkcionalít.

Prečítajte si tiež: Inšpirácie: Makový koláč Katarína

Registrácia a prístup

Prístup k SNK je bezplatný, vyžaduje sa len registrácia. Po registrácii získajú používatelia prístup k všetkým korpusom a nástrojom.

Jednoduché vyhľadávanie

Pre začiatočníkov je najvhodnejšie jednoduché hľadanie, do ktorého možno zadať slovo alebo slovné spojenie. Po zadaní hľadaného výrazu sa zobrazí výpis všetkých výskytov daného slova alebo slovného spojenia v korpuse.

Rozšírené vyhľadávanie a nástroje

SNK ponúka množstvo nástrojov a funkcií na rozšírené vyhľadávanie a analýzu textov:

  • Frekvencia: Zobrazuje frekvenciu výskytu jednotlivých tvarov slova.
  • Tvary KWIC: Zobrazuje graf s najčastejšími tvarmi slova v kontexte.
  • Kolokácie: Ponúka jazykové jednotky, ktoré sa s hľadaným slovom spájajú v kontexte.
  • Filter: Umožňuje filtrovať výsledky vyhľadávania podľa rôznych kritérií, napríklad podľa slovného druhu.
  • Trendy: Zobrazuje výskyt slova v textoch na časovej osi.

Anotácie a jazykové informácie

Texty v SNK sú obohatené o jazykové informácie, tzv. anotácie. Medzi najdôležitejšie anotácie patria:

  • Lematizácia: Priradenie základného tvaru slova (lemy) každému tvaru slova v texte.
  • Morfologická a slovnodruhová anotácia: Určenie slovného druhu a morfologických vlastností každého slova v texte.
  • Vonkajšia anotácia: Informácie o texte, ako napríklad autor, názov, dátum vydania, štýlovo-žánrová notácia.

Semináre a videonávody

Pre používateľov, ktorí sa chcú naučiť efektívne využívať SNK, sú k dispozícii semináre a videonávody. Semináre sú organizované pre rôzne skupiny používateľov, vrátane študentov, učiteľov a odborníkov z praxe. Videonávody sú dostupné na youtubovom kanáli Slovenského národného korpusu.

Prečítajte si tiež: Zdravé stravovanie pre alergikov

Mapka - interaktívna vizualizácia nárečovej rozmanitosti Slovenska

Jednou z noviniek, ktoré Slovenský národný korpus ponúka, je aplikácia Mapka. Ide o interaktívnu mapu, ktorá zobrazuje nárečové ukážky z rôznych lokalít Slovenska. Každý záznam na mape obsahuje zvukovú stopu, nárečový prepis, slovníček a odbornú charakteristiku nárečia.

Cieľ a využitie Mapky

Cieľom Mapky je sprístupniť slovenské nárečia širokej verejnosti zaujímavým a interaktívnym spôsobom. Aplikácia je užitočná pre každého, kto má vzťah k nárečiam, a osobitne ju ocenia školy.

Katarína Gajdošová a jej prínos pre SNK

Katarína Gajdošová zohráva kľúčovú úlohu v budovaní a rozvoji Slovenského národného korpusu. Jej odborné znalosti a dlhoročné skúsenosti sú neoceniteľné pre:

  • koordináciu tvorby korpusu pomenovaných entít,
  • koordináciu prípravy inštruktážnych videí SNK,
  • koordináciu tvorby korpusu prekladov Biblie,
  • vedenie praktických seminárov na prácu so SNK,
  • komunikáciu s verejnosťou.

Medzinárodné a národné projekty

Dr. Gajdošová sa aktívne zapája do medzinárodných a národných projektov zameraných na rozvoj jazykových technológií a korpusovej lingvistiky. Medzi najvýznamnejšie projekty patria:

  • Počítačová podpora lexikografie pri tvorbe slovenských a bulharských slovníkov a referenčné zdroje,
  • Kontakty maďarskej a slovenskej lingvistiky (zamerané na vybudovanie maďarsko-slovenského paralelného korpusu),
  • Slovenský národný korpus,
  • Jazykové chyby v slovenčine ako cudzom jazyku na báze akvizičného korpusu.

Publikácie a prezentácie

Katarína Gajdošová je autorkou mnohých publikácií a prezentácií z oblasti korpusovej lingvistiky a slovenského jazyka. Pravidelne vystupuje na konferenciách a seminároch, kde prezentuje výsledky svojej práce a popularizuje Slovenský národný korpus.