Korpus: Rozsiahla textová databáza a zdroj informácií o jazyku

Rate this post

Úvod

Korpus predstavuje rozsiahlu textovú databázu, ktorá slúži ako reprezentatívna vzorka jazyka. Používa sa v lingvistike, lexikografii a iných odvetviach spoločenskej praxe. Korpusy umožňujú skúmať jazyk na základe reálnych dát a poskytujú cenné informácie o jeho štruktúre, používaní a vývoji. V tomto článku sa pozrieme na definíciu korpusu, jeho charakteristické vlastnosti, využitie a význam pre jazykový výskum a prax.

Definícia a charakteristika korpusu

Korpus je rozsiahla textová databáza používaná v jednotnom formáte, často bohato štruktúrovaná a typizovaná. Môže obsahovať milióny alebo aj stovky miliónov textových slov. Korpus sa často charakterizuje ako akási vzorka jazyka, reprezentatívna vzorka určitého jazyka a žánrových oblastí (napr. prejavov, z internetu a pod.).

Moderné korpusy sú bohato štruktúrované. Štruktúra textovej informácie môže byť odlišná, či už je to kniha, noviny alebo reklamný leták. Štruktúra sa zameriava na časti, paragrafy, odseky atď., ďalej na „telo“ dokumentu, t. j. záverečnú časť a pod. Môže obsahovať aj informácie o odlišnom type písma, napr. kurzívou alebo polotučne.

Funkcie a využitie korpusu

Korpus plní úlohu elektronickej kartotéky a je zdrojom informácií na ďalší výskum. Nejde len o pendant papierovej verzie, ale o rozsiahlu databázu, v ktorej sú údaje spoľahlivo uložené, klasifikované, dá sa nimi manipulovať a dá sa v nich ľahko vyhľadávať. Korpusy sú dôležitým nástrojom jazykovedy nazývanej jazykové zdroje.

Korpus môže poskytnúť informácie o slovách uvedených v základnom tvare (napr. pomocou ich rozčlenenia do skupín s rovnakým kontextom). Umožňuje automatické značkovanie nových textov, ale niekedy je potrebný aj ručný zásah anotátora, napr. slovesa prať.

Prečítajte si tiež: Autentický maďarský guláš

Korpus v slovenskom kontexte

Na Slovensku existuje už úplne funkčný 100‐miliónový korpus (25. mal slávnostnú vernisáž). Slovenské korpusy nezaostávajú za vyspelými európskymi krajinami. Vytvorenie korpusu s desiatkami miliónov textových slov dnes nie je technickým problémom.

Jazykový ústav Ľ. Štúra SAV sa venuje jazykovej úprave návrhov noriem, t. j. vhodnosti použitých termínov.

Špecifické javy v jazyku a korpus

Korpusy pomáhajú analyzovať aj zložité jazykové javy, ako napríklad:

  • Písanie predložiek s prídavnými menami: V spisovnej slovenčine existuje neustálenosť v písaní predložiek na, do s tvarmi prídavných mien typu čierny, biely, holý, nahý, hrubý, tenký, zlatý a pod. Korpusy umožňujú analyzovať, ktoré tvary sa píšu ako jedno slovo a ktoré ako dve slová.
  • Používanie predložky pre: Predložka pre najčastejšie konkuruje predložke na a má účelový význam. Vyskytuje sa aj ako synonymum predložky na. Korpusy umožňujú sledovať frekvenciu a kontext použitia predložky pre.
  • Skratky a gramatický rod: Korpusy pomáhajú analyzovať, ako sa skratky (napr. OSN, USA) posudzujú z hľadiska gramatickej kategórie rodu a čísla.

Príklady využitia korpusu

Korpusy sa využívajú v rôznych oblastiach:

  • Lexikografia: Pri tvorbe slovníkov (napr. akademického slovníka, Synonymického slovníka slovenčiny).
  • Preklad: Pri prekladaní textov a rozlišovaní jednotlivých významov slov.
  • Štylistika: Pri analýze štylistických prostriedkov a jazykových konštrukcií.
  • Výučba jazykov: Na demonštráciu reálneho používania jazyka.
  • Informatika: Pri automatickom spracovaní jazyka a tvorbe jazykových technológií.

Lingvistické zaujímavosti

Korpusy môžu odhaliť aj zaujímavé lingvistické javy, ako napríklad:

Prečítajte si tiež: Tradičný bulharský šalát

  • Šikulova próza: Dielo Vincenta Šikulu sa vyznačuje košatou slovnou zásobou a svojským umeleckým stvárňovaním života. Korpusy umožňujú analyzovať jeho jazykový štýl a používanie špecifických výrazov.
  • Biblické texty a preklady: Pri prekladaní biblických textov je dôležité zachovať presnosť a zrozumiteľnosť. Korpusy pomáhajú analyzovať prekladateľské riešenia a identifikovať potenciálne problémy.
  • Odborná terminológia: Korpusy sa využívajú na analýzu terminologických otázok v rôznych oblastiach, napr. v technických normách.

Dôležitosť technického vybavenia a finančnej podpory

Na vytvorenie a údržbu rozsiahleho korpusu je potrebný početný pracovný kolektív, moderná technika a finančné prostriedky. Jazykovedný ústav Ľ. Štúra SAV je financovaný prostredníctvom agentúry VEGA.

Príklad z praxe

Príkladom využitia korpusu v praxi je analýza technických noriem. V normách sa často vyskytujú špecifické jazykové konštrukcie a terminologické problémy. Korpusy umožňujú identifikovať tieto problémy a navrhnúť riešenia. Napríklad, pri analýze používania predložky pre v technických normách sa zistilo, že často konkuruje predložke na a má účelový význam.

Prečítajte si tiež: Kde kúpiť hovädzie na steak?