Národný korpus slovenského jazyka: Význam a použitie

Rate this post

Národný korpus slovenského jazyka predstavuje rozsiahly a systematicky budovaný zdroj jazykových dát, ktorý má zásadný význam pre jazykovedný výskum, vývoj jazykových technológií a kultúrne dedičstvo Slovenska. Tento článok sa zameriava na priblíženie významu a použitia korpusu slovenského jazyka, s dôrazom na jeho prínos pre rôzne oblasti.

Úvod do problematiky korpusov

Korpus, ako reprezentatívny súbor textov a komunikátov daného jazyka, je v lingvistike známy už dávno. Úplne novú kvalitu a možnosti nadobudol až vďaka príchodu počítačov, pretože súbor textov mohol byť uložený na pamäťové médiá a spracúvaný pomocou programových nástrojov. Prvý takýto korpus elektronických textov (obsahujúci v súhrne jeden milión textových slov, tzv. tokens) bol vytvorený začiatkom šesťdesiatych rokov na Brownovej univerzite v USA. Posledných 15 rokov pozorujeme výrazný rast počtu korpusov národných jazykov so súčasným zväčšovaním ich objemu (dosahujúceho stovky miliónov textových slov). Tento trend je spôsobený nielen relatívnou dostupnosťou výkonnej výpočtovej techniky a elektronicky uložených textov, ale najmä presadením sa názoru, že opisy jazyka v podobe slovníkov a gramatík musia vychádzať z čo najväčšieho množstva objektívnym spôsobom zhromaždeného materiálu.

Definícia a charakteristika korpusu

Korpus je teda rozsiahly súbor elektronicky zapísaných textov pochádzajúcich od rôznych autorov, z rôznych médií (kníh, periodík, reklamných a informačných tlačovín, záznamov hovorených prejavov, internetu a pod.), z rozličných komunikačných tematických a žánrových oblastí (napr. historický román, humoristická poviedka, odborný článok o leteckej doprave, technická norma, text zákona, text zápisnice, záznam diskusie a pod.). Vzájomný pomer týchto textov je vopred určený na základe výskumov a mal by predstavovať reprezentatívnu vzorku určitého jazyka použiteľnú na základný a aplikovaný jazykovedný výskum. Texty zaraďované do korpusu prichádzajú z viacerých kanálov: prepisovaním do počítača, skenovaním, sťahovaním z internetu, získaním kópie z elektronickej sadzby. Texty získané z elektronickej sadzby kníh, časopisov a novín treba viacstupňovo čistiť. To znamená, že získané texty sa konvertujú do podoby čistého textu: odstraňujú sa obrázky a iné grafické prvky, riadiace kódy použitých textových editorov a kódovanie písmen sa transformuje do jednotnej kódovej tabuľky.

Veľkosť korpusu sa meria počtom textových slov (reťazec znakov medzi dvoma medzerami alebo interpunkčnými znamienkami) a kvalita korpusu sa meria spomínanou reprezentatívnosťou (vyváženosťou) a taktiež detailnosťou pripojenej bibliografickej anotácie (kategória zdrojového textu, autor textu, vydavateľstvo, rok vydania, žáner) a lingvistickej informácie o gramatických kategóriách každého textového slova uložených pomocou značiek SGML. Po vyčistení sa texty prevedú do jednotného formátu SGML (Standard Generalized Markup Language), čo je medzinárodne štandardizovaný spôsob označovania elektronicky uložených textov.

Dôležitosť korpusu pre jazykovedný výskum

Ak má byť jazykoveda empirickou disciplínou postavenou na veľkom množstve autentického materiálu a nemá byť len modelom jazyka skonštruovaným na vybraných jazykových javoch, potom stojí pred úlohou zbierať a spracúvať veľké množstvo jazykových dát. Závery robené na vybraných a obmedzených dátach majú primerane obmedzenú hodnotu. Platilo to vždy, ale nie vždy sa podľa toho dalo riadiť, pretože nebolo v silách kolektívov zhromaždiť lexikálnu kartotéku obsahujúcu stovky miliónov ručne napísaných excerpčných lístkov, čo predstavuje v priemere niekoľko stoviek dokladov na textové použitie slov tvoriacich heslár stredného slovníka (cca 150 tis. slov). Takže súčasná jazykoveda nemá inú alternatívu ako elektronizáciu materiálovej základne slovníkov, gramatík a iných príručiek. A práve korpus ako rozsiahly súbor textov uložených na pamäťových médiách predstavuje obrovskú viacúčelovú elektronickú kartotéku. V klasickej excerpčnej kartotéke sa uchováva záznam obsahujúci vybrané slovo v určitom jazykovom kontexte (1 - 3 vety) a hoci text na excerpčnom lístku obsahuje desiatky slov, vyhľadávanie je možné len podľa kľúčového slova, pretože podľa neho je kartotékový lístok zaradený. V korpuse, na rozdiel od kartotéky, sa spravidla uchovávajú úplné texty a vhodný vyhľadávací program nám umožňuje rýchlo vyhľadať výskyty akýchkoľvek zadaných slov a slovných spojení a umožňuje automatizovať ich následné vyhodnocovanie a spracovanie podľa rozličných aspektov. Najčastejším formátom, v ktorom používateľ dostáva informáciu z korpusu, je tzv. konkordancia hľadaného slova alebo slovného spojenia. Konkordancia slova má podobu súhrnu jeho výskytov v kontexte, ktorého povahu aj rozsah je možné voliť. Najčastejšie ide o jednoriadkový kontext (od začiatku do konca obrazovky), v ktorého strede je kľúčové slovo.

Prečítajte si tiež: Tajomstvo vláčneho korpusu

Využitie korpusu v lexikografii a tvorbe slovníkov

Moderný výkladový a prekladový slovník je výsledkom jazykovednej analýzy korpusu ako špecifickej databázy plniacej úlohu elektronickej kartotéky. Ale elektronicky uložený text slovníka takisto predstavuje databázu svojho druhu a zdroj informácií na ďalší jazykovedný výskum. Elektronický slovník nemusí byť len pendantom papierovej verzie. Môže to byť aj samostatný lexikografický produkt. Ďalším zaujímavým výstupom elektronizácie jazykovedy sú lexikálne, prípadne terminologické databázy. Lexikálne databázy majú vysoko štruktúrovanú podobu, údaje sú spoľahlivo uložené, klasifikované, dá sa nimi manipulovať a dajú sa ľahko vyhľadať. Heslo databázy obsahuje oveľa viac parametrov ako obyčajný slovník. Nie je technickým problémom vybudovať korpusy obsahujúce desiatky a stovky miliónov textových slov. Limitujúcim faktorom sú len finančné prostriedky. Zahraničné skúsenosti ukazujú, že jednozväzkový výkladový slovník obsahujúci 50 tisíc hesiel sa dá urobiť na základe 25 miliónov textových slov. Slovník stredného typu obsahujúci od 120 do 180 tisíc slov potrebuje minimálne 100 miliónový korpus. Je to preto, aby sa dosiahlo primerané množstvo výskytov (a teda dokladov použitia) na zriedkavé slová. Pri ručne vyhotovených kartotékach niekedy stačili na zaradenie do slovníka 2 - 3 doklady, aj od toho istého autora.

Korpus a počítačová lingvistika

Tvorba a využívanie textových korpusov, počítačových slovníkov, lexikálnych a terminologických databáz tvorí oblasť počítačovej lingvistiky nazývanej jazykové zdroje. Jazykové zdroje sa využívajú ako jazykové a jazykovedné dáta prístupné v rozličných formátoch (napr. v podobe slovníkového hesla, frekvenčného zoznamu rozličných slovných tvarov vyskytujúcich sa v korpuse, veľmi často v podobe konkordancie hľadaného slova.

Na prácu s korpusom je nevyhnutný softvér na rýchle vyhľadávanie jednotlivých slov a slovných spojení, ako aj na ich automatické vyhodnocovanie a spracovanie, napr. pomocou ich rozčlenenia do skupín s rovnakým kontextom. Iným nástrojom sú programy na automatizovanú morfologickú analýzu, ktoré v spolupráci s vyhľadávacím programom umožňujú lokalizovať aj výskyt hľadaných slov, ktoré v texte nie sú uvedené v základnom tvare nazývanom lema (napr. po zadaní kľúčového slova banka program vyhľadá aj spojenia s tvarmi banky, banke, bankou, bánk atď.). Určité programy dokážu interpretovať gramatický tvar všetkých slov korpuse (napr. pri tvare mier je značka interpretujúca tento reťazec grafém ako nominatív substantíva mužského rodu mier, genitív plurálu substantíva ženského rodu miera a imperatív slovesa mieriť), ďalej dokážu vyhľadať napr. všetky substantíva v genitíve plurálu s príponou -ár, prípadne postupnosť slov určitých gramatických tried (napr. slovesá s dvoma mennými doplneniami, z ktorých jedno je v akuzatíve a druhé v datíve).

Lingvistická anotácia korpusu

Aby programové nástroje mohli extrahovať informáciu z korpusu na úrovni gramatických tried slov a morfologických/syntaktických kategórií, je potrebné celý korpus takýmto typom informácie opatriť. Dodávanie lingvistickej informácie do korpusu sa volá lingvistická anotácia alebo značkovanie. V rámci automatickej morfologickej analýzy bola každému slovesnému tvaru priradená informácia o slovnom druhu a hodnotách príslušných morfologických kategórií, ktorá má podobu kombinácie čísel a písmen. Takéto priradenie značky, ako sme videli pri tvare mier, však nebýva jednoznačné. Výstupom morfologickej analýzy je reťazec všetkých možných značiek pre daný tvar. Väčšina počítačových aplikácií však vyžaduje, aby slovný tvar mal priradenú len jednu značku, tú, ktorá je v danom kontexte jedine správna. Proces selekcie správnej značky je možné uskutočniť ručne alebo automaticky. Pod ručným značkovaním sa chápe proces, v priebehu ktorého anotátor identifikuje v zozname navrhnutých značiek práve jednu značku správnu pre daný jazykový kontext. Automatické značkovanie znamená, že program na základe určitej metódy pridelí tvaru jednoznačnú značku bez zásahu anotátora. Väčšina metód automatického značkovania vychádza z ručne označkovaného textu, z ktorého čerpajú informácie pre vlastnú morfologickú analýzu. Čerpanie informácie sa označuje ako trénovanie a označkované texty ako trénovacie dáta. Súbor ručne označkovaných viet na analyticko-syntaktickej rovine slúži ako trénovacie dáta na vytvorenie pravdepodobnostne (stochasticky) orientovanej syntaktickej analýzy jazyka a súčasne ako empirický podklad pre jazykovedné monografie a výučbu jazyka. Trénovacie a testovacie dáta nevyhnutné v procese vývoja jazykového softvéru takisto môže poskytnúť iba korpus.

Jazykové technológie a korpus

Spomínané nástroje jazykovej analýzy tvoria nielen počítačovú podporu základného jazykovedného výskumu, ale často sú komponentom komplexnejších programových produktov, ktoré nazývame jazykové technológie, a využívajú sa tak v aplikovanej jazykovede (lexikografia, preklad a výučba jazykov), ako aj v iných odvetviach spoločenskej praxe. Ide o také produkty, ako používateľské rozhrania, systémy vyhľadávania metódou úplného textu (celotextové vyhľadávanie), programy na syntézu a analýzu rečového signálu, na generovanie administratívnych dokumentov, na automatické indexovanie a rešeršovanie, systémy počítačovej podpory prekladu, korektory pravopisu a štýlu, interaktívne jazykové učebnice a slovníky a pod. Jazykové technológie teda pokrývajú širokú škálu činností, ktorých cieľom je umožniť ľuďom extrahovať čo najviac informácií z jestvujúcich textov a použiť pri komunikácii s počítačom prirodzené jazykové zručnosti a návyky. Preto tvorba jazykových technológií je multidisciplinárnym podujatím vyžadujúcim znalosti z lingvistiky, psychológie, počítačových systémov a informatiky. Treba otvorene povedať, že väčšina základných programových nástrojov gramatickej a sémantickej analýzy (lematizátor, derivačný procesor, parser, resp. syntaktický analyzátor, extraktor ustálených spojení) nie je v prípade slovenčiny vytvorená. Otvára sa tu široký priestor na prácu študentov a doktorandov z odboru matematiky, informatiky, prípadne umelej inteligencie a aj priestor na spoluprácu jazykovedných pracovísk a pracovísk z oblasti matematicko-fyzikálnych vied a informatiky. Perspektívne treba uvažovať aj o vybudovaní odboru počítačová lingvistika, ktorý by vyškolil odborníkov v oblasti jazykových technológií, bez ktorých si informačnú spoločnosť 21. storočia nevieme predstaviť.

Prečítajte si tiež: Ako pripraviť bezlepkový pizza korpus

Kultúrny a spoločenský význam korpusu

V našom informačnom veku hrajú jazykové technológie kľúčovú úlohu. Počet tých, ktorí získavajú informácie prostredníctvom počítačových sietí, je obmedzený najmä dvoma faktormi: prístupom k počítačom a rozsahom počítačovej gramotnosti. Pretože dôležitosť interaktívnych sietí rastie tak v oblasti obchodu ako aj v bežnom živote, stáva sa absencia počítačových zručností pre mnohých ľudí vážnym handicapom. Práve pokrok v oblasti jazykových technológií ponúka prakticky univerzálny prístup k službám a informáciám poskytovaným cez sieť. Možno konštatovať, že s nástupom informačnej spoločnosti úloha jazykovedy vzrastá, ale náš vzdelávací systém túto skutočnosť zatiaľ reflektuje len v obmedzenej miere. Korpusy sú dnes vo svete prirodzenou súčasťou nielen jazykovedného výskumu a vývoja niektorých informačných systémov, ale aj kultúrnym fenoménom prístupným širokej verejnosti cez internet.

Projekt Národného korpusu slovenského jazyka

Vláda Slovenskej republiky schválila 13. 2. 2002 uznesením č. 137 projekt vybudovania Národného korpusu slovenského jazyka a elektronizácie jazykovedného výskumu. Predkladateľmi návrhu boli minister školstva SR, predseda Slovenskej akadémie vied a minister kultúry SR. Predmetom navrhovaného projektu je vybudovať pracovisko Národného korpusu slovenského jazyka a organizačne, materiálno-technicky a personálne ho zabezpečiť v rokoch 2002 - 2006. Národný korpus by mal byť svojím poslaním celonárodnou inštitúciou, ktorá by prostredníctvom internetu slúžila celej kultúrnej verejnosti Slovenskej republiky. Vzhľadom na súčasné financovanie vedy na Slovensku by sa Národný korpus dal len ťažko vybudovať ako vedecký projekt Jazykovedného ústavu Ľ. Štúra SAV financovaný prostredníctvom agentúr na podporu vedy. Tvorba národného korpusu slovenského jazyka je aj súčasťou Koncepcie starostlivosti o štátny jazyk, ktorej garantom je Ministerstvo kultúry SR. Ide o to, že tento dokument sa zaoberá aj otázkami podpory štátu pri budovaní materiálno-technického vybavenia vedeckého pracoviska s kodifikačnou pôsobnosťou v oblasti spisovného jazyka.

Keďže projekt Národného korpusu slovenského jazyka súvisí s realizáciou Koncepcie starostlivosti o štátny jazyk Slovenskej republiky, ktorej viaceré úlohy zabezpečuje Jazykovedný ústav Ľ. Štúra SAV, ako aj vzhľadom na fakt, že Jazykovedný ústav Ľ. Štúra už určité skúsenosti s budovaním textovej databázy má, utvorili sa predpoklady, aby pracovisko budujúce Národný korpus bolo samostatným oddelením v rámci tohto ústavu. Za toto riešenie hovoria aj ekonomicko-organizačné dôvody (usporené finančné prostriedky na obslužné činnosti). Národný korpus sa bude budovať 5 rokov a jeho plánovaná veľkosť je 200 mil. textových slov. Cieľom budovania plánovaného Národného korpusu je zachytiť jazyk v celej jeho šírke (novinové texty, beletria, odborné publikácie, hovorený jazyk a pod.) na základe lingvisticky zdôvodnených kritérií a tým vytvoriť objektívny a autentický zdroj jazykovej informácie, ktorý by bol materiálovým východiskom na všestranný jazykovedný výskum, tvorbu základných akademických diel (viaczväzkového slovníka súčasnej slovenčiny, ortoepického slovníka, retrográdneho slovníka, akademickej gramatiky a lexikológie slovenského jazyka), ako aj aktualizáciu.

Príklad spolupráce: Opera Slovakia a Slovenský národný korpus

Bratislava - Portál Opera Slovakia poskytol obsah celého webu na nekomerčnú výskumnú činnosť slovenského jazyka. Na základe požiadavky Jazykovedného ústavu Ľudovíta Štúra Slovenskej akadémie vied bude obsah portálu Opera Slovakia v neobmedzenom rozsahu a na dobu neurčitú slúžiť na nekomerčné účely výskumu slovenského jazyka. Obsah je poskytnutý na základe licenčnej zmluvy, ktorej predmetom je poskytnutie diela do automatizovaného celku nazývaného Slovenský národný korpus. Slovenský národný korpus je elektronická databáza primárne obsahujúca slovenské texty od r. 1955 z rôznych štýlov, žánrov, vecných oblastí, regiónov a pod. v rozsahu poskytnutom autormi a majiteľmi autorských a/alebo distribučných práv na základe licenčnej zmluvy. Medzi poskytovateľmi textov sú viaceré inštitúcie a organizácie, ale aj jednotliví autori a prispievatelia z rozličných oblastí, medzi ktorých sa od októbra 2014 zaradil aj portál Opera Slovakia. Slovenský národný korpus je zároveň vedecko-výskumný projekt tvorby celého komplexu slovenských elektronických jazykových zdrojov (slovníkové databázy a paralelné korpusy, napr. ,,Som veľmi rád, že obsah portálu Opera Slovakia natoľko zaujal jazykovedcov, že sa na nás obrátili s požiadavkou zaradiť ho do databázy poskytovateľov textov Slovenského národného korpusu. Naše články tak nadobudnú pre Slovensko hlbší význam a pomôžu spoznávať používanie slovenského jazyka v oblasti opery a klasickej hudby. Opera Slovakia o.z.

Prečítajte si tiež: Korpusy a plnky na torty