Odhaľte Tajomstvá Jazykových Korpusov: Čo Sú a Ako Vyzerajú?

Rate this post

Úvod

Jazykový korpus predstavuje rozsiahly a štruktúrovaný súbor textov v elektronickej podobe, ktorý slúži ako základný zdroj dát pre jazykovedný výskum, vývoj jazykových technológií a ďalšie aplikácie. Vďaka počítačom a špeciálnemu softvéru je možné s korpusom efektívne pracovať, analyzovať ho a získavať cenné informácie o fungovaní jazyka.

Definícia a charakteristika jazykového korpusu

Korpus je reprezentatívny súbor textov a komunikátov daného jazyka. Vďaka príchodu počítačov nadobudol úplne novú kvalitu a možnosti, pretože súbor textov mohol byť uložený na pamäťové médiá a spracúvaný pomocou programových nástrojov. Prvý takýto korpus elektronických textov (obsahujúci v súhrne jeden milión textových slov, tzv. tokens) bol vytvorený začiatkom šesťdesiatych rokov na Brownovej univerzite v USA.

Korpus je rozsiahly súbor elektronicky zapísaných textov pochádzajúcich od rôznych autorov, z rôznych médií (kníh, periodík, reklamných a informačných tlačovín, záznamov hovorených prejavov, internetu a pod.), z rozličných komunikačných tematických a žánrových oblastí (napr. historický román, humoristická poviedka, odborný článok o leteckej doprave, technická norma, text zákona, text zápisnice, záznam diskusie a pod.). Vzájomný pomer týchto textov je vopred určený na základe výskumov a mal by predstavovať reprezentatívnu vzorku určitého jazyka použiteľnú na základný a aplikovaný jazykovedný výskum.

Získavanie a spracovanie textov pre korpus

Texty zaraďované do korpusu prichádzajú z viacerých kanálov: prepisovaním do počítača, skenovaním, sťahovaním z internetu, získaním kópie z elektronickej sadzby. Texty získané z elektronickej sadzby kníh, časopisov a novín treba viacstupňovo čistiť. To znamená, že získané texty sa konvertujú do podoby čistého textu: odstraňujú sa obrázky a iné grafické prvky, riadiace kódy použitých textových editorov a kódovanie písmen sa transformuje do jednotnej kódovej tabuľky. Po vyčistení sa texty prevedú do jednotného formátu SGML (Standard Generalized Markup Language), čo je medzinárodne štandardizovaný spôsob označovania elektronicky uložených textov.

Metriky korpusu: Veľkosť a kvalita

Veľkosť korpusu sa meria počtom textových slov (reťazec znakov medzi dvoma medzerami alebo interpunkčnými znamienkami) a kvalita korpusu sa meria spomínanou reprezentatívnosťou (vyváženosťou) a taktiež detailnosťou pripojenej bibliografickej anotácie (kategória zdrojového textu, autor textu, vydavateľstvo, rok vydania, žáner) a lingvistickej informácie o gramatických kategóriách každého textového slova uložených pomocou značiek SGML.

Prečítajte si tiež: Kváskový chlieb a zdravie

Dimenzie jazykového korpusu

Korpus má viacero dimenzií:

Je prirodzenou súčasťou základného a aplikovaného jazykovedného výskumu.
Hrá dôležitú úlohu vo vývoji informačných technológií.
Má status kultúrneho fenoménu, pretože predstavuje pokladnicu jednej z najdôležitejších zložiek kultúrneho dedičstva národného jazyka

Ak má byť jazykoveda empirickou disciplínou postavenou na veľkom množstve autentického materiálu a nemá byť len modelom jazyka skonštruovaným na vybraných jazykových javoch, potom stojí pred úlohou zbierať a spracúvať veľké množstvo jazykových dát. Závery robené na vybraných a obmedzených dátach majú primerane obmedzenú hodnotu. Platilo to vždy, ale nie vždy sa podľa toho dalo riadiť, pretože nebolo v silách kolektívov zhromaždiť lexikálnu kartotéku obsahujúcu stovky miliónov ručne napísaných excerpčných lístkov, čo predstavuje v priemere niekoľko stoviek dokladov na textové použitie slov tvoriacich heslár stredného slovníka (cca 150 tis. slov). Takže súčasná jazykoveda nemá inú alternatívu ako elektronizáciu materiálovej základne slovníkov, gramatík a iných príručiek. A práve korpus ako rozsiahly súbor textov uložených na pamäťových médiách predstavuje obrovskú viacúčelovú elektronickú kartotéku. V klasickej excerpčnej kartotéke sa uchováva záznam obsahujúci vybrané slovo v určitom jazykovom kontexte (1 - 3 vety) a hoci text na excerpčnom lístku obsahuje desiatky slov, vyhľadávanie je možné len podľa kľúčového slova, pretože podľa neho je kartotékový lístok zaradený. V korpuse, na rozdiel od kartotéky, sa spravidla uchovávajú úplné texty a vhodný vyhľadávací program nám umožňuje rýchlo vyhľadať výskyty akýchkoľvek zadaných slov a slovných spojení a umožňuje automatizovať ich následné vyhodnocovanie a spracovanie podľa rozličných aspektov. Najčastejším formátom, v ktorom používateľ dostáva informáciu z korpusu, je tzv. konkordancia hľadaného slova alebo slovného spojenia. Konkordancia slova má podobu súhrnu jeho výskytov v kontexte, ktorého povahu aj rozsah je možné voliť. Najčastejšie ide o jednoriadkový kontext (od začiatku do konca obrazovky), v ktorého strede je kľúčové slovo. Nie je technickým problémom vybudovať korpusy obsahujúce desiatky a stovky miliónov textových slov. Limitujúcim faktorom sú len finančné prostriedky. Zahraničné skúsenosti ukazujú, že jednozväzkový výkladový slovník obsahujúci 50 tisíc hesiel sa dá urobiť na základe 25 miliónov textových slov. Slovník stredného typu obsahujúci od 120 do 180 tisíc slov potrebuje minimálne 100 miliónový korpus. Je to preto, aby sa dosiahlo primerané množstvo výskytov (a teda dokladov použitia) na zriedkavé slová. Pri ručne vyhotovených kartotékach niekedy stačili na zaradenie do slovníka 2 - 3 doklady, aj od toho istého autora.

Korpus a počítačová lingvistika

Moderný výkladový a prekladový slovník je teda výsledkom jazykovednej analýzy korpusu ako špecifickej databázy plniacej úlohu elektronickej kartotéky. Ale elektronicky uložený text slovníka takisto predstavuje databázu svojho druhu a zdroj informácií na ďalší jazykovedný výskum. Elektronický slovník nemusí byť len pendantom papierovej verzie. Môže to byť aj samostatný lexikografický produkt. Ďalším zaujímavým výstupom elektronizácie jazykovedy sú lexikálne, prípadne terminologické databázy. Lexikálne databázy majú vysoko štruktúrovanú podobu, údaje sú spoľahlivo uložené, klasifikované, dá sa nimi manipulovať a dajú sa ľahko vyhľadať. Heslo databázy obsahuje oveľa viac parametrov ako obyčajný slovník.

Tvorba a využívanie textových korpusov, počítačových slovníkov, lexikálnych a terminologických databáz tvorí oblasť počítačovej lingvistiky nazývanej jazykové zdroje. Jazykové zdroje sa využívajú ako jazykové a jazykovedné dáta prístupné v rozličných formátoch (napr. v podobe slovníkového hesla, frekvenčného zoznamu rozličných slovných tvarov vyskytujúcich sa v korpuse, veľmi často v podobe konkordancie hľadaného slova.

Nástroje na prácu s korpusom

Na prácu s korpusom je nevyhnutný softvér na rýchle vyhľadávanie jednotlivých slov a slovných spojení, ako aj na ich automatické vyhodnocovanie a spracovanie, napr. pomocou ich rozčlenenia do skupín s rovnakým kontextom. Iným nástrojom sú programy na automatizovanú morfologickú analýzu, ktoré v spolupráci s vyhľadávacím programom umožňujú lokalizovať aj výskyt hľadaných slov, ktoré v texte nie sú uvedené v základnom tvare nazývanom lema (napr. po zadaní kľúčového slova banka program vyhľadá aj spojenia s tvarmi banky, banke, bankou, bánk atď.). Určité programy dokážu interpretovať gramatický tvar všetkých slov korpuse (napr. pri tvare mier je značka interpretujúca tento reťazec grafém ako nominatív substantíva mužského rodu mier, genitív plurálu substantíva ženského rodu miera a imperatív slovesa mieriť), ďalej dokážu vyhľadať napr. všetky substantíva v genitíve plurálu s príponou -ár, prípadne postupnosť slov určitých gramatických tried (napr. slovesá s dvoma mennými doplneniami, z ktorých jedno je v akuzatíve a druhé v datíve). Aby programové nástroje mohli extrahovať informáciu z korpusu na úrovni gramatických tried slov a morfologických/syntaktických kategórií, je potrebné celý korpus takýmto typom informácie opatriť. Dodávanie lingvistickej informácie do korpusu sa volá lingvistická anotácia alebo značkovanie.

Prečítajte si tiež: Objavte kôstkové ovocie

Lingvistická anotácia a jej význam

Ako vyzerá označkovaný korpus? V rámci automatickej morfologickej analýzy bola každému slovesnému tvaru priradená informácia o slovnom druhu a hodnotách príslušných morfologických kategórií, ktorá má podobu kombinácie čísel a písmen. Takéto priradenie značky, ako sme videli pri tvare mier, však nebýva jednoznačné. Výstupom morfologickej analýzy je reťazec všetkých možných značiek pre daný tvar. Väčšina počítačových aplikácií však vyžaduje, aby slovný tvar mal priradenú len jednu značku, tú, ktorá je v danom kontexte jedine správna. Proces selekcie správnej značky je možné uskutočniť ručne alebo automaticky. Pod ručným značkovaním sa chápe proces, v priebehu ktorého anotátor identifikuje v zozname navrhnutých značiek práve jednu značku správnu pre daný jazykový kontext. Automatické značkovanie znamená, že program na základe určitej metódy pridelí tvaru jednoznačnú značku bez zásahu anotátora. Väčšina metód automatického značkovania vychádza z ručne označkovaného textu, z ktorého čerpajú informácie pre vlastnú morfologickú analýzu. Čerpanie informácie sa označuje ako trénovanie a označkované texty ako trénovacie dáta. Súbor ručne označkovaných viet na analyticko-syntaktickej rovine slúži ako trénovacie dáta na vytvorenie pravdepodobnostne (stochasticky) orientovanej syntaktickej analýzy jazyka a súčasne ako empirický podklad pre jazykovedné monografie a výučbu jazyka. Trénovacie a testovacie dáta nevyhnutné v procese vývoja jazykového softvéru takisto môže poskytnúť iba korpus.

Jazykové technológie a ich využitie

Spomínané nástroje jazykovej analýzy tvoria nielen počítačovú podporu základného jazykovedného výskumu, ale často sú komponentom komplexnejších programových produktov, ktoré nazývame jazykové technológie, a využívajú sa tak v aplikovanej jazykovede (lexikografia, preklad a výučba jazykov), ako aj v iných odvetviach spoločenskej praxe. Ide o také produkty, ako používateľské rozhrania, systémy vyhľadávania metódou úplného textu (celotextové vyhľadávanie), programy na syntézu a analýzu rečového signálu, na generovanie administratívnych dokumentov, na automatické indexovanie a rešeršovanie, systémy počítačovej podpory prekladu, korektory pravopisu a štýlu, interaktívne jazykové učebnice a slovníky a pod. Jazykové technológie teda pokrývajú širokú škálu činností, ktorých cieľom je umožniť ľuďom extrahovať čo najviac informácií z jestvujúcich textov a použiť pri komunikácii s počítačom prirodzené jazykové zručnosti a návyky. Preto tvorba jazykových technológií je multidisciplinárnym podujatím vyžadujúcim znalosti z lingvistiky, psychológie, počítačových systémov a informatiky.

V našom informačnom veku hrajú jazykové technológie kľúčovú úlohu. Počet tých, ktorí získavajú informácie prostredníctvom počítačových sietí, je obmedzený najmä dvoma faktormi: prístupom k počítačom a rozsahom počítačovej gramotnosti. Pretože dôležitosť interaktívnych sietí rastie tak v oblasti obchodu ako aj v bežnom živote, stáva sa absencia počítačových zručností pre mnohých ľudí vážnym handicapom. Práve pokrok v oblasti jazykových technológií ponúka prakticky univerzálny prístup k službám a informáciám poskytovaným cez sieť. Možno konštatovať, že s nástupom informačnej spoločnosti úloha jazykovedy vzrastá, ale náš vzdelávací systém túto skutočnosť zatiaľ reflektuje len v obmedzenej miere.

Národný korpus slovenského jazyka

Korpusy sú dnes vo svete prirodzenou súčasťou nielen jazykovedného výskumu a vývoja niektorých informačných systémov, ale aj kultúrnym fenoménom prístupným širokej verejnosti cez internet. Tvorba národného korpusu slovenského jazyka je aj súčasťou Koncepcie starostlivosti o štátny jazyk, ktorej garantom je Ministerstvo kultúry SR. Ide o to, že tento dokument sa zaoberá aj otázkami podpory štátu pri budovaní materiálno-technického vybavenia vedeckého pracoviska s kodifikačnou pôsobnosťou v oblasti spisovného jazyka.

V krajinách, v ktorých napreduje rozvoj jazykových zdrojov primerane, budovaním korpusu sa zaoberá buď špecializovaná inštitúcia, alebo aspoň početný pracovný kolektív. V prevažnej väčšine prípadov táto inštitúcia funguje na akademickej pôde. Keďže projekt Národného korpusu slovenského jazyka súvisí s realizáciou Koncepcie starostlivosti o štátny jazyk Slovenskej republiky, ktorej viaceré úlohy zabezpečuje Jazykovedný ústav Ľ. Štúra SAV, ako aj vzhľadom na fakt, že Jazykovedný ústav Ľ. Štúra už určité skúsenosti s budovaním textovej databázy má, utvorili sa predpoklady, aby pracovisko budujúce Národný korpus bolo samostatným oddelením v rámci tohto ústavu. Za toto riešenie hovoria aj ekonomicko-organizačné dôvody (usporené finančné prostriedky na obslužné činnosti). Národný korpus sa bude budovať 5 rokov a jeho plánovaná veľkosť je 200 mil. textových slov. Cieľom budovania plánovaného Národného korpusu je zachytiť jazyk v celej jeho šírke (novinové texty, beletria, odborné publikácie, hovorený jazyk a pod.) na základe lingvisticky zdôvodnených kritérií a tým vytvoriť objektívny a autentický zdroj jazykovej informácie, ktorý by bol materiálovým východiskom na všestranný jazykovedný výskum, tvorbu základných akademických diel (viaczväzkového slovníka súčasnej slovenčiny, ortoepického slovníka, retrográdneho slovníka, akademickej gramatiky a lexikológie slovenského jazyka), ako aj aktualizáciu jestvujúcich príručiek.

Prečítajte si tiež: Hoki: Ako pripraviť túto cenovo dostupnú rybu?