Anglicko-slovenský paralelný korpus: nástroj pre jazykový výskum a preklad

Rate this post

Slovenský národný korpus (SNK) je rozsiahly vedecko-výskumný projekt, ktorého cieľom je budovanie elektronickej základnej slovnej zásoby slovenského jazyka. Táto databáza, ktorá predstavuje špecifický súbor jazykových dát, slúži ako východiskový lexikálny materiál obohatený o lingvistické informácie na rôznych úrovniach - od slova po celý text. Vďaka výkonným vyhľadávacím nástrojom umožňuje SNK lingvistom skúmať a triediť jazykové prostriedky a informácie, a tak opisovať významy a funkcie slov a jazykových javov na základe autentického jazykového materiálu.

Čo je to korpus?

Korpus, podobne ako v kuchyni, je základom, východiskovým lexikálnym materiálom, do ktorého sa pridávajú lingvistické informácie (morfologické, syntaktické a pod.). Slovenský národný korpus je teda vedecko-výskumný projekt budovania elektronickej základnej slovnej zásoby, ktorý predstavuje špecifický súbor jazykových dát. Jeho základom sú texty zvyčajne rôznych štýlov, žánrov a vecných oblastí, ku ktorým sa pridávajú lingvistické informácie na úrovni slova, vety aj celého textu. Výkonné vyhľadávacie nástroje potom umožňujú vyhľadávanie a triedenie skúmaných jazykových prostriedkov a informácií. Na základe tohto autentického jazykového materiálu lingvisti opisujú významy a funkcie slov i ďalších jazykových javov.

Využitie Slovenského národného korpusu

SNK má široké spektrum využitia, od lexikografie po výučbu jazykov.

  • Lexikografické využitie: Korpusy sa budujú na podporu tvorby slovníkov a lexikografi sú ich častými používateľmi.
  • Nelingvistické aplikácie: Zoznamy slov, spoločné výskyty slov a frekvencia slov sa používajú v systémoch na spracovanie textov (kontrola pravopisu, strojový preklad) a systémoch na rozpoznávanie reči.
  • Výučba jazykov: Korpus je zdrojom príkladov pri výučbe slovenčiny ako cudzieho alebo materinského jazyka. Učebné programy môžu obsahovať slovník s menším korpusom, kde sa dajú slová prezerať v reálnom kontexte.

Štruktúra a obsah SNK

SNK tvorí iba 8 pracovníkov, čo je v porovnaní s Českou republikou (približne sto ľudí) zlomok. Korpus obsahuje:

  • Korpus písaných textov (Quark v databáze SNK)
  • Lingvistické zdroje a slovníky (kodifikačné príručky a publikácie Jazykovedného ústavu Ľ. Štúra SAV)

Texty sa získavajú na základe licenčnej zmluvy s autormi. Používatelia nemajú prístup k celým textom, ale iba k 100-slovnému kontextu, v ktorom sa nachádza hľadaný jazykový prostriedok. Každý text má bibliografickú a štýlovo-žánrovú anotáciu. Každému slovu je priradený základný tvar a informácia o morfologických kategóriách. Používatelia vyhľadávajú jazykové informácie pomocou korpusového manažéra Manatee a klienta Bonito z Fakulty informatiky Masarykovej univerzity v Brne.

Prečítajte si tiež: Sviatok jari v Anglicku

K dispozícii sú rôzne korpusy:

  • Veľký korpus (okolo 350 miliónov slov)
  • Menší štýlovo vyvážený korpus
  • Korpus umeleckej, publicistickej alebo odbornej literatúry
  • Ručne morfologicky anotovaný korpus
  • Paralelné korpusy (rusko-slovenský, francúzsko-slovenský, pripravujú sa chorvátsko-slovenský, česko-slovenský, nemecko-slovenský a anglicko-slovenský)

Paralelné korpusy v SNK

Paralelné korpusy sú špecifickou súčasťou SNK, ktorá ponúka rozsiahle možnosti pre komparatívny jazykový výskum a aplikácie v oblasti prekladu. Každý paralelný korpus obsahuje dvojjazyčné texty, ktoré sú identické svojim obsahom, pričom ide o vzájomné preklady alebo preklady z tretieho jazyka.

Získavanie textov pre paralelné korpusy

Slovenské texty, prevažne preklady, sú do paralelných korpusov zaraďované na základe licenčnej zmluvy. Cudzojazyčné texty sa získavajú z internetových zdrojov. Autorské práva sa nevzťahujú na texty európskej legislatívy, ktoré sú súčasťou anglicko-slovenského, bulharsko-slovenského, česko-slovenského, francúzsko-slovenského, maďarsko-slovenského a nemecko-slovenského paralelného korpusu.

Spárovanie viet a smer vyhľadávania

Texty v paralelných korpusoch SNK sú spárované na úrovni viet, čo umožňuje presné porovnávanie prekladových ekvivalentov. Hoci každý paralelný korpus ponúka obojstranné vyhľadávanie, smer vyhľadávania zo slovenčiny do cudzieho jazyka nemusí vždy znamenať, že ide o originálne slovenské texty a naopak. Pri veľkých jazykoch, ako je angličtina, nemčina či francúzština, je pôvodným jazykom takmer alebo úplne všetkých textov práve cudzí jazyk. Pomer pôvodného a prekladového jazyka textov je pri ostatných paralelných korpusoch rôzny. Napríklad pri slovensko-českom paralelnom korpuse tvoria vyše 53 % texty, ktorých pôvodný jazyk je slovenčina, kým čeština je pôvodným jazykom len vyše 20 % textov.

Význam anglicko-slovenského paralelného korpusu

Anglicko-slovenský paralelný korpus zohráva kľúčovú úlohu v prekladateľskom a jazykovednom výskume. Umožňuje:

Prečítajte si tiež: Originálne recepty na Veľkonočnú tortu

  • Analýzu prekladových stratégií a techník medzi angličtinou a slovenčinou.
  • Identifikáciu typických prekladových ekvivalentov a kolokácií.
  • Vývoj a testovanie systémov strojového prekladu.
  • Zlepšenie kvality prekladov a výučby prekladu.
  • Skúmanie vplyvu angličtiny na slovenský jazyk a naopak.

Ďalšie súčasti SNK

Okrem paralelných korpusov ponúka SNK aj ďalšie cenné zdroje:

  • Nárečový korpus: Obsahuje textové prepisy nárečových zvukových alebo transkribovaných záznamov v elektronickom formáte.
  • Historické korpusy: Obsahujú texty v slovenskom jazyku, ktoré vznikli pred rokom 1955.
  • Webový korpus: Obsahuje slovenské texty dostupné na webovej stránke, ktoré boli automaticky stiahnuté a následne spracované.

Slovenská terminologická databáza

Slovenská terminologická databáza predstavuje jeden z najnovších príspevkov Jazykovedného ústavu Ľudovíta Štúra. Z odborných textov v korpuse sa postupne plánuje automatizovaný výber pojmov a súvislostí. Databáza odpovedá na požiadavku odborných kruhov a širokej verejnosti koordinovať vývoj jednotlivých terminológií a celkovú odbornú komunikáciu v slovenčine. Skúšobná verzia databázy v súčasnosti obsahuje vyše 3 000 terminologických záznamov z 11 oblastí.

Budúcnosť SNK

Oddelenie SNK plánuje ďalšie rozšírenie a vylepšenie korpusu, vrátane tvorby kolokačného, retrográdneho a frekvenčného slovníka. Základné frekvenčné zoznamy sú sprístupňované na internete vždy s novou verziou korpusu.

Prečítajte si tiež: Anglicko vs. Slovensko: Ceny donášky