Nemecko-slovenský paralelný korpus: Nástroj pre jazykový výskum a strojový preklad

Rate this post

Slovenský národný korpus (SNK) predstavuje rozsiahly a systematicky budovaný zdroj textových a zvukových dát v slovenskom jazyku. Jeho súčasťou sú aj paralelné korpusy, ktoré ponúkajú jedinečnú možnosť porovnávania textov v rôznych jazykoch. Medzi ne patrí aj nemecko-slovenský paralelný korpus, ktorý je cenným nástrojom pre jazykový výskum, prekladateľstvo a vývoj systémov strojového prekladu. Tento článok poskytuje komplexný pohľad na nemecko-slovenský paralelný korpus, jeho štruktúru, využitie a význam.

Čo je korpus?

Na úvod je dôležité definovať, čo vlastne korpus je a na čo slúži. Korpus nie je elektronická knižnica ani nenahrádza kodifikačné príručky. Ide o rozsiahly súbor textov, ktoré sú reprezentatívne pre daný jazyk alebo jeho špecifickú oblasť. Korpusy sa využívajú na lingvistický výskum, analýzu jazykových javov, tvorbu slovníkov a gramatík, vývoj nástrojov na spracovanie prirodzeného jazyka a v neposlednom rade aj na strojový preklad.

Korpusový materiál sa najčastejšie získava priamo v elektronickej podobe, menej často prostredníctvom technického spracovania tlačených diel. Následne prebiehajú technické fázy, ako odstraňovanie znakov a symbolov editačných softvérov, konverzia do jednotného formátu a segmentácia textu na menšie jednotky. Takto upravený text sa môže ďalej značkovať, čím sa pridávajú dodatočné informácie, ako bibliografické údaje, informácie o štruktúre textu a jazykové informácie na úrovni slov (slovný druh, základný tvar - lema) alebo viet (funkcia vo vete, sémantika).

Typy korpusov v SNK

Slovenský národný korpus ponúka rôzne typy korpusov, ktoré sa líšia svojim zameraním a obsahom. Medzi hlavné typy patria:

  • Hlavný korpus (prim): Obsahuje písané texty súčasného slovenského jazyka z rôznych štýlov, žánrov a vecných oblastí, ktoré vznikli po roku 1955.
  • Špecializované korpusy: Zameriavajú sa na konkrétne oblasti, napríklad ekonomické texty.
  • Nárečový korpus: Obsahuje prepisy nárečových zvukových alebo transkribovaných záznamov.
  • Historické korpusy: Obsahujú texty v slovenskom jazyku, ktoré vznikli pred rokom 1955.
  • Webový korpus: Obsahuje slovenské texty dostupné na internete.
  • Paralelné korpusy: Obsahujú identické texty v dvoch rôznych jazykoch, pričom ide o vzájomné preklady alebo preklady z tretieho jazyka.
  • Hovorené korpusy: Pozostávajú zo zvukových nahrávok prepojených s prepisom zaznamenaných prehovorov.

Paralelné korpusy v SNK

Paralelné korpusy zohrávajú dôležitú úlohu v oblasti prekladateľstva a strojového prekladu. Každý paralelný korpus obsahuje identické texty v dvoch rôznych jazykoch, pričom môže ísť o vzájomné preklady alebo preklady z tretieho jazyka. Slovenské texty, v prevažnej väčšine preklady, sú do týchto korpusov zaraďované na základe licenčnej zmluvy, cudzojazyčné texty sa pre tento účel získavajú z internetových zdrojov. Na časť zaradených textov do anglicko-slovenského, bulharsko-slovenského, česko-slovenského, francúzsko-slovenského, maďarsko-slovenského a nemecko-slovenského paralelného korpusu sa autorské práva nevzťahujú, keďže ide o texty európskej legislatívy.

Prečítajte si tiež: Aktuality z Hamburgu: Prehľad mesta

Texty v paralelných korpusoch SNK sú spárované na úrovni viet. Hoci každý paralelný korpus oddelenia SNK ponúka obojstranné vyhľadávanie, neznamená to, že v smere zo slovenčiny do cudzieho jazyka ide vždy o originálne slovenské texty a v opačnom smere o originálne cudzojazyčné texty. V prípade veľkých jazykov, ako je angličtina, nemčina či francúzština, je pôvodným jazykom takmer alebo úplne všetkých textov práve cudzí jazyk. Pomer pôvodného a prekladového jazyka textov je pri ostatných paralelných korpusoch rôzny - napríklad pri slovensko-českom paralelnom korpuse tvoria vyše 53 % texty, ktorých pôvodný jazyk je slovenčina, kým čeština je pôvodným jazykom len vyše 20 % textov.

Nemecko-slovenský paralelný korpus: Podrobný pohľad

Nemecko-slovenský paralelný korpus (par-skde) je špecifický typ paralelného korpusu, ktorý obsahuje texty v slovenskom a nemeckom jazyku. Ide o vzájomné preklady z oboch jazykov, teda texty v slovenskom jazyku preložené do nemeckého jazyka a opačne, ako aj preklady z iných jazykov do slovenčiny a nemčiny. Texty sú v korpuse v takej podobe, ako boli napísané, resp. vydané, v starších beletristických dielach je zachovaný dobový pravopis. Texty sú automaticky zarovnané po vetách. Slovenské texty sú automaticky morfologicky anotované tagermi Morče a MorphoDiTa natrénovanými v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, nemecké texty sú anotované tagerom TreeTagger.

Štruktúra a obsah

Nemecko-slovenský paralelný korpus sa skladá z dvoch hlavných častí:

  • Podkorpus beletrie: Obsahuje preklady literárnych diel, ako sú romány, poviedky a divadelné hry.
  • Podkorpus voľne dostupných textov: Obsahuje najmä dokumenty Európskej únie.

Dostupné verzie a rozsahy

Korpus par-skde bol sprístupnený v niekoľkých verziách, ktoré sa líšia rozsahom:

  • Verzia 3.0 (par-skde-3.0): Sprístupnená 24. februára 2022 v rozsahu takmer 468 miliónov tokenov (229,9 milióna tokenov v slovenskej časti a 238,1 milióna tokenov v nemeckej časti).
  • Verzia 2.0 (par-skde-2.0): Sprístupnená 25. mája 2016 v rozsahu takmer 446 miliónov tokenov (219,8 milióna tokenov v slovenskej časti a 226,4 milióna tokenov v nemeckej časti).
  • Verzia 1.0 (par-skde-1.0): Sprístupnená 15. decembra 2014 v rozsahu takmer 263 miliónov tokenov (129,5 milióna tokenov v slovenskej časti a 133 miliónov tokenov v nemeckej časti). Podkorpus beletrie obsahoval 7,5 mil. tokenov.

Prístup a vyhľadávanie

Pre vyhľadávanie v nemecko-slovenskom paralelnom korpuse sú dostupné rôzne nástroje:

Prečítajte si tiež: Tradičná nemecká kuchyňa

  • NoSketch Engine: V osobitnom podkorpuse beletrie sa dá vyhľadávať v NoSketch Engine v nemeckej časti a v slovenskej časti.
  • Celý korpus: V celom slovensko-nemeckom paralelnom korpuse sa dá vyhľadávať po registrácii v nástroji NoSketchEngine v nemeckej časti a v slovenskej časti. Vyžadujú sa znalosti práce s NoSketch Engine a CQL (Corpus Query Language).

Využitie nemecko-slovenského paralelného korpusu

Nemecko-slovenský paralelný korpus ponúka široké spektrum využitia v rôznych oblastiach:

  • Jazykový výskum: Umožňuje porovnávať jazykové štruktúry, frekvenciu slov a slovných spojení v slovenčine a nemčine. Lingvisti môžu analyzovať prekladové ekvivalenty, identifikovať typické prekladateľské postupy a skúmať vplyv jedného jazyka na druhý.
  • Prekladateľstvo: Poskytuje prekladateľom cenný zdroj informácií o existujúcich prekladoch, terminológii a frazeológii. Môže slúžiť ako inšpirácia pri hľadaní vhodných prekladových riešení a overovaní správnosti prekladu.
  • Strojový preklad: Je neoceniteľným zdrojom dát pre trénovanie systémov strojového prekladu. Paralelné korpusy umožňujú naučiť počítač prekladať texty z jedného jazyka do druhého na základe existujúcich prekladov.
  • Výučba jazykov: Môže byť využitý pri výučbe slovenčiny a nemčiny ako cudzieho jazyka. Študenti si môžu porovnávať originálne texty s prekladmi a učiť sa nové slová a gramatické štruktúry v kontexte.
  • Tvorba slovníkov a terminologických databáz: Paralelné korpusy sú užitočné pri tvorbe slovníkov a terminologických databáz, pretože poskytujú informácie o prekladových ekvivalentoch a kontextuálnom použití slov a termínov.

Strojový preklad s využitím neurónových sietí

V súčasnosti sa na strojový preklad čoraz častejšie využívajú neurónové siete. Neurónový strojový preklad (NMT) je prístup k strojovému prekladu, ktorý využíva rozsiahle neurónové siete na modelovanie pravdepodobnosti prekladu sekvencie slov. Na rozdiel od tradičných prístupov, ktoré sa spoliehajú na manuálne vytvorené pravidlá a štatistické modely, NMT sa učí prekladať priamo z dát.

Ako funguje neurónový strojový preklad?

Neurónové siete používané na strojový preklad sa zvyčajne skladajú z dvoch hlavných častí:

  • Enkóder: Enkóder spracuje vstupnú vetu v zdrojovom jazyku a vytvorí jej vektorovú reprezentáciu, ktorá zachytáva jej význam.
  • Dekóder: Dekóder prijíma vektorovú reprezentáciu od enkódera a generuje preklad vo výstupnom jazyku.

Celý proces prekladu prebieha nasledovne:

  1. Vstupná veta sa rozdelí na jednotlivé slová (tokeny).
  2. Enkóder spracuje tokeny a vytvorí vektorovú reprezentáciu vety.
  3. Dekóder prijíma vektorovú reprezentáciu a generuje preklad postupne, slovo po slove.
  4. Počas generovania prekladu dekóder berie do úvahy kontext predchádzajúcich slov a vektorovú reprezentáciu vety.

Architektúry neurónových sietí pre strojový preklad

Existuje niekoľko rôznych architektúr neurónových sietí, ktoré sa používajú na strojový preklad. Medzi najpopulárnejšie patria:

Prečítajte si tiež: História a kultúra Hamburgu

  • Rekurentné neurónové siete (RNN): RNN sú vhodné na spracovanie sekvenčných dát, ako sú texty. Používajú sa najmä v kombinácii s mechanizmom pozornosti (attention mechanism), ktorý umožňuje dekóderu zamerať sa na relevantné časti vstupnej vety pri generovaní prekladu.
  • Konvolučné neurónové siete (CNN): CNN sa používajú na extrakciu lokálnych rysov z textu. V strojovom preklade sa používajú menej často ako RNN, ale môžu byť efektívne pri spracovaní dlhých viet.
  • Transformery: Transformery sú moderná architektúra neurónových sietí, ktorá dosahuje vynikajúce výsledky v rôznych úlohách spracovania prirodzeného jazyka, vrátane strojového prekladu. Transformery sa spoliehajú na mechanizmus samo-pozornosti (self-attention mechanism), ktorý umožňuje modelu zohľadňovať vzťahy medzi všetkými slovami vo vete naraz.

MBART: Viacjazyčný strojový preklad

MBART (Multilingual BART) je rozsiahly viacjazyčný model pre sekvenčné úlohy, ktorý bol trénovaný na rozsiahlych textových dátach v mnohých jazykoch. MBART je založený na architektúre transformera a je schopný vykonávať rôzne úlohy spracovania prirodzeného jazyka, vrátane strojového prekladu, sumarizácie textu a generovania textu.

Hodnotenie kvality strojového prekladu

Kvalita strojového prekladu sa zvyčajne hodnotí pomocou automatických metrík, ako je BLEU (Bilingual Evaluation Understudy). BLEU porovnáva preklad vygenerovaný systémom s referenčnými prekladmi a meria mieru prekrývania n-gramov (sekvencií n slov). Hoci BLEU nie je dokonalá metrika, poskytuje užitočný odhad kvality strojového prekladu.