Slovenský národný korpus (SNK) predstavuje rozsiahly a systematicky budovaný zdroj textových a zvukových dát v slovenskom jazyku. Jeho súčasťou sú aj paralelné korpusy, ktoré ponúkajú jedinečnú možnosť porovnávania textov v rôznych jazykoch. Medzi ne patrí aj nemecko-slovenský paralelný korpus, ktorý je cenným nástrojom pre jazykový výskum, prekladateľstvo a vývoj systémov strojového prekladu. Tento článok poskytuje komplexný pohľad na nemecko-slovenský paralelný korpus, jeho štruktúru, využitie a význam.
Čo je korpus?
Na úvod je dôležité definovať, čo vlastne korpus je a na čo slúži. Korpus nie je elektronická knižnica ani nenahrádza kodifikačné príručky. Ide o rozsiahly súbor textov, ktoré sú reprezentatívne pre daný jazyk alebo jeho špecifickú oblasť. Korpusy sa využívajú na lingvistický výskum, analýzu jazykových javov, tvorbu slovníkov a gramatík, vývoj nástrojov na spracovanie prirodzeného jazyka a v neposlednom rade aj na strojový preklad.
Korpusový materiál sa najčastejšie získava priamo v elektronickej podobe, menej často prostredníctvom technického spracovania tlačených diel. Následne prebiehajú technické fázy, ako odstraňovanie znakov a symbolov editačných softvérov, konverzia do jednotného formátu a segmentácia textu na menšie jednotky. Takto upravený text sa môže ďalej značkovať, čím sa pridávajú dodatočné informácie, ako bibliografické údaje, informácie o štruktúre textu a jazykové informácie na úrovni slov (slovný druh, základný tvar - lema) alebo viet (funkcia vo vete, sémantika).
Typy korpusov v SNK
Slovenský národný korpus ponúka rôzne typy korpusov, ktoré sa líšia svojim zameraním a obsahom. Medzi hlavné typy patria:
- Hlavný korpus (prim): Obsahuje písané texty súčasného slovenského jazyka z rôznych štýlov, žánrov a vecných oblastí, ktoré vznikli po roku 1955.
- Špecializované korpusy: Zameriavajú sa na konkrétne oblasti, napríklad ekonomické texty.
- Nárečový korpus: Obsahuje prepisy nárečových zvukových alebo transkribovaných záznamov.
- Historické korpusy: Obsahujú texty v slovenskom jazyku, ktoré vznikli pred rokom 1955.
- Webový korpus: Obsahuje slovenské texty dostupné na internete.
- Paralelné korpusy: Obsahujú identické texty v dvoch rôznych jazykoch, pričom ide o vzájomné preklady alebo preklady z tretieho jazyka.
- Hovorené korpusy: Pozostávajú zo zvukových nahrávok prepojených s prepisom zaznamenaných prehovorov.
Paralelné korpusy v SNK
Paralelné korpusy zohrávajú dôležitú úlohu v oblasti prekladateľstva a strojového prekladu. Každý paralelný korpus obsahuje identické texty v dvoch rôznych jazykoch, pričom môže ísť o vzájomné preklady alebo preklady z tretieho jazyka. Slovenské texty, v prevažnej väčšine preklady, sú do týchto korpusov zaraďované na základe licenčnej zmluvy, cudzojazyčné texty sa pre tento účel získavajú z internetových zdrojov. Na časť zaradených textov do anglicko-slovenského, bulharsko-slovenského, česko-slovenského, francúzsko-slovenského, maďarsko-slovenského a nemecko-slovenského paralelného korpusu sa autorské práva nevzťahujú, keďže ide o texty európskej legislatívy.
Prečítajte si tiež: Aktuality z Hamburgu: Prehľad mesta
Texty v paralelných korpusoch SNK sú spárované na úrovni viet. Hoci každý paralelný korpus oddelenia SNK ponúka obojstranné vyhľadávanie, neznamená to, že v smere zo slovenčiny do cudzieho jazyka ide vždy o originálne slovenské texty a v opačnom smere o originálne cudzojazyčné texty. V prípade veľkých jazykov, ako je angličtina, nemčina či francúzština, je pôvodným jazykom takmer alebo úplne všetkých textov práve cudzí jazyk. Pomer pôvodného a prekladového jazyka textov je pri ostatných paralelných korpusoch rôzny - napríklad pri slovensko-českom paralelnom korpuse tvoria vyše 53 % texty, ktorých pôvodný jazyk je slovenčina, kým čeština je pôvodným jazykom len vyše 20 % textov.
Nemecko-slovenský paralelný korpus: Podrobný pohľad
Nemecko-slovenský paralelný korpus (par-skde) je špecifický typ paralelného korpusu, ktorý obsahuje texty v slovenskom a nemeckom jazyku. Ide o vzájomné preklady z oboch jazykov, teda texty v slovenskom jazyku preložené do nemeckého jazyka a opačne, ako aj preklady z iných jazykov do slovenčiny a nemčiny. Texty sú v korpuse v takej podobe, ako boli napísané, resp. vydané, v starších beletristických dielach je zachovaný dobový pravopis. Texty sú automaticky zarovnané po vetách. Slovenské texty sú automaticky morfologicky anotované tagermi Morče a MorphoDiTa natrénovanými v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, nemecké texty sú anotované tagerom TreeTagger.
Štruktúra a obsah
Nemecko-slovenský paralelný korpus sa skladá z dvoch hlavných častí:
- Podkorpus beletrie: Obsahuje preklady literárnych diel, ako sú romány, poviedky a divadelné hry.
- Podkorpus voľne dostupných textov: Obsahuje najmä dokumenty Európskej únie.
Dostupné verzie a rozsahy
Korpus par-skde bol sprístupnený v niekoľkých verziách, ktoré sa líšia rozsahom:
- Verzia 3.0 (par-skde-3.0): Sprístupnená 24. februára 2022 v rozsahu takmer 468 miliónov tokenov (229,9 milióna tokenov v slovenskej časti a 238,1 milióna tokenov v nemeckej časti).
- Verzia 2.0 (par-skde-2.0): Sprístupnená 25. mája 2016 v rozsahu takmer 446 miliónov tokenov (219,8 milióna tokenov v slovenskej časti a 226,4 milióna tokenov v nemeckej časti).
- Verzia 1.0 (par-skde-1.0): Sprístupnená 15. decembra 2014 v rozsahu takmer 263 miliónov tokenov (129,5 milióna tokenov v slovenskej časti a 133 miliónov tokenov v nemeckej časti). Podkorpus beletrie obsahoval 7,5 mil. tokenov.
Prístup a vyhľadávanie
Pre vyhľadávanie v nemecko-slovenskom paralelnom korpuse sú dostupné rôzne nástroje:
Prečítajte si tiež: Tradičná nemecká kuchyňa
- NoSketch Engine: V osobitnom podkorpuse beletrie sa dá vyhľadávať v NoSketch Engine v nemeckej časti a v slovenskej časti.
- Celý korpus: V celom slovensko-nemeckom paralelnom korpuse sa dá vyhľadávať po registrácii v nástroji NoSketchEngine v nemeckej časti a v slovenskej časti. Vyžadujú sa znalosti práce s NoSketch Engine a CQL (Corpus Query Language).
Využitie nemecko-slovenského paralelného korpusu
Nemecko-slovenský paralelný korpus ponúka široké spektrum využitia v rôznych oblastiach:
- Jazykový výskum: Umožňuje porovnávať jazykové štruktúry, frekvenciu slov a slovných spojení v slovenčine a nemčine. Lingvisti môžu analyzovať prekladové ekvivalenty, identifikovať typické prekladateľské postupy a skúmať vplyv jedného jazyka na druhý.
- Prekladateľstvo: Poskytuje prekladateľom cenný zdroj informácií o existujúcich prekladoch, terminológii a frazeológii. Môže slúžiť ako inšpirácia pri hľadaní vhodných prekladových riešení a overovaní správnosti prekladu.
- Strojový preklad: Je neoceniteľným zdrojom dát pre trénovanie systémov strojového prekladu. Paralelné korpusy umožňujú naučiť počítač prekladať texty z jedného jazyka do druhého na základe existujúcich prekladov.
- Výučba jazykov: Môže byť využitý pri výučbe slovenčiny a nemčiny ako cudzieho jazyka. Študenti si môžu porovnávať originálne texty s prekladmi a učiť sa nové slová a gramatické štruktúry v kontexte.
- Tvorba slovníkov a terminologických databáz: Paralelné korpusy sú užitočné pri tvorbe slovníkov a terminologických databáz, pretože poskytujú informácie o prekladových ekvivalentoch a kontextuálnom použití slov a termínov.
Strojový preklad s využitím neurónových sietí
V súčasnosti sa na strojový preklad čoraz častejšie využívajú neurónové siete. Neurónový strojový preklad (NMT) je prístup k strojovému prekladu, ktorý využíva rozsiahle neurónové siete na modelovanie pravdepodobnosti prekladu sekvencie slov. Na rozdiel od tradičných prístupov, ktoré sa spoliehajú na manuálne vytvorené pravidlá a štatistické modely, NMT sa učí prekladať priamo z dát.
Ako funguje neurónový strojový preklad?
Neurónové siete používané na strojový preklad sa zvyčajne skladajú z dvoch hlavných častí:
- Enkóder: Enkóder spracuje vstupnú vetu v zdrojovom jazyku a vytvorí jej vektorovú reprezentáciu, ktorá zachytáva jej význam.
- Dekóder: Dekóder prijíma vektorovú reprezentáciu od enkódera a generuje preklad vo výstupnom jazyku.
Celý proces prekladu prebieha nasledovne:
- Vstupná veta sa rozdelí na jednotlivé slová (tokeny).
- Enkóder spracuje tokeny a vytvorí vektorovú reprezentáciu vety.
- Dekóder prijíma vektorovú reprezentáciu a generuje preklad postupne, slovo po slove.
- Počas generovania prekladu dekóder berie do úvahy kontext predchádzajúcich slov a vektorovú reprezentáciu vety.
Architektúry neurónových sietí pre strojový preklad
Existuje niekoľko rôznych architektúr neurónových sietí, ktoré sa používajú na strojový preklad. Medzi najpopulárnejšie patria:
Prečítajte si tiež: História a kultúra Hamburgu
- Rekurentné neurónové siete (RNN): RNN sú vhodné na spracovanie sekvenčných dát, ako sú texty. Používajú sa najmä v kombinácii s mechanizmom pozornosti (attention mechanism), ktorý umožňuje dekóderu zamerať sa na relevantné časti vstupnej vety pri generovaní prekladu.
- Konvolučné neurónové siete (CNN): CNN sa používajú na extrakciu lokálnych rysov z textu. V strojovom preklade sa používajú menej často ako RNN, ale môžu byť efektívne pri spracovaní dlhých viet.
- Transformery: Transformery sú moderná architektúra neurónových sietí, ktorá dosahuje vynikajúce výsledky v rôznych úlohách spracovania prirodzeného jazyka, vrátane strojového prekladu. Transformery sa spoliehajú na mechanizmus samo-pozornosti (self-attention mechanism), ktorý umožňuje modelu zohľadňovať vzťahy medzi všetkými slovami vo vete naraz.
MBART: Viacjazyčný strojový preklad
MBART (Multilingual BART) je rozsiahly viacjazyčný model pre sekvenčné úlohy, ktorý bol trénovaný na rozsiahlych textových dátach v mnohých jazykoch. MBART je založený na architektúre transformera a je schopný vykonávať rôzne úlohy spracovania prirodzeného jazyka, vrátane strojového prekladu, sumarizácie textu a generovania textu.
Hodnotenie kvality strojového prekladu
Kvalita strojového prekladu sa zvyčajne hodnotí pomocou automatických metrík, ako je BLEU (Bilingual Evaluation Understudy). BLEU porovnáva preklad vygenerovaný systémom s referenčnými prekladmi a meria mieru prekrývania n-gramov (sekvencií n slov). Hoci BLEU nie je dokonalá metrika, poskytuje užitočný odhad kvality strojového prekladu.
