Slovenský národný korpus v rokoch 2008 – 2012: Nástroj pre výskum a vývoj jazyka

Rate this post

Úvod

Slovenský národný korpus (SNK) predstavuje rozsiahly a systematicky budovaný súbor textov v slovenskom jazyku. V rokoch 2008 až 2012 prešiel SNK významným vývojom, ktorý zahŕňal rozširovanie jeho rozsahu, skvalitňovanie anotácií a sprístupňovanie nových verzií a špecializovaných korpusov. Tento článok sa zameriava na kľúčové aspekty vývoja SNK v uvedenom období, jeho využitie a prínos pre slovakistiku a ďalšie oblasti. Učebnica nadväzuje na publikáciu Slovenský národný korpus Texty, anotácie, vyhľadávania, je určená lingvistom, učiteľom slovenského jazyka a cudzích jazykov na všetkých stupňoch škôl, prekladateľom, študentom a všetkým záujemcom o korpusové a jazykové databázy.

Vývoj SNK v rokoch 2008-2012

2008: Paralelný korpus, WordNet a zber hovorených dát

V roku 2008 sa SNK zameral na vybudovanie paralelného slovensko-českého a česko-slovenského korpusu. Cieľom bolo vytvoriť rozsiahly zdroj pre koncipovanie prekladového slovníka a realizáciu porovnávacích výskumov. V rozsahu min. 5 mil. textových jednotiek pre potreby koncipovania prekladového slovníka a porovnávacích výskumov. Súčasťou tohto úsilia bolo aj vytvorenie nástrojov na zarovnávanie textov, automatizované označkovanie a efektívne využívanie dát.

Ďalším významným krokom bolo vytvorenie slovenského elektronického slovníka WordNet a jeho integrácia do projektu EuroWordNet, rozsiahleho sémantického slovníka pre viaceré európske jazyky. Paralelne prebiehal zber a prepis dát pre hovorený korpus.

2009: Frekvenčný a retrográdny slovník, terminologická databáza

Na báze korpusu písaných textov bol v roku 2009 vytvorený Frekvenčný slovník súčasnej slovenčiny a Retrográdny slovník súčasnej slovenčiny. Tieto slovníky predstavujú cenný zdroj informácií o frekvencii a štruktúre slov v slovenskom jazyku. Zároveň bola vytvorená prvá verzia Slovenskej terminologickej databázy. Pokračoval aj zber a prepis dát pre hovorený korpus.

2010: Rozšírenie korpusu a anotácie

V roku 2010 sa SNK rozširoval z hľadiska reprezentatívneho zastúpenia štýlov, žánrov a časových období. Dobudovanie Slovenského národného korpusu z hľadiska reprezentatívneho zastúpenia štýlov, žánrov a časových období - cca 100 mil. textových jednotiek vo verzii SNK2010 s morfologickou anotáciou celého korpusu a syntaktickou anotáciou vybraných textov. Zber a prepis dát pre hovorený korpus.

Prečítajte si tiež: Recepty pre zemiakový šalát

2011: Nová verzia všeobecného korpusu a pilotný hovorený korpus

V roku 2011 bola sprístupnená nová verzia všeobecného korpusu písaných textov, ktorá obsahovala 600 mil. textových jednotiek. Dôležitým míľnikom bolo vybudovanie a sprístupnenie pilotného korpusu hovorených komunikátov v rozsahu cca 2 mil. textových jednotiek. Vybudovanie a sprístupnenie pilotného korpusu hovorených komunikátov v rozsahu cca 2 mil. textových jednotiek.

2012: Historický a paralelný korpus, príručka korpusovej lingvistiky

Rok 2012 priniesol koncepciu tvorby a anotácie historického korpusu v kooperácii s Oddelením dejín slovenčiny, onomastiky a etymológie JÚĽŠ SAV. Sprístupnená bola pilotná verzia historického korpusu. Vybudovanie a sprístupnenie paralelného slovensko-latinského korpusu. Sprístupnenie novej rozšírenej verzie Slovenského národného korpusu, webového korpusu slovenčiny a Slovenského hovoreného korpusu. Vydanie príručky korpusovej lingvistiky.

Štruktúra korpusov a citovanie zdrojov

Pri použití citácie z korpusových databáz alebo výsledkov hľadania z jednotlivých zdrojov SNK sa odkazuje na konkrétnu verziu a/alebo podkorpus SNK (prim-10.0-public-sane, s-hovor-7.0, r-mak-6.0, par-sken-all-4.0 a pod.). Všetky dostupné zdroje sú uvedené v časti Štruktúra korpusov, v ponuke korpusov vo vyhľadávacom programe NoSketchEngine, ako aj v osobitnom zozname verejne prístupných korpusov SNK. Používanie a citovanie korpusových zdrojov má byť v súlade s ustanoveniami zákona č. 185/2015 Z. z. (Autorský zákon). Presné informácie o použitých korpusoch a podkorpusoch sú nevyhnutné aj preto, aby bolo vždy zrejmé, z akého druhu textov a z akého rozsahu dát pochádzajú získané údaje. Zápisy odkazov na ďalšie korpusy a podkorpusy príslušných verzií sa dajú analogicky odvodiť.

Príklady verzií a podkorpusov SNK:

  • Slovenský národný korpus - prim-8.0-public-all. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 2018.
  • Slovenský národný korpus - prim-8.0-public-sane. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 2018.
  • Slovenský národný korpus - prim-7.0-public-all. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 2015.

Hovorený korpus

Aktuálna verzia s-hovor-7.0 v rozsahu 7 852 469 textových jednotiek je prístupná od 28. marca 2022 a obsahuje 869 nahrávok, čo je viac ako 851 hodín zvukových záznamov. Prvá verzia s-hovor bola sprístupnená 20. 12. 2008, verzia s-hovor-2.0 v januári 2010, verzia s-hovor-3.0 vo februári 2011, verzia s-hovor-4.0 v auguste 2012, verzia s-hovor-5.0 v apríli 2015, verzia s-hovor-6.0 v novembri 2017.

Prečítajte si tiež: Skopové mäso v slovenskej kuchyni

Od verzie s-hovor-6.0 sú používateľom k dispozícii značky používané v prepise v podobe štruktúrnych značiek a tiež možnosť vypočuť si príslušnú časť zvukového záznamu (turn.[ogg|spx|flac]) priamo vo vyhľadávacom nástroji NoSketch Engine. Od verzie s-hovor-4.0 sú k dispozícii aj dva subkorpusy: s-hovor-x-upn obsahuje len prepisy výpovedí pamätníkov z projektu Oral History Ústavu pamäti národa, s-hovor-x-sane obsahuje všetky ostatné nahrávky z primárneho hovoreného korpusu.

Využitie SNK

SNK je rozsiahly zdroj jazykových dát, ktorý má široké využitie v rôznych oblastiach:

  • Lexikografia: SNK sa využíva pri tvorbe slovníkov, ako Slovník súčasného slovenského jazyka, a pri analýze slovnej zásoby. Príprava slovesnej časti Slovníka spájateľnosti v slovenčine. Finálna podoba Retrográdneho slovníka súčasnej slovenčiny.
  • Gramatika: Korpusové dáta umožňujú skúmať gramatické javy, ako skloňovanie podstatných mien a slovies, a tvoriť gramatické príručky. Tvorba a vydanie gramatických príručiek s plnými paradigmami podstatných mien a slovies (pre školu a prax, ako aj pre cudzincov učiacich sa po slovensky).
  • Štylistika: SNK umožňuje analyzovať jazykové štýly a žánre, identifikovať jazykové stereotypy a skúmať dynamiku jazyka.
  • Sociolingvistika: Hovorený korpus poskytuje cenné dáta pre výskum hovorenej slovenčiny, nárečí a sociálnych variet jazyka.
  • Terminológia: SNK sa využíva pri tvorbe a dopĺňaní terminologických databáz pre rôzne vedné odbory. Zhromažďovanie a spracúvanie odborných textov pre databázu termínov vybraných vedných odborov, dopĺňanie Slovenskej terminologickej databázy. Sprístupnenie rozšírenej verzie Slovenskej terminologickej databázy.
  • Preklad: Paralelné korpusy sú neoceniteľným zdrojom pre prekladateľov a prekladateľský výskum. Vybudovanie a sprístupnenie paralelného slovensko-nemeckého a slovensko-maďarského korpusu.
  • Výučba jazykov: SNK je užitočný nástroj pre učiteľov slovenského jazyka a cudzích jazykov, ktorí môžu využívať korpusové dáta pri príprave vyučovacích materiálov a úloh. Publikácia umožňuje predstaviť možnosti využitia korpusov v školskej praxi pri príprave konkrétnych úloh alebo ukážok preberaného učiva.
  • Počítačové spracovanie jazyka: SNK slúži ako tréningový a testovací materiál pre vývoj nástrojov na automatizované spracúvanie slovenčiny, ako sú analyzátory, generátory a lematizátory.

Projekty a publikácie

Vývoj SNK v rokoch 2008-2012 bol spojený s viacerými projektmi a publikáciami, ktoré dokumentujú jeho využitie a prínos. Medzi ne patrí príprava frekvenčného slovníka hovorenej slovenčiny, monografie o dynamike súčasnej slovenčiny na základe korpusových dát, slovníka spájateľnosti v slovenčine a retrográdneho slovníka súčasnej slovenčiny.

Prečítajte si tiež: Cestoviny pre každého