Problémy tvorby a anotácie webových korpusov Aranea

Speaker:
Vladimír Benko
Abstract:
Jedným z vývojových smerov v korpusovej lingvistike je tvorba korpusov pomocou technológie Web as Corpus (WaC) (Baroni et al., 2009), v rámci ktorej sa dáta vo veľkom objeme sťahujú z internetu pomocou automatizovaných procedúr využívajúcich sofistikované stratégie hodnotenia obsahu jednotlivých webových lokalít z hľadiska využiteľnosti v korpuse (Suchomel a Pomikálek, 2012), následne sa konvertujú na text, filtrujú a deduplikujú, takže výstup v textovej podobe možno ďalej spracovať štandardnými metódami a technológiami korpusovej lingvistiky (tokenizácia, segmentácia na vety, morfosyntaktická anotácia a spracovanie korpusovým manažérom). Za posledné desaťročie sa tvorba webových korpusov etablovala ako samostatná oblasť korpusovej lingvistiky, má svoju sekciu v Asociácii pre počítačovú lingvistiku (ACL SIGWAC), pravidelné konferencie (WAC) a dočkala sa už aj prvej monografie (Schäfer a Bildhauer, 2013). Naša prednáška uvádza projekt Aranea, v rámci ktorého sa technológia WaC využíva na tvorbu rodiny korpusov veľkého rozsahu pre jazyky používané na Slovensku a v okolitých krajinách a pre hlavné cudzie jazyky vyučované na slovenských univerzitách. Korpusy Aranea v súčasnosti pokrývajú 16 jazykov, pričom všetky sú verejne prístupné cez webové rozhranie korpusového manažéra NoSketch Engine na korpusovom portáli projektu.
Length:
01:31:17
Date:
05/12/2016
views:

Images:
Attachments: (video, slides, etc.)
126 MB
32 downloads
1.1 GB
28 downloads
168 MB
30 downloads
241 MB
30 downloads
487 MB
25 downloads