Projekt InterCorp: Vícejazyčný paralelní korpus

Speaker:
Alexandr Rosen a Martin Vavřín
Abstract:
Mezi casti Ceskeho narodniho korpusu, ktere jsou po registraci verejne pristupne, patri od roku 2008 paralelni korpus, budovany v ramci projektu InterCorp na FF UK v Praze. V soucasne dobe obsahuje tento korpus prevazne rucne zarovnane beletristicke texty v cestine a 20 dalsich jazycich. Cestina je pritom tzv. pivot, tj. kazdy text ma vzdy jedinou ceskou verzi (original nebo preklad), ktera je zarovnana s jednou nebo vice verzemi cizojazycnymi. Cilem seminare bude predstavit koncepci projektu, postup pripravy textu od akvizice az po import do korpusoveho manazeru a soucasne i perspektivni moznosti vyuziti korpusu. Zvlast se zamerime na problematicka mista: zpracovani textu v mnoha jazycich, navaznost rucnich a automatickych postupu, spoluprace mnoha pracovist bez informatickeho zazemi, spolehlivost automatickych metod segmentace a zarovnavani. V zaveru nebude chybet predstava dalsiho smerovani.
Length:
01:05:34
Date:
20/04/2009
views: 1354

Images:
Preview of img-007.jpg
Image img-007.jpg
Preview of img-038.jpg
Image img-038.jpg
Attachments: (video, slides, etc.)
30M
714 downloads
287M
758 downloads
831M
650 downloads
81M
644 downloads