Mezi casti Ceskeho narodniho korpusu, ktere jsou po registraci verejne
pristupne, patri od roku 2008 paralelni korpus, budovany v ramci projektu
InterCorp na FF UK v Praze. V soucasne dobe obsahuje tento korpus prevazne
rucne zarovnane beletristicke texty v cestine a 20 dalsich jazycich.
Cestina je pritom tzv. pivot, tj. kazdy text ma vzdy jedinou ceskou verzi
(original nebo preklad), ktera je zarovnana s jednou nebo vice verzemi
cizojazycnymi.
Cilem seminare bude predstavit koncepci projektu, postup pripravy textu od akvizice az po import do korpusoveho manazeru a soucasne i perspektivni
moznosti vyuziti korpusu. Zvlast se zamerime na problematicka mista:
zpracovani textu v mnoha jazycich, navaznost rucnich a automatickych
postupu, spoluprace mnoha pracovist bez informatickeho zazemi,
spolehlivost automatickych metod segmentace a zarovnavani. V zaveru nebude
chybet predstava dalsiho smerovani.