Vydáváme Český akademický korpus verze 2.0. Co dál?
Speaker:
Barbora Vidová Hladká
Abstract:
Cesky akademicky korpus je projekt, ktery se svym prubehem a trvanim zcela
vymyka klasicke predstave o projektu. Jde o morfologicky a syntakticky
rucne anotovany korpus cestiny, ktery vznikl pred vice nez dvaceti lety v UJC AV jako podklad pro sestaveni frekvencniho slovniku cestiny te doby. Po vydani prvni verze Prazskeho zavislostniho korpusu se objevila myslenka
prevest Cesky akademicky korpus do takove podoby, aby jej bylo mozne v budoucnu priclenit k Prazskemu zavislostnimu korpusu.
Predstavime druhou verzi Ceskeho akademickeho korpusu, ktera je vysledkem
zaverecne etapy prevodu, a to prevodu syntaktickych anotaci. Prevod
vnitrniho formatu a morfologickych anotaci byl ukoncen vydanim prvni verze
CAK v roce 2007.
Prace s CAK opakovane potvrdila skutecnost, ze priprava anotovanych dat je ve vsech ohledech narocnou aktivitou. Predstavime proto alternativni
zpusob ziskavani anotovanych dat, ktery by mel prinest i zabavu, a to
nejen jazykovedcum.