PDTSL: Rekonstrukce standardizovaného textu z mluvené řeči
Speaker:
Marie Mikulová a Silvie Cinková
Abstract:
V prispevku strucne predstavime projekt PDTSL: The Prague Dependency
Treebank of Spoken Language. PDTSL bude prvnim korpusem mluvene reci,
ktery bude obsahovat anotace vyznamu promluv
(syntakticko-semantickou/tektogramatickou anotaci). Predstavime pravidla
prvni (aktualne probihajici) faze anotace, tzv. rekonstrukce
standardizovaneho textu z mluvene reci. Tato anotace spociva v tom, ze pred vlastni syntaktickou anotaci se mluvena rec nejprve prevadi na gramaticky spravne vety, na standardizovany text. Prvni pokusy se syntaktickou anotaci totiz ukazaly, ze spontanni mluvena rec nedodrzuje
casto ani elementarni gramaticka pravidla a zvyklosti a naopak obsahuje
radu specifickych jevu (vyplnkova slova, zakoktani, nove zacatky,
nedorecene klauze, tzv. nerecove udalosti jako zakaslani apod.), museli
bychom tedy doslova vymyslet nova anotacni pravidla a neni jiste, zda by se jimi podarilo obsahnout vse, co lze v mluvenem projevu ocekavat.
Rekonstruovany standardizovany text vsak bude anotovan podle stavajicich
anotacnich pravidel (pouzitych v korpusu PDT 2.0 pro psane texty), aniz by se tato pravidla musela vyrazne upravovat.