PDTSL: Rekonstrukce standardizovaného textu z mluvené řeči

Speaker:
Marie Mikulová a Silvie Cinková
Abstract:
V prispevku strucne predstavime projekt PDTSL: The Prague Dependency Treebank of Spoken Language. PDTSL bude prvnim korpusem mluvene reci, ktery bude obsahovat anotace vyznamu promluv (syntakticko-semantickou/tektogramatickou anotaci). Predstavime pravidla prvni (aktualne probihajici) faze anotace, tzv. rekonstrukce standardizovaneho textu z mluvene reci. Tato anotace spociva v tom, ze pred vlastni syntaktickou anotaci se mluvena rec nejprve prevadi na gramaticky spravne vety, na standardizovany text. Prvni pokusy se syntaktickou anotaci totiz ukazaly, ze spontanni mluvena rec nedodrzuje casto ani elementarni gramaticka pravidla a zvyklosti a naopak obsahuje radu specifickych jevu (vyplnkova slova, zakoktani, nove zacatky, nedorecene klauze, tzv. nerecove udalosti jako zakaslani apod.), museli bychom tedy doslova vymyslet nova anotacni pravidla a neni jiste, zda by se jimi podarilo obsahnout vse, co lze v mluvenem projevu ocekavat. Rekonstruovany standardizovany text vsak bude anotovan podle stavajicich anotacnich pravidel (pouzitych v korpusu PDT 2.0 pro psane texty), aniz by se tato pravidla musela vyrazne upravovat.
Length:
01:11:17
Date:
02/03/2009
views: 1197

Images:
Preview of img007.jpg
Image img007.jpg
Preview of img019.jpg
Image img019.jpg
Attachments: (video, slides, etc.)
32M
800 downloads
327M
761 downloads
463M
751 downloads
153M
749 downloads