Automatická sumarizace textů

Speaker:
Josef Steinberger
Abstract:
V soucasne dobe roste pocet vyzkumnych skupin zabyvajicich se automatickou sumarizaci textu. Hlavnim duvodem je stale rostouci mnozstvi informaci dostupnych online, ktere uz clovek neni schopny projit bez pomoci pocitacove techniky. Kratke souhrny dokumentu jej mohou nasmerovat k opravdu relevantnim informacim. V ramci prednasky bude sledovan vyvoj vyzkumu sumarizace, ktery zacal jiz v roce 1958. Nemala pozornost bude take venovana vyvoji metod hodnoceni kvality souhrnu. Nynejsi smer vyzkumu je dan prevazne cinnosti NIST (National Institut of Standards and Technology), ktery od roku 2000 organizuje konference (DUC/TAC) zamerene na vyvoj sumarizacnich metod a nemene dulezitych zpusobu porovnani kvality sumarizatoru. Dale bude popsana nase sumarizacni metoda zalozena na latentni semanticke analyze. Od sumarizace jedineho textu (single-document summarization) jsme presli k sumarizaci tematu (mnoziny textu zabyvajicich se stejnou udalosti/tematem − multi-document summarization). Posledni rok se vyzkum sumarizace posunul k zase o krok slozitejsi uloze − aktualizacni sumarizaci (update summarization). Pri tvorbe aktualizacniho souhrnu se predpoklada ctenarova zakladni znalost tematu, ktera je dana mnozinou starsich textu. Ukolem je vytvorit souhrn novych textu, ktery by mel obsahovat pouze pro ctenare nove informace. Modifikace naseho sumarizatoru umoznily jeho ucast na letosnim hromadnem experimentu provedenem organizatory nastavajici konference TAC.
Length:
01:16:04
Date:
03/11/2008
views: 1198

Images:
Preview of img036.jpg
Image img036.jpg
Preview of img040.jpg
Image img040.jpg
Attachments: (video, slides, etc.)
34M
770 downloads
347M
783 downloads
494M
742 downloads
163M
775 downloads