Ještě větší webové korpusy

Speaker:
Jan Pomikálek
Abstract:
Textové korpusy jsou důležitým zdrojem informací pro řadu oblastí výpočetní lingvistiky. Důsledkem tzv. Zipfova zákona je, že valná většina jevů v přirozeném jazyce se vyskytuje řídce a často nemáme k dispozici dostatek dat na to, abychom tyto řídké jevy mohli studovat. V tomto ohledu platí, že více dat znamená lepší data a větší korpusy jsou lepšími korpusy. Přestože pro některé jazyky je na webu k dispozici enormní množství textů, dosud vytvořené webové korpusy zdaleka nepřekročily hranici tří miliard slov. Obsahem přednášky bude náš postup při tvorbě webového korpusu anglických textů s cílovou velikostí dvacet miliard slov. Při popisu souvisejících problémů a použitých nástrojů se podrobně zaměříme zejména na detekci blízkých (duplicitních) dokumentů v kolekcích daného rozsahu a předvedeme vlastní efektivní řešení tohoto problému.
Length:
01:16:08
Date:
20/10/2008
views: 1889

Images:
Preview of img020.jpg
Image img020.jpg
Preview of img027.jpg
Image img027.jpg
Attachments: (video, slides, etc.)
34M
1547 downloads
348M
1890 downloads
494M
1440 downloads
163M
1453 downloads