Textové korpusy jsou důležitým zdrojem informací pro řadu oblastí výpočetní lingvistiky. Důsledkem tzv. Zipfova zákona je, že valná většina jevů v přirozeném jazyce se vyskytuje řídce a často nemáme k dispozici dostatek dat na to, abychom tyto řídké jevy mohli studovat. V tomto ohledu platí, že více dat znamená lepší data a větší korpusy jsou lepšími korpusy. Přestože pro některé jazyky je na webu k dispozici enormní množství textů, dosud vytvořené webové korpusy zdaleka nepřekročily hranici tří miliard slov. Obsahem přednášky bude náš postup při tvorbě webového korpusu anglických textů s cílovou velikostí dvacet miliard slov. Při popisu souvisejících problémů a použitých nástrojů se podrobně zaměříme zejména na detekci blízkých (duplicitních) dokumentů v kolekcích daného rozsahu a předvedeme vlastní efektivní řešení tohoto problému.