Rostouci popularita Internetu a zvysujici se dostupnost nejruznejsich
dokumentu vede k potrebe efektivne rozpoznavat plagiaty textovych
dokumentu. Skolstvi je jednou z mnoha instituci, kde dopad na kvalitu
vyuky je markantni. Nas vyzkum na ZCU se zabyva pokrocilymi technikami a jejich vyuzitim pro detekci plagiatu. Zakladnim stavebnim prvkem je latentni semanticka analyza pro nalezeni skrytych vztahu mezi frazemi v textu. V tomto smeru se nejvice venujeme matematicke metode SVD a jeji
aplikaci. Krome toho se zabyvame normalizaci textu s vyuzitim WordNet
tezauru a vlivem ruznych technik predzpracovani, jako jsou stop-slova,
lemmatizace a nahrazovani cisel. V nasich testech pracujeme s experimentalnim korpusem ceskych plagiatu citajicim 950 dokumentu o politice, vytvorenym z CTK korpusu.