Klasifikácia a anotácia dokumentov pre sémantický web
Anotácia projektu:
Projekt sa zameriava na návrh a vyhodnocovanie metód pre anotovanie
textových dokumentov pomocou metadát, ktoré definujú obsah dokumentov
spôsobom vhodným pre strojové spracovanie. Dôraz je kladený na využitie
doménových teórií reprezentovaných v tvare ontológií, ktorých prvky
môžu byť použité pre anotovanie dokumentov. V rámci toho sa projekt
zameriava na oblasti:
- Klasifikácia dokumentov metódami strojového učenia
- Použitie metód spracovania prirodzeného jazyka pre anotovanie
dokumentov
- Anotovanie s využitím lexikálnych databáz
- Generovanie abstraktov
- Preanotovanie dokumentov pri zmene doménovej teórie
Projekt sa zaoberá taktiež otázkou návrhu ontológií použiteľných pre
anotovanie dokumentov. V rámci tohto je dôraz na:
- Automatické generovanie ontologických modelov na základe množín
textových dokumentov
- Modifikácia ontológií využitím metód dolovania v textoch
Kľúčové slová:
Klasifikácia a anotovanie dokumentov, modelovanie doménových znalostí,
tvorba ontológie, spracovanie prirodzeného jazyka, strojové učenie,
dolovanie v textoch
Riešitelia projektu:
- Marián Mach - vedúci projektu
- Sabol Tomáš
- Paralič Ján - zástupca vedúceho projektu
- Kende Róbert
- Hreňo Ján
- Machová Kristína
- Hudák Slavomír
- Bednár Peter
- Koštiaľ Ivan
- Sarnovský Martin
- Mráz Miroslav
- Babič František
- Smatana Peter
- Ročkai Viliam
Anotácia originálnych výsledkov riešenia projektu:
- Návrh rôznych metód pre zlepšenie efektívnosti klasifikácie
textových dokumentov (použitie Bayesových sietí, redukcia počtu
dokumentov) a zhlukovania textových dokumentov (kontrolovaná
inicializácia, atribútovo orientovaná indukcia).
- Vyhľadávanie kľúčových termov v dokumentoch, vzťahov medzi nimi,
fráz a identifikácia synoným použitím štatistických metód a
teórie asociatívneho učenia konceptov.
- Tvorba hierarchických konceptuálnych modelov prostredníctvom
zhlukovania a fuzzy formálnej konceptuálnej analýzy a ich
využitie pre anotovanie obsahu dokumentov.
- Transformácia neštruktúrovaných dokumentov na štruktúrované
použitím regulárnej a lingvistickej analýzy.
- Java knižnica pre vývoj aplikácií pre dolovanie v textoch.
Poskytuje prostriedky pre analýzu textu, rovnako ako pre tvorbu,
vyhodnocovanie a aplikáciu rôznych metód kontrolovaného a
nekontrolovaného učenia.
- Implementácia služby pre klasifikáciu textových dokumentov
v gridovom prostredí systému GridMiner.
- Metóda pre vytváranie dedikovaných textových kolekcií z
webových zdrojov, doporučovanie alternatívnych dokumentov podľa
užívateľských stereotypov.
|