VEGA 1-1060-04

-> Home page -> Research flag

Klasifikácia a anotácia dokumentov pre sémantický web

Anotácia projektu:

Projekt sa zameriava na návrh a vyhodnocovanie metód pre anotovanie textových dokumentov pomocou metadát, ktoré definujú obsah dokumentov spôsobom vhodným pre strojové spracovanie. Dôraz je kladený na využitie doménových teórií reprezentovaných v tvare ontológií, ktorých prvky môžu byť použité pre anotovanie dokumentov. V rámci toho sa projekt zameriava na oblasti:
 • Klasifikácia dokumentov metódami strojového učenia
 • Použitie metód spracovania prirodzeného jazyka pre anotovanie dokumentov
 • Anotovanie s využitím lexikálnych databáz
 • Generovanie abstraktov
 • Preanotovanie dokumentov pri zmene doménovej teórie
Projekt sa zaoberá taktiež otázkou návrhu ontológií použiteľných pre anotovanie dokumentov. V rámci tohto je dôraz na:
 • Automatické generovanie ontologických modelov na základe množín textových dokumentov
 • Modifikácia ontológií využitím metód dolovania v textoch

Kľúčové slová:

Klasifikácia a anotovanie dokumentov, modelovanie doménových znalostí, tvorba ontológie, spracovanie prirodzeného jazyka, strojové učenie, dolovanie v textoch

Riešitelia projektu:

 • Marián Mach - vedúci projektu
 • Sabol Tomáš
 • Paralič Ján - zástupca vedúceho projektu
 • Kende Róbert
 • Hreňo Ján
 • Machová Kristína
 • Hudák Slavomír
 • Bednár Peter
 • Koštiaľ Ivan
 • Sarnovský Martin
 • Mráz Miroslav
 • Babič František
 • Smatana Peter
 • Ročkai Viliam

Anotácia originálnych výsledkov riešenia projektu:

 • Návrh rôznych metód pre zlepšenie efektívnosti klasifikácie textových dokumentov (použitie Bayesových sietí, redukcia počtu dokumentov) a zhlukovania textových dokumentov (kontrolovaná inicializácia, atribútovo orientovaná indukcia).
 • Vyhľadávanie kľúčových termov v dokumentoch, vzťahov medzi nimi, fráz a identifikácia synoným použitím štatistických metód a  teórie asociatívneho učenia konceptov.
 • Tvorba hierarchických konceptuálnych modelov prostredníctvom zhlukovania a fuzzy formálnej konceptuálnej analýzy a ich využitie pre anotovanie obsahu dokumentov.
 • Transformácia neštruktúrovaných dokumentov na štruktúrované použitím regulárnej a lingvistickej analýzy.
 • Java knižnica pre vývoj aplikácií pre dolovanie v textoch. Poskytuje prostriedky pre analýzu textu, rovnako ako pre tvorbu, vyhodnocovanie a aplikáciu rôznych metód kontrolovaného a  nekontrolovaného učenia.
 • Implementácia služby pre klasifikáciu textových dokumentov v gridovom prostredí systému GridMiner.
 • Metóda pre vytváranie dedikovaných textových kolekcií z  webových zdrojov, doporučovanie alternatívnych dokumentov podľa užívateľských stereotypov.

Copyright © MM
Last updated 17.8.2009