VEGA 1-1060-04

VEGA 1-1060-04

-> Home page -> Research

Klasifikácia a anotácia dokumentov pre sémantický web

Anotácia projektu:

Projekt sa zameriava na návrh a vyhodnocovanie metód pre anotovanie textových dokumentov pomocou metadát, ktoré definujú obsah dokumentov spôsobom vhodným pre strojové spracovanie. Dôraz je kladený na využitie doménových teórií reprezentovaných v tvare ontológií, ktorých prvky môžu byť použité pre anotovanie dokumentov. V rámci toho sa projekt zameriava na oblasti:

Klasifikácia dokumentov metódami strojového učenia
Použitie metód spracovania prirodzeného jazyka pre anotovanie dokumentov
Anotovanie s využitím lexikálnych databáz
Generovanie abstraktov
Preanotovanie dokumentov pri zmene doménovej teórie

Projekt sa zaoberá taktiež otázkou návrhu ontológií použiteľných pre anotovanie dokumentov. V rámci tohto je dôraz na:

Automatické generovanie ontologických modelov na základe množín textových dokumentov
Modifikácia ontológií využitím metód dolovania v textoch

Kľúčové slová:

Klasifikácia a anotovanie dokumentov, modelovanie doménových znalostí, tvorba ontológie, spracovanie prirodzeného jazyka, strojové učenie, dolovanie v textoch

Riešitelia projektu:

Marián Mach - vedúci projektu
Sabol Tomáš
Paralič Ján - zástupca vedúceho projektu
Kende Róbert
Hreňo Ján
Machová Kristína
Hudák Slavomír
Bednár Peter
Koštiaľ Ivan
Sarnovský Martin
Mráz Miroslav
Babič František
Smatana Peter
Ročkai Viliam

Anotácia originálnych výsledkov riešenia projektu:

Návrh rôznych metód pre zlepšenie efektívnosti klasifikácie textových dokumentov (použitie Bayesových sietí, redukcia počtu dokumentov) a zhlukovania textových dokumentov (kontrolovaná inicializácia, atribútovo orientovaná indukcia).
Vyhľadávanie kľúčových termov v dokumentoch, vzťahov medzi nimi, fráz a identifikácia synoným použitím štatistických metód a teórie asociatívneho učenia konceptov.
Tvorba hierarchických konceptuálnych modelov prostredníctvom zhlukovania a fuzzy formálnej konceptuálnej analýzy a ich využitie pre anotovanie obsahu dokumentov.
Transformácia neštruktúrovaných dokumentov na štruktúrované použitím regulárnej a lingvistickej analýzy.
Java knižnica pre vývoj aplikácií pre dolovanie v textoch. Poskytuje prostriedky pre analýzu textu, rovnako ako pre tvorbu, vyhodnocovanie a aplikáciu rôznych metód kontrolovaného a nekontrolovaného učenia.
Implementácia služby pre klasifikáciu textových dokumentov v gridovom prostredí systému GridMiner.
Metóda pre vytváranie dedikovaných textových kolekcií z webových zdrojov, doporučovanie alternatívnych dokumentov podľa užívateľských stereotypov.


Copyright © MM	Last updated 17.8.2009

Klasifikácia a anotácia dokumentov pre sémantický web

Anotácia projektu:

Kľúčové slová:

Riešitelia projektu:

Anotácia originálnych výsledkov riešenia projektu:

Copyright © MM

Last updated 17.8.2009