VEGA 1-1060-04

-> Home page -> Research flag

Klasifikácia a anotácia dokumentov pre sémantický web

Anotácia projektu:

Projekt sa zameriava na návrh a vyhodnocovanie metód pre anotovanie textových dokumentov pomocou metadát, ktoré definujú obsah dokumentov spôsobom vhodným pre strojové spracovanie. Dôraz je kladený na využitie doménových teórií reprezentovaných v tvare ontológií, ktorých prvky môžu byť použité pre anotovanie dokumentov. V rámci toho sa projekt zameriava na oblasti:
  • Klasifikácia dokumentov metódami strojového učenia
  • Použitie metód spracovania prirodzeného jazyka pre anotovanie dokumentov
  • Anotovanie s využitím lexikálnych databáz
  • Generovanie abstraktov
  • Preanotovanie dokumentov pri zmene doménovej teórie
Projekt sa zaoberá taktiež otázkou návrhu ontológií použiteľných pre anotovanie dokumentov. V rámci tohto je dôraz na:
  • Automatické generovanie ontologických modelov na základe množín textových dokumentov
  • Modifikácia ontológií využitím metód dolovania v textoch

Kľúčové slová:

Klasifikácia a anotovanie dokumentov, modelovanie doménových znalostí, tvorba ontológie, spracovanie prirodzeného jazyka, strojové učenie, dolovanie v textoch

Riešitelia projektu:

  • Marián Mach - vedúci projektu
  • Sabol Tomáš
  • Paralič Ján - zástupca vedúceho projektu
  • Kende Róbert
  • Hreňo Ján
  • Machová Kristína
  • Hudák Slavomír
  • Bednár Peter
  • Koštiaľ Ivan
  • Sarnovský Martin
  • Mráz Miroslav
  • Babič František
  • Smatana Peter
  • Ročkai Viliam

Anotácia originálnych výsledkov riešenia projektu:

  • Návrh rôznych metód pre zlepšenie efektívnosti klasifikácie textových dokumentov (použitie Bayesových sietí, redukcia počtu dokumentov) a zhlukovania textových dokumentov (kontrolovaná inicializácia, atribútovo orientovaná indukcia).
  • Vyhľadávanie kľúčových termov v dokumentoch, vzťahov medzi nimi, fráz a identifikácia synoným použitím štatistických metód a  teórie asociatívneho učenia konceptov.
  • Tvorba hierarchických konceptuálnych modelov prostredníctvom zhlukovania a fuzzy formálnej konceptuálnej analýzy a ich využitie pre anotovanie obsahu dokumentov.
  • Transformácia neštruktúrovaných dokumentov na štruktúrované použitím regulárnej a lingvistickej analýzy.
  • Java knižnica pre vývoj aplikácií pre dolovanie v textoch. Poskytuje prostriedky pre analýzu textu, rovnako ako pre tvorbu, vyhodnocovanie a aplikáciu rôznych metód kontrolovaného a  nekontrolovaného učenia.
  • Implementácia služby pre klasifikáciu textových dokumentov v gridovom prostredí systému GridMiner.
  • Metóda pre vytváranie dedikovaných textových kolekcií z  webových zdrojov, doporučovanie alternatívnych dokumentov podľa užívateľských stereotypov.

Copyright © MM
Last updated 17.8.2009