VEGA 1-8131-01

-> Home page -> Research flag

Znalostné technológie pre získavanie a sprístupňovanie informácií

Anotácia projektu:

Projekt sa zameriava na využitie metód modelovania znalostí pre riešenie úloh získavania a sprístupňovania informácií. Je založený na vytváraní doménových modelov vo forme konceptuálnych modelov aplikačných oblastí. Prvky takýchto modelov môžu byť využité pre explicitné vyjadrenie kontextu textových aj netextových dokumentov. V rámci tohto prístupu sa projekt zameriava na oblasti:
  • Budovanie doménových modelov
  • Manuálne aj automatické anotovanie dokumentov vzhľadom na nejaký doménový model
  • Indexovanie znalostí uložených v databázach
  • Vyhľadávanie relevantných dokumentov alebo ich relevantných častí
  • Kategorizácia a zhlukovanie textových dokumentov
  • Automatické generovanie abstraktov dokumentov

Kľúčové slová:

Modelovanie znalostí, ontológia, vyhľadávanie a výber informácií, anotovanie dokumentov, klasifikácia a zhlukovanie dokumentov

Riešitelia projektu:

  • Marián Mach - vedúci projektu
  • Csontó Július
  • Sabol Tomáš
  • Paralič Ján - zástupca vedúceho projektu
  • Kende Róbert
  • Hreňo Ján
  • Schmotzer Milan
  • Macej Peter
  • Machová Kristína
  • Hudák Slavomír
  • Bednár Peter
  • Koštiaľ Ivan

Anotácia originálnych výsledkov riešenia projektu:

Bol navrhnutý spôsob využitia ontologických doménových modelov pre organizáciu dokumentov v textových kolekciách, založený na obohatení dokumentov o linky na relevantné časti modelu. Bola navrhnutá funkčná architektúra komunikačného fóra založeného na ontologickom modeli.

Metódy dolovania v textoch boli použité pre tvorbu ontologických modelov. Prvotný tvar ontologického modelu je vytváraný zhlukovaním dostupných dokumentov. Anotovanie dokumentu voči nejakej ontológii je podporované klasifikáciou zaradzovaného dokumentu.

V oblasti vyhľadávania dokumentov boli skúmané prístupy založené na ontologických modeloch, prístupe Latent Semantic Indexing a využití sémantickej databázy WordNet. Bola navrhnutá metóda 'mäkkého' vyhľadávania využívajúca štruktúru ontologického modelu.

Bol navrhnutý spôsob znižovania kognitívnej záťaže užívateľa pri prehľadávaní WWW priestoru, doporučujúci WWW stránky relevantné z  hľadiska užívateľových záujmov. Metóda je založená na automatickom budovaní modelu užívateľa z logov WWW serverov.

Výsledky získané za celú dobu riešenia projektu:

Jeden zo spôsobov ako organizovať kolekcie informácií v tvare dokumentov/textov je využitie doménovo orientovaných znalostných modelov v tvare ontológií. Ontológia v tomto prípade modeluje možné témy ktoré môžu byť pokrývané jednotlivými dokumentmi a samotné dokumenty sú anotované - každému dokumentu je priradená sada liniek na relevantné časti príslušného ontologického modelu. Takýmto spôsobom každý dokument je obohatený o kontextuálnu informáciu, definujúcu "o čom daný dokument je". [AFC09, AFC13, AFD05]

Systém Webocrat reprezentuje komunikačné fórum umožňujúce vkladať a  vyhľadávať informácie rozličných typov. Informácie uložené v systéme majú formu rozličných dokumentov, ktoré sú obohatené linkami na časti ontologického modelu. [AFI01]

Táto kontextuálna informácia môže byť využitá rozličným spôsobom. Jej hlavné využitie je pre anotovanie zaradzovaných dokumentov a ich vyhľadávanie. Užívateľ však môže využiť ontológiu na definovanie oblastí svojho záujmu - svojho profilu. Následne sú mu prístupné iba tie informácie, ktoré súvisia s oblasťami jeho záujmu, čím si môže celý systém personalizovať. Navyše to systému umožňuje vyrozumievať užívateľa o výskyte informácií, ktoré by pre neho mohli byť zaujímavé. [AFC06, AFC08, AFD02]

Funkčná architektúra systému má sendvičovú štruktúru pozostávajúcu z  viacerých vrstiev. Centrálne miesto je rezervované pre doménový model tvoriaci organizačné centrum celého systému. Druhá vrstva obsahuje priestor dokumentov delený na podpriestory (podľa typu uložených dokumentov, napr. diskusie). Pretože každý z nich očakáva špecifický spôsob manipulácie s informáciami, tretia vrstva obsahuje moduly dedikované pre manažment jednotlivých informačných podpriestorov (napr. modul pre prieskum verejnej mienky, publikačný modul ap.). Nasledujúca vrstva je zameraná na získavanie informácií uložených v  systéme. Vrchná vrstva predstavuje rozhranie systému. Medzi jednotlivými vrstvami sú medzivrstvy poskytujúce systému potrebnú úroveň bezpečnosti. [ADF01, AFC07, AFC11, AFC12, AFD04]

Samotný systém pozostáva z dvoch relatívne samostatných častí - ontologického serveru (zodpovedného za manažment ontologických modelov vrátanie inferencie nad týmito modelmi) a informačného serveru (využívajúceho ontologický model pre správu, zaradzovanie nových a  vyhľadávanie existujúcich dokumentov). [AFC04]

Experimenty v reálnom prostredí (v oblasti organizácií verejnej správy a samosprávy) preukázali vhodnosť zvolenej koncepcie a prednosti systému Webocrat. [AFC02]

Zvýšiť efektivitu využívania informácií (uskladnených v textovej podobe a organizovaných pomocou ontologických modelov) v reálnych podmienkach je možné prostredníctvom zabezpečenia dostatočnej flexibility pre pokrytie rôznorodých požiadaviek. V tomto sme sa sústredili na využívanie distribuovaných objektov. Pre systém KnowWeb bola navrhnutá trojúrovňová architektúra založená na technológii mobilných agentov. [ADE02]

Proces objavovania znalostí v textoch (KDT = Knowledge Discovery in Texts) je pomerne zložitý iteratívny a interaktívny proces. V tomto procese dolovanie textov tvorí iba jeden krok, nadväzujúci na rôzne etapy pre- a post-spracovania.. Samotné dolovanie textov (TM = Text Mining) sa v zásade zameriava na úlohy zhlukovania a klasifikácie. [IPP01] Pre riešenie týchto úloh je možné používať známe algoritmy v ich publikovanej podobe, alebo je možné zostaviť vhodný algoritmus 'na mieru' požiadavkám naň - vhodným výberom základných princípov a ich skombinovaním do výslednej podoby algoritmu. [AFC01]

V súvislosti s organizáciou textových kolekcií pomocou ontológií je možné výhodne využívať metódy TM. [AFA01] Zhlukovanie má schopnosť podpory pre tvorbu prvotného tvaru ontologického modelu na základe existujúcich dokumentov. Umožňuje vytvoriť hierarchickú štruktúru dokumentov, v ktorej dokumenty venované podobným témam sú topologicky blízko seba. Zoznam pomenovaných zhlukov poskytuje predstavu o  konceptoch, ktoré by mohli byť reprezentované v ontológii. V rámci tohto projektu sme sa zameriavali na využívanie metódy GHSOM (Growing Hierarchical SOM). [ABC01, AFC10]

Na druhej strane klasifikácia reprezentuje vhodný nástroj pre anotovanie dokumentov, keď sa prijíma rozhodnutie, ktorá časť ontologického modelu je relevantná voči danému dokumentu. V tejto oblasti sme sa sústredili na metódy Naivný Bayesov klasifikátor, k-Nearest Neighbour a Learning Vector Quantization. Pre účely indexovania dokumentov a voľby termov sme experimentovali okrem klasických prístupov aj s metódou Latent Semantic Indexing cielenou na odstránenie polysémického a synonymického problému.[AFC03, AFD06]

Ontologický znalostný model je možné s úspechom použiť pre vyhľadávanie textov v textových dokumentoch. Najpríťažlivejšou možnosťou jeho použitia je podpora 'mäkkých' techník vyhľadávania, keď štruktúra ontológie je použitá pre určovanie podobnosti tém, vďaka čomu je možné vyhľadávať dokumenty pokrývajúce nielen tie témy, ktoré boli špecifikované v otázke, ale aj dokumenty pokrývajúce témy podobné/blízke. Naše experimenty preukázali prevahu vyhľadávania založeného na ontológiách nad klasickými modelmi vyhľadávania. [AFC05]

Experimenty s použitím metódy Latent Semantic Indexing pre vyhľadávanie dokumentov v textových kolekciách potvrdili vhodnosť tohto prístupu nielen z hľadiska redukcie priestoru termov ale na niektorých kolekciách aj z hľadiska zlepšenia výsledkov vyhľadávania. [AFC14]

Jednou zo sľubných ciest ako ďalej zlepšovať vyhľadávanie dokumentov je uvažovanie sémantickej informácie nesenej slovami textu. V projekte sme sa sústredili na využitie sémantickej databázy WordNet pre sémantické indexovanie textov. Samotné vyhľadávanie pre určovanie sémantickej podobnosti využíva rôzne typy sémantických relácií, prítomných v databáze. [AFD03]

Vyhľadávanie relevantných informácií v textových kolekciách, najmä na WWW serveroch, predstavuje pre užívateľov značnú kognitívnu záťaž. Túto je možné znižovať vhodným filtrovaním, keď užívateľovi sú predkladané/doporučované dokumenty (napr. www stránky) relevantné z  hľadiska jeho záujmov. Tento prístup sme overili v systéme AWS, ktorý automaticky buduje model užívateľa na základe toho, ktoré www stránky daný užívateľ navštívil. Experimenty boli zatiaľ zamerané na klasifikačné algoritmy HGS a HSG. Na druhej strane použitím zhlukovacích algoritmov na obsah log-súboru www servera je možné identifikovať rozličné skupiny návštevníkov servera a o akú problematiku majú tieto skupiny najväčší záujem. [AEC01]

Prispôsobovať používateľským podmienkam je možné nielen kolekciu textov riadenú nejakou doménovou teóriou, ale aj samotnú doménovú teóriu (nezávisle od toho, či k jednotlivým častiam tejto teórie sú viazané nejaké dokumenty alebo nie). Systém MEBL využíva prístup učenia založeného na vysvetľovaní, kde na základe trénovacích príkladov, cieľového pojmu a operačného kritéria je možné z pôvodnej doménovej teórie formovať modifikovanú doménovú teóriu lepšie prispôsobenú použitiu v nejakom používateľskom prostredí. Naviac rieši aj problém, keď niektoré fakty sa v danom prostredí stávajú neurčiteľnými. [ADE01]

Publikácie:

ADE01 MACHOVÁ, K. - JANOVSKÝ, J.: Získavanie a modifikácia znalostí v kontexte vedomostí z oblasti prenatálnej medicíny. Lékař a technika, r. 32, 2001, č. 6, ISSN 0301-5491, 147-151.
ADE02 PARALIČ, J. - PARALIČ, M. - MACH, M.: Support of knowledge management in distributed environment. Informatica, vol. 25, 2001, no. 3, ISSN 0350-5596, 319-328.
ABC01 PARALIC, J. - BEDNAR, P.: Text Mining for Documents Annotation and Ontology Support. A book chapter in: Intelligent Systems at the Service of Mankind, Springer Verlag, 2003, ISBN 3-935798-25-3.
ADF01 PARALIČ, J. - SABOL, T. - MACH, M.: Advanced Knowledge Technologies for e-Government. Acta Electrotechnica et Informatica, č. 4, 2003.
AEC01 MACHOVÁ, K. - KLIMKO, I.: Podpora adaptívneho WEBu prostriedkami strojového učenia. In: Sborník příspěvků ZNALOSTI 2004, Masarykova universita, Brno, Česká Republika.
AFA01 PARALIČ, J. - SABOL, T.: Work with Knowledge for Support of e-Government. In: Sborník příspěvků 2. ročníku konference ZNALOSTI 2003, Ostrava, Česká Republika, 2003, ISBN 80-248-0229-5, 6-12.
AFC01 MACHOVA, K. - PARALIC, J.: Basic principles of cognitive algorithms design. In: Proc. of the IEEE Int. Conference on Computational Cybernetics ICCC2003, Siófok, Hungary, 2003, ISBN 963 7154 17 5, 245-247.
AFC02 PARALIC, J. - SABOL, T: - MACH, M.: First Trials in Webocracy. In: Proc. of the Second Int. Conference on Electronic Government EGOV 2003, Prague, Czech republic, 2003, Springer Verlag, ISBN 3-540-40485-2, 69-74.
AFC03 BEDNÁR, P. - HUDÁK, S.: Využitie kategorizácie textov pre linkovanie na ontológiu. In: Sborník příspěvků 2. ročníku konference ZNALOSTI 2003, Ostrava, Česká Republika, 2003, ISBN 80-248-0229-5, 291-296.
AFC04 PARALIC, J. - SABOL, T: - MACH, M.: Knowledge Enhanced E-government Portal. In: Proc. of the 4th IFIP Int. Working Conference KMGov 2003, Rhodes, Greece, 2003, Springer Verlag, ISBN 3-540-40145-8, 163-174.
AFC05 PARALIC, J. - KOSTIAL, I.: Ontology-based Information Retrieval. In: Proc. of the 14th Int. Conference on Information and Intelligent Systems - iis2003, Varaždin, Croatia, 2003, ISBN 953-6071-22-3, 23-28.
AFC06 PARALIC, J. - SABOL, T. - MACH, M.: A Knowledge-Based System for Support of Public Administration. In: Proc. of the 13th International Conference on Information and Intelligent Systems - iis2002, Varaždin, Croatia, 2002, ISBN 953-6071-18-5, 203-210.
AFC07 PARALIC, J. - SABOL, T. - MACH, M.: A System to Support e-Democracy. In: Proc. of the First International Conference on Electronic Government - EGOV2002, Aix-en-Provence, France, 2002, ISBN 3-540-44121-2, 288-291.
AFC08 MACH, M. - MACEJ, P. - HRENO, J.: Ontology-based Communication Forum. In: Knowledge-based Intelligent Information Engineering Systems & Allied Technologies, IOS Press, Amsterdam, 2002, ISBN 1-58603-280-1, 1544-1548.
AFC09 PARALIC, J. - MACH, M.: Ontological Knowledge Modelling in Support of e-Democracy. In: Proc. of the Sixteenth European Meeting on Cybernetics and Systems Research - vol. 2, Austrian Society for Cybernetic Studies, Vienna, Austria, 2002, ISBN 3-85206-160-1, 801-805.
AFC10 PARALIČ, J. - BEDNÁR, P.: Knowledge Discovery in Texts Supporting e-Democracy. In: Proc. of the Int. Conference on Intelligent Engineering Systems INES2002, University of Zagreb, Opatija, Croatia, 2002, ISBN 953-6071-17-7, 327-332.
AFC11 PARALIC, J.: Intelligent Communication Support Framework for Distance Education. In: Proc. of the 3rd Int. Conference on Information Technology Based Higher Education and Training ITHET2002, Budapest, Hungary, 2002, ISBN 963 7154 07 8, 153-155.
AFC12 PARALIC, J. - SABOL, T.: Implementation of e-Government Using Knowledge-Based System. In: Proc. of the 12th Int. Workshop on Database and Expert Systems Applications, The Printing House, Washington, 2001, ISBN 0-7695-1230-5, 364-368.
AFC13 MACH, M. - SABOL, T,: Knowledge-based System for Support of e-Democracy. In: Proc. of the European conference on e-Government ECEG2001, MCIL, Dublin, 2001, ISBN 0-9540488-0-1-4, 269-278.
AFC14 KOŠTIAĽ, I.: Using Latent Semantic Indexing for intelligent information retrieval. In: Sborník příspěvků 2. ročníku konference ZNALOSTI 2003, Ostrava, Česká Republika, 2003, ISBN 80-248-0229-5, 321-326.
AFD01 MACH, M. - MACHOVÁ, K.: Knowledge technologies for Information Acquisition and Retrieval. In: Proc. of the 3rd Int. Scientific Conference of the Faculty of Electrical Engineering and Informatics ISC 2003, Košice, Technical University, 2003, ISBN 80-89066-65-8, 61-62.
AFD02 MACEJ, P.: Webocrat - A System to Support e-Government. In: Proc. of the II. Doktorantskej konferencie a ŠVOS, Technická univerzita, Košice, 2002, ISBN 80-968666-2-1, 55-60.
AFD03 HUDÁK, S.: Text Retrieval using Wordnet Lexical Database. In: Proc. of the II. Doktorantskej konferencie a ŠVOS, Technická univerzita, Košice, 2002, ISBN 80-968666-2-1, 35-36.
AFD04 PARALIC, J. - SABOL, T. - MACH, M.: Web-Based Support for e-Government. In: Proc. of the 6th Int. Conference on Global Business and Economic Development - Volume II: The East European Perspectives, Comenius University, Bratislava, Slovakia, 2001, ISBN 0-9660656-6-2, 265-269.
AFD05 MACH, M.: Knowledge Technologies for Information Acquisition and Retrieval. In: Proc. of the II. Internal Scientific Conference of the Faculty of Electrical Engineering and Informatics ISC'2001, Košice, 2001, ISBN 80-88964-84-9, 29-30.
AFD06 BEDNÁR, P. - HUDÁK, S.: Automatické linkovanie textových dokumentov. In: Proc. of the 5th Scientific Conference with International participation "Informatics and Algorithms 2002", Prešov, 2002, ISBN 80-88941-21-0, 215-219.
AFI01 MACH, M. - MACEJ, P. - HRENO, J.: Ontology-based Communication Forum. In: Collected Posters from the First Int. Semantic Web Conference ISWC2002, University of Cagliary, Cagliary, Italy, 2002, 39-39.
IPP01 PARALIČ, J. - BEDNÁR, P.: Knowledge Discovery in Texts. Technical Report, Dept. of Cybernetics and AI, Technical University, Košice, 2002, 26 pages.

Copyright © MM
Last updated 4.6.2004