Znalostné technológie pre získavanie a sprístupňovanie informácií
Anotácia projektu:
Projekt sa zameriava na využitie metód modelovania znalostí pre riešenie
úloh získavania a sprístupňovania informácií. Je založený na vytváraní
doménových modelov vo forme konceptuálnych modelov aplikačných oblastí.
Prvky takýchto modelov môžu byť využité pre explicitné vyjadrenie
kontextu textových aj netextových dokumentov. V rámci tohto prístupu sa
projekt zameriava na oblasti:
- Budovanie doménových modelov
- Manuálne aj automatické anotovanie dokumentov vzhľadom na nejaký
doménový model
- Indexovanie znalostí uložených v databázach
- Vyhľadávanie relevantných dokumentov alebo ich relevantných
častí
- Kategorizácia a zhlukovanie textových dokumentov
- Automatické generovanie abstraktov dokumentov
Kľúčové slová:
Modelovanie znalostí, ontológia, vyhľadávanie a výber informácií,
anotovanie dokumentov, klasifikácia a zhlukovanie dokumentov
Riešitelia projektu:
- Marián Mach - vedúci projektu
- Csontó Július
- Sabol Tomáš
- Paralič Ján - zástupca vedúceho projektu
- Kende Róbert
- Hreňo Ján
- Schmotzer Milan
- Macej Peter
- Machová Kristína
- Hudák Slavomír
- Bednár Peter
- Koštiaľ Ivan
Anotácia originálnych výsledkov riešenia projektu:
Bol navrhnutý spôsob využitia ontologických doménových modelov pre
organizáciu dokumentov v textových kolekciách, založený na obohatení
dokumentov o linky na relevantné časti modelu. Bola navrhnutá funkčná
architektúra komunikačného fóra založeného na ontologickom modeli.
Metódy dolovania v textoch boli použité pre tvorbu ontologických modelov.
Prvotný tvar ontologického modelu je vytváraný zhlukovaním dostupných
dokumentov. Anotovanie dokumentu voči nejakej ontológii je podporované
klasifikáciou zaradzovaného dokumentu.
V oblasti vyhľadávania dokumentov boli skúmané prístupy založené na
ontologických modeloch, prístupe Latent Semantic Indexing a využití
sémantickej databázy WordNet. Bola navrhnutá metóda 'mäkkého'
vyhľadávania využívajúca štruktúru ontologického modelu.
Bol navrhnutý spôsob znižovania kognitívnej záťaže užívateľa pri
prehľadávaní WWW priestoru, doporučujúci WWW stránky relevantné z
hľadiska užívateľových záujmov. Metóda je založená na automatickom
budovaní modelu užívateľa z logov WWW serverov.
Výsledky získané za celú dobu riešenia projektu:
Jeden zo spôsobov ako organizovať kolekcie informácií v tvare
dokumentov/textov je využitie doménovo orientovaných znalostných
modelov v tvare ontológií. Ontológia v tomto prípade modeluje možné
témy ktoré môžu byť pokrývané jednotlivými dokumentmi a samotné
dokumenty sú anotované - každému dokumentu je priradená sada liniek na
relevantné časti príslušného ontologického modelu. Takýmto spôsobom
každý dokument je obohatený o kontextuálnu informáciu, definujúcu
"o čom daný dokument je". [AFC09, AFC13, AFD05]
Systém Webocrat reprezentuje komunikačné fórum umožňujúce vkladať a
vyhľadávať informácie rozličných typov. Informácie uložené v systéme
majú formu rozličných dokumentov, ktoré sú obohatené linkami na časti
ontologického modelu. [AFI01]
Táto kontextuálna informácia môže byť využitá rozličným spôsobom. Jej
hlavné využitie je pre anotovanie zaradzovaných dokumentov a ich
vyhľadávanie. Užívateľ však môže využiť ontológiu na definovanie
oblastí svojho záujmu - svojho profilu. Následne sú mu prístupné iba
tie informácie, ktoré súvisia s oblasťami jeho záujmu, čím si môže
celý systém personalizovať. Navyše to systému umožňuje vyrozumievať
užívateľa o výskyte informácií, ktoré by pre neho mohli byť
zaujímavé. [AFC06, AFC08, AFD02]
Funkčná architektúra systému má sendvičovú štruktúru pozostávajúcu z
viacerých vrstiev. Centrálne miesto je rezervované pre doménový model
tvoriaci organizačné centrum celého systému. Druhá vrstva obsahuje
priestor dokumentov delený na podpriestory (podľa typu uložených
dokumentov, napr. diskusie). Pretože každý z nich očakáva špecifický
spôsob manipulácie s informáciami, tretia vrstva obsahuje moduly
dedikované pre manažment jednotlivých informačných podpriestorov
(napr. modul pre prieskum verejnej mienky, publikačný modul ap.).
Nasledujúca vrstva je zameraná na získavanie informácií uložených v
systéme. Vrchná vrstva predstavuje rozhranie systému. Medzi
jednotlivými vrstvami sú medzivrstvy poskytujúce systému potrebnú
úroveň bezpečnosti. [ADF01, AFC07, AFC11, AFC12, AFD04]
Samotný systém pozostáva z dvoch relatívne samostatných častí -
ontologického serveru (zodpovedného za manažment ontologických modelov
vrátanie inferencie nad týmito modelmi) a informačného serveru
(využívajúceho ontologický model pre správu, zaradzovanie nových a
vyhľadávanie existujúcich dokumentov). [AFC04]
Experimenty v reálnom prostredí (v oblasti organizácií verejnej
správy a samosprávy) preukázali vhodnosť zvolenej koncepcie a
prednosti systému Webocrat. [AFC02]
Zvýšiť efektivitu využívania informácií (uskladnených v textovej
podobe a organizovaných pomocou ontologických modelov) v reálnych
podmienkach je možné prostredníctvom zabezpečenia dostatočnej
flexibility pre pokrytie rôznorodých požiadaviek. V tomto sme sa
sústredili na využívanie distribuovaných objektov. Pre systém
KnowWeb bola navrhnutá trojúrovňová architektúra založená na
technológii mobilných agentov. [ADE02]
Proces objavovania znalostí v textoch (KDT = Knowledge Discovery in
Texts) je pomerne zložitý iteratívny a interaktívny proces. V tomto
procese dolovanie textov tvorí iba jeden krok, nadväzujúci na rôzne
etapy pre- a post-spracovania.. Samotné dolovanie textov (TM = Text
Mining) sa v zásade zameriava na úlohy zhlukovania a klasifikácie.
[IPP01] Pre riešenie týchto úloh je možné používať známe algoritmy
v ich publikovanej podobe, alebo je možné zostaviť vhodný algoritmus
'na mieru' požiadavkám naň - vhodným výberom základných princípov
a ich skombinovaním do výslednej podoby algoritmu. [AFC01]
V súvislosti s organizáciou textových kolekcií pomocou ontológií je
možné výhodne využívať metódy TM. [AFA01] Zhlukovanie má schopnosť
podpory pre tvorbu prvotného tvaru ontologického modelu na základe
existujúcich dokumentov. Umožňuje vytvoriť hierarchickú štruktúru
dokumentov, v ktorej dokumenty venované podobným témam sú topologicky
blízko seba. Zoznam pomenovaných zhlukov poskytuje predstavu o
konceptoch, ktoré by mohli byť reprezentované v ontológii. V rámci
tohto projektu sme sa zameriavali na využívanie metódy GHSOM
(Growing Hierarchical SOM). [ABC01, AFC10]
Na druhej strane klasifikácia reprezentuje vhodný nástroj pre
anotovanie dokumentov, keď sa prijíma rozhodnutie, ktorá časť
ontologického modelu je relevantná voči danému dokumentu. V tejto
oblasti sme sa sústredili na metódy Naivný Bayesov klasifikátor,
k-Nearest Neighbour a Learning Vector Quantization. Pre účely
indexovania dokumentov a voľby termov sme experimentovali okrem
klasických prístupov aj s metódou Latent Semantic Indexing cielenou
na odstránenie polysémického a synonymického problému.[AFC03, AFD06]
Ontologický znalostný model je možné s úspechom použiť pre
vyhľadávanie textov v textových dokumentoch. Najpríťažlivejšou
možnosťou jeho použitia je podpora 'mäkkých' techník vyhľadávania,
keď štruktúra ontológie je použitá pre určovanie podobnosti tém,
vďaka čomu je možné vyhľadávať dokumenty pokrývajúce nielen tie
témy, ktoré boli špecifikované v otázke, ale aj dokumenty pokrývajúce
témy podobné/blízke. Naše experimenty preukázali prevahu vyhľadávania
založeného na ontológiách nad klasickými modelmi vyhľadávania. [AFC05]
Experimenty s použitím metódy Latent Semantic Indexing pre vyhľadávanie
dokumentov v textových kolekciách potvrdili vhodnosť tohto prístupu
nielen z hľadiska redukcie priestoru termov ale na niektorých kolekciách
aj z hľadiska zlepšenia výsledkov vyhľadávania. [AFC14]
Jednou zo sľubných ciest ako ďalej zlepšovať vyhľadávanie dokumentov
je uvažovanie sémantickej informácie nesenej slovami textu. V projekte
sme sa sústredili na využitie sémantickej databázy WordNet pre
sémantické indexovanie textov. Samotné vyhľadávanie pre určovanie
sémantickej podobnosti využíva rôzne typy sémantických relácií,
prítomných v databáze. [AFD03]
Vyhľadávanie relevantných informácií v textových kolekciách, najmä na
WWW serveroch, predstavuje pre užívateľov značnú kognitívnu záťaž.
Túto je možné znižovať vhodným filtrovaním, keď užívateľovi sú
predkladané/doporučované dokumenty (napr. www stránky) relevantné z
hľadiska jeho záujmov. Tento prístup sme overili v systéme AWS, ktorý
automaticky buduje model užívateľa na základe toho, ktoré www stránky
daný užívateľ navštívil. Experimenty boli zatiaľ zamerané na
klasifikačné algoritmy HGS a HSG. Na druhej strane použitím
zhlukovacích algoritmov na obsah log-súboru www servera je možné
identifikovať rozličné skupiny návštevníkov servera a o akú problematiku
majú tieto skupiny najväčší záujem. [AEC01]
Prispôsobovať používateľským podmienkam je možné nielen kolekciu textov
riadenú nejakou doménovou teóriou, ale aj samotnú doménovú teóriu
(nezávisle od toho, či k jednotlivým častiam tejto teórie sú viazané
nejaké dokumenty alebo nie). Systém MEBL využíva prístup učenia
založeného na vysvetľovaní, kde na základe trénovacích príkladov,
cieľového pojmu a operačného kritéria je možné z pôvodnej doménovej
teórie formovať modifikovanú doménovú teóriu lepšie prispôsobenú
použitiu v nejakom používateľskom prostredí. Naviac rieši aj problém,
keď niektoré fakty sa v danom prostredí stávajú neurčiteľnými. [ADE01]
Publikácie:
ADE01 |
MACHOVÁ, K. - JANOVSKÝ, J.:
Získavanie a modifikácia znalostí v kontexte vedomostí z oblasti
prenatálnej medicíny. Lékař a technika, r. 32, 2001, č. 6,
ISSN 0301-5491, 147-151. |
ADE02 |
PARALIČ, J. - PARALIČ, M. - MACH, M.:
Support of knowledge management in distributed environment.
Informatica, vol. 25, 2001, no. 3, ISSN 0350-5596, 319-328. |
ABC01 |
PARALIC, J. - BEDNAR, P.:
Text Mining for Documents Annotation and Ontology Support.
A book chapter in: Intelligent Systems at the Service of Mankind,
Springer Verlag, 2003, ISBN 3-935798-25-3. |
ADF01 |
PARALIČ, J. - SABOL, T. - MACH, M.:
Advanced Knowledge Technologies for e-Government.
Acta Electrotechnica et Informatica, č. 4, 2003. |
AEC01 |
MACHOVÁ, K. - KLIMKO, I.:
Podpora adaptívneho WEBu prostriedkami strojového učenia.
In: Sborník příspěvků ZNALOSTI 2004, Masarykova universita, Brno,
Česká Republika. |
AFA01 |
PARALIČ, J. - SABOL, T.:
Work with Knowledge for Support of e-Government.
In: Sborník příspěvků 2. ročníku konference ZNALOSTI 2003, Ostrava,
Česká Republika, 2003, ISBN 80-248-0229-5, 6-12. |
AFC01 |
MACHOVA, K. - PARALIC, J.:
Basic principles of cognitive algorithms design.
In: Proc. of the IEEE Int. Conference on Computational Cybernetics
ICCC2003, Siófok, Hungary, 2003, ISBN 963 7154 17 5, 245-247. |
AFC02 |
PARALIC, J. - SABOL, T: - MACH, M.:
First Trials in Webocracy.
In: Proc. of the Second Int. Conference on Electronic Government
EGOV 2003, Prague, Czech republic, 2003, Springer Verlag, ISBN
3-540-40485-2, 69-74. |
AFC03 |
BEDNÁR, P. - HUDÁK, S.:
Využitie kategorizácie textov pre linkovanie na ontológiu.
In: Sborník příspěvků 2. ročníku konference ZNALOSTI 2003, Ostrava,
Česká Republika, 2003, ISBN 80-248-0229-5, 291-296. |
AFC04 |
PARALIC, J. - SABOL, T: - MACH, M.:
Knowledge Enhanced E-government Portal.
In: Proc. of the 4th IFIP Int. Working Conference KMGov 2003,
Rhodes, Greece, 2003, Springer Verlag, ISBN 3-540-40145-8,
163-174. |
AFC05 |
PARALIC, J. - KOSTIAL, I.:
Ontology-based Information Retrieval.
In: Proc. of the 14th Int. Conference on Information and Intelligent
Systems - iis2003, Varaždin, Croatia, 2003, ISBN 953-6071-22-3,
23-28. |
AFC06 |
PARALIC, J. - SABOL, T. - MACH, M.:
A Knowledge-Based System for Support of Public Administration.
In: Proc. of the 13th International Conference on Information and
Intelligent Systems - iis2002, Varaždin, Croatia, 2002, ISBN
953-6071-18-5, 203-210. |
AFC07 |
PARALIC, J. - SABOL, T. - MACH, M.:
A System to Support e-Democracy.
In: Proc. of the First International Conference on Electronic
Government - EGOV2002,
Aix-en-Provence, France, 2002, ISBN 3-540-44121-2, 288-291. |
AFC08 |
MACH, M. - MACEJ, P. - HRENO, J.:
Ontology-based Communication Forum.
In: Knowledge-based Intelligent Information Engineering Systems &
Allied Technologies,
IOS Press, Amsterdam, 2002, ISBN 1-58603-280-1, 1544-1548. |
AFC09 |
PARALIC, J. - MACH, M.:
Ontological Knowledge Modelling in Support of e-Democracy.
In: Proc. of the Sixteenth European Meeting on Cybernetics and Systems
Research - vol. 2, Austrian Society for Cybernetic Studies, Vienna,
Austria, 2002, ISBN 3-85206-160-1, 801-805. |
AFC10 |
PARALIČ, J. - BEDNÁR, P.:
Knowledge Discovery in Texts Supporting e-Democracy.
In: Proc. of the Int. Conference on Intelligent Engineering Systems
INES2002, University
of Zagreb, Opatija, Croatia, 2002, ISBN 953-6071-17-7, 327-332. |
AFC11 |
PARALIC, J.:
Intelligent Communication Support Framework for Distance Education.
In: Proc. of the 3rd Int. Conference on Information Technology Based
Higher Education and Training ITHET2002, Budapest, Hungary, 2002,
ISBN 963 7154 07 8, 153-155. |
AFC12 |
PARALIC, J. - SABOL, T.:
Implementation of e-Government Using Knowledge-Based
System. In: Proc. of the 12th Int. Workshop on Database and Expert
Systems Applications, The Printing House, Washington, 2001,
ISBN 0-7695-1230-5, 364-368. |
AFC13 |
MACH, M. - SABOL, T,:
Knowledge-based System for Support of e-Democracy.
In: Proc. of the European conference on e-Government ECEG2001,
MCIL, Dublin, 2001, ISBN 0-9540488-0-1-4, 269-278. |
AFC14 |
KOŠTIAĽ, I.:
Using Latent Semantic Indexing for intelligent information retrieval.
In: Sborník příspěvků 2. ročníku konference ZNALOSTI 2003, Ostrava,
Česká Republika, 2003, ISBN 80-248-0229-5, 321-326. |
AFD01 |
MACH, M. - MACHOVÁ, K.:
Knowledge technologies for Information Acquisition and
Retrieval. In: Proc. of the 3rd Int. Scientific Conference of the
Faculty of Electrical Engineering and Informatics ISC 2003, Košice,
Technical University, 2003, ISBN 80-89066-65-8, 61-62. |
AFD02 |
MACEJ, P.: Webocrat - A System to Support e-Government.
In: Proc. of the II. Doktorantskej konferencie a ŠVOS, Technická
univerzita, Košice, 2002, ISBN 80-968666-2-1, 55-60. |
AFD03 |
HUDÁK, S.: Text Retrieval using Wordnet Lexical Database.
In: Proc. of the II. Doktorantskej konferencie a ŠVOS, Technická
univerzita, Košice, 2002, ISBN 80-968666-2-1, 35-36. |
AFD04 |
PARALIC, J. - SABOL, T. - MACH, M.:
Web-Based Support for e-Government.
In: Proc. of the 6th Int. Conference on Global Business and Economic
Development - Volume II: The East European Perspectives, Comenius
University, Bratislava, Slovakia, 2001, ISBN 0-9660656-6-2,
265-269. |
AFD05 |
MACH, M.:
Knowledge Technologies for Information Acquisition and Retrieval.
In: Proc. of the II. Internal Scientific Conference of the Faculty of
Electrical Engineering and Informatics ISC'2001, Košice, 2001,
ISBN 80-88964-84-9, 29-30. |
AFD06 |
BEDNÁR, P. - HUDÁK, S.:
Automatické linkovanie textových dokumentov.
In: Proc. of the 5th Scientific Conference with International
participation "Informatics and Algorithms 2002", Prešov, 2002,
ISBN 80-88941-21-0, 215-219. |
AFI01 |
MACH, M. - MACEJ, P. - HRENO, J.:
Ontology-based Communication Forum.
In: Collected Posters from the First Int. Semantic Web Conference
ISWC2002, University of Cagliary, Cagliary, Italy, 2002, 39-39. |
IPP01 |
PARALIČ, J. - BEDNÁR, P.:
Knowledge Discovery in Texts. Technical Report,
Dept. of Cybernetics and AI, Technical University, Košice, 2002,
26 pages. |
|
|
|