JRC Morphologic ihm

Intelligens többnyelvű dokumentumkezelés EUROVOC rendszerben

IHM-ITEM 165/2003

Nyitólap | Eredmények | Feladatok | Résztvevők | Alkalmazások

Rövid összefoglaló

A tervezett projekt célja egy többnyelvű dokumentumkezelő rendszer kidolgozása, amely az EU-ban kifejlesztett és rendszeresített EUROVOC fogalmi osztályozó rendszer (tezaurusz) kategóriái szerint a dokumentumokat tartalmuk alapján automatikusan osztályozza. Az EUROVOC tezaurusz egy olyan hierarchikus fogalmi rendszer, amelynek kategóriái az egyes nyelvek között egyértelmű megfeleltetésben állnak, ennél fogva különösen alkalmas arra, hogy a különböző nyelvű dokumentumok tartalmáról az összes olyan nyelven is elérhető gyors útmutatást adjon, amelyre az EUROVOC rendszert kidolgozták. Az EU tagországai mellett jelenleg már szinte valamennyi kelet-európai ország elkészítette saját nyelvi változatát (létezik szlovák, cseh, szlovén, román, horvát, lengyel, de orosz, lett és litván változat is).

A tervezett projekt során elkészül a teljes EUROVOC fogalmi rendszer magyar változata, valamint az a technológia, amellyel magyar illetve az EU nyelvein (elsősorban angolul, németül és franciául) írt szövegek automatikus tartalmi besorolása elvégezhető. Ennek sikeres megvalósítása azt jelenti, hogy az EU nyelvein az EUROVOC rendszerben indexált szövegek tartalmi osztályozása magyar nyelven is azonnal elérhetővé válik, másrészt a fenti nyelveken új dokumentumok automatikus indexálása révén azok tartalma besorolása az összes EUROVOC nyelven rendelkezésre áll. Igy mindkét irányban megvalósul a többnyelvű híd a magyar illetve idegennyelvű szövegek között.

A projektben alkalmazott technológiát az Európa Bizottság Isprai Kutatóközpontjában működő nyelvtechnológiai csoport által kifejlesztett eljárások és eszközök magyarra adaptálása révén valósítjuk meg. Ennek lényege, hogy az indexálandó dokumentumból nyelvstatisztikai jellemzői alapján egy kulcsszó listát nyerünk ki, amelyek jó jellemzői az adott dokumentum tartalmának. Az EUROVOC tezaurusz kategóriái azonban általában absztrakt, gyakran több szóval alkotott kifejezések, amelyek nem fordulnak elő a kulcsszavakban. A technológia leginnovatívabb eleme az az eljárás, amellyel a dokumentumokat jellemző kulcsszavakat az EUROVOC kategóriákra illesztjük. Ezt a magyarra kétféle eljárással: a) már lefordított szövegekből öszeállított ún. párhuzamos korpuszok illetve b) az EUROVOC rendszerben indexált szövegekre jellemző kulcsszavak közvetlen a magyar nyelvre transzferálásával végezzük el.

A projektum eredményeként először jön létre az EUROVOC tezaurusz teljes magyar változata és a kidolgozandó technológia segítségével a magyarul illetve az EU nyelvein írt dokumentumok tartalma azonosíthatóvá válik az EU-ban szabványosított módon.

Dokumentumok


Last modified: Tue Feb 1 11:37:31 CET 2005