MTA Nyelvtudományi Intézet

  Nyelvtechnológiai Kutatócsoport


[English version]

Nyitólap > Osztályok > Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály > Nyelvtechnológia

Nyelvtechnológiai Kutatócsoport

     Vezető: Váradi Tamás, PhD, tudományos főmunkatárs

     Titkárság: Arató Vera

     E-mail: arato.vera[kukac]nytud.mta.hu

     Telefon: 321-4830/126

 

A Nyelvtechnológiai Kutatócsoport jogelődje a Korpusznyelvészeti Osztály 1997-ben alakult, az akkor már néhány éve zajló nyelvtechnológiai kutató-fejlesztő munka formális elismeréseként. A kutatócsoport azóta jelentős kutatási tapasztalatot halmozott fel és eredményeket ért el a nyelvtechnológia, ezen belül különösen a nyelvi erőforrások kifejlesztése területén. Számos olyan sikeres nemzetközi projektumban vett részt, amelyek célja egyrészt a nyugati nyelvekre kidolgozott, de facto sztenderdként elfogadott eljárások adaptálása volt (Multext-East, Gramlex), másrészt nyelvi erőforrások létrehozására irányuló új szabványok kidolgozása (elektronikus szótári adatbázisok, CONCEDE). A csoport munkatársai a projektumok során kifejlesztett és felhasznált számítógépes nyelvfeldolgozó eszközök és technológiák alapos ismeretére is szert tettek, ezek magyar nyelvre történő adaptálásában aktív szerepet játszottak.

A Nyelvtechnológiai Osztályon készült el a Magyar Nemzeti Szövegtár (MNSZ) első változata. Ez a magyar nyelv legújabb, írott nyelvhasználatot tükröző, 187,6 millió szavas reprezentatív korpusza, mely 2005 novemberében a határon túli nyelvváltozatokkal kiegészülve vált valóban nemzetivé. A Szövegtár eddigi feldolgozása során már sikerrel alkalmazott eljárások, programok (tokenizáló, statisztikai egyértelműsítő), a nemzetközi projektumokban alkalmazott, a lexikai adatbázis építésében használatos technológiák (SGML/XML editorok, validáló programok és leíró nyelvtanok) felhasználásának köszönhetően a csoport munkatársainak alkalma volt számos alapvető nyelvtechnológiai szoftvereszköz tesztelésére, fejlesztésére is.

A nyelvtechnológia egyik klasszikus célja a különböző nyelvek közötti automatikus gépi fordítás megvalósítása. Ezen a téren jelentős eredmény a http://www.webforditas.hu címen 2007 közepe óta elérhető magyar-angol gépi fordító rendszer, melyhez konzorciumi partnerként a kulcsfontosságú, igéket illetve igei szerkezeteket tartalmazó lexikai adatbázist készítettük el. Hároméves munka eredményeképpen szintén 2007-ben készült el a szinonim szavakat és a köztük lévő relációkat feltérképező WordNet lexikai adatbázis magyar változata.

Az MTA Nyelvtudományi Intézet Nyelvtechnológai Kutatócsoportja sokat tesz a beszédtechnológia illetve a nyelvtechnológia területén tevékenykedő hazai kutatóhelyek és cégek szorosabb együttműködése érdekében. 2008-ban nyolc partner részvételével megalakult a Nyelv- és Beszédtechnológiai Platform, melynek a koordinátora az intézet. Nemzetközi színtéren is vezető szerepet vállalt a kutatócsoport: a több mint száz résztvevős, Európai Unió által támogatott CLARIN projekt célja egy egységes európai nyelvtechnológiai infrasruktúra létrehozása.

Összefoglalóan megállapíthatjuk, hogy a Nyelvtechnológiai Kutatócsoport immár egy évtizedes számítógépes nyelvészeti tapasztalattal rendelkezik. A kilencvenes évektől számos nemzetközi korpusz-alapú, nyelvtechnológiai projektben való közreműködés, élvonalbeli nemzetközi szakmai konferenciákon és workshopokon való rendszeres, aktív részvétel eredményeként a kutatócsoport a magyar nyelvi nyelvtechnológia meghatározó szellemi bázisává fejlődött.

A kutatócsoport koordinálja a vezető hazai nyelv- és beszédtechnológiai kutatóhelyek stratégiai jelentőségű HunCLARIN kutatásiinfrastruktúra-hálózatának munkáját.

 
  vissza  
NyitólapOsztályokNyelvtech/Alknyelv
Nyelvtechnológia
MNSZ
Adatbázisok
Fontosabb publikációk
JelentésekProjektekEszközök MunkatársakKorábbi munkatársak