|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Magyar Nemzeti Szövegtár
A Magyar Nemzeti Szövegtár (MNSZ) munkálatai 1998 elején kezdődtek el a Magyar Tudományos Akadémia Nyelvtudományi Intézetének Korpusznyelvészeti Osztályán Váradi Tamás vezetésével. A cél egy 100 millió szavas szövegkorpusz létrehozása volt, amely lehetőségeihez mérten reprezentatívan tartalmazza a mai magyar nyelv jellegzetes megnyilvánulásait. A munkálatok 2002-től a Kárpát-medencei Magyar Nyelvi Korpusz projekt keretében kiegészültek a teljes Kárpát-medence magyar nyelvhasználatára kiterjedő gyűjtéssel. Itt a cél egy 15 millió szavas határon túli korpusz létrehozása volt. 2005 novemberében mutatkozott be a szlovákiai, kárpátaljai, erdélyi és vajdasági nyelvváltozatokkal kiegészült, valóban nemzetivé váló Magyar Nemzeti Szövegtár. A Nyelvi Irodák és a Korpusznyelvészeti Osztály együttműködésének köszönhetően az első olyan magyar nyelvi korpusz jött létre, amely a magyarországiak mellett a határon túli magyar nyelvváltozatokat is felöleli. Mit nevezünk korpusznak?A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nem csak tárháza a szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat). Az MNSZ a mai magyar írott köznyelv általános célú reprezentatív korpusza kíván lenni. Automatikus elemzésAz MNSZ lényegi tulajdonsága, hogy minden szó mellett feltünteti a szótövet, a szófajt és a szó morfológiai elemzését is. A szótő, szófaj és elemzés megállapítása és az elemzések egyértelműsítése automatikus gépi eszközökkel történik. A rendszer megbízhatósága kb. 97,5%-os, így az összes szóalak kb. 2,5%-a hibásan van elemezve. Ennél jobb eredményt csak a kézi elemzés biztosíthatna, ami ekkora méretű anyag esetén megvalósíthatatlan. Hogyan épül fel?Az MNSZ jelenleg 187,6 millió szövegszót tartalmaz. Egyrészt öt regionális nyelvváltozatra oszlik, másrészt ezen belül öt stílusrétegből tartalmaz szövegeket. Az aktuálisan vizsgálandó alkorpuszt ezek tetszőleges variációjaként választhatjuk ki. A határon túli nyelvváltozatokkal kiegészülve a Szövegtár tehát alkalmassá vált nemcsak stílusrétegek, hanem nyelvváltozatok szerinti összehasonlító vizsgálatok elvégzésére is. Az MNSZ felépítése a következő (a számszerű adatok millió szóban vannak megadva, százezer szóra kerekítve):
Kik használhatják?A Magyar Nemzeti Szövegtárat bárki használhatja, aki kitölti a regisztrációs űrlapot és az ott leírt feltételeket elfogadja. Minta az MNSZ gyakorisági listájából
PartnereinkA morfológiai elemzés a MorphoLogic Kft. Humor nevű programjával készült, az egyértelműsítés Thorsten Brants TnT tagger-jén alapul, korpuszkezelő eszközünk az IMS Corpus Workbench.
TámogatóinkA szövegtár összeállítását az OTKA a T 026091 sz. pályázatban, az internetes megjelenést az IHM az SZT-IS-7 sz. pályázatban támogatta, a Kárpát-medencei Magyar Nyelvi Korpusz munkálatai pedig az NKFP/044/2002 pályázat keretében folytak.
MTA Nyelvtudományi Intézet, 1998-2006.
|
|