Magyar Nemzeti Szövegtár

 

A Magyar Nemzeti Szövegtár (MNSZ) munkálatai 1998 elején kezdődtek el a Magyar Tudományos Akadémia Nyelvtudományi Intézetének Korpusznyelvészeti Osztályán Váradi Tamás vezetésével. A cél egy 100 millió szavas szövegkorpusz létrehozása volt, amely lehetőségeihez mérten reprezentatívan tartalmazza a mai magyar nyelv jellegzetes megnyilvánulásait. A munkálatok 2002-től a Kárpát-medencei Magyar Nyelvi Korpusz projekt keretében kiegészültek a teljes Kárpát-medence magyar nyelvhasználatára kiterjedő gyűjtéssel. Itt a cél egy 15 millió szavas határon túli korpusz létrehozása volt. 2005 novemberében mutatkozott be a szlovákiai, kárpátaljai, erdélyi és vajdasági nyelvváltozatokkal kiegészült, valóban nemzetivé váló Magyar Nemzeti Szövegtár. A Nyelvi Irodák és a Korpusznyelvészeti Osztály együttműködésének köszönhetően az első olyan magyar nyelvi korpusz jött létre, amely a magyarországiak mellett a határon túli magyar nyelvváltozatokat is felöleli.

Mit nevezünk korpusznak?

A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nem csak tárháza a szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat). Az MNSZ a mai magyar írott köznyelv általános célú reprezentatív korpusza kíván lenni.

Automatikus elemzés

Az MNSZ lényegi tulajdonsága, hogy minden szó mellett feltünteti a szótövet, a szófajt és a szó morfológiai elemzését is. A szótő, szófaj és elemzés megállapítása és az elemzések egyértelműsítése automatikus gépi eszközökkel történik. A rendszer megbízhatósága kb. 97,5%-os, így az összes szóalak kb. 2,5%-a hibásan van elemezve. Ennél jobb eredményt csak a kézi elemzés biztosíthatna, ami ekkora méretű anyag esetén megvalósíthatatlan.

Hogyan épül fel?

Az MNSZ jelenleg 187,6 millió szövegszót tartalmaz. Egyrészt öt regionális nyelvváltozatra oszlik, másrészt ezen belül öt stílusrétegből tartalmaz szövegeket. Az aktuálisan vizsgálandó alkorpuszt ezek tetszőleges variációjaként választhatjuk ki. A határon túli nyelvváltozatokkal kiegészülve a Szövegtár tehát alkalmassá vált nemcsak stílusrétegek, hanem nyelvváltozatok szerinti összehasonlító vizsgálatok elvégzésére is.

Az MNSZ felépítése a következő (a számszerű adatok millió szóban vannak megadva, százezer szóra kerekítve):

  magyarországi szlovákiai kárpátaljai erdélyi vajdasági összesen  
sajtó 71,0 5,7 0,7 5,5 1,5 84,5 A sajtószövegek a korpusz majdnem felét teszik ki. Széles skáláját mutatják be a nyelvi változatoknak, vertikálisan és horizontálisan is.
szépirodalom 35,5 1,4 0,4 0,8 0,2 38,2 2005. őszén készült el a Digitális Irodalmi Akadémia anyagainak teljes feldolgozása. Ez adja a magyarországi szépirodalmi alkorpuszt.
tudományos 20,5 2,3 0,7 1,6 0,3 25,5 A magyarországi tudományos szövegek a Magyar Elektronikus Könyvtárból származnak.
hivatalos 19,9 0,2 0,3 0,6 0,1 20,9 Ezek a szövegek szabályokat, törvényeket, rendeleteket, parlamenti vitákat tartalmaznak.
személyes 17,8 0,4 0,4 0,1 18,6 Ez az alkorpusz internetes fórumok (az index.hu fórumainak és több kárpátaljai fórum) beszélgetéseit tartalmazza. Ez a nyelvi változat azért fontos, mert ez áll a legközelebb a spontán nyelvi kommunikációhoz, bizonyos esetekben nagyon hasonlít a beszélt, élő kommunikációhoz.
összesen 164,7 9,5 2,5 8,9 2,0 187,6  

Kik használhatják?

A Magyar Nemzeti Szövegtárat bárki használhatja, aki kitölti a regisztrációs űrlapot és az ott leírt feltételeket elfogadja.

Gyakorisági adatok

 szótőszófajdbdb / 1000 szó    szótőszófajdbdb / 1000 szó    szótőszófajdbdb / 1000 szó   
1.aDet1112842172,40   34.kiPre3054801,99   67.közöttNU1595831,04   
2.azDet371641424,18   35.amiPro2879991,87   68.elsőNum1585691,03   
3.ésCon254475116,56   36.nagyA2811341,83   69.napN1573101,02   
4.hogyCon216600414,09   37.mondV2768681,80   70.adV1545371,01   
5.ADet210397013,69   38.miPro2750761,79   71.99DIG1545261,01   
6.azPro180381411,74   39.magaPro2639831,72   72.azonbanCon1541501,00   
7.nemAdv169374811,02   40.mertCon2589621,68   73.sokNum1529070,99   
8.isCon167710810,91   41.énPro2453861,60   74.őkPro1517180,99   
9.vanV14181139,23   42.-eClit2376121,55   75.másPro1516980,99   
10.ezPro12042697,84   43.olyanPro2329471,52   76.kérdésN1514770,99   
11.egyNum8998325,85   44.A2328261,51   77.hanemCon1507020,98   
12.AzDet7302874,75   45.többNum2328031,51   78.HaCon1471170,96   
13.megPre5929863,86   46.magyarA2299341,50   79.esetN1468030,96   
14.kellV4996593,25   47.mindenPro2251301,46   80.elnökN1465000,95   
15.csakAdv4779563,11   48.úgyAdv2215241,44   81.forintN1446290,94   
16.leszV4691893,05   49.pedigCon2165131,41   82.egyikPro1436270,93   
17.deCon4625083,01   50.újA2157651,40   83.kormányN1394930,91   
18.márAdv4528142,95   51.teszV2117981,38   84.akarV1386960,90   
19.EzPro4473102,91   52.kétNum2110771,37   85.országN1372250,89   
20.amelyPro4179452,72   53.00DIG2059931,34   86.kerülV1355540,88   
21.haCon4025932,62   54.emberN1980391,29   87.DeCon1350620,88   
22.mégAdv3962072,58   55.AzPro1942631,26   88.százalékN1327800,86   
23.vagyCon3810982,48   56.utánNU1908051,24   89.látV1318660,86   
24.mintCon3705072,41   57.NemAdv1853381,21   90.törvényN1294850,84   
25.szerintNU3694812,40   58.időN1783741,16   91.98DIG1285400,84   
26.elPre3620042,36   59.majdAdv1774971,15   92.sorN1283110,83   
27.tudV3568332,32   60.bePre1756151,14   93.kapV1278410,83   
28.sCon3564532,32   61.tartV1730481,13   94.fogV1277680,83   
29.akiPro3508192,28   62.részN1708941,11   95.alapN1276320,83   
30.évN3382132,20   63.mostAdv1683341,10   96.2DIG1274610,83   
31.semAdv3295702,14   64.felPre1644671,07   97.ittAdv1273990,83   
32.lehetV3105002,02   65.szóN1629291,06   98.helyN1242620,81   
33.őPro3066211,99   66.1DIG1624861,06   99.veszV1235830,80   

Partnereink

A morfológiai elemzés a MorphoLogic Kft. Humor nevű programjával készült, az egyértelműsítés Thorsten Brants TnT tagger-jén alapul, korpuszkezelő eszközünk az IMS Corpus Workbench.

[Morphologic]

Támogatóink

A szövegtár összeállítását az OTKA a T 026091 sz. pályázatban, az internetes megjelenést az IHM az SZT-IS-7 sz. pályázatban támogatta, a Kárpát-medencei Magyar Nyelvi Korpusz munkálatai pedig az NKFP/044/2002 pályázat keretében folytak.

[OTKA] [IHM]

Kérjük, ha észrevétele van, tudassa velünk.
MTA Nyelvtudományi Intézet, 1998-2006.