Magyar Nemzeti Szövegtár

Megnyílt az MNSZ felújított, kibővített, új funkciókkal ellátott változata. Kattintson!
Kérjük, ezentúl az új felületet használják. A korábbi regisztrációk az új szövegtárra is érvényesek. Kérjük, az új változatot bemutató 2014-es LREC publikációnkra hivatkozzanak.

Ez a Magyar Nemzeti Szövegtár régi változatának oldala.

A Magyar Nemzeti Szövegtár (MNSZ) munkálatai 1998 elején kezdődtek el a Magyar Tudományos Akadémia Nyelvtudományi Intézetének Korpusznyelvészeti Osztályán Váradi Tamás vezetésével. A cél egy 100 millió szavas szövegkorpusz létrehozása volt, amely lehetőségeihez mérten reprezentatívan tartalmazza a mai magyar nyelv jellegzetes megnyilvánulásait. A munkálatok 2002-től a Kárpát-medencei Magyar Nyelvi Korpusz projekt keretében kiegészültek a teljes Kárpát-medence magyar nyelvhasználatára kiterjedő gyűjtéssel. Itt a cél egy 15 millió szavas határon túli korpusz létrehozása volt. 2005 novemberében mutatkozott be a szlovákiai, kárpátaljai, erdélyi és vajdasági nyelvváltozatokkal kiegészült, valóban nemzetivé váló Magyar Nemzeti Szövegtár. A Nyelvi Irodák és a Korpusznyelvészeti Osztály együttműködésének köszönhetően az első olyan magyar nyelvi korpusz jött létre, amely a magyarországiak mellett a határon túli magyar nyelvváltozatokat is felöleli.

Mit nevezünk korpusznak?

A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nemcsak tárháza a szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat). Az MNSZ a mai magyar írott köznyelv általános célú reprezentatív korpusza kíván lenni.

Automatikus elemzés

Az MNSZ lényegi tulajdonsága, hogy minden szó mellett feltünteti a szótövet, a szófajt és a szó morfológiai elemzését is. A szótő, szófaj és elemzés megállapítása és az elemzések egyértelműsítése automatikus gépi eszközökkel történik. A rendszer megbízhatósága kb. 97,5%-os, így az összes szóalak kb. 2,5%-a hibásan van elemezve. Ennél jobb eredményt csak a kézi elemzés biztosíthatna, ami ekkora méretű anyag esetén megvalósíthatatlan.

Hogyan épül fel?

Az MNSZ jelenleg 187,6 millió szövegszót tartalmaz. Egyrészt öt regionális nyelvváltozatra oszlik, másrészt ezen belül öt stílusrétegből tartalmaz szövegeket. Az aktuálisan vizsgálandó alkorpuszt ezek tetszőleges variációjaként választhatjuk ki. A határon túli nyelvváltozatokkal kiegészülve a Szövegtár tehát alkalmassá vált nemcsak stílusrétegek, hanem nyelvváltozatok szerinti összehasonlító vizsgálatok elvégzésére is.

Az MNSZ felépítése a következő (a számszerű adatok millió szóban vannak megadva, százezer szóra kerekítve):

	magyarországi	szlovákiai	kárpátaljai	erdélyi	vajdasági	összesen
sajtó	71,0	5,7	0,7	5,5	1,5	84,5	A sajtószövegek a korpusz majdnem felét teszik ki. Széles skáláját mutatják be a nyelvi változatoknak, vertikálisan és horizontálisan is.
szépirodalom	35,5	1,4	0,4	0,8	0,2	38,2	2005. őszén készült el a Digitális Irodalmi Akadémia anyagainak teljes feldolgozása. Ez adja a magyarországi szépirodalmi alkorpuszt.
tudományos	20,5	2,3	0,7	1,6	0,3	25,5	A magyarországi tudományos szövegek a Magyar Elektronikus Könyvtárból származnak.
hivatalos	19,9	0,2	0,3	0,6	0,1	20,9	Ezek a szövegek szabályokat, törvényeket, rendeleteket, parlamenti vitákat tartalmaznak.
személyes	17,8	—	0,4	0,4	0,1	18,6	Ez az alkorpusz internetes fórumok (az index.hu fórumainak és több kárpátaljai fórum) beszélgetéseit tartalmazza. Ez a nyelvi változat azért fontos, mert ez áll a legközelebb a spontán nyelvi kommunikációhoz, bizonyos esetekben nagyon hasonlít a beszélt, élő kommunikációhoz.
összesen	164,7	9,5	2,5	8,9	2,0	187,6

Kik használhatják?

A Magyar Nemzeti Szövegtárat bárki használhatja, aki kitölti a regisztrációs űrlapot és az ott leírt feltételeket elfogadja.

Gyakorisági adatok

Böngészhető gyakorisági adatok.
Az MNSZ teljes gyakorisági listája a META-SHARE repozitóriumban. (angol felület)
Minta az MNSZ gyakorisági listájából:

	szótő	szófaj	db	db / 1000 szó		szótő	szófaj	db	db / 1000 szó		szótő	szófaj	db	db / 1000 szó
1.	a	Det	11128421	72,40	34.	ki	Pre	305480	1,99	67.	között	NU	159583	1,04
2.	az	Det	3716414	24,18	35.	ami	Pro	287999	1,87	68.	első	Num	158569	1,03
3.	és	Con	2544751	16,56	36.	nagy	A	281134	1,83	69.	nap	N	157310	1,02
4.	hogy	Con	2166004	14,09	37.	mond	V	276868	1,80	70.	ad	V	154537	1,01
5.	A	Det	2103970	13,69	38.	mi	Pro	275076	1,79	71.	99	DIG	154526	1,01
6.	az	Pro	1803814	11,74	39.	maga	Pro	263983	1,72	72.	azonban	Con	154150	1,00
7.	nem	Adv	1693748	11,02	40.	mert	Con	258962	1,68	73.	sok	Num	152907	0,99
8.	is	Con	1677108	10,91	41.	én	Pro	245386	1,60	74.	ők	Pro	151718	0,99
9.	van	V	1418113	9,23	42.	-e	Clit	237612	1,55	75.	más	Pro	151698	0,99
10.	ez	Pro	1204269	7,84	43.	olyan	Pro	232947	1,52	76.	kérdés	N	151477	0,99
11.	egy	Num	899832	5,85	44.	jó	A	232826	1,51	77.	hanem	Con	150702	0,98
12.	Az	Det	730287	4,75	45.	több	Num	232803	1,51	78.	Ha	Con	147117	0,96
13.	meg	Pre	592986	3,86	46.	magyar	A	229934	1,50	79.	eset	N	146803	0,96
14.	kell	V	499659	3,25	47.	minden	Pro	225130	1,46	80.	elnök	N	146500	0,95
15.	csak	Adv	477956	3,11	48.	úgy	Adv	221524	1,44	81.	forint	N	144629	0,94
16.	lesz	V	469189	3,05	49.	pedig	Con	216513	1,41	82.	egyik	Pro	143627	0,93
17.	de	Con	462508	3,01	50.	új	A	215765	1,40	83.	kormány	N	139493	0,91
18.	már	Adv	452814	2,95	51.	tesz	V	211798	1,38	84.	akar	V	138696	0,90
19.	Ez	Pro	447310	2,91	52.	két	Num	211077	1,37	85.	ország	N	137225	0,89
20.	amely	Pro	417945	2,72	53.	00	DIG	205993	1,34	86.	kerül	V	135554	0,88
21.	ha	Con	402593	2,62	54.	ember	N	198039	1,29	87.	De	Con	135062	0,88
22.	még	Adv	396207	2,58	55.	Az	Pro	194263	1,26	88.	százalék	N	132780	0,86
23.	vagy	Con	381098	2,48	56.	után	NU	190805	1,24	89.	lát	V	131866	0,86
24.	mint	Con	370507	2,41	57.	Nem	Adv	185338	1,21	90.	törvény	N	129485	0,84
25.	szerint	NU	369481	2,40	58.	idő	N	178374	1,16	91.	98	DIG	128540	0,84
26.	el	Pre	362004	2,36	59.	majd	Adv	177497	1,15	92.	sor	N	128311	0,83
27.	tud	V	356833	2,32	60.	be	Pre	175615	1,14	93.	kap	V	127841	0,83
28.	s	Con	356453	2,32	61.	tart	V	173048	1,13	94.	fog	V	127768	0,83
29.	aki	Pro	350819	2,28	62.	rész	N	170894	1,11	95.	alap	N	127632	0,83
30.	év	N	338213	2,20	63.	most	Adv	168334	1,10	96.	2	DIG	127461	0,83
31.	sem	Adv	329570	2,14	64.	fel	Pre	164467	1,07	97.	itt	Adv	127399	0,83
32.	lehet	V	310500	2,02	65.	szó	N	162929	1,06	98.	hely	N	124262	0,81
33.	ő	Pro	306621	1,99	66.	1	DIG	162486	1,06	99.	vesz	V	123583	0,80

Partnereink

A morfológiai elemzés a MorphoLogic Kft. Humor nevű programjával készült, az egyértelműsítés Thorsten Brants TnT tagger-jén alapul, korpuszkezelő eszközünk az IMS Corpus Workbench.

Támogatóink

A szövegtár összeállítását az OTKA a T 026091 sz. pályázatban, az internetes megjelenést az IHM az SZT-IS-7 sz. pályázatban támogatta, a Kárpát-medencei Magyar Nyelvi Korpusz munkálatai pedig az NKFP/044/2002 pályázat keretében folytak.

Kérjük, ha észrevétele van, tudassa velünk.
MTA Nyelvtudományi Intézet, 1998-2006.