<div dir="ltr">@Bálint: Ha ez kérdés volt, akkor a válasz: Igen, ez a ma 9:35 körüli Szeged korpusz állapotokat tükrözi és majd frissítem, ha lesz "új, mindenhol peres" javított korpusz.<br><br><br>Balázs</div><div class="gmail_extra"><br><div class="gmail_quote">2016. július 29. 12:06 Sass Bálint írta, <span dir="ltr"><<a href="mailto:joker@nytud.hu" target="_blank">joker@nytud.hu</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Sziasztok!<br>
<br>
Most akkor ez a modell lesz az, amit az infra2 láncba,<br>
az <a href="http://e-magyar.hu" rel="noreferrer" target="_blank">e-magyar.hu</a> honlap mögé beteszünk:<br>
<br>
<a href="http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new" rel="noreferrer" target="_blank">http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new</a><br>
<br>
időbélyege: 2016-07-29 10:10 mérete: 82M<br>
<br>
Kösz szépen mindenkinek a közreműködést ebben.<br>
<br>
A két szintaktikai modellt még nagyon várjuk! :)<br>
<br>
Üdv:<br>
Bálint<br>
<br>
Ezt írta ma Balázs:<div class="HOEnZb"><div class="h5"><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Sziasztok!<br>
<br>
1412 egyedi címke. Jobb a helyzet...<br>
<br>
A PurePOS model frissült.<br>
Már tisztul a kép, de még nem értek bizonyos dolgokat (most PurePOS<br>
jelölsében #-el elválasztva szóalak szótő címke):<br>
<br>
1) "leg"-et#"#[Punct] Ez miért Punct ha a mondatvégi pont vessző stb.<br>
OTHER?<br>
2) Most akkor a címkének nem "[/" -el kelellene kezdődnie? Mert ezek a<br>
címkék furák:<br>
<br>
252623 OTHER<br>
1305 [Adj][Nom]<br>
26 [N|Acron][Acc]<br>
17 [N|Acron][Pl][Nom]<br>
14 [N|Acron][Transl]<br>
12 [Num][Nom]<br>
6 [Adj][Pl][Nom]<br>
5 [N|Acron][Ins]<br>
5 [N|Abbr][Dat]<br>
4 [N][Nom]<br>
4 [Adj|nat][Nom]<br>
3 [N][Poss.3Sg][Nom]<br>
3 [N|Acron][Pl][Subl]<br>
3 [Adj][All]<br>
2 [V][Inf]<br>
2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]<br>
2 [N][Poss.3Sg][Acc]<br>
2 [N|Acron][Pl][All]<br>
2 [N|Acron][Pl][Acc]<br>
2 [N|Acron][Nom]<br>
2 [N|Abbr][Subl]<br>
2 [N|Abbr][All]<br>
2 [N|Abbr][Acc]<br>
1 [V][Pst.Def.3Sg]<br>
1 [V][Pst.Def.1Sg]<br>
1 [V][_Mod][Prs.NDef.3Pl]<br>
1 [V][_Mod][Prs.Def.3Sg][Punct]<br>
1 [Punct]<br>
1 POS<br>
1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]<br>
1 [_PerfPtcp_Subj=tA/Adj][Nom]<br>
1 [N][Poss.3Pl][Nom]<br>
1 [N][All]<br>
1 [N|Acron][Subl]<br>
1 [N|Acron][Poss.1Sg][Subl]<br>
1 [N|Acron][Poss.1Pl][All]<br>
1 [N|Acron][Pl][Ter]<br>
1 [N|Acron][Pl][Ins]<br>
1 [N|Acron][Pl][Ine]<br>
1 [N|Acron][Ade]<br>
1 [N|Acron][Acc][Punct]<br>
1 [N][Acc]<br>
1 [N|Abbr][Ela]<br>
1 [Adj][Pl][Ade]<br>
1 [Adj][EssFor%:ként]<br>
1 [Adj]<br>
<br>
<br>
Balázs<br>
<br>
<br>
2016. július 29. 9:46 Veronika Vincze írta, <<a href="mailto:vinczev@inf.u-szeged.hu" target="_blank">vinczev@inf.u-szeged.hu</a>>:<br>
<br>
Sziasztok!<br>
<br>
A második hibát javítottuk a konverterben, frissültek a<br>
fájlok.<br>
<br>
Az első hiba nagyrészt tulajdonneveket érint, ha jól<br>
gondolom. A Szeged Korpuszban ezek egységesen főnévi címkét<br>
kaptak, még akkor is, ha jelen esetben egy melléknév képezi a<br>
tulajdonnév részét. A konverter úgy működik, hogy az új<br>
harmonizált kódok közül választjuk ki az MSD-kód alapján a<br>
neki leginkább megfelelőt, vagyis itt most a főnévi kódnak<br>
megfelelően főnévi kódot választ, ami persze nem helyes, de<br>
ezt automatikusan nem tudjuk eldönteni. Sajnos arra most<br>
nincs se időnk, se erőforrásunk (Szegeden legalábbis), hogy<br>
ezeket az eseteket kézzel egyértelműsítsük :(<br>
<br>
Üdv:<br>
Vera<br>
<br>
<br>
On 2016.07.29. 8:22, Indig Balázs wrote:<br>
Szasztok!<br>
@Vera: <br>
<br>
Megye -> Megy<br>
<br>
Jász-Nagykun-Szolnok Jász-Nagykun-Szolnok N<br>
SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none<br>
Jász-Nagykun-Szolnok[/N][Nom]<br>
Megyei Megyei N<br>
SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none<br>
Megy[/N][Pl.Poss.3Sg][Nom]<br>
<br>
És ebből van egy csomó... <br>
<br>
Illetve a másik:<br>
<br>
A a T SubPOS=f a[/Det|art.Def]<br>
két két M<br>
SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none<br>
két[/Num|Attr][Nom]<br>
óra óra N SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none<br>
óra[/N][Nom]<br>
közti közti A<br>
SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none<br>
közti[/Adj][Nom]<br>
szüntet szüntet Z _ [szüntet[/V][Prs.NDef.3Sg]]<br>
<br>
Értem én, de akkor valaki elmondhatná, hogy mi a formátum: Az<br>
első [/ -től van a címke vagy az első [ -től? És ha az előbbi<br>
akkor mit kezdjen a PurePOS a fenti "lemmakezdő [" -el?<br>
<br>
Most az egész [szüntet[/V][Prs.NDef.3Sg]] címkének van véve<br>
és így halál lassú a tanítás(az eddigi 1026 uniq cimke<br>
helyett van 2408 a hülyeségekkel együtt), meg nem is biztos,<br>
hogy ez adja az elvárt eredményt...<br>
<br>
<br>
Balázs<br>
<br>
<br>
2016. július 28. 18:37 Indig Balázs írta,<br>
<<a href="mailto:indig.balazs@itk.ppke.hu" target="_blank">indig.balazs@itk.ppke.hu</a>>:<br>
Sziasztok!<br>
<br>
Az új javított szeged korpuszhoz is elérhető a<br>
PurePOS model itt:<br>
<br>
<a href="http://pi.itk.ppke.hu/~dlazesz/infra/" rel="noreferrer" target="_blank">http://pi.itk.ppke.hu/~dlazesz/infra/</a><br>
<br>
<br>
<br>
Üdv,<br>
<br>
Balázs<br>
<br>
2016. július 28. 15:54 Veronika Vincze írta,<br>
<<a href="mailto:vinczev@inf.u-szeged.hu" target="_blank">vinczev@inf.u-szeged.hu</a>>:<br>
<br>
Sziasztok,<br>
<br>
Javítottunk pár bugot a konvertálásban,<br>
most már elvben jó minden sor formátuma. A<br>
Szeged Korpusz teljes anyaga elérhető a<br>
<br>
<a href="http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/" rel="noreferrer" target="_blank">http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/</a><br>
<br>
címen. Ha bármilyen problémát találtok,<br>
jelezzétek, kérlek.<br>
<br>
@Attila: néha a képzett szavaknál a szófaj<br>
elől lemarad a / jel (pl. Dél-dunántúli <br>
Dél-dunántúli[Adj][Nom]), ezt mi elvben<br>
javítottuk a konverzió során, de az<br>
elemzőben is hasznos lenne átírni.<br>
<br>
Üdv:<br>
Vera<br>
<br>
On 2016.07.28. 13:46, Indig Balázs wrote:<br>
Kedves Mindenki!<br>
PurePOS modellek és a szeged korpusz<br>
formátumából purepos input formátumba<br>
konvertáló script:<br>
<br>
<a href="http://pi.itk.ppke.hu/~dlazesz/infra/" rel="noreferrer" target="_blank">http://pi.itk.ppke.hu/~dlazesz/infra/</a><br>
<br>
A szeged korpusz formátuma kicsit fura. Van<br>
ahol nem csak 5 mező van És csomó helyen<br>
viszonylag nehéz kinyerni, hogy mit is<br>
akarhatott a szerző, hogy mi kerüljön a<br>
PurePOS-ba. A konvertáló script tele van<br>
ezirányú kommentekkel.<br>
<br>
Ami a "PurePOS-beli morfológiát" illeti:<br>
<br>
Így néz ki egy morfológiával szelektíven<br>
annotált{{annotál[\V]||annotáció[\N]}}<br>
input sor .<br>
<br>
Majd még fog alakulni a dolog. Most a héten<br>
ez megy.<br>
<br>
<br>
Üdv,<br>
<br>
Balázs<br>
<br>
<br>
2016. július 25. 13:52 Veronika Vincze<br>
írta, <<a href="mailto:vinczev@inf.u-szeged.hu" target="_blank">vinczev@inf.u-szeged.hu</a>>:<br>
Kedves Mindenki,<br>
<br>
<br>
On 2016.07.25. 12:12, Sass<br>
Bálint wrote:<br>
<br>
2.<br>
Vera, esetleg írj<br>
pár szót a fájl<br>
oszlopairól,<br>
hogy igaziból<br>
melyik kell nekünk<br>
most.<br>
<br>
Megnéztem, sztem ez<br>
van:<br>
1. oszlop = szóalak<br>
5. oszlop = újkódos<br>
szótő + szófaj +<br>
elemzés<br>
<br>
Ugye ez a kettő<br>
kell most a<br>
tanításhoz,<br>
a 2-3-4. oszlop<br>
régi, így figyelmen<br>
kívül hagyandó?<br>
<br>
Szóval az 5.<br>
oszlopban lévő<br>
szótövet, szófajt<br>
és elemzést<br>
kellene rendre<br>
lemma, pos és<br>
feature -ként<br>
használni a<br>
tanításokhoz, ugye?<br>
:)<br>
<br>
Így igaz, az 1. és az 5. oszlop<br>
a fontos, a többit csak benne<br>
hagytuk a kiíratáskor.<br>
3.<br>
Tekintetbe véve,<br>
hogy hét végére<br>
mindennek mennie<br>
kellene<br>
valamilyen formában<br>
a honlap mögött,<br>
azt kérem, hogy<br>
mindenki (az alább<br>
említettek)<br>
tanítson egy<br>
modellt ezen a<br>
részkorpuszon, hogy<br>
legyen valami,<br>
aztán majd később<br>
legyenek meg a<br>
teljes korpuszon<br>
tanított modellek.<br>
<br>
Nekiállunk mi is szintaxist<br>
tanítani (plusz csináljuk a<br>
többi alkorpusz<br>
infrásmorfológiára való<br>
átalakítását), ez valószínűleg<br>
pár napot igénybe vesz nálunk.<br>
<br>
Üdv:<br>
Vera<br>
</blockquote>
<br>
<br>
_______________________________________________<br>
nlp-infra-devel mailing list<br>
<a href="mailto:nlp-infra-devel@nytud.mta.hu" target="_blank">nlp-infra-devel@nytud.mta.hu</a><br>
<a href="http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel" rel="noreferrer" target="_blank">http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel</a><br>
</div></div></blockquote></div><br></div>