<div dir="ltr">@Bálint: Ha ez kérdés volt, akkor a válasz: Igen, ez a ma 9:35 körüli Szeged korpusz állapotokat tükrözi és majd frissítem, ha lesz "új, mindenhol peres" javított korpusz.<br><br><br>Balázs</div><div class="gmail_extra"><br><div class="gmail_quote">2016. július 29. 12:06 Sass Bálint írta, <span dir="ltr"><<a href="mailto:joker@nytud.hu" target="_blank">joker@nytud.hu</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Sziasztok!<br>
<br>
Most akkor ez a modell lesz az, amit az infra2 láncba,<br>
az <a href="http://e-magyar.hu" rel="noreferrer" target="_blank">e-magyar.hu</a> honlap mögé beteszünk:<br>
<br>
<a href="http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new" rel="noreferrer" target="_blank">http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new</a><br>
<br>
időbélyege: 2016-07-29 10:10 mérete: 82M<br>
<br>
Kösz szépen mindenkinek a közreműködést ebben.<br>
<br>
A két szintaktikai modellt még nagyon várjuk! :)<br>
<br>
Üdv:<br>
Bálint<br>
<br>
Ezt írta ma Balázs:<div class="HOEnZb"><div class="h5"><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Sziasztok!<br>
<br>
1412 egyedi címke. Jobb a helyzet...<br>
<br>
A PurePOS model frissült.<br>
Már tisztul a kép, de még nem értek bizonyos dolgokat (most PurePOS<br>
jelölsében #-el elválasztva szóalak szótő címke):<br>
<br>
1) "leg"-et#"#[Punct]  Ez miért Punct ha a mondatvégi pont vessző stb.<br>
OTHER?<br>
2) Most akkor a címkének nem "[/" -el kelellene kezdődnie? Mert ezek a<br>
címkék furák:<br>
<br>
 252623 OTHER<br>
   1305 [Adj][Nom]<br>
     26 [N|Acron][Acc]<br>
     17 [N|Acron][Pl][Nom]<br>
     14 [N|Acron][Transl]<br>
     12 [Num][Nom]<br>
      6 [Adj][Pl][Nom]<br>
      5 [N|Acron][Ins]<br>
      5 [N|Abbr][Dat]<br>
      4 [N][Nom]<br>
      4 [Adj|nat][Nom]<br>
      3 [N][Poss.3Sg][Nom]<br>
      3 [N|Acron][Pl][Subl]<br>
      3 [Adj][All]<br>
      2 [V][Inf]<br>
      2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]<br>
      2 [N][Poss.3Sg][Acc]<br>
      2 [N|Acron][Pl][All]<br>
      2 [N|Acron][Pl][Acc]<br>
      2 [N|Acron][Nom]<br>
      2 [N|Abbr][Subl]<br>
      2 [N|Abbr][All]<br>
      2 [N|Abbr][Acc]<br>
      1 [V][Pst.Def.3Sg]<br>
      1 [V][Pst.Def.1Sg]<br>
      1 [V][_Mod][Prs.NDef.3Pl]<br>
      1 [V][_Mod][Prs.Def.3Sg][Punct]<br>
      1 [Punct]<br>
      1 POS<br>
      1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]<br>
      1 [_PerfPtcp_Subj=tA/Adj][Nom]<br>
      1 [N][Poss.3Pl][Nom]<br>
      1 [N][All]<br>
      1 [N|Acron][Subl]<br>
      1 [N|Acron][Poss.1Sg][Subl]<br>
      1 [N|Acron][Poss.1Pl][All]<br>
      1 [N|Acron][Pl][Ter]<br>
      1 [N|Acron][Pl][Ins]<br>
      1 [N|Acron][Pl][Ine]<br>
      1 [N|Acron][Ade]<br>
      1 [N|Acron][Acc][Punct]<br>
      1 [N][Acc]<br>
      1 [N|Abbr][Ela]<br>
      1 [Adj][Pl][Ade]<br>
      1 [Adj][EssFor%:ként]<br>
      1 [Adj]<br>
<br>
<br>
Balázs<br>
<br>
<br>
2016. július 29. 9:46 Veronika Vincze írta, <<a href="mailto:vinczev@inf.u-szeged.hu" target="_blank">vinczev@inf.u-szeged.hu</a>>:<br>
<br>
      Sziasztok!<br>
<br>
      A második hibát javítottuk a konverterben, frissültek a<br>
      fájlok.<br>
<br>
      Az első hiba nagyrészt tulajdonneveket érint, ha jól<br>
      gondolom. A Szeged Korpuszban ezek egységesen főnévi címkét<br>
      kaptak, még akkor is, ha jelen esetben egy melléknév képezi a<br>
      tulajdonnév részét. A konverter úgy működik, hogy az új<br>
      harmonizált kódok közül választjuk ki az MSD-kód alapján a<br>
      neki leginkább megfelelőt, vagyis itt most a főnévi kódnak<br>
      megfelelően főnévi kódot választ, ami persze nem helyes, de<br>
      ezt automatikusan nem tudjuk eldönteni. Sajnos arra most<br>
      nincs se időnk, se erőforrásunk (Szegeden legalábbis), hogy<br>
      ezeket az eseteket kézzel egyértelműsítsük :(<br>
<br>
      Üdv:<br>
      Vera<br>
<br>
<br>
      On 2016.07.29. 8:22, Indig Balázs wrote:<br>
      Szasztok!<br>
@Vera: <br>
<br>
Megye -> Megy<br>
<br>
Jász-Nagykun-Szolnok Jász-Nagykun-Szolnok N<br>
SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none<br>
Jász-Nagykun-Szolnok[/N][Nom]<br>
Megyei Megyei N<br>
SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none<br>
Megy[/N][Pl.Poss.3Sg][Nom]<br>
<br>
És ebből van egy csomó... <br>
<br>
Illetve a másik:<br>
<br>
A a T SubPOS=f a[/Det|art.Def]<br>
két két M<br>
SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none<br>
két[/Num|Attr][Nom]<br>
óra óra N SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none<br>
óra[/N][Nom]<br>
közti közti A<br>
SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none<br>
közti[/Adj][Nom]<br>
szüntet szüntet Z _ [szüntet[/V][Prs.NDef.3Sg]]<br>
<br>
Értem én, de akkor valaki elmondhatná, hogy mi a formátum: Az<br>
első [/ -től van a címke vagy az első [ -től? És ha az előbbi<br>
akkor mit kezdjen a PurePOS a fenti "lemmakezdő [" -el?<br>
<br>
Most az egész  [szüntet[/V][Prs.NDef.3Sg]] címkének van véve<br>
és így halál lassú a tanítás(az eddigi 1026 uniq cimke<br>
helyett van 2408 a hülyeségekkel együtt), meg nem is biztos,<br>
hogy ez adja az elvárt eredményt...<br>
<br>
<br>
Balázs<br>
<br>
<br>
2016. július 28. 18:37 Indig Balázs írta,<br>
<<a href="mailto:indig.balazs@itk.ppke.hu" target="_blank">indig.balazs@itk.ppke.hu</a>>:<br>
      Sziasztok!<br>
<br>
      Az új javított szeged korpuszhoz is elérhető a<br>
      PurePOS model itt:<br>
<br>
<a href="http://pi.itk.ppke.hu/~dlazesz/infra/" rel="noreferrer" target="_blank">http://pi.itk.ppke.hu/~dlazesz/infra/</a><br>
<br>
<br>
<br>
Üdv,<br>
<br>
Balázs<br>
<br>
2016. július 28. 15:54 Veronika Vincze írta,<br>
<<a href="mailto:vinczev@inf.u-szeged.hu" target="_blank">vinczev@inf.u-szeged.hu</a>>:<br>
<br>
      Sziasztok,<br>
<br>
      Javítottunk pár bugot a konvertálásban,<br>
      most már elvben jó minden sor formátuma. A<br>
      Szeged Korpusz teljes anyaga elérhető a<br>
<br>
      <a href="http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/" rel="noreferrer" target="_blank">http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/</a><br>
<br>
      címen. Ha bármilyen problémát találtok,<br>
      jelezzétek, kérlek.<br>
<br>
      @Attila: néha a képzett szavaknál a szófaj<br>
      elől lemarad a / jel (pl. Dél-dunántúli   <br>
      Dél-dunántúli[Adj][Nom]), ezt mi elvben<br>
      javítottuk a konverzió során, de az<br>
      elemzőben is hasznos lenne átírni.<br>
<br>
      Üdv:<br>
      Vera<br>
<br>
      On 2016.07.28. 13:46, Indig Balázs wrote:<br>
      Kedves Mindenki!<br>
PurePOS modellek és a szeged korpusz<br>
formátumából purepos input formátumba<br>
konvertáló script:<br>
<br>
<a href="http://pi.itk.ppke.hu/~dlazesz/infra/" rel="noreferrer" target="_blank">http://pi.itk.ppke.hu/~dlazesz/infra/</a><br>
<br>
A szeged korpusz formátuma kicsit fura. Van<br>
ahol nem csak 5 mező van És csomó helyen<br>
viszonylag nehéz kinyerni, hogy mit is<br>
akarhatott a szerző, hogy mi kerüljön a<br>
PurePOS-ba. A konvertáló script tele van<br>
ezirányú kommentekkel.<br>
<br>
Ami a "PurePOS-beli morfológiát" illeti:<br>
<br>
Így néz ki egy morfológiával szelektíven<br>
annotált{{annotál[\V]||annotáció[\N]}}<br>
input  sor .<br>
<br>
Majd még fog alakulni a dolog. Most a héten<br>
ez megy.<br>
<br>
<br>
Üdv,<br>
<br>
Balázs<br>
<br>
<br>
2016. július 25. 13:52 Veronika Vincze<br>
írta, <<a href="mailto:vinczev@inf.u-szeged.hu" target="_blank">vinczev@inf.u-szeged.hu</a>>:<br>
      Kedves Mindenki,<br>
<br>
<br>
      On 2016.07.25. 12:12, Sass<br>
      Bálint wrote:<br>
<br>
            2.<br>
            Vera, esetleg írj<br>
            pár szót a fájl<br>
            oszlopairól,<br>
            hogy igaziból<br>
            melyik kell nekünk<br>
            most.<br>
<br>
            Megnéztem, sztem ez<br>
            van:<br>
            1. oszlop = szóalak<br>
            5. oszlop = újkódos<br>
            szótő + szófaj +<br>
            elemzés<br>
<br>
            Ugye ez a kettő<br>
            kell most a<br>
            tanításhoz,<br>
            a 2-3-4. oszlop<br>
            régi, így figyelmen<br>
            kívül hagyandó?<br>
<br>
            Szóval az 5.<br>
            oszlopban lévő<br>
            szótövet, szófajt<br>
            és elemzést<br>
            kellene rendre<br>
            lemma, pos és<br>
            feature -ként<br>
            használni a<br>
            tanításokhoz, ugye?<br>
            :)<br>
<br>
      Így igaz, az 1. és az 5. oszlop<br>
      a fontos, a többit csak benne<br>
      hagytuk a kiíratáskor.<br>
            3.<br>
            Tekintetbe véve,<br>
            hogy hét végére<br>
            mindennek mennie<br>
            kellene<br>
            valamilyen formában<br>
            a honlap mögött,<br>
            azt kérem, hogy<br>
            mindenki (az alább<br>
            említettek)<br>
            tanítson egy<br>
            modellt ezen a<br>
            részkorpuszon, hogy<br>
            legyen valami,<br>
            aztán majd később<br>
            legyenek meg a<br>
            teljes korpuszon<br>
            tanított modellek.<br>
<br>
      Nekiállunk mi is szintaxist<br>
      tanítani (plusz csináljuk a<br>
      többi alkorpusz<br>
      infrásmorfológiára való<br>
      átalakítását), ez valószínűleg<br>
      pár napot igénybe vesz nálunk.<br>
<br>
      Üdv:<br>
      Vera<br>
</blockquote>
<br>
<br>
_______________________________________________<br>
nlp-infra-devel mailing list<br>
<a href="mailto:nlp-infra-devel@nytud.mta.hu" target="_blank">nlp-infra-devel@nytud.mta.hu</a><br>
<a href="http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel" rel="noreferrer" target="_blank">http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel</a><br>
</div></div></blockquote></div><br></div>