[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás

Sass Bálint joker at nytud.hu
Fri Jul 29 14:30:29 CEST 2016


@Balázs: Állítás volt. :)

De persze frissítsd és szólj is, ha lesz új/jobb verzió.

Kösz szépen:
Bálint

Ezt írta ma:
> @Bálint: Ha ez kérdés volt, akkor a válasz: Igen, ez a ma 9:35 körüli
> Szeged korpusz állapotokat tükrözi és majd frissítem, ha lesz "új,
> mindenhol peres" javított korpusz.
> 
> 
> Balázs
> 
> 2016. július 29. 12:06 Sass Bálint írta, <joker at nytud.hu>:
>       Sziasztok!
>
>       Most akkor ez a modell lesz az, amit az infra2 láncba,
>       az e-magyar.hu honlap mögé beteszünk:
>
>       http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new
>
>       időbélyege: 2016-07-29 10:10 mérete: 82M
>
>       Kösz szépen mindenkinek a közreműködést ebben.
>
>       A két szintaktikai modellt még nagyon várjuk! :)
>
>       Üdv:
>       Bálint
>
>       Ezt írta ma Balázs:
>             Sziasztok!
>
>             1412 egyedi címke. Jobb a helyzet...
>
>             A PurePOS model frissült.
>             Már tisztul a kép, de még nem értek bizonyos
>             dolgokat (most PurePOS
>             jelölsében #-el elválasztva szóalak szótő címke):
>
>             1) "leg"-et#"#[Punct]  Ez miért Punct ha a
>             mondatvégi pont vessző stb.
>             OTHER?
>             2) Most akkor a címkének nem "[/" -el kelellene
>             kezdődnie? Mert ezek a
>             címkék furák:
>
>              252623 OTHER
>                1305 [Adj][Nom]
>                  26 [N|Acron][Acc]
>                  17 [N|Acron][Pl][Nom]
>                  14 [N|Acron][Transl]
>                  12 [Num][Nom]
>                   6 [Adj][Pl][Nom]
>                   5 [N|Acron][Ins]
>                   5 [N|Abbr][Dat]
>                   4 [N][Nom]
>                   4 [Adj|nat][Nom]
>                   3 [N][Poss.3Sg][Nom]
>                   3 [N|Acron][Pl][Subl]
>                   3 [Adj][All]
>                   2 [V][Inf]
>                   2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
>                   2 [N][Poss.3Sg][Acc]
>                   2 [N|Acron][Pl][All]
>                   2 [N|Acron][Pl][Acc]
>                   2 [N|Acron][Nom]
>                   2 [N|Abbr][Subl]
>                   2 [N|Abbr][All]
>                   2 [N|Abbr][Acc]
>                   1 [V][Pst.Def.3Sg]
>                   1 [V][Pst.Def.1Sg]
>                   1 [V][_Mod][Prs.NDef.3Pl]
>                   1 [V][_Mod][Prs.Def.3Sg][Punct]
>                   1 [Punct]
>                   1 POS
>                   1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
>                   1 [_PerfPtcp_Subj=tA/Adj][Nom]
>                   1 [N][Poss.3Pl][Nom]
>                   1 [N][All]
>                   1 [N|Acron][Subl]
>                   1 [N|Acron][Poss.1Sg][Subl]
>                   1 [N|Acron][Poss.1Pl][All]
>                   1 [N|Acron][Pl][Ter]
>                   1 [N|Acron][Pl][Ins]
>                   1 [N|Acron][Pl][Ine]
>                   1 [N|Acron][Ade]
>                   1 [N|Acron][Acc][Punct]
>                   1 [N][Acc]
>                   1 [N|Abbr][Ela]
>                   1 [Adj][Pl][Ade]
>                   1 [Adj][EssFor%:ként]
>                   1 [Adj]
> 
>
>             Balázs
> 
>
>             2016. július 29. 9:46 Veronika Vincze írta,
>             <vinczev at inf.u-szeged.hu>:
>
>                   Sziasztok!
>
>                   A második hibát javítottuk a konverterben,
>             frissültek a
>                   fájlok.
>
>                   Az első hiba nagyrészt tulajdonneveket
>             érint, ha jól
>                   gondolom. A Szeged Korpuszban ezek
>             egységesen főnévi címkét
>                   kaptak, még akkor is, ha jelen esetben egy
>             melléknév képezi a
>                   tulajdonnév részét. A konverter úgy
>             működik, hogy az új
>                   harmonizált kódok közül választjuk ki az
>             MSD-kód alapján a
>                   neki leginkább megfelelőt, vagyis itt most
>             a főnévi kódnak
>                   megfelelően főnévi kódot választ, ami
>             persze nem helyes, de
>                   ezt automatikusan nem tudjuk eldönteni.
>             Sajnos arra most
>                   nincs se időnk, se erőforrásunk (Szegeden
>             legalábbis), hogy
>                   ezeket az eseteket kézzel egyértelműsítsük
>             :(
>
>                   Üdv:
>                   Vera
> 
>
>                   On 2016.07.29. 8:22, Indig Balázs wrote:
>                   Szasztok!
>             @Vera: 
>
>             Megye -> Megy
>
>             Jász-Nagykun-Szolnok Jász-Nagykun-Szolnok N
>             SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>             Jász-Nagykun-Szolnok[/N][Nom]
>             Megyei Megyei N
>             SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>             Megy[/N][Pl.Poss.3Sg][Nom]
>
>             És ebből van egy csomó... 
>
>             Illetve a másik:
>
>             A a T SubPOS=f a[/Det|art.Def]
>             két két M
>             SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none
>             két[/Num|Attr][Nom]
>             óra óra N
>             SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>             óra[/N][Nom]
>             közti közti A
>             SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>             közti[/Adj][Nom]
>             szüntet szüntet Z _ [szüntet[/V][Prs.NDef.3Sg]]
>
>             Értem én, de akkor valaki elmondhatná, hogy mi a
>             formátum: Az
>             első [/ -től van a címke vagy az első [ -től? És
>             ha az előbbi
>             akkor mit kezdjen a PurePOS a fenti "lemmakezdő
>             [" -el?
>
>             Most az egész  [szüntet[/V][Prs.NDef.3Sg]]
>             címkének van véve
>             és így halál lassú a tanítás(az eddigi 1026 uniq
>             cimke
>             helyett van 2408 a hülyeségekkel együtt), meg nem
>             is biztos,
>             hogy ez adja az elvárt eredményt...
> 
>
>             Balázs
> 
>
>             2016. július 28. 18:37 Indig Balázs írta,
>             <indig.balazs at itk.ppke.hu>:
>                   Sziasztok!
>
>                   Az új javított szeged korpuszhoz is
>             elérhető a
>                   PurePOS model itt:
>
>             http://pi.itk.ppke.hu/~dlazesz/infra/
> 
> 
>
>             Üdv,
>
>             Balázs
>
>             2016. július 28. 15:54 Veronika Vincze írta,
>             <vinczev at inf.u-szeged.hu>:
>
>                   Sziasztok,
>
>                   Javítottunk pár bugot a konvertálásban,
>                   most már elvben jó minden sor formátuma. A
>                   Szeged Korpusz teljes anyaga elérhető a
>
>                  
>             http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
>
>                   címen. Ha bármilyen problémát találtok,
>                   jelezzétek, kérlek.
>
>                   @Attila: néha a képzett szavaknál a szófaj
>                   elől lemarad a / jel (pl. Dél-dunántúli   
>                   Dél-dunántúli[Adj][Nom]), ezt mi elvben
>                   javítottuk a konverzió során, de az
>                   elemzőben is hasznos lenne átírni.
>
>                   Üdv:
>                   Vera
>
>                   On 2016.07.28. 13:46, Indig Balázs wrote:
>                   Kedves Mindenki!
>             PurePOS modellek és a szeged korpusz
>             formátumából purepos input formátumba
>             konvertáló script:
>
>             http://pi.itk.ppke.hu/~dlazesz/infra/
>
>             A szeged korpusz formátuma kicsit fura. Van
>             ahol nem csak 5 mező van És csomó helyen
>             viszonylag nehéz kinyerni, hogy mit is
>             akarhatott a szerző, hogy mi kerüljön a
>             PurePOS-ba. A konvertáló script tele van
>             ezirányú kommentekkel.
>
>             Ami a "PurePOS-beli morfológiát" illeti:
>
>             Így néz ki egy morfológiával szelektíven
>             annotált{{annotál[\V]||annotáció[\N]}}
>             input  sor .
>
>             Majd még fog alakulni a dolog. Most a héten
>             ez megy.
> 
>
>             Üdv,
>
>             Balázs
> 
>
>             2016. július 25. 13:52 Veronika Vincze
>             írta, <vinczev at inf.u-szeged.hu>:
>                   Kedves Mindenki,
> 
>
>                   On 2016.07.25. 12:12, Sass
>                   Bálint wrote:
>
>                         2.
>                         Vera, esetleg írj
>                         pár szót a fájl
>                         oszlopairól,
>                         hogy igaziból
>                         melyik kell nekünk
>                         most.
>
>                         Megnéztem, sztem ez
>                         van:
>                         1. oszlop = szóalak
>                         5. oszlop = újkódos
>                         szótő + szófaj +
>                         elemzés
>
>                         Ugye ez a kettő
>                         kell most a
>                         tanításhoz,
>                         a 2-3-4. oszlop
>                         régi, így figyelmen
>                         kívül hagyandó?
>
>                         Szóval az 5.
>                         oszlopban lévő
>                         szótövet, szófajt
>                         és elemzést
>                         kellene rendre
>                         lemma, pos és
>                         feature -ként
>                         használni a
>                         tanításokhoz, ugye?
>                         :)
>
>                   Így igaz, az 1. és az 5. oszlop
>                   a fontos, a többit csak benne
>                   hagytuk a kiíratáskor.
>                         3.
>                         Tekintetbe véve,
>                         hogy hét végére
>                         mindennek mennie
>                         kellene
>                         valamilyen formában
>                         a honlap mögött,
>                         azt kérem, hogy
>                         mindenki (az alább
>                         említettek)
>                         tanítson egy
>                         modellt ezen a
>                         részkorpuszon, hogy
>                         legyen valami,
>                         aztán majd később
>                         legyenek meg a
>                         teljes korpuszon
>                         tanított modellek.
>
>                   Nekiállunk mi is szintaxist
>                   tanítani (plusz csináljuk a
>                   többi alkorpusz
>                   infrásmorfológiára való
>                   átalakítását), ez valószínűleg
>                   pár napot igénybe vesz nálunk.
>
>                   Üdv:
>                   Vera



More information about the nlp-infra-devel mailing list