[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás

Sass Bálint joker at nytud.hu
Fri Jul 29 12:06:33 CEST 2016


Sziasztok!

Most akkor ez a modell lesz az, amit az infra2 láncba,
az e-magyar.hu honlap mögé beteszünk:

http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new

időbélyege: 2016-07-29 10:10 mérete: 82M

Kösz szépen mindenkinek a közreműködést ebben.

A két szintaktikai modellt még nagyon várjuk! :)

Üdv:
Bálint

Ezt írta ma Balázs:
> Sziasztok!
> 
> 1412 egyedi címke. Jobb a helyzet...
> 
> A PurePOS model frissült.
> Már tisztul a kép, de még nem értek bizonyos dolgokat (most PurePOS
> jelölsében #-el elválasztva szóalak szótő címke):
> 
> 1) "leg"-et#"#[Punct]  Ez miért Punct ha a mondatvégi pont vessző stb.
> OTHER?
> 2) Most akkor a címkének nem "[/" -el kelellene kezdődnie? Mert ezek a
> címkék furák:
> 
>  252623 OTHER
>    1305 [Adj][Nom]
>      26 [N|Acron][Acc]
>      17 [N|Acron][Pl][Nom]
>      14 [N|Acron][Transl]
>      12 [Num][Nom]
>       6 [Adj][Pl][Nom]
>       5 [N|Acron][Ins]
>       5 [N|Abbr][Dat]
>       4 [N][Nom]
>       4 [Adj|nat][Nom]
>       3 [N][Poss.3Sg][Nom]
>       3 [N|Acron][Pl][Subl]
>       3 [Adj][All]
>       2 [V][Inf]
>       2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
>       2 [N][Poss.3Sg][Acc]
>       2 [N|Acron][Pl][All]
>       2 [N|Acron][Pl][Acc]
>       2 [N|Acron][Nom]
>       2 [N|Abbr][Subl]
>       2 [N|Abbr][All]
>       2 [N|Abbr][Acc]
>       1 [V][Pst.Def.3Sg]
>       1 [V][Pst.Def.1Sg]
>       1 [V][_Mod][Prs.NDef.3Pl]
>       1 [V][_Mod][Prs.Def.3Sg][Punct]
>       1 [Punct]
>       1 POS
>       1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
>       1 [_PerfPtcp_Subj=tA/Adj][Nom]
>       1 [N][Poss.3Pl][Nom]
>       1 [N][All]
>       1 [N|Acron][Subl]
>       1 [N|Acron][Poss.1Sg][Subl]
>       1 [N|Acron][Poss.1Pl][All]
>       1 [N|Acron][Pl][Ter]
>       1 [N|Acron][Pl][Ins]
>       1 [N|Acron][Pl][Ine]
>       1 [N|Acron][Ade]
>       1 [N|Acron][Acc][Punct]
>       1 [N][Acc]
>       1 [N|Abbr][Ela]
>       1 [Adj][Pl][Ade]
>       1 [Adj][EssFor%:ként]
>       1 [Adj]
> 
> 
> Balázs
> 
> 
> 2016. július 29. 9:46 Veronika Vincze írta, <vinczev at inf.u-szeged.hu>:
>
>       Sziasztok!
>
>       A második hibát javítottuk a konverterben, frissültek a
>       fájlok.
>
>       Az első hiba nagyrészt tulajdonneveket érint, ha jól
>       gondolom. A Szeged Korpuszban ezek egységesen főnévi címkét
>       kaptak, még akkor is, ha jelen esetben egy melléknév képezi a
>       tulajdonnév részét. A konverter úgy működik, hogy az új
>       harmonizált kódok közül választjuk ki az MSD-kód alapján a
>       neki leginkább megfelelőt, vagyis itt most a főnévi kódnak
>       megfelelően főnévi kódot választ, ami persze nem helyes, de
>       ezt automatikusan nem tudjuk eldönteni. Sajnos arra most
>       nincs se időnk, se erőforrásunk (Szegeden legalábbis), hogy
>       ezeket az eseteket kézzel egyértelműsítsük :(
>
>       Üdv:
>       Vera
> 
>
>       On 2016.07.29. 8:22, Indig Balázs wrote:
>       Szasztok!
> @Vera: 
> 
> Megye -> Megy
> 
> Jász-Nagykun-Szolnok Jász-Nagykun-Szolnok N
> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
> Jász-Nagykun-Szolnok[/N][Nom]
> Megyei Megyei N
> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
> Megy[/N][Pl.Poss.3Sg][Nom]
> 
> És ebből van egy csomó... 
> 
> Illetve a másik:
> 
> A a T SubPOS=f a[/Det|art.Def]
> két két M
> SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none
> két[/Num|Attr][Nom]
> óra óra N SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
> óra[/N][Nom]
> közti közti A
> SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
> közti[/Adj][Nom]
> szüntet szüntet Z _ [szüntet[/V][Prs.NDef.3Sg]]
> 
> Értem én, de akkor valaki elmondhatná, hogy mi a formátum: Az
> első [/ -től van a címke vagy az első [ -től? És ha az előbbi
> akkor mit kezdjen a PurePOS a fenti "lemmakezdő [" -el?
> 
> Most az egész  [szüntet[/V][Prs.NDef.3Sg]] címkének van véve
> és így halál lassú a tanítás(az eddigi 1026 uniq cimke
> helyett van 2408 a hülyeségekkel együtt), meg nem is biztos,
> hogy ez adja az elvárt eredményt...
> 
> 
> Balázs
> 
> 
> 2016. július 28. 18:37 Indig Balázs írta,
> <indig.balazs at itk.ppke.hu>:
>       Sziasztok!
>
>       Az új javított szeged korpuszhoz is elérhető a
>       PurePOS model itt:
> 
> http://pi.itk.ppke.hu/~dlazesz/infra/
> 
> 
> 
> Üdv,
> 
> Balázs
> 
> 2016. július 28. 15:54 Veronika Vincze írta,
> <vinczev at inf.u-szeged.hu>:
>
>       Sziasztok,
>
>       Javítottunk pár bugot a konvertálásban,
>       most már elvben jó minden sor formátuma. A
>       Szeged Korpusz teljes anyaga elérhető a
>
>       http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
>
>       címen. Ha bármilyen problémát találtok,
>       jelezzétek, kérlek.
>
>       @Attila: néha a képzett szavaknál a szófaj
>       elől lemarad a / jel (pl. Dél-dunántúli   
>       Dél-dunántúli[Adj][Nom]), ezt mi elvben
>       javítottuk a konverzió során, de az
>       elemzőben is hasznos lenne átírni.
>
>       Üdv:
>       Vera
>
>       On 2016.07.28. 13:46, Indig Balázs wrote:
>       Kedves Mindenki!
> PurePOS modellek és a szeged korpusz
> formátumából purepos input formátumba
> konvertáló script:
> 
> http://pi.itk.ppke.hu/~dlazesz/infra/
> 
> A szeged korpusz formátuma kicsit fura. Van
> ahol nem csak 5 mező van És csomó helyen
> viszonylag nehéz kinyerni, hogy mit is
> akarhatott a szerző, hogy mi kerüljön a
> PurePOS-ba. A konvertáló script tele van
> ezirányú kommentekkel.
> 
> Ami a "PurePOS-beli morfológiát" illeti:
> 
> Így néz ki egy morfológiával szelektíven
> annotált{{annotál[\V]||annotáció[\N]}}
> input  sor .
> 
> Majd még fog alakulni a dolog. Most a héten
> ez megy.
> 
> 
> Üdv,
> 
> Balázs
> 
> 
> 2016. július 25. 13:52 Veronika Vincze
> írta, <vinczev at inf.u-szeged.hu>:
>       Kedves Mindenki,
> 
>
>       On 2016.07.25. 12:12, Sass
>       Bálint wrote:
>
>             2.
>             Vera, esetleg írj
>             pár szót a fájl
>             oszlopairól,
>             hogy igaziból
>             melyik kell nekünk
>             most.
>
>             Megnéztem, sztem ez
>             van:
>             1. oszlop = szóalak
>             5. oszlop = újkódos
>             szótő + szófaj +
>             elemzés
>
>             Ugye ez a kettő
>             kell most a
>             tanításhoz,
>             a 2-3-4. oszlop
>             régi, így figyelmen
>             kívül hagyandó?
>
>             Szóval az 5.
>             oszlopban lévő
>             szótövet, szófajt
>             és elemzést
>             kellene rendre
>             lemma, pos és
>             feature -ként
>             használni a
>             tanításokhoz, ugye?
>             :)
>
>       Így igaz, az 1. és az 5. oszlop
>       a fontos, a többit csak benne
>       hagytuk a kiíratáskor.
>             3.
>             Tekintetbe véve,
>             hogy hét végére
>             mindennek mennie
>             kellene
>             valamilyen formában
>             a honlap mögött,
>             azt kérem, hogy
>             mindenki (az alább
>             említettek)
>             tanítson egy
>             modellt ezen a
>             részkorpuszon, hogy
>             legyen valami,
>             aztán majd később
>             legyenek meg a
>             teljes korpuszon
>             tanított modellek.
>
>       Nekiállunk mi is szintaxist
>       tanítani (plusz csináljuk a
>       többi alkorpusz
>       infrásmorfológiára való
>       átalakítását), ez valószínűleg
>       pár napot igénybe vesz nálunk.
>
>       Üdv:
>       Vera




More information about the nlp-infra-devel mailing list