[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás
Sass Bálint
joker at nytud.hu
Fri Jul 29 14:30:29 CEST 2016
@Balázs: Állítás volt. :)
De persze frissítsd és szólj is, ha lesz új/jobb verzió.
Kösz szépen:
Bálint
Ezt írta ma:
> @Bálint: Ha ez kérdés volt, akkor a válasz: Igen, ez a ma 9:35 körüli
> Szeged korpusz állapotokat tükrözi és majd frissítem, ha lesz "új,
> mindenhol peres" javított korpusz.
>
>
> Balázs
>
> 2016. július 29. 12:06 Sass Bálint írta, <joker at nytud.hu>:
> Sziasztok!
>
> Most akkor ez a modell lesz az, amit az infra2 láncba,
> az e-magyar.hu honlap mögé beteszünk:
>
> http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new
>
> időbélyege: 2016-07-29 10:10 mérete: 82M
>
> Kösz szépen mindenkinek a közreműködést ebben.
>
> A két szintaktikai modellt még nagyon várjuk! :)
>
> Üdv:
> Bálint
>
> Ezt írta ma Balázs:
> Sziasztok!
>
> 1412 egyedi címke. Jobb a helyzet...
>
> A PurePOS model frissült.
> Már tisztul a kép, de még nem értek bizonyos
> dolgokat (most PurePOS
> jelölsében #-el elválasztva szóalak szótő címke):
>
> 1) "leg"-et#"#[Punct] Ez miért Punct ha a
> mondatvégi pont vessző stb.
> OTHER?
> 2) Most akkor a címkének nem "[/" -el kelellene
> kezdődnie? Mert ezek a
> címkék furák:
>
> 252623 OTHER
> 1305 [Adj][Nom]
> 26 [N|Acron][Acc]
> 17 [N|Acron][Pl][Nom]
> 14 [N|Acron][Transl]
> 12 [Num][Nom]
> 6 [Adj][Pl][Nom]
> 5 [N|Acron][Ins]
> 5 [N|Abbr][Dat]
> 4 [N][Nom]
> 4 [Adj|nat][Nom]
> 3 [N][Poss.3Sg][Nom]
> 3 [N|Acron][Pl][Subl]
> 3 [Adj][All]
> 2 [V][Inf]
> 2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
> 2 [N][Poss.3Sg][Acc]
> 2 [N|Acron][Pl][All]
> 2 [N|Acron][Pl][Acc]
> 2 [N|Acron][Nom]
> 2 [N|Abbr][Subl]
> 2 [N|Abbr][All]
> 2 [N|Abbr][Acc]
> 1 [V][Pst.Def.3Sg]
> 1 [V][Pst.Def.1Sg]
> 1 [V][_Mod][Prs.NDef.3Pl]
> 1 [V][_Mod][Prs.Def.3Sg][Punct]
> 1 [Punct]
> 1 POS
> 1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
> 1 [_PerfPtcp_Subj=tA/Adj][Nom]
> 1 [N][Poss.3Pl][Nom]
> 1 [N][All]
> 1 [N|Acron][Subl]
> 1 [N|Acron][Poss.1Sg][Subl]
> 1 [N|Acron][Poss.1Pl][All]
> 1 [N|Acron][Pl][Ter]
> 1 [N|Acron][Pl][Ins]
> 1 [N|Acron][Pl][Ine]
> 1 [N|Acron][Ade]
> 1 [N|Acron][Acc][Punct]
> 1 [N][Acc]
> 1 [N|Abbr][Ela]
> 1 [Adj][Pl][Ade]
> 1 [Adj][EssFor%:ként]
> 1 [Adj]
>
>
> Balázs
>
>
> 2016. július 29. 9:46 Veronika Vincze írta,
> <vinczev at inf.u-szeged.hu>:
>
> Sziasztok!
>
> A második hibát javítottuk a konverterben,
> frissültek a
> fájlok.
>
> Az első hiba nagyrészt tulajdonneveket
> érint, ha jól
> gondolom. A Szeged Korpuszban ezek
> egységesen főnévi címkét
> kaptak, még akkor is, ha jelen esetben egy
> melléknév képezi a
> tulajdonnév részét. A konverter úgy
> működik, hogy az új
> harmonizált kódok közül választjuk ki az
> MSD-kód alapján a
> neki leginkább megfelelőt, vagyis itt most
> a főnévi kódnak
> megfelelően főnévi kódot választ, ami
> persze nem helyes, de
> ezt automatikusan nem tudjuk eldönteni.
> Sajnos arra most
> nincs se időnk, se erőforrásunk (Szegeden
> legalábbis), hogy
> ezeket az eseteket kézzel egyértelműsítsük
> :(
>
> Üdv:
> Vera
>
>
> On 2016.07.29. 8:22, Indig Balázs wrote:
> Szasztok!
> @Vera:
>
> Megye -> Megy
>
> Jász-Nagykun-Szolnok Jász-Nagykun-Szolnok N
> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
> Jász-Nagykun-Szolnok[/N][Nom]
> Megyei Megyei N
> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
> Megy[/N][Pl.Poss.3Sg][Nom]
>
> És ebből van egy csomó...
>
> Illetve a másik:
>
> A a T SubPOS=f a[/Det|art.Def]
> két két M
> SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none
> két[/Num|Attr][Nom]
> óra óra N
> SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
> óra[/N][Nom]
> közti közti A
> SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
> közti[/Adj][Nom]
> szüntet szüntet Z _ [szüntet[/V][Prs.NDef.3Sg]]
>
> Értem én, de akkor valaki elmondhatná, hogy mi a
> formátum: Az
> első [/ -től van a címke vagy az első [ -től? És
> ha az előbbi
> akkor mit kezdjen a PurePOS a fenti "lemmakezdő
> [" -el?
>
> Most az egész [szüntet[/V][Prs.NDef.3Sg]]
> címkének van véve
> és így halál lassú a tanítás(az eddigi 1026 uniq
> cimke
> helyett van 2408 a hülyeségekkel együtt), meg nem
> is biztos,
> hogy ez adja az elvárt eredményt...
>
>
> Balázs
>
>
> 2016. július 28. 18:37 Indig Balázs írta,
> <indig.balazs at itk.ppke.hu>:
> Sziasztok!
>
> Az új javított szeged korpuszhoz is
> elérhető a
> PurePOS model itt:
>
> http://pi.itk.ppke.hu/~dlazesz/infra/
>
>
>
> Üdv,
>
> Balázs
>
> 2016. július 28. 15:54 Veronika Vincze írta,
> <vinczev at inf.u-szeged.hu>:
>
> Sziasztok,
>
> Javítottunk pár bugot a konvertálásban,
> most már elvben jó minden sor formátuma. A
> Szeged Korpusz teljes anyaga elérhető a
>
>
> http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
>
> címen. Ha bármilyen problémát találtok,
> jelezzétek, kérlek.
>
> @Attila: néha a képzett szavaknál a szófaj
> elől lemarad a / jel (pl. Dél-dunántúli
> Dél-dunántúli[Adj][Nom]), ezt mi elvben
> javítottuk a konverzió során, de az
> elemzőben is hasznos lenne átírni.
>
> Üdv:
> Vera
>
> On 2016.07.28. 13:46, Indig Balázs wrote:
> Kedves Mindenki!
> PurePOS modellek és a szeged korpusz
> formátumából purepos input formátumba
> konvertáló script:
>
> http://pi.itk.ppke.hu/~dlazesz/infra/
>
> A szeged korpusz formátuma kicsit fura. Van
> ahol nem csak 5 mező van És csomó helyen
> viszonylag nehéz kinyerni, hogy mit is
> akarhatott a szerző, hogy mi kerüljön a
> PurePOS-ba. A konvertáló script tele van
> ezirányú kommentekkel.
>
> Ami a "PurePOS-beli morfológiát" illeti:
>
> Így néz ki egy morfológiával szelektíven
> annotált{{annotál[\V]||annotáció[\N]}}
> input sor .
>
> Majd még fog alakulni a dolog. Most a héten
> ez megy.
>
>
> Üdv,
>
> Balázs
>
>
> 2016. július 25. 13:52 Veronika Vincze
> írta, <vinczev at inf.u-szeged.hu>:
> Kedves Mindenki,
>
>
> On 2016.07.25. 12:12, Sass
> Bálint wrote:
>
> 2.
> Vera, esetleg írj
> pár szót a fájl
> oszlopairól,
> hogy igaziból
> melyik kell nekünk
> most.
>
> Megnéztem, sztem ez
> van:
> 1. oszlop = szóalak
> 5. oszlop = újkódos
> szótő + szófaj +
> elemzés
>
> Ugye ez a kettő
> kell most a
> tanításhoz,
> a 2-3-4. oszlop
> régi, így figyelmen
> kívül hagyandó?
>
> Szóval az 5.
> oszlopban lévő
> szótövet, szófajt
> és elemzést
> kellene rendre
> lemma, pos és
> feature -ként
> használni a
> tanításokhoz, ugye?
> :)
>
> Így igaz, az 1. és az 5. oszlop
> a fontos, a többit csak benne
> hagytuk a kiíratáskor.
> 3.
> Tekintetbe véve,
> hogy hét végére
> mindennek mennie
> kellene
> valamilyen formában
> a honlap mögött,
> azt kérem, hogy
> mindenki (az alább
> említettek)
> tanítson egy
> modellt ezen a
> részkorpuszon, hogy
> legyen valami,
> aztán majd később
> legyenek meg a
> teljes korpuszon
> tanított modellek.
>
> Nekiállunk mi is szintaxist
> tanítani (plusz csináljuk a
> többi alkorpusz
> infrásmorfológiára való
> átalakítását), ez valószínűleg
> pár napot igénybe vesz nálunk.
>
> Üdv:
> Vera
More information about the nlp-infra-devel
mailing list