[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás
Veronika Vincze
vinczev at inf.u-szeged.hu
Sun Jul 31 15:35:33 CEST 2016
Sziasztok,
Elkészült a dependenciamodell, itt elérhető:
http://www.inf.u-szeged.hu/~vinczev/infra/depmodel
Üdv:
Vera
On 2016.07.29. 14:30, Sass Bálint wrote:
> @Balázs: Állítás volt. :)
>
> De persze frissítsd és szólj is, ha lesz új/jobb verzió.
>
> Kösz szépen:
> Bálint
>
> Ezt írta ma:
>> @Bálint: Ha ez kérdés volt, akkor a válasz: Igen, ez a ma 9:35 körüli
>> Szeged korpusz állapotokat tükrözi és majd frissítem, ha lesz "új,
>> mindenhol peres" javított korpusz.
>>
>>
>> Balázs
>>
>> 2016. július 29. 12:06 Sass Bálint írta, <joker at nytud.hu>:
>> Sziasztok!
>>
>> Most akkor ez a modell lesz az, amit az infra2 láncba,
>> az e-magyar.hu honlap mögé beteszünk:
>>
>> http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new
>>
>> időbélyege: 2016-07-29 10:10 mérete: 82M
>>
>> Kösz szépen mindenkinek a közreműködést ebben.
>>
>> A két szintaktikai modellt még nagyon várjuk! :)
>>
>> Üdv:
>> Bálint
>>
>> Ezt írta ma Balázs:
>> Sziasztok!
>>
>> 1412 egyedi címke. Jobb a helyzet...
>>
>> A PurePOS model frissült.
>> Már tisztul a kép, de még nem értek bizonyos
>> dolgokat (most PurePOS
>> jelölsében #-el elválasztva szóalak szótő címke):
>>
>> 1) "leg"-et#"#[Punct] Ez miért Punct ha a
>> mondatvégi pont vessző stb.
>> OTHER?
>> 2) Most akkor a címkének nem "[/" -el kelellene
>> kezdődnie? Mert ezek a
>> címkék furák:
>>
>> 252623 OTHER
>> 1305 [Adj][Nom]
>> 26 [N|Acron][Acc]
>> 17 [N|Acron][Pl][Nom]
>> 14 [N|Acron][Transl]
>> 12 [Num][Nom]
>> 6 [Adj][Pl][Nom]
>> 5 [N|Acron][Ins]
>> 5 [N|Abbr][Dat]
>> 4 [N][Nom]
>> 4 [Adj|nat][Nom]
>> 3 [N][Poss.3Sg][Nom]
>> 3 [N|Acron][Pl][Subl]
>> 3 [Adj][All]
>> 2 [V][Inf]
>> 2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
>> 2 [N][Poss.3Sg][Acc]
>> 2 [N|Acron][Pl][All]
>> 2 [N|Acron][Pl][Acc]
>> 2 [N|Acron][Nom]
>> 2 [N|Abbr][Subl]
>> 2 [N|Abbr][All]
>> 2 [N|Abbr][Acc]
>> 1 [V][Pst.Def.3Sg]
>> 1 [V][Pst.Def.1Sg]
>> 1 [V][_Mod][Prs.NDef.3Pl]
>> 1 [V][_Mod][Prs.Def.3Sg][Punct]
>> 1 [Punct]
>> 1 POS
>> 1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
>> 1 [_PerfPtcp_Subj=tA/Adj][Nom]
>> 1 [N][Poss.3Pl][Nom]
>> 1 [N][All]
>> 1 [N|Acron][Subl]
>> 1 [N|Acron][Poss.1Sg][Subl]
>> 1 [N|Acron][Poss.1Pl][All]
>> 1 [N|Acron][Pl][Ter]
>> 1 [N|Acron][Pl][Ins]
>> 1 [N|Acron][Pl][Ine]
>> 1 [N|Acron][Ade]
>> 1 [N|Acron][Acc][Punct]
>> 1 [N][Acc]
>> 1 [N|Abbr][Ela]
>> 1 [Adj][Pl][Ade]
>> 1 [Adj][EssFor%:ként]
>> 1 [Adj]
>>
>>
>> Balázs
>>
>>
>> 2016. július 29. 9:46 Veronika Vincze írta,
>> <vinczev at inf.u-szeged.hu>:
>>
>> Sziasztok!
>>
>> A második hibát javítottuk a konverterben,
>> frissültek a
>> fájlok.
>>
>> Az első hiba nagyrészt tulajdonneveket
>> érint, ha jól
>> gondolom. A Szeged Korpuszban ezek
>> egységesen főnévi címkét
>> kaptak, még akkor is, ha jelen esetben egy
>> melléknév képezi a
>> tulajdonnév részét. A konverter úgy
>> működik, hogy az új
>> harmonizált kódok közül választjuk ki az
>> MSD-kód alapján a
>> neki leginkább megfelelőt, vagyis itt most
>> a főnévi kódnak
>> megfelelően főnévi kódot választ, ami
>> persze nem helyes, de
>> ezt automatikusan nem tudjuk eldönteni.
>> Sajnos arra most
>> nincs se időnk, se erőforrásunk (Szegeden
>> legalábbis), hogy
>> ezeket az eseteket kézzel egyértelműsítsük
>> :(
>>
>> Üdv:
>> Vera
>>
>>
>> On 2016.07.29. 8:22, Indig Balázs wrote:
>> Szasztok!
>> @Vera:
>>
>> Megye -> Megy
>>
>> Jász-Nagykun-Szolnok Jász-Nagykun-Szolnok N
>> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>> Jász-Nagykun-Szolnok[/N][Nom]
>> Megyei Megyei N
>> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>> Megy[/N][Pl.Poss.3Sg][Nom]
>>
>> És ebből van egy csomó...
>>
>> Illetve a másik:
>>
>> A a T SubPOS=f a[/Det|art.Def]
>> két két M
>> SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none
>> két[/Num|Attr][Nom]
>> óra óra N
>> SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>> óra[/N][Nom]
>> közti közti A
>> SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>> közti[/Adj][Nom]
>> szüntet szüntet Z _ [szüntet[/V][Prs.NDef.3Sg]]
>>
>> Értem én, de akkor valaki elmondhatná, hogy mi a
>> formátum: Az
>> első [/ -től van a címke vagy az első [ -től? És
>> ha az előbbi
>> akkor mit kezdjen a PurePOS a fenti "lemmakezdő
>> [" -el?
>>
>> Most az egész [szüntet[/V][Prs.NDef.3Sg]]
>> címkének van véve
>> és így halál lassú a tanítás(az eddigi 1026 uniq
>> cimke
>> helyett van 2408 a hülyeségekkel együtt), meg nem
>> is biztos,
>> hogy ez adja az elvárt eredményt...
>>
>>
>> Balázs
>>
>>
>> 2016. július 28. 18:37 Indig Balázs írta,
>> <indig.balazs at itk.ppke.hu>:
>> Sziasztok!
>>
>> Az új javított szeged korpuszhoz is
>> elérhető a
>> PurePOS model itt:
>>
>> http://pi.itk.ppke.hu/~dlazesz/infra/
>>
>>
>>
>> Üdv,
>>
>> Balázs
>>
>> 2016. július 28. 15:54 Veronika Vincze írta,
>> <vinczev at inf.u-szeged.hu>:
>>
>> Sziasztok,
>>
>> Javítottunk pár bugot a konvertálásban,
>> most már elvben jó minden sor formátuma. A
>> Szeged Korpusz teljes anyaga elérhető a
>>
>>
>> http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
>>
>> címen. Ha bármilyen problémát találtok,
>> jelezzétek, kérlek.
>>
>> @Attila: néha a képzett szavaknál a szófaj
>> elől lemarad a / jel (pl. Dél-dunántúli
>> Dél-dunántúli[Adj][Nom]), ezt mi elvben
>> javítottuk a konverzió során, de az
>> elemzőben is hasznos lenne átírni.
>>
>> Üdv:
>> Vera
>>
>> On 2016.07.28. 13:46, Indig Balázs wrote:
>> Kedves Mindenki!
>> PurePOS modellek és a szeged korpusz
>> formátumából purepos input formátumba
>> konvertáló script:
>>
>> http://pi.itk.ppke.hu/~dlazesz/infra/
>>
>> A szeged korpusz formátuma kicsit fura. Van
>> ahol nem csak 5 mező van És csomó helyen
>> viszonylag nehéz kinyerni, hogy mit is
>> akarhatott a szerző, hogy mi kerüljön a
>> PurePOS-ba. A konvertáló script tele van
>> ezirányú kommentekkel.
>>
>> Ami a "PurePOS-beli morfológiát" illeti:
>>
>> Így néz ki egy morfológiával szelektíven
>> annotált{{annotál[\V]||annotáció[\N]}}
>> input sor .
>>
>> Majd még fog alakulni a dolog. Most a héten
>> ez megy.
>>
>>
>> Üdv,
>>
>> Balázs
>>
>>
>> 2016. július 25. 13:52 Veronika Vincze
>> írta, <vinczev at inf.u-szeged.hu>:
>> Kedves Mindenki,
>>
>>
>> On 2016.07.25. 12:12, Sass
>> Bálint wrote:
>>
>> 2.
>> Vera, esetleg írj
>> pár szót a fájl
>> oszlopairól,
>> hogy igaziból
>> melyik kell nekünk
>> most.
>>
>> Megnéztem, sztem ez
>> van:
>> 1. oszlop = szóalak
>> 5. oszlop = újkódos
>> szótő + szófaj +
>> elemzés
>>
>> Ugye ez a kettő
>> kell most a
>> tanításhoz,
>> a 2-3-4. oszlop
>> régi, így figyelmen
>> kívül hagyandó?
>>
>> Szóval az 5.
>> oszlopban lévő
>> szótövet, szófajt
>> és elemzést
>> kellene rendre
>> lemma, pos és
>> feature -ként
>> használni a
>> tanításokhoz, ugye?
>> :)
>>
>> Így igaz, az 1. és az 5. oszlop
>> a fontos, a többit csak benne
>> hagytuk a kiíratáskor.
>> 3.
>> Tekintetbe véve,
>> hogy hét végére
>> mindennek mennie
>> kellene
>> valamilyen formában
>> a honlap mögött,
>> azt kérem, hogy
>> mindenki (az alább
>> említettek)
>> tanítson egy
>> modellt ezen a
>> részkorpuszon, hogy
>> legyen valami,
>> aztán majd később
>> legyenek meg a
>> teljes korpuszon
>> tanított modellek.
>>
>> Nekiállunk mi is szintaxist
>> tanítani (plusz csináljuk a
>> többi alkorpusz
>> infrásmorfológiára való
>> átalakítását), ez valószínűleg
>> pár napot igénybe vesz nálunk.
>>
>> Üdv:
>> Vera
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
More information about the nlp-infra-devel
mailing list