[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás

Veronika Vincze vinczev at inf.u-szeged.hu
Sun Jul 31 15:35:33 CEST 2016


Sziasztok,

Elkészült a dependenciamodell, itt elérhető:

http://www.inf.u-szeged.hu/~vinczev/infra/depmodel

Üdv:

Vera


On 2016.07.29. 14:30, Sass Bálint wrote:
> @Balázs: Állítás volt. :)
>
> De persze frissítsd és szólj is, ha lesz új/jobb verzió.
>
> Kösz szépen:
> Bálint
>
> Ezt írta ma:
>> @Bálint: Ha ez kérdés volt, akkor a válasz: Igen, ez a ma 9:35 körüli
>> Szeged korpusz állapotokat tükrözi és majd frissítem, ha lesz "új,
>> mindenhol peres" javított korpusz.
>>
>>
>> Balázs
>>
>> 2016. július 29. 12:06 Sass Bálint írta, <joker at nytud.hu>:
>>       Sziasztok!
>>
>>       Most akkor ez a modell lesz az, amit az infra2 láncba,
>>       az e-magyar.hu honlap mögé beteszünk:
>>
>> http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new
>>
>>       időbélyege: 2016-07-29 10:10 mérete: 82M
>>
>>       Kösz szépen mindenkinek a közreműködést ebben.
>>
>>       A két szintaktikai modellt még nagyon várjuk! :)
>>
>>       Üdv:
>>       Bálint
>>
>>       Ezt írta ma Balázs:
>>             Sziasztok!
>>
>>             1412 egyedi címke. Jobb a helyzet...
>>
>>             A PurePOS model frissült.
>>             Már tisztul a kép, de még nem értek bizonyos
>>             dolgokat (most PurePOS
>>             jelölsében #-el elválasztva szóalak szótő címke):
>>
>>             1) "leg"-et#"#[Punct]  Ez miért Punct ha a
>>             mondatvégi pont vessző stb.
>>             OTHER?
>>             2) Most akkor a címkének nem "[/" -el kelellene
>>             kezdődnie? Mert ezek a
>>             címkék furák:
>>
>>              252623 OTHER
>>                1305 [Adj][Nom]
>>                  26 [N|Acron][Acc]
>>                  17 [N|Acron][Pl][Nom]
>>                  14 [N|Acron][Transl]
>>                  12 [Num][Nom]
>>                   6 [Adj][Pl][Nom]
>>                   5 [N|Acron][Ins]
>>                   5 [N|Abbr][Dat]
>>                   4 [N][Nom]
>>                   4 [Adj|nat][Nom]
>>                   3 [N][Poss.3Sg][Nom]
>>                   3 [N|Acron][Pl][Subl]
>>                   3 [Adj][All]
>>                   2 [V][Inf]
>>                   2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
>>                   2 [N][Poss.3Sg][Acc]
>>                   2 [N|Acron][Pl][All]
>>                   2 [N|Acron][Pl][Acc]
>>                   2 [N|Acron][Nom]
>>                   2 [N|Abbr][Subl]
>>                   2 [N|Abbr][All]
>>                   2 [N|Abbr][Acc]
>>                   1 [V][Pst.Def.3Sg]
>>                   1 [V][Pst.Def.1Sg]
>>                   1 [V][_Mod][Prs.NDef.3Pl]
>>                   1 [V][_Mod][Prs.Def.3Sg][Punct]
>>                   1 [Punct]
>>                   1 POS
>>                   1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
>>                   1 [_PerfPtcp_Subj=tA/Adj][Nom]
>>                   1 [N][Poss.3Pl][Nom]
>>                   1 [N][All]
>>                   1 [N|Acron][Subl]
>>                   1 [N|Acron][Poss.1Sg][Subl]
>>                   1 [N|Acron][Poss.1Pl][All]
>>                   1 [N|Acron][Pl][Ter]
>>                   1 [N|Acron][Pl][Ins]
>>                   1 [N|Acron][Pl][Ine]
>>                   1 [N|Acron][Ade]
>>                   1 [N|Acron][Acc][Punct]
>>                   1 [N][Acc]
>>                   1 [N|Abbr][Ela]
>>                   1 [Adj][Pl][Ade]
>>                   1 [Adj][EssFor%:ként]
>>                   1 [Adj]
>>
>>
>>             Balázs
>>
>>
>>             2016. július 29. 9:46 Veronika Vincze írta,
>>             <vinczev at inf.u-szeged.hu>:
>>
>>                   Sziasztok!
>>
>>                   A második hibát javítottuk a konverterben,
>>             frissültek a
>>                   fájlok.
>>
>>                   Az első hiba nagyrészt tulajdonneveket
>>             érint, ha jól
>>                   gondolom. A Szeged Korpuszban ezek
>>             egységesen főnévi címkét
>>                   kaptak, még akkor is, ha jelen esetben egy
>>             melléknév képezi a
>>                   tulajdonnév részét. A konverter úgy
>>             működik, hogy az új
>>                   harmonizált kódok közül választjuk ki az
>>             MSD-kód alapján a
>>                   neki leginkább megfelelőt, vagyis itt most
>>             a főnévi kódnak
>>                   megfelelően főnévi kódot választ, ami
>>             persze nem helyes, de
>>                   ezt automatikusan nem tudjuk eldönteni.
>>             Sajnos arra most
>>                   nincs se időnk, se erőforrásunk (Szegeden
>>             legalábbis), hogy
>>                   ezeket az eseteket kézzel egyértelműsítsük
>>             :(
>>
>>                   Üdv:
>>                   Vera
>>
>>
>>                   On 2016.07.29. 8:22, Indig Balázs wrote:
>>                   Szasztok!
>>             @Vera:
>>
>>             Megye -> Megy
>>
>>             Jász-Nagykun-Szolnok Jász-Nagykun-Szolnok N
>>             SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>             Jász-Nagykun-Szolnok[/N][Nom]
>>             Megyei Megyei N
>>             SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>             Megy[/N][Pl.Poss.3Sg][Nom]
>>
>>             És ebből van egy csomó...
>>
>>             Illetve a másik:
>>
>>             A a T SubPOS=f a[/Det|art.Def]
>>             két két M
>> SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none
>>             két[/Num|Attr][Nom]
>>             óra óra N
>>             SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>             óra[/N][Nom]
>>             közti közti A
>> SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>             közti[/Adj][Nom]
>>             szüntet szüntet Z _ [szüntet[/V][Prs.NDef.3Sg]]
>>
>>             Értem én, de akkor valaki elmondhatná, hogy mi a
>>             formátum: Az
>>             első [/ -től van a címke vagy az első [ -től? És
>>             ha az előbbi
>>             akkor mit kezdjen a PurePOS a fenti "lemmakezdő
>>             [" -el?
>>
>>             Most az egész  [szüntet[/V][Prs.NDef.3Sg]]
>>             címkének van véve
>>             és így halál lassú a tanítás(az eddigi 1026 uniq
>>             cimke
>>             helyett van 2408 a hülyeségekkel együtt), meg nem
>>             is biztos,
>>             hogy ez adja az elvárt eredményt...
>>
>>
>>             Balázs
>>
>>
>>             2016. július 28. 18:37 Indig Balázs írta,
>>             <indig.balazs at itk.ppke.hu>:
>>                   Sziasztok!
>>
>>                   Az új javított szeged korpuszhoz is
>>             elérhető a
>>                   PurePOS model itt:
>>
>>             http://pi.itk.ppke.hu/~dlazesz/infra/
>>
>>
>>
>>             Üdv,
>>
>>             Balázs
>>
>>             2016. július 28. 15:54 Veronika Vincze írta,
>>             <vinczev at inf.u-szeged.hu>:
>>
>>                   Sziasztok,
>>
>>                   Javítottunk pár bugot a konvertálásban,
>>                   most már elvben jó minden sor formátuma. A
>>                   Szeged Korpusz teljes anyaga elérhető a
>>
>>
>> http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
>>
>>                   címen. Ha bármilyen problémát találtok,
>>                   jelezzétek, kérlek.
>>
>>                   @Attila: néha a képzett szavaknál a szófaj
>>                   elől lemarad a / jel (pl. Dél-dunántúli
>>                   Dél-dunántúli[Adj][Nom]), ezt mi elvben
>>                   javítottuk a konverzió során, de az
>>                   elemzőben is hasznos lenne átírni.
>>
>>                   Üdv:
>>                   Vera
>>
>>                   On 2016.07.28. 13:46, Indig Balázs wrote:
>>                   Kedves Mindenki!
>>             PurePOS modellek és a szeged korpusz
>>             formátumából purepos input formátumba
>>             konvertáló script:
>>
>>             http://pi.itk.ppke.hu/~dlazesz/infra/
>>
>>             A szeged korpusz formátuma kicsit fura. Van
>>             ahol nem csak 5 mező van És csomó helyen
>>             viszonylag nehéz kinyerni, hogy mit is
>>             akarhatott a szerző, hogy mi kerüljön a
>>             PurePOS-ba. A konvertáló script tele van
>>             ezirányú kommentekkel.
>>
>>             Ami a "PurePOS-beli morfológiát" illeti:
>>
>>             Így néz ki egy morfológiával szelektíven
>>             annotált{{annotál[\V]||annotáció[\N]}}
>>             input  sor .
>>
>>             Majd még fog alakulni a dolog. Most a héten
>>             ez megy.
>>
>>
>>             Üdv,
>>
>>             Balázs
>>
>>
>>             2016. július 25. 13:52 Veronika Vincze
>>             írta, <vinczev at inf.u-szeged.hu>:
>>                   Kedves Mindenki,
>>
>>
>>                   On 2016.07.25. 12:12, Sass
>>                   Bálint wrote:
>>
>>                         2.
>>                         Vera, esetleg írj
>>                         pár szót a fájl
>>                         oszlopairól,
>>                         hogy igaziból
>>                         melyik kell nekünk
>>                         most.
>>
>>                         Megnéztem, sztem ez
>>                         van:
>>                         1. oszlop = szóalak
>>                         5. oszlop = újkódos
>>                         szótő + szófaj +
>>                         elemzés
>>
>>                         Ugye ez a kettő
>>                         kell most a
>>                         tanításhoz,
>>                         a 2-3-4. oszlop
>>                         régi, így figyelmen
>>                         kívül hagyandó?
>>
>>                         Szóval az 5.
>>                         oszlopban lévő
>>                         szótövet, szófajt
>>                         és elemzést
>>                         kellene rendre
>>                         lemma, pos és
>>                         feature -ként
>>                         használni a
>>                         tanításokhoz, ugye?
>>                         :)
>>
>>                   Így igaz, az 1. és az 5. oszlop
>>                   a fontos, a többit csak benne
>>                   hagytuk a kiíratáskor.
>>                         3.
>>                         Tekintetbe véve,
>>                         hogy hét végére
>>                         mindennek mennie
>>                         kellene
>>                         valamilyen formában
>>                         a honlap mögött,
>>                         azt kérem, hogy
>>                         mindenki (az alább
>>                         említettek)
>>                         tanítson egy
>>                         modellt ezen a
>>                         részkorpuszon, hogy
>>                         legyen valami,
>>                         aztán majd később
>>                         legyenek meg a
>>                         teljes korpuszon
>>                         tanított modellek.
>>
>>                   Nekiállunk mi is szintaxist
>>                   tanítani (plusz csináljuk a
>>                   többi alkorpusz
>>                   infrásmorfológiára való
>>                   átalakítását), ez valószínűleg
>>                   pár napot igénybe vesz nálunk.
>>
>>                   Üdv:
>>                   Vera
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel




More information about the nlp-infra-devel mailing list