[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás

Sass Bálint joker at nytud.hu
Sun Jul 31 18:31:11 CEST 2016


Sziasztok!

Köszi, Vera! :)

Mi ez az anna-3.61.jar ? Kell vele tenni valamit?

A konstituensmodell akkor még készül, ugye? :)

Kösz, üdv:
Bálint

Ezt írta ma Vera:
> Sziasztok,
>
> Elkészült a dependenciamodell, itt elérhető:
>
> http://www.inf.u-szeged.hu/~vinczev/infra/depmodel
>
> Üdv:
>
> Vera
>
>
> On 2016.07.29. 14:30, Sass Bálint wrote:
>> @Balázs: Állítás volt. :)
>>
>> De persze frissítsd és szólj is, ha lesz új/jobb verzió.
>>
>> Kösz szépen:
>> Bálint
>>
>> Ezt írta ma:
>>> @Bálint: Ha ez kérdés volt, akkor a válasz: Igen, ez a ma 9:35 körüli
>>> Szeged korpusz állapotokat tükrözi és majd frissítem, ha lesz "új,
>>> mindenhol peres" javított korpusz.
>>>
>>>
>>> Balázs
>>>
>>> 2016. július 29. 12:06 Sass Bálint írta, <joker at nytud.hu>:
>>>       Sziasztok!
>>>
>>>       Most akkor ez a modell lesz az, amit az infra2 láncba,
>>>       az e-magyar.hu honlap mögé beteszünk:
>>>
>>> http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new
>>>
>>>       időbélyege: 2016-07-29 10:10 mérete: 82M
>>>
>>>       Kösz szépen mindenkinek a közreműködést ebben.
>>>
>>>       A két szintaktikai modellt még nagyon várjuk! :)
>>>
>>>       Üdv:
>>>       Bálint
>>>
>>>       Ezt írta ma Balázs:
>>>             Sziasztok!
>>>
>>>             1412 egyedi címke. Jobb a helyzet...
>>>
>>>             A PurePOS model frissült.
>>>             Már tisztul a kép, de még nem értek bizonyos
>>>             dolgokat (most PurePOS
>>>             jelölsében #-el elválasztva szóalak szótő címke):
>>>
>>>             1) "leg"-et#"#[Punct]  Ez miért Punct ha a
>>>             mondatvégi pont vessző stb.
>>>             OTHER?
>>>             2) Most akkor a címkének nem "[/" -el kelellene
>>>             kezdődnie? Mert ezek a
>>>             címkék furák:
>>>
>>>              252623 OTHER
>>>                1305 [Adj][Nom]
>>>                  26 [N|Acron][Acc]
>>>                  17 [N|Acron][Pl][Nom]
>>>                  14 [N|Acron][Transl]
>>>                  12 [Num][Nom]
>>>                   6 [Adj][Pl][Nom]
>>>                   5 [N|Acron][Ins]
>>>                   5 [N|Abbr][Dat]
>>>                   4 [N][Nom]
>>>                   4 [Adj|nat][Nom]
>>>                   3 [N][Poss.3Sg][Nom]
>>>                   3 [N|Acron][Pl][Subl]
>>>                   3 [Adj][All]
>>>                   2 [V][Inf]
>>>                   2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
>>>                   2 [N][Poss.3Sg][Acc]
>>>                   2 [N|Acron][Pl][All]
>>>                   2 [N|Acron][Pl][Acc]
>>>                   2 [N|Acron][Nom]
>>>                   2 [N|Abbr][Subl]
>>>                   2 [N|Abbr][All]
>>>                   2 [N|Abbr][Acc]
>>>                   1 [V][Pst.Def.3Sg]
>>>                   1 [V][Pst.Def.1Sg]
>>>                   1 [V][_Mod][Prs.NDef.3Pl]
>>>                   1 [V][_Mod][Prs.Def.3Sg][Punct]
>>>                   1 [Punct]
>>>                   1 POS
>>>                   1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
>>>                   1 [_PerfPtcp_Subj=tA/Adj][Nom]
>>>                   1 [N][Poss.3Pl][Nom]
>>>                   1 [N][All]
>>>                   1 [N|Acron][Subl]
>>>                   1 [N|Acron][Poss.1Sg][Subl]
>>>                   1 [N|Acron][Poss.1Pl][All]
>>>                   1 [N|Acron][Pl][Ter]
>>>                   1 [N|Acron][Pl][Ins]
>>>                   1 [N|Acron][Pl][Ine]
>>>                   1 [N|Acron][Ade]
>>>                   1 [N|Acron][Acc][Punct]
>>>                   1 [N][Acc]
>>>                   1 [N|Abbr][Ela]
>>>                   1 [Adj][Pl][Ade]
>>>                   1 [Adj][EssFor%:ként]
>>>                   1 [Adj]
>>>
>>>
>>>             Balázs
>>>
>>>
>>>             2016. július 29. 9:46 Veronika Vincze írta,
>>>             <vinczev at inf.u-szeged.hu>:
>>>
>>>                   Sziasztok!
>>>
>>>                   A második hibát javítottuk a konverterben,
>>>             frissültek a
>>>                   fájlok.
>>>
>>>                   Az első hiba nagyrészt tulajdonneveket
>>>             érint, ha jól
>>>                   gondolom. A Szeged Korpuszban ezek
>>>             egységesen főnévi címkét
>>>                   kaptak, még akkor is, ha jelen esetben egy
>>>             melléknév képezi a
>>>                   tulajdonnév részét. A konverter úgy
>>>             működik, hogy az új
>>>                   harmonizált kódok közül választjuk ki az
>>>             MSD-kód alapján a
>>>                   neki leginkább megfelelőt, vagyis itt most
>>>             a főnévi kódnak
>>>                   megfelelően főnévi kódot választ, ami
>>>             persze nem helyes, de
>>>                   ezt automatikusan nem tudjuk eldönteni.
>>>             Sajnos arra most
>>>                   nincs se időnk, se erőforrásunk (Szegeden
>>>             legalábbis), hogy
>>>                   ezeket az eseteket kézzel egyértelműsítsük
>>>             :(
>>>
>>>                   Üdv:
>>>                   Vera
>>>
>>>
>>>                   On 2016.07.29. 8:22, Indig Balázs wrote:
>>>                   Szasztok!
>>>             @Vera:
>>>
>>>             Megye -> Megy
>>>
>>>             Jász-Nagykun-Szolnok Jász-Nagykun-Szolnok N
>>>             SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>             Jász-Nagykun-Szolnok[/N][Nom]
>>>             Megyei Megyei N
>>>             SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>             Megy[/N][Pl.Poss.3Sg][Nom]
>>>
>>>             És ebből van egy csomó...
>>>
>>>             Illetve a másik:
>>>
>>>             A a T SubPOS=f a[/Det|art.Def]
>>>             két két M
>>> SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none
>>>             két[/Num|Attr][Nom]
>>>             óra óra N
>>>             SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>             óra[/N][Nom]
>>>             közti közti A
>>> SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>             közti[/Adj][Nom]
>>>             szüntet szüntet Z _ [szüntet[/V][Prs.NDef.3Sg]]
>>>
>>>             Értem én, de akkor valaki elmondhatná, hogy mi a
>>>             formátum: Az
>>>             első [/ -től van a címke vagy az első [ -től? És
>>>             ha az előbbi
>>>             akkor mit kezdjen a PurePOS a fenti "lemmakezdő
>>>             [" -el?
>>>
>>>             Most az egész  [szüntet[/V][Prs.NDef.3Sg]]
>>>             címkének van véve
>>>             és így halál lassú a tanítás(az eddigi 1026 uniq
>>>             cimke
>>>             helyett van 2408 a hülyeségekkel együtt), meg nem
>>>             is biztos,
>>>             hogy ez adja az elvárt eredményt...
>>>
>>>
>>>             Balázs
>>>
>>>
>>>             2016. július 28. 18:37 Indig Balázs írta,
>>>             <indig.balazs at itk.ppke.hu>:
>>>                   Sziasztok!
>>>
>>>                   Az új javított szeged korpuszhoz is
>>>             elérhető a
>>>                   PurePOS model itt:
>>>
>>>             http://pi.itk.ppke.hu/~dlazesz/infra/
>>>
>>>
>>>
>>>             Üdv,
>>>
>>>             Balázs
>>>
>>>             2016. július 28. 15:54 Veronika Vincze írta,
>>>             <vinczev at inf.u-szeged.hu>:
>>>
>>>                   Sziasztok,
>>>
>>>                   Javítottunk pár bugot a konvertálásban,
>>>                   most már elvben jó minden sor formátuma. A
>>>                   Szeged Korpusz teljes anyaga elérhető a
>>>
>>>
>>> http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
>>>
>>>                   címen. Ha bármilyen problémát találtok,
>>>                   jelezzétek, kérlek.
>>>
>>>                   @Attila: néha a képzett szavaknál a szófaj
>>>                   elől lemarad a / jel (pl. Dél-dunántúli
>>>                   Dél-dunántúli[Adj][Nom]), ezt mi elvben
>>>                   javítottuk a konverzió során, de az
>>>                   elemzőben is hasznos lenne átírni.
>>>
>>>                   Üdv:
>>>                   Vera
>>>
>>>                   On 2016.07.28. 13:46, Indig Balázs wrote:
>>>                   Kedves Mindenki!
>>>             PurePOS modellek és a szeged korpusz
>>>             formátumából purepos input formátumba
>>>             konvertáló script:
>>>
>>>             http://pi.itk.ppke.hu/~dlazesz/infra/
>>>
>>>             A szeged korpusz formátuma kicsit fura. Van
>>>             ahol nem csak 5 mező van És csomó helyen
>>>             viszonylag nehéz kinyerni, hogy mit is
>>>             akarhatott a szerző, hogy mi kerüljön a
>>>             PurePOS-ba. A konvertáló script tele van
>>>             ezirányú kommentekkel.
>>>
>>>             Ami a "PurePOS-beli morfológiát" illeti:
>>>
>>>             Így néz ki egy morfológiával szelektíven
>>>             annotált{{annotál[\V]||annotáció[\N]}}
>>>             input  sor .
>>>
>>>             Majd még fog alakulni a dolog. Most a héten
>>>             ez megy.
>>>
>>>
>>>             Üdv,
>>>
>>>             Balázs
>>>
>>>
>>>             2016. július 25. 13:52 Veronika Vincze
>>>             írta, <vinczev at inf.u-szeged.hu>:
>>>                   Kedves Mindenki,
>>>
>>>
>>>                   On 2016.07.25. 12:12, Sass
>>>                   Bálint wrote:
>>>
>>>                         2.
>>>                         Vera, esetleg írj
>>>                         pár szót a fájl
>>>                         oszlopairól,
>>>                         hogy igaziból
>>>                         melyik kell nekünk
>>>                         most.
>>>
>>>                         Megnéztem, sztem ez
>>>                         van:
>>>                         1. oszlop = szóalak
>>>                         5. oszlop = újkódos
>>>                         szótő + szófaj +
>>>                         elemzés
>>>
>>>                         Ugye ez a kettő
>>>                         kell most a
>>>                         tanításhoz,
>>>                         a 2-3-4. oszlop
>>>                         régi, így figyelmen
>>>                         kívül hagyandó?
>>>
>>>                         Szóval az 5.
>>>                         oszlopban lévő
>>>                         szótövet, szófajt
>>>                         és elemzést
>>>                         kellene rendre
>>>                         lemma, pos és
>>>                         feature -ként
>>>                         használni a
>>>                         tanításokhoz, ugye?
>>>                         :)
>>>
>>>                   Így igaz, az 1. és az 5. oszlop
>>>                   a fontos, a többit csak benne
>>>                   hagytuk a kiíratáskor.
>>>                         3.
>>>                         Tekintetbe véve,
>>>                         hogy hét végére
>>>                         mindennek mennie
>>>                         kellene
>>>                         valamilyen formában
>>>                         a honlap mögött,
>>>                         azt kérem, hogy
>>>                         mindenki (az alább
>>>                         említettek)
>>>                         tanítson egy
>>>                         modellt ezen a
>>>                         részkorpuszon, hogy
>>>                         legyen valami,
>>>                         aztán majd később
>>>                         legyenek meg a
>>>                         teljes korpuszon
>>>                         tanított modellek.
>>>
>>>                   Nekiállunk mi is szintaxist
>>>                   tanítani (plusz csináljuk a
>>>                   többi alkorpusz
>>>                   infrásmorfológiára való
>>>                   átalakítását), ez valószínűleg
>>>                   pár napot igénybe vesz nálunk.
>>>
>>>                   Üdv:
>>>                   Vera




More information about the nlp-infra-devel mailing list