[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás

Veronika Vincze vinczev at inf.u-szeged.hu
Sun Jul 31 18:56:39 CEST 2016



On 2016.07.31. 18:31, Sass Bálint wrote:
> Sziasztok!
>
> Köszi, Vera! :)
>
> Mi ez az anna-3.61.jar ? Kell vele tenni valamit?
Ez maga a depparser, amihez tartozik a modell. Nem így integráltátok a 
GATE-be?
>
> A konstituensmodell akkor még készül, ugye? :)
Igen :)

Vera
>
> Kösz, üdv:
> Bálint
>
> Ezt írta ma Vera:
>> Sziasztok,
>>
>> Elkészült a dependenciamodell, itt elérhető:
>>
>> http://www.inf.u-szeged.hu/~vinczev/infra/depmodel
>>
>> Üdv:
>>
>> Vera
>>
>>
>> On 2016.07.29. 14:30, Sass Bálint wrote:
>>> @Balázs: Állítás volt. :)
>>>
>>> De persze frissítsd és szólj is, ha lesz új/jobb verzió.
>>>
>>> Kösz szépen:
>>> Bálint
>>>
>>> Ezt írta ma:
>>>> @Bálint: Ha ez kérdés volt, akkor a válasz: Igen, ez a ma 9:35 körüli
>>>> Szeged korpusz állapotokat tükrözi és majd frissítem, ha lesz "új,
>>>> mindenhol peres" javított korpusz.
>>>>
>>>>
>>>> Balázs
>>>>
>>>> 2016. július 29. 12:06 Sass Bálint írta, <joker at nytud.hu>:
>>>>       Sziasztok!
>>>>
>>>>       Most akkor ez a modell lesz az, amit az infra2 láncba,
>>>>       az e-magyar.hu honlap mögé beteszünk:
>>>>
>>>> http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new
>>>>
>>>>       időbélyege: 2016-07-29 10:10 mérete: 82M
>>>>
>>>>       Kösz szépen mindenkinek a közreműködést ebben.
>>>>
>>>>       A két szintaktikai modellt még nagyon várjuk! :)
>>>>
>>>>       Üdv:
>>>>       Bálint
>>>>
>>>>       Ezt írta ma Balázs:
>>>>             Sziasztok!
>>>>
>>>>             1412 egyedi címke. Jobb a helyzet...
>>>>
>>>>             A PurePOS model frissült.
>>>>             Már tisztul a kép, de még nem értek bizonyos
>>>>             dolgokat (most PurePOS
>>>>             jelölsében #-el elválasztva szóalak szótő címke):
>>>>
>>>>             1) "leg"-et#"#[Punct]  Ez miért Punct ha a
>>>>             mondatvégi pont vessző stb.
>>>>             OTHER?
>>>>             2) Most akkor a címkének nem "[/" -el kelellene
>>>>             kezdődnie? Mert ezek a
>>>>             címkék furák:
>>>>
>>>>              252623 OTHER
>>>>                1305 [Adj][Nom]
>>>>                  26 [N|Acron][Acc]
>>>>                  17 [N|Acron][Pl][Nom]
>>>>                  14 [N|Acron][Transl]
>>>>                  12 [Num][Nom]
>>>>                   6 [Adj][Pl][Nom]
>>>>                   5 [N|Acron][Ins]
>>>>                   5 [N|Abbr][Dat]
>>>>                   4 [N][Nom]
>>>>                   4 [Adj|nat][Nom]
>>>>                   3 [N][Poss.3Sg][Nom]
>>>>                   3 [N|Acron][Pl][Subl]
>>>>                   3 [Adj][All]
>>>>                   2 [V][Inf]
>>>>                   2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
>>>>                   2 [N][Poss.3Sg][Acc]
>>>>                   2 [N|Acron][Pl][All]
>>>>                   2 [N|Acron][Pl][Acc]
>>>>                   2 [N|Acron][Nom]
>>>>                   2 [N|Abbr][Subl]
>>>>                   2 [N|Abbr][All]
>>>>                   2 [N|Abbr][Acc]
>>>>                   1 [V][Pst.Def.3Sg]
>>>>                   1 [V][Pst.Def.1Sg]
>>>>                   1 [V][_Mod][Prs.NDef.3Pl]
>>>>                   1 [V][_Mod][Prs.Def.3Sg][Punct]
>>>>                   1 [Punct]
>>>>                   1 POS
>>>>                   1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
>>>>                   1 [_PerfPtcp_Subj=tA/Adj][Nom]
>>>>                   1 [N][Poss.3Pl][Nom]
>>>>                   1 [N][All]
>>>>                   1 [N|Acron][Subl]
>>>>                   1 [N|Acron][Poss.1Sg][Subl]
>>>>                   1 [N|Acron][Poss.1Pl][All]
>>>>                   1 [N|Acron][Pl][Ter]
>>>>                   1 [N|Acron][Pl][Ins]
>>>>                   1 [N|Acron][Pl][Ine]
>>>>                   1 [N|Acron][Ade]
>>>>                   1 [N|Acron][Acc][Punct]
>>>>                   1 [N][Acc]
>>>>                   1 [N|Abbr][Ela]
>>>>                   1 [Adj][Pl][Ade]
>>>>                   1 [Adj][EssFor%:ként]
>>>>                   1 [Adj]
>>>>
>>>>
>>>>             Balázs
>>>>
>>>>
>>>>             2016. július 29. 9:46 Veronika Vincze írta,
>>>>             <vinczev at inf.u-szeged.hu>:
>>>>
>>>>                   Sziasztok!
>>>>
>>>>                   A második hibát javítottuk a konverterben,
>>>>             frissültek a
>>>>                   fájlok.
>>>>
>>>>                   Az első hiba nagyrészt tulajdonneveket
>>>>             érint, ha jól
>>>>                   gondolom. A Szeged Korpuszban ezek
>>>>             egységesen főnévi címkét
>>>>                   kaptak, még akkor is, ha jelen esetben egy
>>>>             melléknév képezi a
>>>>                   tulajdonnév részét. A konverter úgy
>>>>             működik, hogy az új
>>>>                   harmonizált kódok közül választjuk ki az
>>>>             MSD-kód alapján a
>>>>                   neki leginkább megfelelőt, vagyis itt most
>>>>             a főnévi kódnak
>>>>                   megfelelően főnévi kódot választ, ami
>>>>             persze nem helyes, de
>>>>                   ezt automatikusan nem tudjuk eldönteni.
>>>>             Sajnos arra most
>>>>                   nincs se időnk, se erőforrásunk (Szegeden
>>>>             legalábbis), hogy
>>>>                   ezeket az eseteket kézzel egyértelműsítsük
>>>>             :(
>>>>
>>>>                   Üdv:
>>>>                   Vera
>>>>
>>>>
>>>>                   On 2016.07.29. 8:22, Indig Balázs wrote:
>>>>                   Szasztok!
>>>>             @Vera:
>>>>
>>>>             Megye -> Megy
>>>>
>>>>             Jász-Nagykun-Szolnok Jász-Nagykun-Szolnok N
>>>> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>>             Jász-Nagykun-Szolnok[/N][Nom]
>>>>             Megyei Megyei N
>>>> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>>             Megy[/N][Pl.Poss.3Sg][Nom]
>>>>
>>>>             És ebből van egy csomó...
>>>>
>>>>             Illetve a másik:
>>>>
>>>>             A a T SubPOS=f a[/Det|art.Def]
>>>>             két két M
>>>> SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none
>>>>             két[/Num|Attr][Nom]
>>>>             óra óra N
>>>> SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>>             óra[/N][Nom]
>>>>             közti közti A
>>>> SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>>             közti[/Adj][Nom]
>>>>             szüntet szüntet Z _ [szüntet[/V][Prs.NDef.3Sg]]
>>>>
>>>>             Értem én, de akkor valaki elmondhatná, hogy mi a
>>>>             formátum: Az
>>>>             első [/ -től van a címke vagy az első [ -től? És
>>>>             ha az előbbi
>>>>             akkor mit kezdjen a PurePOS a fenti "lemmakezdő
>>>>             [" -el?
>>>>
>>>>             Most az egész  [szüntet[/V][Prs.NDef.3Sg]]
>>>>             címkének van véve
>>>>             és így halál lassú a tanítás(az eddigi 1026 uniq
>>>>             cimke
>>>>             helyett van 2408 a hülyeségekkel együtt), meg nem
>>>>             is biztos,
>>>>             hogy ez adja az elvárt eredményt...
>>>>
>>>>
>>>>             Balázs
>>>>
>>>>
>>>>             2016. július 28. 18:37 Indig Balázs írta,
>>>>             <indig.balazs at itk.ppke.hu>:
>>>>                   Sziasztok!
>>>>
>>>>                   Az új javított szeged korpuszhoz is
>>>>             elérhető a
>>>>                   PurePOS model itt:
>>>>
>>>>             http://pi.itk.ppke.hu/~dlazesz/infra/
>>>>
>>>>
>>>>
>>>>             Üdv,
>>>>
>>>>             Balázs
>>>>
>>>>             2016. július 28. 15:54 Veronika Vincze írta,
>>>>             <vinczev at inf.u-szeged.hu>:
>>>>
>>>>                   Sziasztok,
>>>>
>>>>                   Javítottunk pár bugot a konvertálásban,
>>>>                   most már elvben jó minden sor formátuma. A
>>>>                   Szeged Korpusz teljes anyaga elérhető a
>>>>
>>>>
>>>> http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
>>>>
>>>>                   címen. Ha bármilyen problémát találtok,
>>>>                   jelezzétek, kérlek.
>>>>
>>>>                   @Attila: néha a képzett szavaknál a szófaj
>>>>                   elől lemarad a / jel (pl. Dél-dunántúli
>>>>                   Dél-dunántúli[Adj][Nom]), ezt mi elvben
>>>>                   javítottuk a konverzió során, de az
>>>>                   elemzőben is hasznos lenne átírni.
>>>>
>>>>                   Üdv:
>>>>                   Vera
>>>>
>>>>                   On 2016.07.28. 13:46, Indig Balázs wrote:
>>>>                   Kedves Mindenki!
>>>>             PurePOS modellek és a szeged korpusz
>>>>             formátumából purepos input formátumba
>>>>             konvertáló script:
>>>>
>>>>             http://pi.itk.ppke.hu/~dlazesz/infra/
>>>>
>>>>             A szeged korpusz formátuma kicsit fura. Van
>>>>             ahol nem csak 5 mező van És csomó helyen
>>>>             viszonylag nehéz kinyerni, hogy mit is
>>>>             akarhatott a szerző, hogy mi kerüljön a
>>>>             PurePOS-ba. A konvertáló script tele van
>>>>             ezirányú kommentekkel.
>>>>
>>>>             Ami a "PurePOS-beli morfológiát" illeti:
>>>>
>>>>             Így néz ki egy morfológiával szelektíven
>>>>             annotált{{annotál[\V]||annotáció[\N]}}
>>>>             input  sor .
>>>>
>>>>             Majd még fog alakulni a dolog. Most a héten
>>>>             ez megy.
>>>>
>>>>
>>>>             Üdv,
>>>>
>>>>             Balázs
>>>>
>>>>
>>>>             2016. július 25. 13:52 Veronika Vincze
>>>>             írta, <vinczev at inf.u-szeged.hu>:
>>>>                   Kedves Mindenki,
>>>>
>>>>
>>>>                   On 2016.07.25. 12:12, Sass
>>>>                   Bálint wrote:
>>>>
>>>>                         2.
>>>>                         Vera, esetleg írj
>>>>                         pár szót a fájl
>>>>                         oszlopairól,
>>>>                         hogy igaziból
>>>>                         melyik kell nekünk
>>>>                         most.
>>>>
>>>>                         Megnéztem, sztem ez
>>>>                         van:
>>>>                         1. oszlop = szóalak
>>>>                         5. oszlop = újkódos
>>>>                         szótő + szófaj +
>>>>                         elemzés
>>>>
>>>>                         Ugye ez a kettő
>>>>                         kell most a
>>>>                         tanításhoz,
>>>>                         a 2-3-4. oszlop
>>>>                         régi, így figyelmen
>>>>                         kívül hagyandó?
>>>>
>>>>                         Szóval az 5.
>>>>                         oszlopban lévő
>>>>                         szótövet, szófajt
>>>>                         és elemzést
>>>>                         kellene rendre
>>>>                         lemma, pos és
>>>>                         feature -ként
>>>>                         használni a
>>>>                         tanításokhoz, ugye?
>>>>                         :)
>>>>
>>>>                   Így igaz, az 1. és az 5. oszlop
>>>>                   a fontos, a többit csak benne
>>>>                   hagytuk a kiíratáskor.
>>>>                         3.
>>>>                         Tekintetbe véve,
>>>>                         hogy hét végére
>>>>                         mindennek mennie
>>>>                         kellene
>>>>                         valamilyen formában
>>>>                         a honlap mögött,
>>>>                         azt kérem, hogy
>>>>                         mindenki (az alább
>>>>                         említettek)
>>>>                         tanítson egy
>>>>                         modellt ezen a
>>>>                         részkorpuszon, hogy
>>>>                         legyen valami,
>>>>                         aztán majd később
>>>>                         legyenek meg a
>>>>                         teljes korpuszon
>>>>                         tanított modellek.
>>>>
>>>>                   Nekiállunk mi is szintaxist
>>>>                   tanítani (plusz csináljuk a
>>>>                   többi alkorpusz
>>>>                   infrásmorfológiára való
>>>>                   átalakítását), ez valószínűleg
>>>>                   pár napot igénybe vesz nálunk.
>>>>
>>>>                   Üdv:
>>>>                   Vera
>
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel




More information about the nlp-infra-devel mailing list