[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás
Sass Bálint
joker at nytud.hu
Sun Jul 31 18:31:11 CEST 2016
Sziasztok!
Köszi, Vera! :)
Mi ez az anna-3.61.jar ? Kell vele tenni valamit?
A konstituensmodell akkor még készül, ugye? :)
Kösz, üdv:
Bálint
Ezt írta ma Vera:
> Sziasztok,
>
> Elkészült a dependenciamodell, itt elérhető:
>
> http://www.inf.u-szeged.hu/~vinczev/infra/depmodel
>
> Üdv:
>
> Vera
>
>
> On 2016.07.29. 14:30, Sass Bálint wrote:
>> @Balázs: Állítás volt. :)
>>
>> De persze frissítsd és szólj is, ha lesz új/jobb verzió.
>>
>> Kösz szépen:
>> Bálint
>>
>> Ezt írta ma:
>>> @Bálint: Ha ez kérdés volt, akkor a válasz: Igen, ez a ma 9:35 körüli
>>> Szeged korpusz állapotokat tükrözi és majd frissítem, ha lesz "új,
>>> mindenhol peres" javított korpusz.
>>>
>>>
>>> Balázs
>>>
>>> 2016. július 29. 12:06 Sass Bálint írta, <joker at nytud.hu>:
>>> Sziasztok!
>>>
>>> Most akkor ez a modell lesz az, amit az infra2 láncba,
>>> az e-magyar.hu honlap mögé beteszünk:
>>>
>>> http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new
>>>
>>> időbélyege: 2016-07-29 10:10 mérete: 82M
>>>
>>> Kösz szépen mindenkinek a közreműködést ebben.
>>>
>>> A két szintaktikai modellt még nagyon várjuk! :)
>>>
>>> Üdv:
>>> Bálint
>>>
>>> Ezt írta ma Balázs:
>>> Sziasztok!
>>>
>>> 1412 egyedi címke. Jobb a helyzet...
>>>
>>> A PurePOS model frissült.
>>> Már tisztul a kép, de még nem értek bizonyos
>>> dolgokat (most PurePOS
>>> jelölsében #-el elválasztva szóalak szótő címke):
>>>
>>> 1) "leg"-et#"#[Punct] Ez miért Punct ha a
>>> mondatvégi pont vessző stb.
>>> OTHER?
>>> 2) Most akkor a címkének nem "[/" -el kelellene
>>> kezdődnie? Mert ezek a
>>> címkék furák:
>>>
>>> 252623 OTHER
>>> 1305 [Adj][Nom]
>>> 26 [N|Acron][Acc]
>>> 17 [N|Acron][Pl][Nom]
>>> 14 [N|Acron][Transl]
>>> 12 [Num][Nom]
>>> 6 [Adj][Pl][Nom]
>>> 5 [N|Acron][Ins]
>>> 5 [N|Abbr][Dat]
>>> 4 [N][Nom]
>>> 4 [Adj|nat][Nom]
>>> 3 [N][Poss.3Sg][Nom]
>>> 3 [N|Acron][Pl][Subl]
>>> 3 [Adj][All]
>>> 2 [V][Inf]
>>> 2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
>>> 2 [N][Poss.3Sg][Acc]
>>> 2 [N|Acron][Pl][All]
>>> 2 [N|Acron][Pl][Acc]
>>> 2 [N|Acron][Nom]
>>> 2 [N|Abbr][Subl]
>>> 2 [N|Abbr][All]
>>> 2 [N|Abbr][Acc]
>>> 1 [V][Pst.Def.3Sg]
>>> 1 [V][Pst.Def.1Sg]
>>> 1 [V][_Mod][Prs.NDef.3Pl]
>>> 1 [V][_Mod][Prs.Def.3Sg][Punct]
>>> 1 [Punct]
>>> 1 POS
>>> 1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
>>> 1 [_PerfPtcp_Subj=tA/Adj][Nom]
>>> 1 [N][Poss.3Pl][Nom]
>>> 1 [N][All]
>>> 1 [N|Acron][Subl]
>>> 1 [N|Acron][Poss.1Sg][Subl]
>>> 1 [N|Acron][Poss.1Pl][All]
>>> 1 [N|Acron][Pl][Ter]
>>> 1 [N|Acron][Pl][Ins]
>>> 1 [N|Acron][Pl][Ine]
>>> 1 [N|Acron][Ade]
>>> 1 [N|Acron][Acc][Punct]
>>> 1 [N][Acc]
>>> 1 [N|Abbr][Ela]
>>> 1 [Adj][Pl][Ade]
>>> 1 [Adj][EssFor%:ként]
>>> 1 [Adj]
>>>
>>>
>>> Balázs
>>>
>>>
>>> 2016. július 29. 9:46 Veronika Vincze írta,
>>> <vinczev at inf.u-szeged.hu>:
>>>
>>> Sziasztok!
>>>
>>> A második hibát javítottuk a konverterben,
>>> frissültek a
>>> fájlok.
>>>
>>> Az első hiba nagyrészt tulajdonneveket
>>> érint, ha jól
>>> gondolom. A Szeged Korpuszban ezek
>>> egységesen főnévi címkét
>>> kaptak, még akkor is, ha jelen esetben egy
>>> melléknév képezi a
>>> tulajdonnév részét. A konverter úgy
>>> működik, hogy az új
>>> harmonizált kódok közül választjuk ki az
>>> MSD-kód alapján a
>>> neki leginkább megfelelőt, vagyis itt most
>>> a főnévi kódnak
>>> megfelelően főnévi kódot választ, ami
>>> persze nem helyes, de
>>> ezt automatikusan nem tudjuk eldönteni.
>>> Sajnos arra most
>>> nincs se időnk, se erőforrásunk (Szegeden
>>> legalábbis), hogy
>>> ezeket az eseteket kézzel egyértelműsítsük
>>> :(
>>>
>>> Üdv:
>>> Vera
>>>
>>>
>>> On 2016.07.29. 8:22, Indig Balázs wrote:
>>> Szasztok!
>>> @Vera:
>>>
>>> Megye -> Megy
>>>
>>> Jász-Nagykun-Szolnok Jász-Nagykun-Szolnok N
>>> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>> Jász-Nagykun-Szolnok[/N][Nom]
>>> Megyei Megyei N
>>> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>> Megy[/N][Pl.Poss.3Sg][Nom]
>>>
>>> És ebből van egy csomó...
>>>
>>> Illetve a másik:
>>>
>>> A a T SubPOS=f a[/Det|art.Def]
>>> két két M
>>> SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none
>>> két[/Num|Attr][Nom]
>>> óra óra N
>>> SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>> óra[/N][Nom]
>>> közti közti A
>>> SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>> közti[/Adj][Nom]
>>> szüntet szüntet Z _ [szüntet[/V][Prs.NDef.3Sg]]
>>>
>>> Értem én, de akkor valaki elmondhatná, hogy mi a
>>> formátum: Az
>>> első [/ -től van a címke vagy az első [ -től? És
>>> ha az előbbi
>>> akkor mit kezdjen a PurePOS a fenti "lemmakezdő
>>> [" -el?
>>>
>>> Most az egész [szüntet[/V][Prs.NDef.3Sg]]
>>> címkének van véve
>>> és így halál lassú a tanítás(az eddigi 1026 uniq
>>> cimke
>>> helyett van 2408 a hülyeségekkel együtt), meg nem
>>> is biztos,
>>> hogy ez adja az elvárt eredményt...
>>>
>>>
>>> Balázs
>>>
>>>
>>> 2016. július 28. 18:37 Indig Balázs írta,
>>> <indig.balazs at itk.ppke.hu>:
>>> Sziasztok!
>>>
>>> Az új javított szeged korpuszhoz is
>>> elérhető a
>>> PurePOS model itt:
>>>
>>> http://pi.itk.ppke.hu/~dlazesz/infra/
>>>
>>>
>>>
>>> Üdv,
>>>
>>> Balázs
>>>
>>> 2016. július 28. 15:54 Veronika Vincze írta,
>>> <vinczev at inf.u-szeged.hu>:
>>>
>>> Sziasztok,
>>>
>>> Javítottunk pár bugot a konvertálásban,
>>> most már elvben jó minden sor formátuma. A
>>> Szeged Korpusz teljes anyaga elérhető a
>>>
>>>
>>> http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
>>>
>>> címen. Ha bármilyen problémát találtok,
>>> jelezzétek, kérlek.
>>>
>>> @Attila: néha a képzett szavaknál a szófaj
>>> elől lemarad a / jel (pl. Dél-dunántúli
>>> Dél-dunántúli[Adj][Nom]), ezt mi elvben
>>> javítottuk a konverzió során, de az
>>> elemzőben is hasznos lenne átírni.
>>>
>>> Üdv:
>>> Vera
>>>
>>> On 2016.07.28. 13:46, Indig Balázs wrote:
>>> Kedves Mindenki!
>>> PurePOS modellek és a szeged korpusz
>>> formátumából purepos input formátumba
>>> konvertáló script:
>>>
>>> http://pi.itk.ppke.hu/~dlazesz/infra/
>>>
>>> A szeged korpusz formátuma kicsit fura. Van
>>> ahol nem csak 5 mező van És csomó helyen
>>> viszonylag nehéz kinyerni, hogy mit is
>>> akarhatott a szerző, hogy mi kerüljön a
>>> PurePOS-ba. A konvertáló script tele van
>>> ezirányú kommentekkel.
>>>
>>> Ami a "PurePOS-beli morfológiát" illeti:
>>>
>>> Így néz ki egy morfológiával szelektíven
>>> annotált{{annotál[\V]||annotáció[\N]}}
>>> input sor .
>>>
>>> Majd még fog alakulni a dolog. Most a héten
>>> ez megy.
>>>
>>>
>>> Üdv,
>>>
>>> Balázs
>>>
>>>
>>> 2016. július 25. 13:52 Veronika Vincze
>>> írta, <vinczev at inf.u-szeged.hu>:
>>> Kedves Mindenki,
>>>
>>>
>>> On 2016.07.25. 12:12, Sass
>>> Bálint wrote:
>>>
>>> 2.
>>> Vera, esetleg írj
>>> pár szót a fájl
>>> oszlopairól,
>>> hogy igaziból
>>> melyik kell nekünk
>>> most.
>>>
>>> Megnéztem, sztem ez
>>> van:
>>> 1. oszlop = szóalak
>>> 5. oszlop = újkódos
>>> szótő + szófaj +
>>> elemzés
>>>
>>> Ugye ez a kettő
>>> kell most a
>>> tanításhoz,
>>> a 2-3-4. oszlop
>>> régi, így figyelmen
>>> kívül hagyandó?
>>>
>>> Szóval az 5.
>>> oszlopban lévő
>>> szótövet, szófajt
>>> és elemzést
>>> kellene rendre
>>> lemma, pos és
>>> feature -ként
>>> használni a
>>> tanításokhoz, ugye?
>>> :)
>>>
>>> Így igaz, az 1. és az 5. oszlop
>>> a fontos, a többit csak benne
>>> hagytuk a kiíratáskor.
>>> 3.
>>> Tekintetbe véve,
>>> hogy hét végére
>>> mindennek mennie
>>> kellene
>>> valamilyen formában
>>> a honlap mögött,
>>> azt kérem, hogy
>>> mindenki (az alább
>>> említettek)
>>> tanítson egy
>>> modellt ezen a
>>> részkorpuszon, hogy
>>> legyen valami,
>>> aztán majd később
>>> legyenek meg a
>>> teljes korpuszon
>>> tanított modellek.
>>>
>>> Nekiállunk mi is szintaxist
>>> tanítani (plusz csináljuk a
>>> többi alkorpusz
>>> infrásmorfológiára való
>>> átalakítását), ez valószínűleg
>>> pár napot igénybe vesz nálunk.
>>>
>>> Üdv:
>>> Vera
More information about the nlp-infra-devel
mailing list