[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás
Veronika Vincze
vinczev at inf.u-szeged.hu
Sun Jul 31 18:56:39 CEST 2016
On 2016.07.31. 18:31, Sass Bálint wrote:
> Sziasztok!
>
> Köszi, Vera! :)
>
> Mi ez az anna-3.61.jar ? Kell vele tenni valamit?
Ez maga a depparser, amihez tartozik a modell. Nem így integráltátok a
GATE-be?
>
> A konstituensmodell akkor még készül, ugye? :)
Igen :)
Vera
>
> Kösz, üdv:
> Bálint
>
> Ezt írta ma Vera:
>> Sziasztok,
>>
>> Elkészült a dependenciamodell, itt elérhető:
>>
>> http://www.inf.u-szeged.hu/~vinczev/infra/depmodel
>>
>> Üdv:
>>
>> Vera
>>
>>
>> On 2016.07.29. 14:30, Sass Bálint wrote:
>>> @Balázs: Állítás volt. :)
>>>
>>> De persze frissítsd és szólj is, ha lesz új/jobb verzió.
>>>
>>> Kösz szépen:
>>> Bálint
>>>
>>> Ezt írta ma:
>>>> @Bálint: Ha ez kérdés volt, akkor a válasz: Igen, ez a ma 9:35 körüli
>>>> Szeged korpusz állapotokat tükrözi és majd frissítem, ha lesz "új,
>>>> mindenhol peres" javított korpusz.
>>>>
>>>>
>>>> Balázs
>>>>
>>>> 2016. július 29. 12:06 Sass Bálint írta, <joker at nytud.hu>:
>>>> Sziasztok!
>>>>
>>>> Most akkor ez a modell lesz az, amit az infra2 láncba,
>>>> az e-magyar.hu honlap mögé beteszünk:
>>>>
>>>> http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new
>>>>
>>>> időbélyege: 2016-07-29 10:10 mérete: 82M
>>>>
>>>> Kösz szépen mindenkinek a közreműködést ebben.
>>>>
>>>> A két szintaktikai modellt még nagyon várjuk! :)
>>>>
>>>> Üdv:
>>>> Bálint
>>>>
>>>> Ezt írta ma Balázs:
>>>> Sziasztok!
>>>>
>>>> 1412 egyedi címke. Jobb a helyzet...
>>>>
>>>> A PurePOS model frissült.
>>>> Már tisztul a kép, de még nem értek bizonyos
>>>> dolgokat (most PurePOS
>>>> jelölsében #-el elválasztva szóalak szótő címke):
>>>>
>>>> 1) "leg"-et#"#[Punct] Ez miért Punct ha a
>>>> mondatvégi pont vessző stb.
>>>> OTHER?
>>>> 2) Most akkor a címkének nem "[/" -el kelellene
>>>> kezdődnie? Mert ezek a
>>>> címkék furák:
>>>>
>>>> 252623 OTHER
>>>> 1305 [Adj][Nom]
>>>> 26 [N|Acron][Acc]
>>>> 17 [N|Acron][Pl][Nom]
>>>> 14 [N|Acron][Transl]
>>>> 12 [Num][Nom]
>>>> 6 [Adj][Pl][Nom]
>>>> 5 [N|Acron][Ins]
>>>> 5 [N|Abbr][Dat]
>>>> 4 [N][Nom]
>>>> 4 [Adj|nat][Nom]
>>>> 3 [N][Poss.3Sg][Nom]
>>>> 3 [N|Acron][Pl][Subl]
>>>> 3 [Adj][All]
>>>> 2 [V][Inf]
>>>> 2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
>>>> 2 [N][Poss.3Sg][Acc]
>>>> 2 [N|Acron][Pl][All]
>>>> 2 [N|Acron][Pl][Acc]
>>>> 2 [N|Acron][Nom]
>>>> 2 [N|Abbr][Subl]
>>>> 2 [N|Abbr][All]
>>>> 2 [N|Abbr][Acc]
>>>> 1 [V][Pst.Def.3Sg]
>>>> 1 [V][Pst.Def.1Sg]
>>>> 1 [V][_Mod][Prs.NDef.3Pl]
>>>> 1 [V][_Mod][Prs.Def.3Sg][Punct]
>>>> 1 [Punct]
>>>> 1 POS
>>>> 1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
>>>> 1 [_PerfPtcp_Subj=tA/Adj][Nom]
>>>> 1 [N][Poss.3Pl][Nom]
>>>> 1 [N][All]
>>>> 1 [N|Acron][Subl]
>>>> 1 [N|Acron][Poss.1Sg][Subl]
>>>> 1 [N|Acron][Poss.1Pl][All]
>>>> 1 [N|Acron][Pl][Ter]
>>>> 1 [N|Acron][Pl][Ins]
>>>> 1 [N|Acron][Pl][Ine]
>>>> 1 [N|Acron][Ade]
>>>> 1 [N|Acron][Acc][Punct]
>>>> 1 [N][Acc]
>>>> 1 [N|Abbr][Ela]
>>>> 1 [Adj][Pl][Ade]
>>>> 1 [Adj][EssFor%:ként]
>>>> 1 [Adj]
>>>>
>>>>
>>>> Balázs
>>>>
>>>>
>>>> 2016. július 29. 9:46 Veronika Vincze írta,
>>>> <vinczev at inf.u-szeged.hu>:
>>>>
>>>> Sziasztok!
>>>>
>>>> A második hibát javítottuk a konverterben,
>>>> frissültek a
>>>> fájlok.
>>>>
>>>> Az első hiba nagyrészt tulajdonneveket
>>>> érint, ha jól
>>>> gondolom. A Szeged Korpuszban ezek
>>>> egységesen főnévi címkét
>>>> kaptak, még akkor is, ha jelen esetben egy
>>>> melléknév képezi a
>>>> tulajdonnév részét. A konverter úgy
>>>> működik, hogy az új
>>>> harmonizált kódok közül választjuk ki az
>>>> MSD-kód alapján a
>>>> neki leginkább megfelelőt, vagyis itt most
>>>> a főnévi kódnak
>>>> megfelelően főnévi kódot választ, ami
>>>> persze nem helyes, de
>>>> ezt automatikusan nem tudjuk eldönteni.
>>>> Sajnos arra most
>>>> nincs se időnk, se erőforrásunk (Szegeden
>>>> legalábbis), hogy
>>>> ezeket az eseteket kézzel egyértelműsítsük
>>>> :(
>>>>
>>>> Üdv:
>>>> Vera
>>>>
>>>>
>>>> On 2016.07.29. 8:22, Indig Balázs wrote:
>>>> Szasztok!
>>>> @Vera:
>>>>
>>>> Megye -> Megy
>>>>
>>>> Jász-Nagykun-Szolnok Jász-Nagykun-Szolnok N
>>>> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>> Jász-Nagykun-Szolnok[/N][Nom]
>>>> Megyei Megyei N
>>>> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>> Megy[/N][Pl.Poss.3Sg][Nom]
>>>>
>>>> És ebből van egy csomó...
>>>>
>>>> Illetve a másik:
>>>>
>>>> A a T SubPOS=f a[/Det|art.Def]
>>>> két két M
>>>> SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none
>>>> két[/Num|Attr][Nom]
>>>> óra óra N
>>>> SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>> óra[/N][Nom]
>>>> közti közti A
>>>> SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>> közti[/Adj][Nom]
>>>> szüntet szüntet Z _ [szüntet[/V][Prs.NDef.3Sg]]
>>>>
>>>> Értem én, de akkor valaki elmondhatná, hogy mi a
>>>> formátum: Az
>>>> első [/ -től van a címke vagy az első [ -től? És
>>>> ha az előbbi
>>>> akkor mit kezdjen a PurePOS a fenti "lemmakezdő
>>>> [" -el?
>>>>
>>>> Most az egész [szüntet[/V][Prs.NDef.3Sg]]
>>>> címkének van véve
>>>> és így halál lassú a tanítás(az eddigi 1026 uniq
>>>> cimke
>>>> helyett van 2408 a hülyeségekkel együtt), meg nem
>>>> is biztos,
>>>> hogy ez adja az elvárt eredményt...
>>>>
>>>>
>>>> Balázs
>>>>
>>>>
>>>> 2016. július 28. 18:37 Indig Balázs írta,
>>>> <indig.balazs at itk.ppke.hu>:
>>>> Sziasztok!
>>>>
>>>> Az új javított szeged korpuszhoz is
>>>> elérhető a
>>>> PurePOS model itt:
>>>>
>>>> http://pi.itk.ppke.hu/~dlazesz/infra/
>>>>
>>>>
>>>>
>>>> Üdv,
>>>>
>>>> Balázs
>>>>
>>>> 2016. július 28. 15:54 Veronika Vincze írta,
>>>> <vinczev at inf.u-szeged.hu>:
>>>>
>>>> Sziasztok,
>>>>
>>>> Javítottunk pár bugot a konvertálásban,
>>>> most már elvben jó minden sor formátuma. A
>>>> Szeged Korpusz teljes anyaga elérhető a
>>>>
>>>>
>>>> http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
>>>>
>>>> címen. Ha bármilyen problémát találtok,
>>>> jelezzétek, kérlek.
>>>>
>>>> @Attila: néha a képzett szavaknál a szófaj
>>>> elől lemarad a / jel (pl. Dél-dunántúli
>>>> Dél-dunántúli[Adj][Nom]), ezt mi elvben
>>>> javítottuk a konverzió során, de az
>>>> elemzőben is hasznos lenne átírni.
>>>>
>>>> Üdv:
>>>> Vera
>>>>
>>>> On 2016.07.28. 13:46, Indig Balázs wrote:
>>>> Kedves Mindenki!
>>>> PurePOS modellek és a szeged korpusz
>>>> formátumából purepos input formátumba
>>>> konvertáló script:
>>>>
>>>> http://pi.itk.ppke.hu/~dlazesz/infra/
>>>>
>>>> A szeged korpusz formátuma kicsit fura. Van
>>>> ahol nem csak 5 mező van És csomó helyen
>>>> viszonylag nehéz kinyerni, hogy mit is
>>>> akarhatott a szerző, hogy mi kerüljön a
>>>> PurePOS-ba. A konvertáló script tele van
>>>> ezirányú kommentekkel.
>>>>
>>>> Ami a "PurePOS-beli morfológiát" illeti:
>>>>
>>>> Így néz ki egy morfológiával szelektíven
>>>> annotált{{annotál[\V]||annotáció[\N]}}
>>>> input sor .
>>>>
>>>> Majd még fog alakulni a dolog. Most a héten
>>>> ez megy.
>>>>
>>>>
>>>> Üdv,
>>>>
>>>> Balázs
>>>>
>>>>
>>>> 2016. július 25. 13:52 Veronika Vincze
>>>> írta, <vinczev at inf.u-szeged.hu>:
>>>> Kedves Mindenki,
>>>>
>>>>
>>>> On 2016.07.25. 12:12, Sass
>>>> Bálint wrote:
>>>>
>>>> 2.
>>>> Vera, esetleg írj
>>>> pár szót a fájl
>>>> oszlopairól,
>>>> hogy igaziból
>>>> melyik kell nekünk
>>>> most.
>>>>
>>>> Megnéztem, sztem ez
>>>> van:
>>>> 1. oszlop = szóalak
>>>> 5. oszlop = újkódos
>>>> szótő + szófaj +
>>>> elemzés
>>>>
>>>> Ugye ez a kettő
>>>> kell most a
>>>> tanításhoz,
>>>> a 2-3-4. oszlop
>>>> régi, így figyelmen
>>>> kívül hagyandó?
>>>>
>>>> Szóval az 5.
>>>> oszlopban lévő
>>>> szótövet, szófajt
>>>> és elemzést
>>>> kellene rendre
>>>> lemma, pos és
>>>> feature -ként
>>>> használni a
>>>> tanításokhoz, ugye?
>>>> :)
>>>>
>>>> Így igaz, az 1. és az 5. oszlop
>>>> a fontos, a többit csak benne
>>>> hagytuk a kiíratáskor.
>>>> 3.
>>>> Tekintetbe véve,
>>>> hogy hét végére
>>>> mindennek mennie
>>>> kellene
>>>> valamilyen formában
>>>> a honlap mögött,
>>>> azt kérem, hogy
>>>> mindenki (az alább
>>>> említettek)
>>>> tanítson egy
>>>> modellt ezen a
>>>> részkorpuszon, hogy
>>>> legyen valami,
>>>> aztán majd később
>>>> legyenek meg a
>>>> teljes korpuszon
>>>> tanított modellek.
>>>>
>>>> Nekiállunk mi is szintaxist
>>>> tanítani (plusz csináljuk a
>>>> többi alkorpusz
>>>> infrásmorfológiára való
>>>> átalakítását), ez valószínűleg
>>>> pár napot igénybe vesz nálunk.
>>>>
>>>> Üdv:
>>>> Vera
>
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
More information about the nlp-infra-devel
mailing list