[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás
Sass Bálint
joker at nytud.hu
Mon Aug 1 15:08:26 CEST 2016
Sziasztok, főként a szegediek!
A magyarlanc-3.0 -ban lévő depparser van integrálva a GATE-be.
Egy ponton van egy
String[][] pars =
MyMateParser.getInstance().parseSentence(form,lemma,pos,feat);
hívás, ez csinálja a dep elemzést.
Van egy szk.mate.model nevű fájl, ami a dep elemző (régi) modellje.
Ennek a helyére tettem be egy az egyben az új modellfájlt.
(Remélve, hogy ez így simán megy!)
Fut is a dolog, csak az hiányzik, hogy pontosan milyen inputot
vár a fenti hívás a form, lemma, pos és feat pontokon.
Az első kettő trivi (mondjátok, ha nem!).
A kérdés, hogy mi a 'pos' és mi a 'feat' az újkódos rendszerben?
Így néznek ki a POS taggerből kijövő újkódos elemzések:
[/Det|art.Def]
[/N][Ine]
[/Adv]
[/V][Prs.NDef.3Sg]
[/Prev]
Próbáltam többféleképpen, a legbíztatóbb eredményre azzal jutottam,
hogy a pos az első []-ben lévő dolog az kezdő "/" nélkül,
a feat meg a második []-ben lévő dolog, azaz:
pos="Det|art.Def" feat=""
pos="N" feat="Ine"
pos="Adv" feat=""
pos="V" feat="Prs.NDef.3Sg"
pos="Prev" feat=""
De egyáltalán nem vagyok biztos benne, hogy így gondoltátok.
Szóval milyen input szükséges itt pontosan?
Ezt lenne most fontos tudnom. :)
Ha feltesztek a modell mellé egy tanítókorpusz-részletet, az is segíthet.
Kösz szépen:
Bálint
Ezt írta Vera, 2016-07-31:
> On 2016.07.31. 18:31, Sass Bálint wrote:
>> Sziasztok!
>>
>> Köszi, Vera! :)
>>
>> Mi ez az anna-3.61.jar ? Kell vele tenni valamit?
> Ez maga a depparser, amihez tartozik a modell. Nem így integráltátok a
> GATE-be?
>>
>> A konstituensmodell akkor még készül, ugye? :)
> Igen :)
>
> Vera
>>
>> Kösz, üdv:
>> Bálint
>>
>> Ezt írta ma Vera:
>>> Sziasztok,
>>>
>>> Elkészült a dependenciamodell, itt elérhető:
>>>
>>> http://www.inf.u-szeged.hu/~vinczev/infra/depmodel
>>>
>>> Üdv:
>>>
>>> Vera
>>>
>>>
>>> On 2016.07.29. 14:30, Sass Bálint wrote:
>>>> @Balázs: Állítás volt. :)
>>>>
>>>> De persze frissítsd és szólj is, ha lesz új/jobb verzió.
>>>>
>>>> Kösz szépen:
>>>> Bálint
>>>>
>>>> Ezt írta ma:
>>>>> @Bálint: Ha ez kérdés volt, akkor a válasz: Igen, ez a ma 9:35 körüli
>>>>> Szeged korpusz állapotokat tükrözi és majd frissítem, ha lesz "új,
>>>>> mindenhol peres" javított korpusz.
>>>>>
>>>>>
>>>>> Balázs
>>>>>
>>>>> 2016. július 29. 12:06 Sass Bálint írta, <joker at nytud.hu>:
>>>>> Sziasztok!
>>>>>
>>>>> Most akkor ez a modell lesz az, amit az infra2 láncba,
>>>>> az e-magyar.hu honlap mögé beteszünk:
>>>>>
>>>>> http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new
>>>>>
>>>>> időbélyege: 2016-07-29 10:10 mérete: 82M
>>>>>
>>>>> Kösz szépen mindenkinek a közreműködést ebben.
>>>>>
>>>>> A két szintaktikai modellt még nagyon várjuk! :)
>>>>>
>>>>> Üdv:
>>>>> Bálint
>>>>>
>>>>> Ezt írta ma Balázs:
>>>>> Sziasztok!
>>>>>
>>>>> 1412 egyedi címke. Jobb a helyzet...
>>>>>
>>>>> A PurePOS model frissült.
>>>>> Már tisztul a kép, de még nem értek bizonyos
>>>>> dolgokat (most PurePOS
>>>>> jelölsében #-el elválasztva szóalak szótő címke):
>>>>>
>>>>> 1) "leg"-et#"#[Punct] Ez miért Punct ha a
>>>>> mondatvégi pont vessző stb.
>>>>> OTHER?
>>>>> 2) Most akkor a címkének nem "[/" -el kelellene
>>>>> kezdődnie? Mert ezek a
>>>>> címkék furák:
>>>>>
>>>>> 252623 OTHER
>>>>> 1305 [Adj][Nom]
>>>>> 26 [N|Acron][Acc]
>>>>> 17 [N|Acron][Pl][Nom]
>>>>> 14 [N|Acron][Transl]
>>>>> 12 [Num][Nom]
>>>>> 6 [Adj][Pl][Nom]
>>>>> 5 [N|Acron][Ins]
>>>>> 5 [N|Abbr][Dat]
>>>>> 4 [N][Nom]
>>>>> 4 [Adj|nat][Nom]
>>>>> 3 [N][Poss.3Sg][Nom]
>>>>> 3 [N|Acron][Pl][Subl]
>>>>> 3 [Adj][All]
>>>>> 2 [V][Inf]
>>>>> 2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
>>>>> 2 [N][Poss.3Sg][Acc]
>>>>> 2 [N|Acron][Pl][All]
>>>>> 2 [N|Acron][Pl][Acc]
>>>>> 2 [N|Acron][Nom]
>>>>> 2 [N|Abbr][Subl]
>>>>> 2 [N|Abbr][All]
>>>>> 2 [N|Abbr][Acc]
>>>>> 1 [V][Pst.Def.3Sg]
>>>>> 1 [V][Pst.Def.1Sg]
>>>>> 1 [V][_Mod][Prs.NDef.3Pl]
>>>>> 1 [V][_Mod][Prs.Def.3Sg][Punct]
>>>>> 1 [Punct]
>>>>> 1 POS
>>>>> 1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
>>>>> 1 [_PerfPtcp_Subj=tA/Adj][Nom]
>>>>> 1 [N][Poss.3Pl][Nom]
>>>>> 1 [N][All]
>>>>> 1 [N|Acron][Subl]
>>>>> 1 [N|Acron][Poss.1Sg][Subl]
>>>>> 1 [N|Acron][Poss.1Pl][All]
>>>>> 1 [N|Acron][Pl][Ter]
>>>>> 1 [N|Acron][Pl][Ins]
>>>>> 1 [N|Acron][Pl][Ine]
>>>>> 1 [N|Acron][Ade]
>>>>> 1 [N|Acron][Acc][Punct]
>>>>> 1 [N][Acc]
>>>>> 1 [N|Abbr][Ela]
>>>>> 1 [Adj][Pl][Ade]
>>>>> 1 [Adj][EssFor%:ként]
>>>>> 1 [Adj]
>>>>>
>>>>>
>>>>> Balázs
>>>>>
>>>>>
>>>>> 2016. július 29. 9:46 Veronika Vincze írta,
>>>>> <vinczev at inf.u-szeged.hu>:
>>>>>
>>>>> Sziasztok!
>>>>>
>>>>> A második hibát javítottuk a konverterben,
>>>>> frissültek a
>>>>> fájlok.
>>>>>
>>>>> Az első hiba nagyrészt tulajdonneveket
>>>>> érint, ha jól
>>>>> gondolom. A Szeged Korpuszban ezek
>>>>> egységesen főnévi címkét
>>>>> kaptak, még akkor is, ha jelen esetben egy
>>>>> melléknév képezi a
>>>>> tulajdonnév részét. A konverter úgy
>>>>> működik, hogy az új
>>>>> harmonizált kódok közül választjuk ki az
>>>>> MSD-kód alapján a
>>>>> neki leginkább megfelelőt, vagyis itt most
>>>>> a főnévi kódnak
>>>>> megfelelően főnévi kódot választ, ami
>>>>> persze nem helyes, de
>>>>> ezt automatikusan nem tudjuk eldönteni.
>>>>> Sajnos arra most
>>>>> nincs se időnk, se erőforrásunk (Szegeden
>>>>> legalábbis), hogy
>>>>> ezeket az eseteket kézzel egyértelműsítsük
>>>>> :(
>>>>>
>>>>> Üdv:
>>>>> Vera
>>>>>
>>>>>
>>>>> On 2016.07.29. 8:22, Indig Balázs wrote:
>>>>> Szasztok!
>>>>> @Vera:
>>>>>
>>>>> Megye -> Megy
>>>>>
>>>>> Jász-Nagykun-Szolnok Jász-Nagykun-Szolnok N
>>>>> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>>> Jász-Nagykun-Szolnok[/N][Nom]
>>>>> Megyei Megyei N
>>>>> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>>> Megy[/N][Pl.Poss.3Sg][Nom]
>>>>>
>>>>> És ebből van egy csomó...
>>>>>
>>>>> Illetve a másik:
>>>>>
>>>>> A a T SubPOS=f a[/Det|art.Def]
>>>>> két két M
>>>>> SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none
>>>>> két[/Num|Attr][Nom]
>>>>> óra óra N
>>>>> SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>>> óra[/N][Nom]
>>>>> közti közti A
>>>>> SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>>> közti[/Adj][Nom]
>>>>> szüntet szüntet Z _ [szüntet[/V][Prs.NDef.3Sg]]
>>>>>
>>>>> Értem én, de akkor valaki elmondhatná, hogy mi a
>>>>> formátum: Az
>>>>> első [/ -től van a címke vagy az első [ -től? És
>>>>> ha az előbbi
>>>>> akkor mit kezdjen a PurePOS a fenti "lemmakezdő
>>>>> [" -el?
>>>>>
>>>>> Most az egész [szüntet[/V][Prs.NDef.3Sg]]
>>>>> címkének van véve
>>>>> és így halál lassú a tanítás(az eddigi 1026 uniq
>>>>> cimke
>>>>> helyett van 2408 a hülyeségekkel együtt), meg nem
>>>>> is biztos,
>>>>> hogy ez adja az elvárt eredményt...
>>>>>
>>>>>
>>>>> Balázs
>>>>>
>>>>>
>>>>> 2016. július 28. 18:37 Indig Balázs írta,
>>>>> <indig.balazs at itk.ppke.hu>:
>>>>> Sziasztok!
>>>>>
>>>>> Az új javított szeged korpuszhoz is
>>>>> elérhető a
>>>>> PurePOS model itt:
>>>>>
>>>>> http://pi.itk.ppke.hu/~dlazesz/infra/
>>>>>
>>>>>
>>>>>
>>>>> Üdv,
>>>>>
>>>>> Balázs
>>>>>
>>>>> 2016. július 28. 15:54 Veronika Vincze írta,
>>>>> <vinczev at inf.u-szeged.hu>:
>>>>>
>>>>> Sziasztok,
>>>>>
>>>>> Javítottunk pár bugot a konvertálásban,
>>>>> most már elvben jó minden sor formátuma. A
>>>>> Szeged Korpusz teljes anyaga elérhető a
>>>>>
>>>>>
>>>>> http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
>>>>>
>>>>> címen. Ha bármilyen problémát találtok,
>>>>> jelezzétek, kérlek.
>>>>>
>>>>> @Attila: néha a képzett szavaknál a szófaj
>>>>> elől lemarad a / jel (pl. Dél-dunántúli
>>>>> Dél-dunántúli[Adj][Nom]), ezt mi elvben
>>>>> javítottuk a konverzió során, de az
>>>>> elemzőben is hasznos lenne átírni.
>>>>>
>>>>> Üdv:
>>>>> Vera
>>>>>
>>>>> On 2016.07.28. 13:46, Indig Balázs wrote:
>>>>> Kedves Mindenki!
>>>>> PurePOS modellek és a szeged korpusz
>>>>> formátumából purepos input formátumba
>>>>> konvertáló script:
>>>>>
>>>>> http://pi.itk.ppke.hu/~dlazesz/infra/
>>>>>
>>>>> A szeged korpusz formátuma kicsit fura. Van
>>>>> ahol nem csak 5 mező van És csomó helyen
>>>>> viszonylag nehéz kinyerni, hogy mit is
>>>>> akarhatott a szerző, hogy mi kerüljön a
>>>>> PurePOS-ba. A konvertáló script tele van
>>>>> ezirányú kommentekkel.
>>>>>
>>>>> Ami a "PurePOS-beli morfológiát" illeti:
>>>>>
>>>>> Így néz ki egy morfológiával szelektíven
>>>>> annotált{{annotál[\V]||annotáció[\N]}}
>>>>> input sor .
>>>>>
>>>>> Majd még fog alakulni a dolog. Most a héten
>>>>> ez megy.
>>>>>
>>>>>
>>>>> Üdv,
>>>>>
>>>>> Balázs
>>>>>
>>>>>
>>>>> 2016. július 25. 13:52 Veronika Vincze
>>>>> írta, <vinczev at inf.u-szeged.hu>:
>>>>> Kedves Mindenki,
>>>>>
>>>>>
>>>>> On 2016.07.25. 12:12, Sass
>>>>> Bálint wrote:
>>>>>
>>>>> 2.
>>>>> Vera, esetleg írj
>>>>> pár szót a fájl
>>>>> oszlopairól,
>>>>> hogy igaziból
>>>>> melyik kell nekünk
>>>>> most.
>>>>>
>>>>> Megnéztem, sztem ez
>>>>> van:
>>>>> 1. oszlop = szóalak
>>>>> 5. oszlop = újkódos
>>>>> szótő + szófaj +
>>>>> elemzés
>>>>>
>>>>> Ugye ez a kettő
>>>>> kell most a
>>>>> tanításhoz,
>>>>> a 2-3-4. oszlop
>>>>> régi, így figyelmen
>>>>> kívül hagyandó?
>>>>>
>>>>> Szóval az 5.
>>>>> oszlopban lévő
>>>>> szótövet, szófajt
>>>>> és elemzést
>>>>> kellene rendre
>>>>> lemma, pos és
>>>>> feature -ként
>>>>> használni a
>>>>> tanításokhoz, ugye?
>>>>> :)
>>>>>
>>>>> Így igaz, az 1. és az 5. oszlop
>>>>> a fontos, a többit csak benne
>>>>> hagytuk a kiíratáskor.
>>>>> 3.
>>>>> Tekintetbe véve,
>>>>> hogy hét végére
>>>>> mindennek mennie
>>>>> kellene
>>>>> valamilyen formában
>>>>> a honlap mögött,
>>>>> azt kérem, hogy
>>>>> mindenki (az alább
>>>>> említettek)
>>>>> tanítson egy
>>>>> modellt ezen a
>>>>> részkorpuszon, hogy
>>>>> legyen valami,
>>>>> aztán majd később
>>>>> legyenek meg a
>>>>> teljes korpuszon
>>>>> tanított modellek.
>>>>>
>>>>> Nekiállunk mi is szintaxist
>>>>> tanítani (plusz csináljuk a
>>>>> többi alkorpusz
>>>>> infrásmorfológiára való
>>>>> átalakítását), ez valószínűleg
>>>>> pár napot igénybe vesz nálunk.
>>>>>
>>>>> Üdv:
>>>>> Vera
More information about the nlp-infra-devel
mailing list