[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás

Sass Bálint joker at nytud.hu
Mon Aug 1 15:08:26 CEST 2016


Sziasztok, főként a szegediek!

A magyarlanc-3.0 -ban lévő depparser van integrálva a GATE-be.

Egy ponton van egy

String[][] pars =
   MyMateParser.getInstance().parseSentence(form,lemma,pos,feat);

hívás, ez csinálja a dep elemzést.

Van egy szk.mate.model nevű fájl, ami a dep elemző (régi) modellje.

Ennek a helyére tettem be egy az egyben az új modellfájlt.
(Remélve, hogy ez így simán megy!)

Fut is a dolog, csak az hiányzik, hogy pontosan milyen inputot
vár a fenti hívás a form, lemma, pos és feat pontokon.

Az első kettő trivi (mondjátok, ha nem!).

A kérdés, hogy mi a 'pos' és mi a 'feat' az újkódos rendszerben?

Így néznek ki a POS taggerből kijövő újkódos elemzések:

[/Det|art.Def]
[/N][Ine]
[/Adv]
[/V][Prs.NDef.3Sg]
[/Prev]

Próbáltam többféleképpen, a legbíztatóbb eredményre azzal jutottam,
hogy a pos az első []-ben lévő dolog az kezdő "/" nélkül,
a feat meg a második []-ben lévő dolog, azaz:

pos="Det|art.Def" feat=""
pos="N"           feat="Ine"
pos="Adv"         feat=""
pos="V"           feat="Prs.NDef.3Sg"
pos="Prev"        feat=""

De egyáltalán nem vagyok biztos benne, hogy így gondoltátok.

Szóval milyen input szükséges itt pontosan?
Ezt lenne most fontos tudnom. :)

Ha feltesztek a modell mellé egy tanítókorpusz-részletet, az is segíthet.

Kösz szépen:
Bálint

Ezt írta Vera, 2016-07-31:
> On 2016.07.31. 18:31, Sass Bálint wrote:
>> Sziasztok!
>>
>> Köszi, Vera! :)
>>
>> Mi ez az anna-3.61.jar ? Kell vele tenni valamit?
> Ez maga a depparser, amihez tartozik a modell. Nem így integráltátok a 
> GATE-be?
>>
>> A konstituensmodell akkor még készül, ugye? :)
> Igen :)
>
> Vera
>>
>> Kösz, üdv:
>> Bálint
>>
>> Ezt írta ma Vera:
>>> Sziasztok,
>>>
>>> Elkészült a dependenciamodell, itt elérhető:
>>>
>>> http://www.inf.u-szeged.hu/~vinczev/infra/depmodel
>>>
>>> Üdv:
>>>
>>> Vera
>>>
>>>
>>> On 2016.07.29. 14:30, Sass Bálint wrote:
>>>> @Balázs: Állítás volt. :)
>>>>
>>>> De persze frissítsd és szólj is, ha lesz új/jobb verzió.
>>>>
>>>> Kösz szépen:
>>>> Bálint
>>>>
>>>> Ezt írta ma:
>>>>> @Bálint: Ha ez kérdés volt, akkor a válasz: Igen, ez a ma 9:35 körüli
>>>>> Szeged korpusz állapotokat tükrözi és majd frissítem, ha lesz "új,
>>>>> mindenhol peres" javított korpusz.
>>>>>
>>>>>
>>>>> Balázs
>>>>>
>>>>> 2016. július 29. 12:06 Sass Bálint írta, <joker at nytud.hu>:
>>>>>       Sziasztok!
>>>>>
>>>>>       Most akkor ez a modell lesz az, amit az infra2 láncba,
>>>>>       az e-magyar.hu honlap mögé beteszünk:
>>>>>
>>>>> http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new
>>>>>
>>>>>       időbélyege: 2016-07-29 10:10 mérete: 82M
>>>>>
>>>>>       Kösz szépen mindenkinek a közreműködést ebben.
>>>>>
>>>>>       A két szintaktikai modellt még nagyon várjuk! :)
>>>>>
>>>>>       Üdv:
>>>>>       Bálint
>>>>>
>>>>>       Ezt írta ma Balázs:
>>>>>             Sziasztok!
>>>>>
>>>>>             1412 egyedi címke. Jobb a helyzet...
>>>>>
>>>>>             A PurePOS model frissült.
>>>>>             Már tisztul a kép, de még nem értek bizonyos
>>>>>             dolgokat (most PurePOS
>>>>>             jelölsében #-el elválasztva szóalak szótő címke):
>>>>>
>>>>>             1) "leg"-et#"#[Punct]  Ez miért Punct ha a
>>>>>             mondatvégi pont vessző stb.
>>>>>             OTHER?
>>>>>             2) Most akkor a címkének nem "[/" -el kelellene
>>>>>             kezdődnie? Mert ezek a
>>>>>             címkék furák:
>>>>>
>>>>>              252623 OTHER
>>>>>                1305 [Adj][Nom]
>>>>>                  26 [N|Acron][Acc]
>>>>>                  17 [N|Acron][Pl][Nom]
>>>>>                  14 [N|Acron][Transl]
>>>>>                  12 [Num][Nom]
>>>>>                   6 [Adj][Pl][Nom]
>>>>>                   5 [N|Acron][Ins]
>>>>>                   5 [N|Abbr][Dat]
>>>>>                   4 [N][Nom]
>>>>>                   4 [Adj|nat][Nom]
>>>>>                   3 [N][Poss.3Sg][Nom]
>>>>>                   3 [N|Acron][Pl][Subl]
>>>>>                   3 [Adj][All]
>>>>>                   2 [V][Inf]
>>>>>                   2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
>>>>>                   2 [N][Poss.3Sg][Acc]
>>>>>                   2 [N|Acron][Pl][All]
>>>>>                   2 [N|Acron][Pl][Acc]
>>>>>                   2 [N|Acron][Nom]
>>>>>                   2 [N|Abbr][Subl]
>>>>>                   2 [N|Abbr][All]
>>>>>                   2 [N|Abbr][Acc]
>>>>>                   1 [V][Pst.Def.3Sg]
>>>>>                   1 [V][Pst.Def.1Sg]
>>>>>                   1 [V][_Mod][Prs.NDef.3Pl]
>>>>>                   1 [V][_Mod][Prs.Def.3Sg][Punct]
>>>>>                   1 [Punct]
>>>>>                   1 POS
>>>>>                   1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
>>>>>                   1 [_PerfPtcp_Subj=tA/Adj][Nom]
>>>>>                   1 [N][Poss.3Pl][Nom]
>>>>>                   1 [N][All]
>>>>>                   1 [N|Acron][Subl]
>>>>>                   1 [N|Acron][Poss.1Sg][Subl]
>>>>>                   1 [N|Acron][Poss.1Pl][All]
>>>>>                   1 [N|Acron][Pl][Ter]
>>>>>                   1 [N|Acron][Pl][Ins]
>>>>>                   1 [N|Acron][Pl][Ine]
>>>>>                   1 [N|Acron][Ade]
>>>>>                   1 [N|Acron][Acc][Punct]
>>>>>                   1 [N][Acc]
>>>>>                   1 [N|Abbr][Ela]
>>>>>                   1 [Adj][Pl][Ade]
>>>>>                   1 [Adj][EssFor%:ként]
>>>>>                   1 [Adj]
>>>>>
>>>>>
>>>>>             Balázs
>>>>>
>>>>>
>>>>>             2016. július 29. 9:46 Veronika Vincze írta,
>>>>>             <vinczev at inf.u-szeged.hu>:
>>>>>
>>>>>                   Sziasztok!
>>>>>
>>>>>                   A második hibát javítottuk a konverterben,
>>>>>             frissültek a
>>>>>                   fájlok.
>>>>>
>>>>>                   Az első hiba nagyrészt tulajdonneveket
>>>>>             érint, ha jól
>>>>>                   gondolom. A Szeged Korpuszban ezek
>>>>>             egységesen főnévi címkét
>>>>>                   kaptak, még akkor is, ha jelen esetben egy
>>>>>             melléknév képezi a
>>>>>                   tulajdonnév részét. A konverter úgy
>>>>>             működik, hogy az új
>>>>>                   harmonizált kódok közül választjuk ki az
>>>>>             MSD-kód alapján a
>>>>>                   neki leginkább megfelelőt, vagyis itt most
>>>>>             a főnévi kódnak
>>>>>                   megfelelően főnévi kódot választ, ami
>>>>>             persze nem helyes, de
>>>>>                   ezt automatikusan nem tudjuk eldönteni.
>>>>>             Sajnos arra most
>>>>>                   nincs se időnk, se erőforrásunk (Szegeden
>>>>>             legalábbis), hogy
>>>>>                   ezeket az eseteket kézzel egyértelműsítsük
>>>>>             :(
>>>>>
>>>>>                   Üdv:
>>>>>                   Vera
>>>>>
>>>>>
>>>>>                   On 2016.07.29. 8:22, Indig Balázs wrote:
>>>>>                   Szasztok!
>>>>>             @Vera:
>>>>>
>>>>>             Megye -> Megy
>>>>>
>>>>>             Jász-Nagykun-Szolnok Jász-Nagykun-Szolnok N
>>>>> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>>>             Jász-Nagykun-Szolnok[/N][Nom]
>>>>>             Megyei Megyei N
>>>>> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>>>             Megy[/N][Pl.Poss.3Sg][Nom]
>>>>>
>>>>>             És ebből van egy csomó...
>>>>>
>>>>>             Illetve a másik:
>>>>>
>>>>>             A a T SubPOS=f a[/Det|art.Def]
>>>>>             két két M
>>>>> SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none
>>>>>             két[/Num|Attr][Nom]
>>>>>             óra óra N
>>>>> SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>>>             óra[/N][Nom]
>>>>>             közti közti A
>>>>> SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>>>             közti[/Adj][Nom]
>>>>>             szüntet szüntet Z _ [szüntet[/V][Prs.NDef.3Sg]]
>>>>>
>>>>>             Értem én, de akkor valaki elmondhatná, hogy mi a
>>>>>             formátum: Az
>>>>>             első [/ -től van a címke vagy az első [ -től? És
>>>>>             ha az előbbi
>>>>>             akkor mit kezdjen a PurePOS a fenti "lemmakezdő
>>>>>             [" -el?
>>>>>
>>>>>             Most az egész  [szüntet[/V][Prs.NDef.3Sg]]
>>>>>             címkének van véve
>>>>>             és így halál lassú a tanítás(az eddigi 1026 uniq
>>>>>             cimke
>>>>>             helyett van 2408 a hülyeségekkel együtt), meg nem
>>>>>             is biztos,
>>>>>             hogy ez adja az elvárt eredményt...
>>>>>
>>>>>
>>>>>             Balázs
>>>>>
>>>>>
>>>>>             2016. július 28. 18:37 Indig Balázs írta,
>>>>>             <indig.balazs at itk.ppke.hu>:
>>>>>                   Sziasztok!
>>>>>
>>>>>                   Az új javított szeged korpuszhoz is
>>>>>             elérhető a
>>>>>                   PurePOS model itt:
>>>>>
>>>>>             http://pi.itk.ppke.hu/~dlazesz/infra/
>>>>>
>>>>>
>>>>>
>>>>>             Üdv,
>>>>>
>>>>>             Balázs
>>>>>
>>>>>             2016. július 28. 15:54 Veronika Vincze írta,
>>>>>             <vinczev at inf.u-szeged.hu>:
>>>>>
>>>>>                   Sziasztok,
>>>>>
>>>>>                   Javítottunk pár bugot a konvertálásban,
>>>>>                   most már elvben jó minden sor formátuma. A
>>>>>                   Szeged Korpusz teljes anyaga elérhető a
>>>>>
>>>>>
>>>>> http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
>>>>>
>>>>>                   címen. Ha bármilyen problémát találtok,
>>>>>                   jelezzétek, kérlek.
>>>>>
>>>>>                   @Attila: néha a képzett szavaknál a szófaj
>>>>>                   elől lemarad a / jel (pl. Dél-dunántúli
>>>>>                   Dél-dunántúli[Adj][Nom]), ezt mi elvben
>>>>>                   javítottuk a konverzió során, de az
>>>>>                   elemzőben is hasznos lenne átírni.
>>>>>
>>>>>                   Üdv:
>>>>>                   Vera
>>>>>
>>>>>                   On 2016.07.28. 13:46, Indig Balázs wrote:
>>>>>                   Kedves Mindenki!
>>>>>             PurePOS modellek és a szeged korpusz
>>>>>             formátumából purepos input formátumba
>>>>>             konvertáló script:
>>>>>
>>>>>             http://pi.itk.ppke.hu/~dlazesz/infra/
>>>>>
>>>>>             A szeged korpusz formátuma kicsit fura. Van
>>>>>             ahol nem csak 5 mező van És csomó helyen
>>>>>             viszonylag nehéz kinyerni, hogy mit is
>>>>>             akarhatott a szerző, hogy mi kerüljön a
>>>>>             PurePOS-ba. A konvertáló script tele van
>>>>>             ezirányú kommentekkel.
>>>>>
>>>>>             Ami a "PurePOS-beli morfológiát" illeti:
>>>>>
>>>>>             Így néz ki egy morfológiával szelektíven
>>>>>             annotált{{annotál[\V]||annotáció[\N]}}
>>>>>             input  sor .
>>>>>
>>>>>             Majd még fog alakulni a dolog. Most a héten
>>>>>             ez megy.
>>>>>
>>>>>
>>>>>             Üdv,
>>>>>
>>>>>             Balázs
>>>>>
>>>>>
>>>>>             2016. július 25. 13:52 Veronika Vincze
>>>>>             írta, <vinczev at inf.u-szeged.hu>:
>>>>>                   Kedves Mindenki,
>>>>>
>>>>>
>>>>>                   On 2016.07.25. 12:12, Sass
>>>>>                   Bálint wrote:
>>>>>
>>>>>                         2.
>>>>>                         Vera, esetleg írj
>>>>>                         pár szót a fájl
>>>>>                         oszlopairól,
>>>>>                         hogy igaziból
>>>>>                         melyik kell nekünk
>>>>>                         most.
>>>>>
>>>>>                         Megnéztem, sztem ez
>>>>>                         van:
>>>>>                         1. oszlop = szóalak
>>>>>                         5. oszlop = újkódos
>>>>>                         szótő + szófaj +
>>>>>                         elemzés
>>>>>
>>>>>                         Ugye ez a kettő
>>>>>                         kell most a
>>>>>                         tanításhoz,
>>>>>                         a 2-3-4. oszlop
>>>>>                         régi, így figyelmen
>>>>>                         kívül hagyandó?
>>>>>
>>>>>                         Szóval az 5.
>>>>>                         oszlopban lévő
>>>>>                         szótövet, szófajt
>>>>>                         és elemzést
>>>>>                         kellene rendre
>>>>>                         lemma, pos és
>>>>>                         feature -ként
>>>>>                         használni a
>>>>>                         tanításokhoz, ugye?
>>>>>                         :)
>>>>>
>>>>>                   Így igaz, az 1. és az 5. oszlop
>>>>>                   a fontos, a többit csak benne
>>>>>                   hagytuk a kiíratáskor.
>>>>>                         3.
>>>>>                         Tekintetbe véve,
>>>>>                         hogy hét végére
>>>>>                         mindennek mennie
>>>>>                         kellene
>>>>>                         valamilyen formában
>>>>>                         a honlap mögött,
>>>>>                         azt kérem, hogy
>>>>>                         mindenki (az alább
>>>>>                         említettek)
>>>>>                         tanítson egy
>>>>>                         modellt ezen a
>>>>>                         részkorpuszon, hogy
>>>>>                         legyen valami,
>>>>>                         aztán majd később
>>>>>                         legyenek meg a
>>>>>                         teljes korpuszon
>>>>>                         tanított modellek.
>>>>>
>>>>>                   Nekiállunk mi is szintaxist
>>>>>                   tanítani (plusz csináljuk a
>>>>>                   többi alkorpusz
>>>>>                   infrásmorfológiára való
>>>>>                   átalakítását), ez valószínűleg
>>>>>                   pár napot igénybe vesz nálunk.
>>>>>
>>>>>                   Üdv:
>>>>>                   Vera




More information about the nlp-infra-devel mailing list