[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás

Sass Bálint joker at nytud.hu
Tue Aug 2 10:51:01 CEST 2016


Kedves Vera és Ricsi (és mindenki)!

1.
Segítsetek, légyszi, abban, amit tegnap (alább) írtam. :)

A leggyorsabb válasz gondolom az lenne,
ha simán odateszitek a tanítókorpuszt a
http://www.inf.u-szeged.hu/~vinczev/infra/depmodel
címre, de persze nekem jobb, ha van mellé magyarázat is,
a legjobb pedig az, ha megvan a pontos algoritmus,
amivel az új POS-tagger kódokból kijön az,
amit a Dep elemzőnek inputként (form,lemma,pos,feat) kell beadni.

2.
Hogy látjátok, a konstituens elemző modellje mikorra várható?
Légyszi, jelezzetek vissza, hogy
most szerda-csütörtökre (08.03-04.) kész tud-e lenni.
Az nagyon jó lenne. :)

Kösz, üdv:
Bálint

Ezt írtam, 2016-08-01:
> Sziasztok, főként a szegediek!
>
> A magyarlanc-3.0 -ban lévő depparser van integrálva a GATE-be.
>
> Egy ponton van egy
>
> String[][] pars =
>  MyMateParser.getInstance().parseSentence(form,lemma,pos,feat);
>
> hívás, ez csinálja a dep elemzést.
>
> Van egy szk.mate.model nevű fájl, ami a dep elemző (régi) modellje.
>
> Ennek a helyére tettem be egy az egyben az új modellfájlt.
> (Remélve, hogy ez így simán megy!)
>
> Fut is a dolog, csak az hiányzik, hogy pontosan milyen inputot
> vár a fenti hívás a form, lemma, pos és feat pontokon.
>
> Az első kettő trivi (mondjátok, ha nem!).
>
> A kérdés, hogy mi a 'pos' és mi a 'feat' az újkódos rendszerben?
>
> Így néznek ki a POS taggerből kijövő újkódos elemzések:
>
> [/Det|art.Def]
> [/N][Ine]
> [/Adv]
> [/V][Prs.NDef.3Sg]
> [/Prev]
>
> Próbáltam többféleképpen, a legbíztatóbb eredményre azzal jutottam,
> hogy a pos az első []-ben lévő dolog az kezdő "/" nélkül,
> a feat meg a második []-ben lévő dolog, azaz:
>
> pos="Det|art.Def" feat=""
> pos="N"           feat="Ine"
> pos="Adv"         feat=""
> pos="V"           feat="Prs.NDef.3Sg"
> pos="Prev"        feat=""
>
> De egyáltalán nem vagyok biztos benne, hogy így gondoltátok.
>
> Szóval milyen input szükséges itt pontosan?
> Ezt lenne most fontos tudnom. :)
>
> Ha feltesztek a modell mellé egy tanítókorpusz-részletet, az is segíthet.
>
> Kösz szépen:
> Bálint
>
> Ezt írta Vera, 2016-07-31:
>> On 2016.07.31. 18:31, Sass Bálint wrote:
>>> Sziasztok!
>>> 
>>> Köszi, Vera! :)
>>> 
>>> Mi ez az anna-3.61.jar ? Kell vele tenni valamit?
>> Ez maga a depparser, amihez tartozik a modell. Nem így integráltátok a 
>> GATE-be?
>>> 
>>> A konstituensmodell akkor még készül, ugye? :)
>> Igen :)
>> 
>> Vera
>>> 
>>> Kösz, üdv:
>>> Bálint
>>> 
>>> Ezt írta ma Vera:
>>>> Sziasztok,
>>>> 
>>>> Elkészült a dependenciamodell, itt elérhető:
>>>> 
>>>> http://www.inf.u-szeged.hu/~vinczev/infra/depmodel
>>>> 
>>>> Üdv:
>>>> 
>>>> Vera
>>>> 
>>>> 
>>>> On 2016.07.29. 14:30, Sass Bálint wrote:
>>>>> @Balázs: Állítás volt. :)
>>>>> 
>>>>> De persze frissítsd és szólj is, ha lesz új/jobb verzió.
>>>>> 
>>>>> Kösz szépen:
>>>>> Bálint
>>>>> 
>>>>> Ezt írta ma:
>>>>>> @Bálint: Ha ez kérdés volt, akkor a válasz: Igen, ez a ma 9:35 
>>>>>> körüli
>>>>>> Szeged korpusz állapotokat tükrözi és majd frissítem, ha lesz "új,
>>>>>> mindenhol peres" javított korpusz.
>>>>>> 
>>>>>> 
>>>>>> Balázs
>>>>>> 
>>>>>> 2016. július 29. 12:06 Sass Bálint írta, <joker at nytud.hu>:
>>>>>>       Sziasztok!
>>>>>>
>>>>>>       Most akkor ez a modell lesz az, amit az infra2 láncba,
>>>>>>       az e-magyar.hu honlap mögé beteszünk:
>>>>>> 
>>>>>> http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new
>>>>>>
>>>>>>       időbélyege: 2016-07-29 10:10 mérete: 82M
>>>>>>
>>>>>>       Kösz szépen mindenkinek a közreműködést ebben.
>>>>>>
>>>>>>       A két szintaktikai modellt még nagyon várjuk! :)
>>>>>>
>>>>>>       Üdv:
>>>>>>       Bálint
>>>>>>
>>>>>>       Ezt írta ma Balázs:
>>>>>>             Sziasztok!
>>>>>>
>>>>>>             1412 egyedi címke. Jobb a helyzet...
>>>>>>
>>>>>>             A PurePOS model frissült.
>>>>>>             Már tisztul a kép, de még nem értek bizonyos
>>>>>>             dolgokat (most PurePOS
>>>>>>             jelölsében #-el elválasztva szóalak szótő címke):
>>>>>>
>>>>>>             1) "leg"-et#"#[Punct]  Ez miért Punct ha a
>>>>>>             mondatvégi pont vessző stb.
>>>>>>             OTHER?
>>>>>>             2) Most akkor a címkének nem "[/" -el kelellene
>>>>>>             kezdődnie? Mert ezek a
>>>>>>             címkék furák:
>>>>>>
>>>>>>              252623 OTHER
>>>>>>                1305 [Adj][Nom]
>>>>>>                  26 [N|Acron][Acc]
>>>>>>                  17 [N|Acron][Pl][Nom]
>>>>>>                  14 [N|Acron][Transl]
>>>>>>                  12 [Num][Nom]
>>>>>>                   6 [Adj][Pl][Nom]
>>>>>>                   5 [N|Acron][Ins]
>>>>>>                   5 [N|Abbr][Dat]
>>>>>>                   4 [N][Nom]
>>>>>>                   4 [Adj|nat][Nom]
>>>>>>                   3 [N][Poss.3Sg][Nom]
>>>>>>                   3 [N|Acron][Pl][Subl]
>>>>>>                   3 [Adj][All]
>>>>>>                   2 [V][Inf]
>>>>>>                   2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
>>>>>>                   2 [N][Poss.3Sg][Acc]
>>>>>>                   2 [N|Acron][Pl][All]
>>>>>>                   2 [N|Acron][Pl][Acc]
>>>>>>                   2 [N|Acron][Nom]
>>>>>>                   2 [N|Abbr][Subl]
>>>>>>                   2 [N|Abbr][All]
>>>>>>                   2 [N|Abbr][Acc]
>>>>>>                   1 [V][Pst.Def.3Sg]
>>>>>>                   1 [V][Pst.Def.1Sg]
>>>>>>                   1 [V][_Mod][Prs.NDef.3Pl]
>>>>>>                   1 [V][_Mod][Prs.Def.3Sg][Punct]
>>>>>>                   1 [Punct]
>>>>>>                   1 POS
>>>>>>                   1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
>>>>>>                   1 [_PerfPtcp_Subj=tA/Adj][Nom]
>>>>>>                   1 [N][Poss.3Pl][Nom]
>>>>>>                   1 [N][All]
>>>>>>                   1 [N|Acron][Subl]
>>>>>>                   1 [N|Acron][Poss.1Sg][Subl]
>>>>>>                   1 [N|Acron][Poss.1Pl][All]
>>>>>>                   1 [N|Acron][Pl][Ter]
>>>>>>                   1 [N|Acron][Pl][Ins]
>>>>>>                   1 [N|Acron][Pl][Ine]
>>>>>>                   1 [N|Acron][Ade]
>>>>>>                   1 [N|Acron][Acc][Punct]
>>>>>>                   1 [N][Acc]
>>>>>>                   1 [N|Abbr][Ela]
>>>>>>                   1 [Adj][Pl][Ade]
>>>>>>                   1 [Adj][EssFor%:ként]
>>>>>>                   1 [Adj]
>>>>>> 
>>>>>>
>>>>>>             Balázs
>>>>>> 
>>>>>>
>>>>>>             2016. július 29. 9:46 Veronika Vincze írta,
>>>>>>             <vinczev at inf.u-szeged.hu>:
>>>>>>
>>>>>>                   Sziasztok!
>>>>>>
>>>>>>                   A második hibát javítottuk a konverterben,
>>>>>>             frissültek a
>>>>>>                   fájlok.
>>>>>>
>>>>>>                   Az első hiba nagyrészt tulajdonneveket
>>>>>>             érint, ha jól
>>>>>>                   gondolom. A Szeged Korpuszban ezek
>>>>>>             egységesen főnévi címkét
>>>>>>                   kaptak, még akkor is, ha jelen esetben egy
>>>>>>             melléknév képezi a
>>>>>>                   tulajdonnév részét. A konverter úgy
>>>>>>             működik, hogy az új
>>>>>>                   harmonizált kódok közül választjuk ki az
>>>>>>             MSD-kód alapján a
>>>>>>                   neki leginkább megfelelőt, vagyis itt most
>>>>>>             a főnévi kódnak
>>>>>>                   megfelelően főnévi kódot választ, ami
>>>>>>             persze nem helyes, de
>>>>>>                   ezt automatikusan nem tudjuk eldönteni.
>>>>>>             Sajnos arra most
>>>>>>                   nincs se időnk, se erőforrásunk (Szegeden
>>>>>>             legalábbis), hogy
>>>>>>                   ezeket az eseteket kézzel egyértelműsítsük
>>>>>>             :(
>>>>>>
>>>>>>                   Üdv:
>>>>>>                   Vera
>>>>>> 
>>>>>>
>>>>>>                   On 2016.07.29. 8:22, Indig Balázs wrote:
>>>>>>                   Szasztok!
>>>>>>             @Vera:
>>>>>>
>>>>>>             Megye -> Megy
>>>>>>
>>>>>>             Jász-Nagykun-Szolnok Jász-Nagykun-Szolnok N
>>>>>> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>>>>             Jász-Nagykun-Szolnok[/N][Nom]
>>>>>>             Megyei Megyei N
>>>>>> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>>>>             Megy[/N][Pl.Poss.3Sg][Nom]
>>>>>>
>>>>>>             És ebből van egy csomó...
>>>>>>
>>>>>>             Illetve a másik:
>>>>>>
>>>>>>             A a T SubPOS=f a[/Det|art.Def]
>>>>>>             két két M
>>>>>> SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none
>>>>>>             két[/Num|Attr][Nom]
>>>>>>             óra óra N
>>>>>> SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>>>>             óra[/N][Nom]
>>>>>>             közti közti A
>>>>>> SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>>>>             közti[/Adj][Nom]
>>>>>>             szüntet szüntet Z _ [szüntet[/V][Prs.NDef.3Sg]]
>>>>>>
>>>>>>             Értem én, de akkor valaki elmondhatná, hogy mi a
>>>>>>             formátum: Az
>>>>>>             első [/ -től van a címke vagy az első [ -től? És
>>>>>>             ha az előbbi
>>>>>>             akkor mit kezdjen a PurePOS a fenti "lemmakezdő
>>>>>>             [" -el?
>>>>>>
>>>>>>             Most az egész  [szüntet[/V][Prs.NDef.3Sg]]
>>>>>>             címkének van véve
>>>>>>             és így halál lassú a tanítás(az eddigi 1026 uniq
>>>>>>             cimke
>>>>>>             helyett van 2408 a hülyeségekkel együtt), meg nem
>>>>>>             is biztos,
>>>>>>             hogy ez adja az elvárt eredményt...
>>>>>> 
>>>>>>
>>>>>>             Balázs
>>>>>> 
>>>>>>
>>>>>>             2016. július 28. 18:37 Indig Balázs írta,
>>>>>>             <indig.balazs at itk.ppke.hu>:
>>>>>>                   Sziasztok!
>>>>>>
>>>>>>                   Az új javított szeged korpuszhoz is
>>>>>>             elérhető a
>>>>>>                   PurePOS model itt:
>>>>>>
>>>>>>             http://pi.itk.ppke.hu/~dlazesz/infra/
>>>>>> 
>>>>>> 
>>>>>>
>>>>>>             Üdv,
>>>>>>
>>>>>>             Balázs
>>>>>>
>>>>>>             2016. július 28. 15:54 Veronika Vincze írta,
>>>>>>             <vinczev at inf.u-szeged.hu>:
>>>>>>
>>>>>>                   Sziasztok,
>>>>>>
>>>>>>                   Javítottunk pár bugot a konvertálásban,
>>>>>>                   most már elvben jó minden sor formátuma. A
>>>>>>                   Szeged Korpusz teljes anyaga elérhető a
>>>>>> 
>>>>>> 
>>>>>> http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
>>>>>>
>>>>>>                   címen. Ha bármilyen problémát találtok,
>>>>>>                   jelezzétek, kérlek.
>>>>>>
>>>>>>                   @Attila: néha a képzett szavaknál a szófaj
>>>>>>                   elől lemarad a / jel (pl. Dél-dunántúli
>>>>>>                   Dél-dunántúli[Adj][Nom]), ezt mi elvben
>>>>>>                   javítottuk a konverzió során, de az
>>>>>>                   elemzőben is hasznos lenne átírni.
>>>>>>
>>>>>>                   Üdv:
>>>>>>                   Vera
>>>>>>
>>>>>>                   On 2016.07.28. 13:46, Indig Balázs wrote:
>>>>>>                   Kedves Mindenki!
>>>>>>             PurePOS modellek és a szeged korpusz
>>>>>>             formátumából purepos input formátumba
>>>>>>             konvertáló script:
>>>>>>
>>>>>>             http://pi.itk.ppke.hu/~dlazesz/infra/
>>>>>>
>>>>>>             A szeged korpusz formátuma kicsit fura. Van
>>>>>>             ahol nem csak 5 mező van És csomó helyen
>>>>>>             viszonylag nehéz kinyerni, hogy mit is
>>>>>>             akarhatott a szerző, hogy mi kerüljön a
>>>>>>             PurePOS-ba. A konvertáló script tele van
>>>>>>             ezirányú kommentekkel.
>>>>>>
>>>>>>             Ami a "PurePOS-beli morfológiát" illeti:
>>>>>>
>>>>>>             Így néz ki egy morfológiával szelektíven
>>>>>>             annotált{{annotál[\V]||annotáció[\N]}}
>>>>>>             input  sor .
>>>>>>
>>>>>>             Majd még fog alakulni a dolog. Most a héten
>>>>>>             ez megy.
>>>>>> 
>>>>>>
>>>>>>             Üdv,
>>>>>>
>>>>>>             Balázs
>>>>>> 
>>>>>>
>>>>>>             2016. július 25. 13:52 Veronika Vincze
>>>>>>             írta, <vinczev at inf.u-szeged.hu>:
>>>>>>                   Kedves Mindenki,
>>>>>> 
>>>>>>
>>>>>>                   On 2016.07.25. 12:12, Sass
>>>>>>                   Bálint wrote:
>>>>>>
>>>>>>                         2.
>>>>>>                         Vera, esetleg írj
>>>>>>                         pár szót a fájl
>>>>>>                         oszlopairól,
>>>>>>                         hogy igaziból
>>>>>>                         melyik kell nekünk
>>>>>>                         most.
>>>>>>
>>>>>>                         Megnéztem, sztem ez
>>>>>>                         van:
>>>>>>                         1. oszlop = szóalak
>>>>>>                         5. oszlop = újkódos
>>>>>>                         szótő + szófaj +
>>>>>>                         elemzés
>>>>>>
>>>>>>                         Ugye ez a kettő
>>>>>>                         kell most a
>>>>>>                         tanításhoz,
>>>>>>                         a 2-3-4. oszlop
>>>>>>                         régi, így figyelmen
>>>>>>                         kívül hagyandó?
>>>>>>
>>>>>>                         Szóval az 5.
>>>>>>                         oszlopban lévő
>>>>>>                         szótövet, szófajt
>>>>>>                         és elemzést
>>>>>>                         kellene rendre
>>>>>>                         lemma, pos és
>>>>>>                         feature -ként
>>>>>>                         használni a
>>>>>>                         tanításokhoz, ugye?
>>>>>>                         :)
>>>>>>
>>>>>>                   Így igaz, az 1. és az 5. oszlop
>>>>>>                   a fontos, a többit csak benne
>>>>>>                   hagytuk a kiíratáskor.
>>>>>>                         3.
>>>>>>                         Tekintetbe véve,
>>>>>>                         hogy hét végére
>>>>>>                         mindennek mennie
>>>>>>                         kellene
>>>>>>                         valamilyen formában
>>>>>>                         a honlap mögött,
>>>>>>                         azt kérem, hogy
>>>>>>                         mindenki (az alább
>>>>>>                         említettek)
>>>>>>                         tanítson egy
>>>>>>                         modellt ezen a
>>>>>>                         részkorpuszon, hogy
>>>>>>                         legyen valami,
>>>>>>                         aztán majd később
>>>>>>                         legyenek meg a
>>>>>>                         teljes korpuszon
>>>>>>                         tanított modellek.
>>>>>>
>>>>>>                   Nekiállunk mi is szintaxist
>>>>>>                   tanítani (plusz csináljuk a
>>>>>>                   többi alkorpusz
>>>>>>                   infrásmorfológiára való
>>>>>>                   átalakítását), ez valószínűleg
>>>>>>                   pár napot igénybe vesz nálunk.
>>>>>>
>>>>>>                   Üdv:
>>>>>>                   Vera




More information about the nlp-infra-devel mailing list