[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás

Veronika Vincze vinczev at inf.u-szeged.hu
Tue Aug 2 11:14:56 CEST 2016


Sziasztok,

A konst modell nemrégen lett kész, fel is raktam ide:

http://www.inf.u-szeged.hu/~vinczev/infra/konst

Bálint többi kérdésére Zsibrita Jani fog nemsokára válaszolni.

Üdv:
Vera


On 2016.08.02. 10:51, Sass Bálint wrote:
> Kedves Vera és Ricsi (és mindenki)!
>
> 1.
> Segítsetek, légyszi, abban, amit tegnap (alább) írtam. :)
>
> A leggyorsabb válasz gondolom az lenne,
> ha simán odateszitek a tanítókorpuszt a
> http://www.inf.u-szeged.hu/~vinczev/infra/depmodel
> címre, de persze nekem jobb, ha van mellé magyarázat is,
> a legjobb pedig az, ha megvan a pontos algoritmus,
> amivel az új POS-tagger kódokból kijön az,
> amit a Dep elemzőnek inputként (form,lemma,pos,feat) kell beadni.
>
> 2.
> Hogy látjátok, a konstituens elemző modellje mikorra várható?
> Légyszi, jelezzetek vissza, hogy
> most szerda-csütörtökre (08.03-04.) kész tud-e lenni.
> Az nagyon jó lenne. :)
>
> Kösz, üdv:
> Bálint
>
> Ezt írtam, 2016-08-01:
>> Sziasztok, főként a szegediek!
>>
>> A magyarlanc-3.0 -ban lévő depparser van integrálva a GATE-be.
>>
>> Egy ponton van egy
>>
>> String[][] pars =
>>  MyMateParser.getInstance().parseSentence(form,lemma,pos,feat);
>>
>> hívás, ez csinálja a dep elemzést.
>>
>> Van egy szk.mate.model nevű fájl, ami a dep elemző (régi) modellje.
>>
>> Ennek a helyére tettem be egy az egyben az új modellfájlt.
>> (Remélve, hogy ez így simán megy!)
>>
>> Fut is a dolog, csak az hiányzik, hogy pontosan milyen inputot
>> vár a fenti hívás a form, lemma, pos és feat pontokon.
>>
>> Az első kettő trivi (mondjátok, ha nem!).
>>
>> A kérdés, hogy mi a 'pos' és mi a 'feat' az újkódos rendszerben?
>>
>> Így néznek ki a POS taggerből kijövő újkódos elemzések:
>>
>> [/Det|art.Def]
>> [/N][Ine]
>> [/Adv]
>> [/V][Prs.NDef.3Sg]
>> [/Prev]
>>
>> Próbáltam többféleképpen, a legbíztatóbb eredményre azzal jutottam,
>> hogy a pos az első []-ben lévő dolog az kezdő "/" nélkül,
>> a feat meg a második []-ben lévő dolog, azaz:
>>
>> pos="Det|art.Def" feat=""
>> pos="N"           feat="Ine"
>> pos="Adv"         feat=""
>> pos="V"           feat="Prs.NDef.3Sg"
>> pos="Prev"        feat=""
>>
>> De egyáltalán nem vagyok biztos benne, hogy így gondoltátok.
>>
>> Szóval milyen input szükséges itt pontosan?
>> Ezt lenne most fontos tudnom. :)
>>
>> Ha feltesztek a modell mellé egy tanítókorpusz-részletet, az is 
>> segíthet.
>>
>> Kösz szépen:
>> Bálint
>>
>> Ezt írta Vera, 2016-07-31:
>>> On 2016.07.31. 18:31, Sass Bálint wrote:
>>>> Sziasztok!
>>>>
>>>> Köszi, Vera! :)
>>>>
>>>> Mi ez az anna-3.61.jar ? Kell vele tenni valamit?
>>> Ez maga a depparser, amihez tartozik a modell. Nem így integráltátok 
>>> a GATE-be?
>>>>
>>>> A konstituensmodell akkor még készül, ugye? :)
>>> Igen :)
>>>
>>> Vera
>>>>
>>>> Kösz, üdv:
>>>> Bálint
>>>>
>>>> Ezt írta ma Vera:
>>>>> Sziasztok,
>>>>>
>>>>> Elkészült a dependenciamodell, itt elérhető:
>>>>>
>>>>> http://www.inf.u-szeged.hu/~vinczev/infra/depmodel
>>>>>
>>>>> Üdv:
>>>>>
>>>>> Vera
>>>>>
>>>>>
>>>>> On 2016.07.29. 14:30, Sass Bálint wrote:
>>>>>> @Balázs: Állítás volt. :)
>>>>>>
>>>>>> De persze frissítsd és szólj is, ha lesz új/jobb verzió.
>>>>>>
>>>>>> Kösz szépen:
>>>>>> Bálint
>>>>>>
>>>>>> Ezt írta ma:
>>>>>>> @Bálint: Ha ez kérdés volt, akkor a válasz: Igen, ez a ma 9:35 
>>>>>>> körüli
>>>>>>> Szeged korpusz állapotokat tükrözi és majd frissítem, ha lesz "új,
>>>>>>> mindenhol peres" javított korpusz.
>>>>>>>
>>>>>>>
>>>>>>> Balázs
>>>>>>>
>>>>>>> 2016. július 29. 12:06 Sass Bálint írta, <joker at nytud.hu>:
>>>>>>>       Sziasztok!
>>>>>>>
>>>>>>>       Most akkor ez a modell lesz az, amit az infra2 láncba,
>>>>>>>       az e-magyar.hu honlap mögé beteszünk:
>>>>>>>
>>>>>>> http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new
>>>>>>>
>>>>>>>       időbélyege: 2016-07-29 10:10 mérete: 82M
>>>>>>>
>>>>>>>       Kösz szépen mindenkinek a közreműködést ebben.
>>>>>>>
>>>>>>>       A két szintaktikai modellt még nagyon várjuk! :)
>>>>>>>
>>>>>>>       Üdv:
>>>>>>>       Bálint
>>>>>>>
>>>>>>>       Ezt írta ma Balázs:
>>>>>>>             Sziasztok!
>>>>>>>
>>>>>>>             1412 egyedi címke. Jobb a helyzet...
>>>>>>>
>>>>>>>             A PurePOS model frissült.
>>>>>>>             Már tisztul a kép, de még nem értek bizonyos
>>>>>>>             dolgokat (most PurePOS
>>>>>>>             jelölsében #-el elválasztva szóalak szótő címke):
>>>>>>>
>>>>>>>             1) "leg"-et#"#[Punct]  Ez miért Punct ha a
>>>>>>>             mondatvégi pont vessző stb.
>>>>>>>             OTHER?
>>>>>>>             2) Most akkor a címkének nem "[/" -el kelellene
>>>>>>>             kezdődnie? Mert ezek a
>>>>>>>             címkék furák:
>>>>>>>
>>>>>>>              252623 OTHER
>>>>>>>                1305 [Adj][Nom]
>>>>>>>                  26 [N|Acron][Acc]
>>>>>>>                  17 [N|Acron][Pl][Nom]
>>>>>>>                  14 [N|Acron][Transl]
>>>>>>>                  12 [Num][Nom]
>>>>>>>                   6 [Adj][Pl][Nom]
>>>>>>>                   5 [N|Acron][Ins]
>>>>>>>                   5 [N|Abbr][Dat]
>>>>>>>                   4 [N][Nom]
>>>>>>>                   4 [Adj|nat][Nom]
>>>>>>>                   3 [N][Poss.3Sg][Nom]
>>>>>>>                   3 [N|Acron][Pl][Subl]
>>>>>>>                   3 [Adj][All]
>>>>>>>                   2 [V][Inf]
>>>>>>>                   2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
>>>>>>>                   2 [N][Poss.3Sg][Acc]
>>>>>>>                   2 [N|Acron][Pl][All]
>>>>>>>                   2 [N|Acron][Pl][Acc]
>>>>>>>                   2 [N|Acron][Nom]
>>>>>>>                   2 [N|Abbr][Subl]
>>>>>>>                   2 [N|Abbr][All]
>>>>>>>                   2 [N|Abbr][Acc]
>>>>>>>                   1 [V][Pst.Def.3Sg]
>>>>>>>                   1 [V][Pst.Def.1Sg]
>>>>>>>                   1 [V][_Mod][Prs.NDef.3Pl]
>>>>>>>                   1 [V][_Mod][Prs.Def.3Sg][Punct]
>>>>>>>                   1 [Punct]
>>>>>>>                   1 POS
>>>>>>>                   1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
>>>>>>>                   1 [_PerfPtcp_Subj=tA/Adj][Nom]
>>>>>>>                   1 [N][Poss.3Pl][Nom]
>>>>>>>                   1 [N][All]
>>>>>>>                   1 [N|Acron][Subl]
>>>>>>>                   1 [N|Acron][Poss.1Sg][Subl]
>>>>>>>                   1 [N|Acron][Poss.1Pl][All]
>>>>>>>                   1 [N|Acron][Pl][Ter]
>>>>>>>                   1 [N|Acron][Pl][Ins]
>>>>>>>                   1 [N|Acron][Pl][Ine]
>>>>>>>                   1 [N|Acron][Ade]
>>>>>>>                   1 [N|Acron][Acc][Punct]
>>>>>>>                   1 [N][Acc]
>>>>>>>                   1 [N|Abbr][Ela]
>>>>>>>                   1 [Adj][Pl][Ade]
>>>>>>>                   1 [Adj][EssFor%:ként]
>>>>>>>                   1 [Adj]
>>>>>>>
>>>>>>>
>>>>>>>             Balázs
>>>>>>>
>>>>>>>
>>>>>>>             2016. július 29. 9:46 Veronika Vincze írta,
>>>>>>>             <vinczev at inf.u-szeged.hu>:
>>>>>>>
>>>>>>>                   Sziasztok!
>>>>>>>
>>>>>>>                   A második hibát javítottuk a konverterben,
>>>>>>>             frissültek a
>>>>>>>                   fájlok.
>>>>>>>
>>>>>>>                   Az első hiba nagyrészt tulajdonneveket
>>>>>>>             érint, ha jól
>>>>>>>                   gondolom. A Szeged Korpuszban ezek
>>>>>>>             egységesen főnévi címkét
>>>>>>>                   kaptak, még akkor is, ha jelen esetben egy
>>>>>>>             melléknév képezi a
>>>>>>>                   tulajdonnév részét. A konverter úgy
>>>>>>>             működik, hogy az új
>>>>>>>                   harmonizált kódok közül választjuk ki az
>>>>>>>             MSD-kód alapján a
>>>>>>>                   neki leginkább megfelelőt, vagyis itt most
>>>>>>>             a főnévi kódnak
>>>>>>>                   megfelelően főnévi kódot választ, ami
>>>>>>>             persze nem helyes, de
>>>>>>>                   ezt automatikusan nem tudjuk eldönteni.
>>>>>>>             Sajnos arra most
>>>>>>>                   nincs se időnk, se erőforrásunk (Szegeden
>>>>>>>             legalábbis), hogy
>>>>>>>                   ezeket az eseteket kézzel egyértelműsítsük
>>>>>>>             :(
>>>>>>>
>>>>>>>                   Üdv:
>>>>>>>                   Vera
>>>>>>>
>>>>>>>
>>>>>>>                   On 2016.07.29. 8:22, Indig Balázs wrote:
>>>>>>>                   Szasztok!
>>>>>>>             @Vera:
>>>>>>>
>>>>>>>             Megye -> Megy
>>>>>>>
>>>>>>>             Jász-Nagykun-Szolnok Jász-Nagykun-Szolnok N
>>>>>>> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>>>>>             Jász-Nagykun-Szolnok[/N][Nom]
>>>>>>>             Megyei Megyei N
>>>>>>> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>>>>>             Megy[/N][Pl.Poss.3Sg][Nom]
>>>>>>>
>>>>>>>             És ebből van egy csomó...
>>>>>>>
>>>>>>>             Illetve a másik:
>>>>>>>
>>>>>>>             A a T SubPOS=f a[/Det|art.Def]
>>>>>>>             két két M
>>>>>>> SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none
>>>>>>>             két[/Num|Attr][Nom]
>>>>>>>             óra óra N
>>>>>>> SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>>>>>             óra[/N][Nom]
>>>>>>>             közti közti A
>>>>>>> SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>>>>>>>             közti[/Adj][Nom]
>>>>>>>             szüntet szüntet Z _ [szüntet[/V][Prs.NDef.3Sg]]
>>>>>>>
>>>>>>>             Értem én, de akkor valaki elmondhatná, hogy mi a
>>>>>>>             formátum: Az
>>>>>>>             első [/ -től van a címke vagy az első [ -től? És
>>>>>>>             ha az előbbi
>>>>>>>             akkor mit kezdjen a PurePOS a fenti "lemmakezdő
>>>>>>>             [" -el?
>>>>>>>
>>>>>>>             Most az egész  [szüntet[/V][Prs.NDef.3Sg]]
>>>>>>>             címkének van véve
>>>>>>>             és így halál lassú a tanítás(az eddigi 1026 uniq
>>>>>>>             cimke
>>>>>>>             helyett van 2408 a hülyeségekkel együtt), meg nem
>>>>>>>             is biztos,
>>>>>>>             hogy ez adja az elvárt eredményt...
>>>>>>>
>>>>>>>
>>>>>>>             Balázs
>>>>>>>
>>>>>>>
>>>>>>>             2016. július 28. 18:37 Indig Balázs írta,
>>>>>>>             <indig.balazs at itk.ppke.hu>:
>>>>>>>                   Sziasztok!
>>>>>>>
>>>>>>>                   Az új javított szeged korpuszhoz is
>>>>>>>             elérhető a
>>>>>>>                   PurePOS model itt:
>>>>>>>
>>>>>>>             http://pi.itk.ppke.hu/~dlazesz/infra/
>>>>>>>
>>>>>>>
>>>>>>>
>>>>>>>             Üdv,
>>>>>>>
>>>>>>>             Balázs
>>>>>>>
>>>>>>>             2016. július 28. 15:54 Veronika Vincze írta,
>>>>>>>             <vinczev at inf.u-szeged.hu>:
>>>>>>>
>>>>>>>                   Sziasztok,
>>>>>>>
>>>>>>>                   Javítottunk pár bugot a konvertálásban,
>>>>>>>                   most már elvben jó minden sor formátuma. A
>>>>>>>                   Szeged Korpusz teljes anyaga elérhető a
>>>>>>>
>>>>>>>
>>>>>>> http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
>>>>>>>
>>>>>>>                   címen. Ha bármilyen problémát találtok,
>>>>>>>                   jelezzétek, kérlek.
>>>>>>>
>>>>>>>                   @Attila: néha a képzett szavaknál a szófaj
>>>>>>>                   elől lemarad a / jel (pl. Dél-dunántúli
>>>>>>>                   Dél-dunántúli[Adj][Nom]), ezt mi elvben
>>>>>>>                   javítottuk a konverzió során, de az
>>>>>>>                   elemzőben is hasznos lenne átírni.
>>>>>>>
>>>>>>>                   Üdv:
>>>>>>>                   Vera
>>>>>>>
>>>>>>>                   On 2016.07.28. 13:46, Indig Balázs wrote:
>>>>>>>                   Kedves Mindenki!
>>>>>>>             PurePOS modellek és a szeged korpusz
>>>>>>>             formátumából purepos input formátumba
>>>>>>>             konvertáló script:
>>>>>>>
>>>>>>>             http://pi.itk.ppke.hu/~dlazesz/infra/
>>>>>>>
>>>>>>>             A szeged korpusz formátuma kicsit fura. Van
>>>>>>>             ahol nem csak 5 mező van És csomó helyen
>>>>>>>             viszonylag nehéz kinyerni, hogy mit is
>>>>>>>             akarhatott a szerző, hogy mi kerüljön a
>>>>>>>             PurePOS-ba. A konvertáló script tele van
>>>>>>>             ezirányú kommentekkel.
>>>>>>>
>>>>>>>             Ami a "PurePOS-beli morfológiát" illeti:
>>>>>>>
>>>>>>>             Így néz ki egy morfológiával szelektíven
>>>>>>>             annotált{{annotál[\V]||annotáció[\N]}}
>>>>>>>             input  sor .
>>>>>>>
>>>>>>>             Majd még fog alakulni a dolog. Most a héten
>>>>>>>             ez megy.
>>>>>>>
>>>>>>>
>>>>>>>             Üdv,
>>>>>>>
>>>>>>>             Balázs
>>>>>>>
>>>>>>>
>>>>>>>             2016. július 25. 13:52 Veronika Vincze
>>>>>>>             írta, <vinczev at inf.u-szeged.hu>:
>>>>>>>                   Kedves Mindenki,
>>>>>>>
>>>>>>>
>>>>>>>                   On 2016.07.25. 12:12, Sass
>>>>>>>                   Bálint wrote:
>>>>>>>
>>>>>>>                         2.
>>>>>>>                         Vera, esetleg írj
>>>>>>>                         pár szót a fájl
>>>>>>>                         oszlopairól,
>>>>>>>                         hogy igaziból
>>>>>>>                         melyik kell nekünk
>>>>>>>                         most.
>>>>>>>
>>>>>>>                         Megnéztem, sztem ez
>>>>>>>                         van:
>>>>>>>                         1. oszlop = szóalak
>>>>>>>                         5. oszlop = újkódos
>>>>>>>                         szótő + szófaj +
>>>>>>>                         elemzés
>>>>>>>
>>>>>>>                         Ugye ez a kettő
>>>>>>>                         kell most a
>>>>>>>                         tanításhoz,
>>>>>>>                         a 2-3-4. oszlop
>>>>>>>                         régi, így figyelmen
>>>>>>>                         kívül hagyandó?
>>>>>>>
>>>>>>>                         Szóval az 5.
>>>>>>>                         oszlopban lévő
>>>>>>>                         szótövet, szófajt
>>>>>>>                         és elemzést
>>>>>>>                         kellene rendre
>>>>>>>                         lemma, pos és
>>>>>>>                         feature -ként
>>>>>>>                         használni a
>>>>>>>                         tanításokhoz, ugye?
>>>>>>>                         :)
>>>>>>>
>>>>>>>                   Így igaz, az 1. és az 5. oszlop
>>>>>>>                   a fontos, a többit csak benne
>>>>>>>                   hagytuk a kiíratáskor.
>>>>>>>                         3.
>>>>>>>                         Tekintetbe véve,
>>>>>>>                         hogy hét végére
>>>>>>>                         mindennek mennie
>>>>>>>                         kellene
>>>>>>>                         valamilyen formában
>>>>>>>                         a honlap mögött,
>>>>>>>                         azt kérem, hogy
>>>>>>>                         mindenki (az alább
>>>>>>>                         említettek)
>>>>>>>                         tanítson egy
>>>>>>>                         modellt ezen a
>>>>>>>                         részkorpuszon, hogy
>>>>>>>                         legyen valami,
>>>>>>>                         aztán majd később
>>>>>>>                         legyenek meg a
>>>>>>>                         teljes korpuszon
>>>>>>>                         tanított modellek.
>>>>>>>
>>>>>>>                   Nekiállunk mi is szintaxist
>>>>>>>                   tanítani (plusz csináljuk a
>>>>>>>                   többi alkorpusz
>>>>>>>                   infrásmorfológiára való
>>>>>>>                   átalakítását), ez valószínűleg
>>>>>>>                   pár napot igénybe vesz nálunk.
>>>>>>>
>>>>>>>                   Üdv:
>>>>>>>                   Vera
>
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel

-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://corpus.nytud.hu/pipermail/nlp-infra-devel/attachments/20160802/d029e27c/attachment-0001.html>


More information about the nlp-infra-devel mailing list