[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás

D'Lazesz dlazesz at gmail.com
Fri Jul 29 13:57:46 CEST 2016


@Bálint: Ha ez kérdés volt, akkor a válasz: Igen, ez a ma 9:35 körüli
Szeged korpusz állapotokat tükrözi és majd frissítem, ha lesz "új,
mindenhol peres" javított korpusz.


Balázs

2016. július 29. 12:06 Sass Bálint írta, <joker at nytud.hu>:

> Sziasztok!
>
> Most akkor ez a modell lesz az, amit az infra2 láncba,
> az e-magyar.hu honlap mögé beteszünk:
>
> http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new
>
> időbélyege: 2016-07-29 10:10 mérete: 82M
>
> Kösz szépen mindenkinek a közreműködést ebben.
>
> A két szintaktikai modellt még nagyon várjuk! :)
>
> Üdv:
> Bálint
>
> Ezt írta ma Balázs:
>
> Sziasztok!
>>
>> 1412 egyedi címke. Jobb a helyzet...
>>
>> A PurePOS model frissült.
>> Már tisztul a kép, de még nem értek bizonyos dolgokat (most PurePOS
>> jelölsében #-el elválasztva szóalak szótő címke):
>>
>> 1) "leg"-et#"#[Punct]  Ez miért Punct ha a mondatvégi pont vessző stb.
>> OTHER?
>> 2) Most akkor a címkének nem "[/" -el kelellene kezdődnie? Mert ezek a
>> címkék furák:
>>
>>  252623 OTHER
>>    1305 [Adj][Nom]
>>      26 [N|Acron][Acc]
>>      17 [N|Acron][Pl][Nom]
>>      14 [N|Acron][Transl]
>>      12 [Num][Nom]
>>       6 [Adj][Pl][Nom]
>>       5 [N|Acron][Ins]
>>       5 [N|Abbr][Dat]
>>       4 [N][Nom]
>>       4 [Adj|nat][Nom]
>>       3 [N][Poss.3Sg][Nom]
>>       3 [N|Acron][Pl][Subl]
>>       3 [Adj][All]
>>       2 [V][Inf]
>>       2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
>>       2 [N][Poss.3Sg][Acc]
>>       2 [N|Acron][Pl][All]
>>       2 [N|Acron][Pl][Acc]
>>       2 [N|Acron][Nom]
>>       2 [N|Abbr][Subl]
>>       2 [N|Abbr][All]
>>       2 [N|Abbr][Acc]
>>       1 [V][Pst.Def.3Sg]
>>       1 [V][Pst.Def.1Sg]
>>       1 [V][_Mod][Prs.NDef.3Pl]
>>       1 [V][_Mod][Prs.Def.3Sg][Punct]
>>       1 [Punct]
>>       1 POS
>>       1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
>>       1 [_PerfPtcp_Subj=tA/Adj][Nom]
>>       1 [N][Poss.3Pl][Nom]
>>       1 [N][All]
>>       1 [N|Acron][Subl]
>>       1 [N|Acron][Poss.1Sg][Subl]
>>       1 [N|Acron][Poss.1Pl][All]
>>       1 [N|Acron][Pl][Ter]
>>       1 [N|Acron][Pl][Ins]
>>       1 [N|Acron][Pl][Ine]
>>       1 [N|Acron][Ade]
>>       1 [N|Acron][Acc][Punct]
>>       1 [N][Acc]
>>       1 [N|Abbr][Ela]
>>       1 [Adj][Pl][Ade]
>>       1 [Adj][EssFor%:ként]
>>       1 [Adj]
>>
>>
>> Balázs
>>
>>
>> 2016. július 29. 9:46 Veronika Vincze írta, <vinczev at inf.u-szeged.hu>:
>>
>>       Sziasztok!
>>
>>       A második hibát javítottuk a konverterben, frissültek a
>>       fájlok.
>>
>>       Az első hiba nagyrészt tulajdonneveket érint, ha jól
>>       gondolom. A Szeged Korpuszban ezek egységesen főnévi címkét
>>       kaptak, még akkor is, ha jelen esetben egy melléknév képezi a
>>       tulajdonnév részét. A konverter úgy működik, hogy az új
>>       harmonizált kódok közül választjuk ki az MSD-kód alapján a
>>       neki leginkább megfelelőt, vagyis itt most a főnévi kódnak
>>       megfelelően főnévi kódot választ, ami persze nem helyes, de
>>       ezt automatikusan nem tudjuk eldönteni. Sajnos arra most
>>       nincs se időnk, se erőforrásunk (Szegeden legalábbis), hogy
>>       ezeket az eseteket kézzel egyértelműsítsük :(
>>
>>       Üdv:
>>       Vera
>>
>>
>>       On 2016.07.29. 8:22, Indig Balázs wrote:
>>       Szasztok!
>> @Vera:
>>
>> Megye -> Megy
>>
>> Jász-Nagykun-Szolnok Jász-Nagykun-Szolnok N
>> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>> Jász-Nagykun-Szolnok[/N][Nom]
>> Megyei Megyei N
>> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>> Megy[/N][Pl.Poss.3Sg][Nom]
>>
>> És ebből van egy csomó...
>>
>> Illetve a másik:
>>
>> A a T SubPOS=f a[/Det|art.Def]
>> két két M
>> SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none
>> két[/Num|Attr][Nom]
>> óra óra N SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>> óra[/N][Nom]
>> közti közti A
>> SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>> közti[/Adj][Nom]
>> szüntet szüntet Z _ [szüntet[/V][Prs.NDef.3Sg]]
>>
>> Értem én, de akkor valaki elmondhatná, hogy mi a formátum: Az
>> első [/ -től van a címke vagy az első [ -től? És ha az előbbi
>> akkor mit kezdjen a PurePOS a fenti "lemmakezdő [" -el?
>>
>> Most az egész  [szüntet[/V][Prs.NDef.3Sg]] címkének van véve
>> és így halál lassú a tanítás(az eddigi 1026 uniq cimke
>> helyett van 2408 a hülyeségekkel együtt), meg nem is biztos,
>> hogy ez adja az elvárt eredményt...
>>
>>
>> Balázs
>>
>>
>> 2016. július 28. 18:37 Indig Balázs írta,
>> <indig.balazs at itk.ppke.hu>:
>>       Sziasztok!
>>
>>       Az új javított szeged korpuszhoz is elérhető a
>>       PurePOS model itt:
>>
>> http://pi.itk.ppke.hu/~dlazesz/infra/
>>
>>
>>
>> Üdv,
>>
>> Balázs
>>
>> 2016. július 28. 15:54 Veronika Vincze írta,
>> <vinczev at inf.u-szeged.hu>:
>>
>>       Sziasztok,
>>
>>       Javítottunk pár bugot a konvertálásban,
>>       most már elvben jó minden sor formátuma. A
>>       Szeged Korpusz teljes anyaga elérhető a
>>
>>       http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
>>
>>       címen. Ha bármilyen problémát találtok,
>>       jelezzétek, kérlek.
>>
>>       @Attila: néha a képzett szavaknál a szófaj
>>       elől lemarad a / jel (pl. Dél-dunántúli
>>       Dél-dunántúli[Adj][Nom]), ezt mi elvben
>>       javítottuk a konverzió során, de az
>>       elemzőben is hasznos lenne átírni.
>>
>>       Üdv:
>>       Vera
>>
>>       On 2016.07.28. 13:46, Indig Balázs wrote:
>>       Kedves Mindenki!
>> PurePOS modellek és a szeged korpusz
>> formátumából purepos input formátumba
>> konvertáló script:
>>
>> http://pi.itk.ppke.hu/~dlazesz/infra/
>>
>> A szeged korpusz formátuma kicsit fura. Van
>> ahol nem csak 5 mező van És csomó helyen
>> viszonylag nehéz kinyerni, hogy mit is
>> akarhatott a szerző, hogy mi kerüljön a
>> PurePOS-ba. A konvertáló script tele van
>> ezirányú kommentekkel.
>>
>> Ami a "PurePOS-beli morfológiát" illeti:
>>
>> Így néz ki egy morfológiával szelektíven
>> annotált{{annotál[\V]||annotáció[\N]}}
>> input  sor .
>>
>> Majd még fog alakulni a dolog. Most a héten
>> ez megy.
>>
>>
>> Üdv,
>>
>> Balázs
>>
>>
>> 2016. július 25. 13:52 Veronika Vincze
>> írta, <vinczev at inf.u-szeged.hu>:
>>       Kedves Mindenki,
>>
>>
>>       On 2016.07.25. 12:12, Sass
>>       Bálint wrote:
>>
>>             2.
>>             Vera, esetleg írj
>>             pár szót a fájl
>>             oszlopairól,
>>             hogy igaziból
>>             melyik kell nekünk
>>             most.
>>
>>             Megnéztem, sztem ez
>>             van:
>>             1. oszlop = szóalak
>>             5. oszlop = újkódos
>>             szótő + szófaj +
>>             elemzés
>>
>>             Ugye ez a kettő
>>             kell most a
>>             tanításhoz,
>>             a 2-3-4. oszlop
>>             régi, így figyelmen
>>             kívül hagyandó?
>>
>>             Szóval az 5.
>>             oszlopban lévő
>>             szótövet, szófajt
>>             és elemzést
>>             kellene rendre
>>             lemma, pos és
>>             feature -ként
>>             használni a
>>             tanításokhoz, ugye?
>>             :)
>>
>>       Így igaz, az 1. és az 5. oszlop
>>       a fontos, a többit csak benne
>>       hagytuk a kiíratáskor.
>>             3.
>>             Tekintetbe véve,
>>             hogy hét végére
>>             mindennek mennie
>>             kellene
>>             valamilyen formában
>>             a honlap mögött,
>>             azt kérem, hogy
>>             mindenki (az alább
>>             említettek)
>>             tanítson egy
>>             modellt ezen a
>>             részkorpuszon, hogy
>>             legyen valami,
>>             aztán majd később
>>             legyenek meg a
>>             teljes korpuszon
>>             tanított modellek.
>>
>>       Nekiállunk mi is szintaxist
>>       tanítani (plusz csináljuk a
>>       többi alkorpusz
>>       infrásmorfológiára való
>>       átalakítását), ez valószínűleg
>>       pár napot igénybe vesz nálunk.
>>
>>       Üdv:
>>       Vera
>>
>
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://corpus.nytud.hu/pipermail/nlp-infra-devel/attachments/20160729/edb6881a/attachment.html>


More information about the nlp-infra-devel mailing list