[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás
Veronika Vincze
vinczev at inf.u-szeged.hu
Fri Jul 29 09:46:53 CEST 2016
Sziasztok!
A második hibát javítottuk a konverterben, frissültek a fájlok.
Az első hiba nagyrészt tulajdonneveket érint, ha jól gondolom. A Szeged
Korpuszban ezek egységesen főnévi címkét kaptak, még akkor is, ha jelen
esetben egy melléknév képezi a tulajdonnév részét. A konverter úgy
működik, hogy az új harmonizált kódok közül választjuk ki az MSD-kód
alapján a neki leginkább megfelelőt, vagyis itt most a főnévi kódnak
megfelelően főnévi kódot választ, ami persze nem helyes, de ezt
automatikusan nem tudjuk eldönteni. Sajnos arra most nincs se időnk, se
erőforrásunk (Szegeden legalábbis), hogy ezeket az eseteket kézzel
egyértelműsítsük :(
Üdv:
Vera
On 2016.07.29. 8:22, Indig Balázs wrote:
> Szasztok!
>
> @Vera:
>
> Megye -> Megy
>
> Jász-Nagykun-SzolnokJász-Nagykun-SzolnokNSubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=noneJász-Nagykun-Szolnok[/N][Nom]
> MegyeiMegyeiNSubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=noneMegy[/N][Pl.Poss.3Sg][Nom]
>
> És ebből van egy csomó...
>
> Illetve a másik:
>
> AaTSubPOS=fa[/Det|art.Def]
> kétkétMSubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=nonekét[/Num|Attr][Nom]
> óraóraNSubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=noneóra[/N][Nom]
> köztiköztiASubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=noneközti[/Adj][Nom]
> szüntetszüntetZ_[szüntet[/V][Prs.NDef.3Sg]]
>
> Értem én, de akkor valaki elmondhatná, hogy mi a formátum: Az első [/
> -től van a címke vagy az első [ -től? És ha az előbbi akkor mit
> kezdjen a PurePOS a fenti "lemmakezdő [" -el?
>
> Most az egész [szüntet[/V][Prs.NDef.3Sg]] címkének van véve és így
> halál lassú a tanítás(az eddigi 1026 uniq cimke helyett van 2408 a
> hülyeségekkel együtt), meg nem is biztos, hogy ez adja az elvárt
> eredményt...
>
>
> Balázs
>
>
> 2016. július 28. 18:37 Indig Balázs írta, <indig.balazs at itk.ppke.hu
> <mailto:indig.balazs at itk.ppke.hu>>:
>
> Sziasztok!
>
> Az új javított szeged korpuszhoz is elérhető a PurePOS model itt:
>
> http://pi.itk.ppke.hu/~dlazesz/infra/
> <http://pi.itk.ppke.hu/%7Edlazesz/infra/>
>
>
>
> Üdv,
>
> Balázs
>
> 2016. július 28. 15:54 Veronika Vincze írta,
> <vinczev at inf.u-szeged.hu <mailto:vinczev at inf.u-szeged.hu>>:
>
> Sziasztok,
>
> Javítottunk pár bugot a konvertálásban, most már elvben jó
> minden sor formátuma. A Szeged Korpusz teljes anyaga elérhető a
>
> http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
> <http://www.inf.u-szeged.hu/%7Evinczev/infra/konvertalt_morf/>
>
> címen. Ha bármilyen problémát találtok, jelezzétek, kérlek.
>
> @Attila: néha a képzett szavaknál a szófaj elől lemarad a /
> jel (pl. Dél-dunántúli Dél-dunántúli[Adj][Nom]), ezt mi elvben
> javítottuk a konverzió során, de az elemzőben is hasznos lenne
> átírni.
>
> Üdv:
> Vera
>
>
> On 2016.07.28. 13:46, Indig Balázs wrote:
>> Kedves Mindenki!
>>
>> PurePOS modellek és a szeged korpusz formátumából purepos
>> input formátumba konvertáló script:
>>
>> http://pi.itk.ppke.hu/~dlazesz/infra/
>> <http://pi.itk.ppke.hu/%7Edlazesz/infra/>
>>
>> A szeged korpusz formátuma kicsit fura. Van ahol nem csak 5
>> mező van És csomó helyen viszonylag nehéz kinyerni, hogy mit
>> is akarhatott a szerző, hogy mi kerüljön a PurePOS-ba. A
>> konvertáló script tele van ezirányú kommentekkel.
>>
>> Ami a "PurePOS-beli morfológiát" illeti:
>>
>> Így néz ki egy morfológiával szelektíven
>> annotált{{annotál[\V]||annotáció[\N]}} input sor .
>>
>> Majd még fog alakulni a dolog. Most a héten ez megy.
>>
>>
>> Üdv,
>>
>> Balázs
>>
>>
>> 2016. július 25. 13:52 Veronika Vincze írta,
>> <vinczev at inf.u-szeged.hu <mailto:vinczev at inf.u-szeged.hu>>:
>>
>> Kedves Mindenki,
>>
>>
>> On 2016.07.25. 12:12, Sass Bálint wrote:
>>
>>
>> 2.
>> Vera, esetleg írj pár szót a fájl oszlopairól,
>> hogy igaziból melyik kell nekünk most.
>>
>> Megnéztem, sztem ez van:
>> 1. oszlop = szóalak
>> 5. oszlop = újkódos szótő + szófaj + elemzés
>>
>> Ugye ez a kettő kell most a tanításhoz,
>> a 2-3-4. oszlop régi, így figyelmen kívül hagyandó?
>>
>> Szóval az 5. oszlopban lévő szótövet, szófajt és elemzést
>> kellene rendre lemma, pos és feature -ként
>> használni a tanításokhoz, ugye? :)
>>
>> Így igaz, az 1. és az 5. oszlop a fontos, a többit csak
>> benne hagytuk a kiíratáskor.
>>
>> 3.
>> Tekintetbe véve, hogy hét végére mindennek mennie kellene
>> valamilyen formában a honlap mögött, azt kérem, hogy
>> mindenki (az alább említettek)
>> tanítson egy modellt ezen a részkorpuszon, hogy
>> legyen valami,
>> aztán majd később legyenek meg a teljes korpuszon
>> tanított modellek.
>>
>> Nekiállunk mi is szintaxist tanítani (plusz csináljuk a
>> többi alkorpusz infrásmorfológiára való átalakítását), ez
>> valószínűleg pár napot igénybe vesz nálunk.
>>
>> Üdv:
>> Vera
>>
>>
>>
>> _______________________________________________
>> nlp-infra-devel mailing list
>> nlp-infra-devel at nytud.mta.hu
>> <mailto:nlp-infra-devel at nytud.mta.hu>
>> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>>
>>
>>
>>
>> _______________________________________________
>> nlp-infra-devel mailing list
>> nlp-infra-devel at nytud.mta.hu
>> <mailto:nlp-infra-devel at nytud.mta.hu>
>> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu <mailto:nlp-infra-devel at nytud.mta.hu>
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>
>
>
>
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://corpus.nytud.hu/pipermail/nlp-infra-devel/attachments/20160729/7063d97b/attachment-0001.html>
More information about the nlp-infra-devel
mailing list