[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás

Indig Balázs indig.balazs at itk.ppke.hu
Fri Jul 29 10:13:23 CEST 2016


Sziasztok!

1412 egyedi címke. Jobb a helyzet...

A PurePOS model frissült.

Már tisztul a kép, de még nem értek bizonyos dolgokat (most PurePOS
jelölsében #-el elválasztva szóalak szótő címke):

1) "leg"-et#"#[Punct]  Ez miért Punct ha a mondatvégi pont vessző stb.
OTHER?
2) Most akkor a címkének nem "[/" -el kelellene kezdődnie? Mert ezek a
címkék furák:

 252623 OTHER
   1305 [Adj][Nom]
     26 [N|Acron][Acc]
     17 [N|Acron][Pl][Nom]
     14 [N|Acron][Transl]
     12 [Num][Nom]
      6 [Adj][Pl][Nom]
      5 [N|Acron][Ins]
      5 [N|Abbr][Dat]
      4 [N][Nom]
      4 [Adj|nat][Nom]
      3 [N][Poss.3Sg][Nom]
      3 [N|Acron][Pl][Subl]
      3 [Adj][All]
      2 [V][Inf]
      2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
      2 [N][Poss.3Sg][Acc]
      2 [N|Acron][Pl][All]
      2 [N|Acron][Pl][Acc]
      2 [N|Acron][Nom]
      2 [N|Abbr][Subl]
      2 [N|Abbr][All]
      2 [N|Abbr][Acc]
      1 [V][Pst.Def.3Sg]
      1 [V][Pst.Def.1Sg]
      1 [V][_Mod][Prs.NDef.3Pl]
      1 [V][_Mod][Prs.Def.3Sg][Punct]
      1 [Punct]
      1 POS
      1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
      1 [_PerfPtcp_Subj=tA/Adj][Nom]
      1 [N][Poss.3Pl][Nom]
      1 [N][All]
      1 [N|Acron][Subl]
      1 [N|Acron][Poss.1Sg][Subl]
      1 [N|Acron][Poss.1Pl][All]
      1 [N|Acron][Pl][Ter]
      1 [N|Acron][Pl][Ins]
      1 [N|Acron][Pl][Ine]
      1 [N|Acron][Ade]
      1 [N|Acron][Acc][Punct]
      1 [N][Acc]
      1 [N|Abbr][Ela]
      1 [Adj][Pl][Ade]
      1 [Adj][EssFor%:ként]
      1 [Adj]


Balázs


2016. július 29. 9:46 Veronika Vincze írta, <vinczev at inf.u-szeged.hu>:

> Sziasztok!
>
> A második hibát javítottuk a konverterben, frissültek a fájlok.
>
> Az első hiba nagyrészt tulajdonneveket érint, ha jól gondolom. A Szeged
> Korpuszban ezek egységesen főnévi címkét kaptak, még akkor is, ha jelen
> esetben egy melléknév képezi a tulajdonnév részét. A konverter úgy működik,
> hogy az új harmonizált kódok közül választjuk ki az MSD-kód alapján a neki
> leginkább megfelelőt, vagyis itt most a főnévi kódnak megfelelően főnévi
> kódot választ, ami persze nem helyes, de ezt automatikusan nem tudjuk
> eldönteni. Sajnos arra most nincs se időnk, se erőforrásunk (Szegeden
> legalábbis), hogy ezeket az eseteket kézzel egyértelműsítsük :(
>
> Üdv:
> Vera
>
> On 2016.07.29. 8:22, Indig Balázs wrote:
>
> Szasztok!
>
> @Vera:
>
> Megye -> Megy
>
> Jász-Nagykun-Szolnok Jász-Nagykun-Szolnok N
> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
> Jász-Nagykun-Szolnok[/N][Nom]
> Megyei Megyei N SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
> Megy[/N][Pl.Poss.3Sg][Nom]
>
> És ebből van egy csomó...
>
> Illetve a másik:
>
> A a T SubPOS=f a[/Det|art.Def]
> két két M SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none
> két[/Num|Attr][Nom]
> óra óra N SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none óra[/N][Nom]
> közti közti A SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
> közti[/Adj][Nom]
> szüntet szüntet Z _ [szüntet[/V][Prs.NDef.3Sg]]
>
> Értem én, de akkor valaki elmondhatná, hogy mi a formátum: Az első [/ -től
> van a címke vagy az első [ -től? És ha az előbbi akkor mit kezdjen a
> PurePOS a fenti "lemmakezdő [" -el?
>
> Most az egész  [szüntet[/V][Prs.NDef.3Sg]] címkének van véve és így halál
> lassú a tanítás(az eddigi 1026 uniq cimke helyett van 2408 a hülyeségekkel
> együtt), meg nem is biztos, hogy ez adja az elvárt eredményt...
>
>
> Balázs
>
>
> 2016. július 28. 18:37 Indig Balázs írta, <indig.balazs at itk.ppke.hu>:
>
>> Sziasztok!
>>
>> Az új javított szeged korpuszhoz is elérhető a PurePOS model itt:
>>
>> http://pi.itk.ppke.hu/~dlazesz/infra/
>>
>>
>>
>> Üdv,
>>
>> Balázs
>>
>> 2016. július 28. 15:54 Veronika Vincze írta, <vinczev at inf.u-szeged.hu>:
>>
>>> Sziasztok,
>>>
>>> Javítottunk pár bugot a konvertálásban, most már elvben jó minden sor
>>> formátuma. A Szeged Korpusz teljes anyaga elérhető a
>>> http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
>>>
>>> címen. Ha bármilyen problémát találtok, jelezzétek, kérlek.
>>>
>>> @Attila: néha a képzett szavaknál a szófaj elől lemarad a / jel (pl.
>>> Dél-dunántúli    Dél-dunántúli[Adj][Nom]), ezt mi elvben javítottuk a
>>> konverzió során, de az elemzőben is hasznos lenne átírni.
>>>
>>> Üdv:
>>> Vera
>>>
>>>
>>> On 2016.07.28. 13:46, Indig Balázs wrote:
>>>
>>> Kedves Mindenki!
>>>
>>> PurePOS modellek és a szeged korpusz formátumából purepos input
>>> formátumba konvertáló script:
>>>
>>> http://pi.itk.ppke.hu/~dlazesz/infra/
>>>
>>> A szeged korpusz formátuma kicsit fura. Van ahol nem csak 5 mező van És
>>> csomó helyen viszonylag nehéz kinyerni, hogy mit is akarhatott a szerző,
>>> hogy mi kerüljön a PurePOS-ba. A konvertáló script tele van ezirányú
>>> kommentekkel.
>>>
>>> Ami a "PurePOS-beli morfológiát" illeti:
>>>
>>> Így néz ki egy morfológiával szelektíven
>>> annotált{{annotál[\V]||annotáció[\N]}} input  sor .
>>>
>>> Majd még fog alakulni a dolog. Most a héten ez megy.
>>>
>>>
>>> Üdv,
>>>
>>> Balázs
>>>
>>>
>>> 2016. július 25. 13:52 Veronika Vincze írta, <vinczev at inf.u-szeged.hu>:
>>>
>>>> Kedves Mindenki,
>>>>
>>>>
>>>> On 2016.07.25. 12:12, Sass Bálint wrote:
>>>>
>>>>>
>>>>> 2.
>>>>> Vera, esetleg írj pár szót a fájl oszlopairól,
>>>>> hogy igaziból melyik kell nekünk most.
>>>>>
>>>>> Megnéztem, sztem ez van:
>>>>> 1. oszlop = szóalak
>>>>> 5. oszlop = újkódos szótő + szófaj + elemzés
>>>>>
>>>>> Ugye ez a kettő kell most a tanításhoz,
>>>>> a 2-3-4. oszlop régi, így figyelmen kívül hagyandó?
>>>>>
>>>>> Szóval az 5. oszlopban lévő szótövet, szófajt és elemzést
>>>>> kellene rendre lemma, pos és feature -ként
>>>>> használni a tanításokhoz, ugye? :)
>>>>>
>>>> Így igaz, az 1. és az 5. oszlop a fontos, a többit csak benne hagytuk a
>>>> kiíratáskor.
>>>>
>>>>> 3.
>>>>> Tekintetbe véve, hogy hét végére mindennek mennie kellene
>>>>> valamilyen formában a honlap mögött, azt kérem, hogy
>>>>> mindenki (az alább említettek)
>>>>> tanítson egy modellt ezen a részkorpuszon, hogy legyen valami,
>>>>> aztán majd később legyenek meg a teljes korpuszon tanított modellek.
>>>>>
>>>> Nekiállunk mi is szintaxist tanítani (plusz csináljuk a többi alkorpusz
>>>> infrásmorfológiára való átalakítását), ez valószínűleg pár napot igénybe
>>>> vesz nálunk.
>>>>
>>>> Üdv:
>>>> Vera
>>>>
>>>>
>>>>
>>>> _______________________________________________
>>>> nlp-infra-devel mailing list
>>>> nlp-infra-devel at nytud.mta.hu
>>>> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>>>>
>>>
>>>
>>>
>>> _______________________________________________
>>> nlp-infra-devel mailing listnlp-infra-devel at nytud.mta.huhttp://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>>>
>>>
>>>
>>> _______________________________________________
>>> nlp-infra-devel mailing list
>>> nlp-infra-devel at nytud.mta.hu
>>> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>>>
>>>
>>
>
>
> _______________________________________________
> nlp-infra-devel mailing listnlp-infra-devel at nytud.mta.huhttp://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>
>
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>
>
--------- k�vetkez� r�sz ---------
Egy csatolt HTML �llom�ny �t lett konvert�lva...
URL: <http://corpus.nytud.hu/pipermail/nlp-infra-devel/attachments/20160729/58ad1537/attachment-0001.html>


More information about the nlp-infra-devel mailing list