[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás
Novák Attila
novakat at gmail.com
Fri Jul 29 13:00:40 CEST 2016
és a csatolmány
On 2016.07.29. 12:40, Novák Attila wrote:
> Szia Balázs (és mindenki)!
>
> A nem /-rel kezdo"do" POS címkéket én szúrtam el. Köszönöm a jelzést,
> elnézést kérek.
> Vera írta, hogy ilyeneket javítottak. Lehet, hogy nem minden esetben
> sikerült.
>> @Attila: néha a képzett szavaknál a szófaj elo"l lemarad a / jel (pl.
>> Dél-dunántúli Dél-dunántúli[Adj][Nom]), ezt mi elvben javítottuk a
>> konverzió során, de az elemzo"ben is hasznos lenne átírni.
>>
>> Üdv:
>> Vera
>
> Ha a csatolt scriptet lefuttatjátok az elemzett forráson, akkor
> kijavítja ezeket a hibákat, és a modell(eke)t így újra tudjátok tanítani.
>
> futtatás:
>
> perl postagfix.pl corpus-hibas-postagekkel.txt
> >corpus-javitott-postagekkel.txt
>
> Azért nézzétek meg, hogy tényleg azt csinálja, amit kell... :)
>
> Attila
>
>
>
>
> On 2016.07.29. 10:13, Indig Balázs wrote:
>> Sziasztok!
>>
>> 1412 egyedi címke. Jobb a helyzet...
>>
>> A PurePOS model frissült.
>>
>> Már tisztul a kép, de még nem értek bizonyos dolgokat (most PurePOS
>> jelölsében #-el elválasztva szóalak szóto" címke):
>>
>> 1) "leg"-et#"#[Punct] Ez miért Punct ha a mondatvégi pont vesszo"
>> stb. OTHER?
>> 2) Most akkor a címkének nem "[/" -el kelellene kezdo"dnie? Mert ezek
>> a címkék furák:
>>
>> 252623 OTHER
>> 1305 [Adj][Nom]
>> 26 [N|Acron][Acc]
>> 17 [N|Acron][Pl][Nom]
>> 14 [N|Acron][Transl]
>> 12 [Num][Nom]
>> 6 [Adj][Pl][Nom]
>> 5 [N|Acron][Ins]
>> 5 [N|Abbr][Dat]
>> 4 [N][Nom]
>> 4 [Adj|nat][Nom]
>> 3 [N][Poss.3Sg][Nom]
>> 3 [N|Acron][Pl][Subl]
>> 3 [Adj][All]
>> 2 [V][Inf]
>> 2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
>> 2 [N][Poss.3Sg][Acc]
>> 2 [N|Acron][Pl][All]
>> 2 [N|Acron][Pl][Acc]
>> 2 [N|Acron][Nom]
>> 2 [N|Abbr][Subl]
>> 2 [N|Abbr][All]
>> 2 [N|Abbr][Acc]
>> 1 [V][Pst.Def.3Sg]
>> 1 [V][Pst.Def.1Sg]
>> 1 [V][_Mod][Prs.NDef.3Pl]
>> 1 [V][_Mod][Prs.Def.3Sg][Punct]
>> 1 [Punct]
>> 1 POS
>> 1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
>> 1 [_PerfPtcp_Subj=tA/Adj][Nom]
>> 1 [N][Poss.3Pl][Nom]
>> 1 [N][All]
>> 1 [N|Acron][Subl]
>> 1 [N|Acron][Poss.1Sg][Subl]
>> 1 [N|Acron][Poss.1Pl][All]
>> 1 [N|Acron][Pl][Ter]
>> 1 [N|Acron][Pl][Ins]
>> 1 [N|Acron][Pl][Ine]
>> 1 [N|Acron][Ade]
>> 1 [N|Acron][Acc][Punct]
>> 1 [N][Acc]
>> 1 [N|Abbr][Ela]
>> 1 [Adj][Pl][Ade]
>> 1 [Adj][EssFor%:ként]
>> 1 [Adj]
>>
>>
>> Balázs
>>
>>
>> 2016. július 29. 9:46 Veronika Vincze írta, <vinczev at inf.u-szeged.hu
>> <mailto:vinczev at inf.u-szeged.hu>>:
>>
>> Sziasztok!
>>
>> A második hibát javítottuk a konverterben, frissültek a fájlok.
>>
>> Az elso" hiba nagyrészt tulajdonneveket érint, ha jól gondolom. A
>> Szeged Korpuszban ezek egységesen fo"névi címkét kaptak, még
>> akkor is, ha jelen esetben egy melléknév képezi a tulajdonnév
>> részét. A konverter úgy mu"ködik, hogy az új harmonizált kódok
>> közül választjuk ki az MSD-kód alapján a neki leginkább
>> megfelelo"t, vagyis itt most a fo"névi kódnak megfelelo"en
>> fo"névi kódot választ, ami persze nem helyes, de ezt
>> automatikusan nem tudjuk eldönteni. Sajnos arra most nincs se
>> ido"nk, se ero"forrásunk (Szegeden legalábbis), hogy ezeket az
>> eseteket kézzel egyértelmu"sítsük :(
>>
>> Üdv:
>> Vera
>>
>>
>> On 2016.07.29. 8:22, Indig Balázs wrote:
>>> Szasztok!
>>>
>>> @Vera:
>>>
>>> Megye -> Megy
>>>
>>> Jász-Nagykun-SzolnokJász-Nagykun-SzolnokNSubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=noneJász-Nagykun-Szolnok[/N][Nom]
>>> MegyeiMegyeiNSubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=noneMegy[/N][Pl.Poss.3Sg][Nom]
>>>
>>> És ebbo"l van egy csomó...
>>>
>>> Illetve a másik:
>>>
>>> AaTSubPOS=fa[/Det|art.Def]
>>> kétkétMSubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=nonekét[/Num|Attr][Nom]
>>> óraóraNSubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=noneóra[/N][Nom]
>>> köztiköztiASubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=noneközti[/Adj][Nom]
>>> szüntetszüntetZ_[szüntet[/V][Prs.NDef.3Sg]]
>>>
>>> Értem én, de akkor valaki elmondhatná, hogy mi a formátum: Az
>>> elso" [/ -to"l van a címke vagy az elso" [ -to"l? És ha az
>>> elo"bbi akkor mit kezdjen a PurePOS a fenti "lemmakezdo" [" -el?
>>>
>>> Most az egész [szüntet[/V][Prs.NDef.3Sg]] címkének van véve és
>>> így halál lassú a tanítás(az eddigi 1026 uniq cimke helyett van
>>> 2408 a hülyeségekkel együtt), meg nem is biztos, hogy ez adja az
>>> elvárt eredményt...
>>>
>>>
>>> Balázs
>>>
>>>
>>> 2016. július 28. 18:37 Indig Balázs írta,
>>> <indig.balazs at itk.ppke.hu <mailto:indig.balazs at itk.ppke.hu>>:
>>>
>>> Sziasztok!
>>>
>>> Az új javított szeged korpuszhoz is elérheto" a PurePOS
>>> model itt:
>>>
>>> http://pi.itk.ppke.hu/~dlazesz/infra/
>>> <http://pi.itk.ppke.hu/%7Edlazesz/infra/>
>>>
>>>
>>>
>>> Üdv,
>>>
>>> Balázs
>>>
>>> 2016. július 28. 15:54 Veronika Vincze írta,
>>> <vinczev at inf.u-szeged.hu <mailto:vinczev at inf.u-szeged.hu>>:
>>>
>>> Sziasztok,
>>>
>>> Javítottunk pár bugot a konvertálásban, most már elvben
>>> jó minden sor formátuma. A Szeged Korpusz teljes anyaga
>>> elérheto" a
>>>
>>> http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
>>> <http://www.inf.u-szeged.hu/%7Evinczev/infra/konvertalt_morf/>
>>>
>>> címen. Ha bármilyen problémát találtok, jelezzétek, kérlek.
>>>
>>> @Attila: néha a képzett szavaknál a szófaj elo"l lemarad
>>> a / jel (pl. Dél-dunántúli Dél-dunántúli[Adj][Nom]), ezt
>>> mi elvben javítottuk a konverzió során, de az elemzo"ben
>>> is hasznos lenne átírni.
>>>
>>> Üdv:
>>> Vera
>>>
>>>
>>> On 2016.07.28. 13:46, Indig Balázs wrote:
>>>> Kedves Mindenki!
>>>>
>>>> PurePOS modellek és a szeged korpusz formátumából
>>>> purepos input formátumba konvertáló script:
>>>>
>>>> http://pi.itk.ppke.hu/~dlazesz/infra/
>>>> <http://pi.itk.ppke.hu/%7Edlazesz/infra/>
>>>>
>>>> A szeged korpusz formátuma kicsit fura. Van ahol nem
>>>> csak 5 mezo" van És csomó helyen viszonylag nehéz
>>>> kinyerni, hogy mit is akarhatott a szerzo", hogy mi
>>>> kerüljön a PurePOS-ba. A konvertáló script tele van
>>>> ezirányú kommentekkel.
>>>>
>>>> Ami a "PurePOS-beli morfológiát" illeti:
>>>>
>>>> Így néz ki egy morfológiával szelektíven
>>>> annotált{{annotál[\V]||annotáció[\N]}} input sor .
>>>>
>>>> Majd még fog alakulni a dolog. Most a héten ez megy.
>>>>
>>>>
>>>> Üdv,
>>>>
>>>> Balázs
>>>>
>>>>
>>>> 2016. július 25. 13:52 Veronika Vincze írta,
>>>> <vinczev at inf.u-szeged.hu <mailto:vinczev at inf.u-szeged.hu>>:
>>>>
>>>> Kedves Mindenki,
>>>>
>>>>
>>>> On 2016.07.25. 12:12, Sass Bálint wrote:
>>>>
>>>>
>>>> 2.
>>>> Vera, esetleg írj pár szót a fájl oszlopairól,
>>>> hogy igaziból melyik kell nekünk most.
>>>>
>>>> Megnéztem, sztem ez van:
>>>> 1. oszlop = szóalak
>>>> 5. oszlop = újkódos szóto" + szófaj + elemzés
>>>>
>>>> Ugye ez a ketto" kell most a tanításhoz,
>>>> a 2-3-4. oszlop régi, így figyelmen kívül hagyandó?
>>>>
>>>> Szóval az 5. oszlopban lévo" szótövet, szófajt
>>>> és elemzést
>>>> kellene rendre lemma, pos és feature -ként
>>>> használni a tanításokhoz, ugye? :)
>>>>
>>>> Így igaz, az 1. és az 5. oszlop a fontos, a többit
>>>> csak benne hagytuk a kiíratáskor.
>>>>
>>>> 3.
>>>> Tekintetbe véve, hogy hét végére mindennek
>>>> mennie kellene
>>>> valamilyen formában a honlap mögött, azt kérem,
>>>> hogy
>>>> mindenki (az alább említettek)
>>>> tanítson egy modellt ezen a részkorpuszon, hogy
>>>> legyen valami,
>>>> aztán majd késo"bb legyenek meg a teljes
>>>> korpuszon tanított modellek.
>>>>
>>>> Nekiállunk mi is szintaxist tanítani (plusz
>>>> csináljuk a többi alkorpusz infrásmorfológiára való
>>>> átalakítását), ez valószínu"leg pár napot igénybe
>>>> vesz nálunk.
>>>>
>>>> Üdv:
>>>> Vera
>>>>
>>>>
>>>>
>>>> _______________________________________________
>>>> nlp-infra-devel mailing list
>>>> nlp-infra-devel at nytud.mta.hu
>>>> <mailto:nlp-infra-devel at nytud.mta.hu>
>>>> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>>>>
>>>>
>>>>
>>>>
>>>> _______________________________________________
>>>> nlp-infra-devel mailing list
>>>> nlp-infra-devel at nytud.mta.hu <mailto:nlp-infra-devel at nytud.mta.hu>
>>>> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>>>
>>>
>>> _______________________________________________
>>> nlp-infra-devel mailing list
>>> nlp-infra-devel at nytud.mta.hu
>>> <mailto:nlp-infra-devel at nytud.mta.hu>
>>> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>>>
>>>
>>>
>>>
>>>
>>> _______________________________________________
>>> nlp-infra-devel mailing list
>>> nlp-infra-devel at nytud.mta.hu <mailto:nlp-infra-devel at nytud.mta.hu>
>>> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>>
>>
>> _______________________________________________
>> nlp-infra-devel mailing list
>> nlp-infra-devel at nytud.mta.hu <mailto:nlp-infra-devel at nytud.mta.hu>
>> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>>
>>
>>
>>
>> _______________________________________________
>> nlp-infra-devel mailing list
>> nlp-infra-devel at nytud.mta.hu
>> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://corpus.nytud.hu/pipermail/nlp-infra-devel/attachments/20160729/5466bd97/attachment-0001.html>
-------------- next part --------------
while(<>)
{
s/\[(?=(?:N|Num|V|Adj)[\]|])/[\//g;
s#(?<!\])[_PerfPtcp_Subj=tA/Adj]#[/Adj]#g;
s/(\[[^\]]*)\%:/$1:/g;
print;
}
More information about the nlp-infra-devel
mailing list