[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás
Novák Attila
novakat at gmail.com
Fri Jul 29 12:40:52 CEST 2016
Szia Balázs (és mindenki)!
A nem /-rel kezdo"do" POS címkéket én szúrtam el. Köszönöm a jelzést,
elnézést kérek.
Vera írta, hogy ilyeneket javítottak. Lehet, hogy nem minden esetben
sikerült.
> @Attila: néha a képzett szavaknál a szófaj elo"l lemarad a / jel (pl.
> Dél-dunántúli Dél-dunántúli[Adj][Nom]), ezt mi elvben javítottuk a
> konverzió során, de az elemzo"ben is hasznos lenne átírni.
>
> Üdv:
> Vera
Ha a csatolt scriptet lefuttatjátok az elemzett forráson, akkor
kijavítja ezeket a hibákat, és a modell(eke)t így újra tudjátok tanítani.
futtatás:
perl postagfix.pl corpus-hibas-postagekkel.txt
>corpus-javitott-postagekkel.txt
Azért nézzétek meg, hogy tényleg azt csinálja, amit kell... :)
Attila
On 2016.07.29. 10:13, Indig Balázs wrote:
> Sziasztok!
>
> 1412 egyedi címke. Jobb a helyzet...
>
> A PurePOS model frissült.
>
> Már tisztul a kép, de még nem értek bizonyos dolgokat (most PurePOS
> jelölsében #-el elválasztva szóalak szóto" címke):
>
> 1) "leg"-et#"#[Punct] Ez miért Punct ha a mondatvégi pont vesszo"
> stb. OTHER?
> 2) Most akkor a címkének nem "[/" -el kelellene kezdo"dnie? Mert ezek
> a címkék furák:
>
> 252623 OTHER
> 1305 [Adj][Nom]
> 26 [N|Acron][Acc]
> 17 [N|Acron][Pl][Nom]
> 14 [N|Acron][Transl]
> 12 [Num][Nom]
> 6 [Adj][Pl][Nom]
> 5 [N|Acron][Ins]
> 5 [N|Abbr][Dat]
> 4 [N][Nom]
> 4 [Adj|nat][Nom]
> 3 [N][Poss.3Sg][Nom]
> 3 [N|Acron][Pl][Subl]
> 3 [Adj][All]
> 2 [V][Inf]
> 2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
> 2 [N][Poss.3Sg][Acc]
> 2 [N|Acron][Pl][All]
> 2 [N|Acron][Pl][Acc]
> 2 [N|Acron][Nom]
> 2 [N|Abbr][Subl]
> 2 [N|Abbr][All]
> 2 [N|Abbr][Acc]
> 1 [V][Pst.Def.3Sg]
> 1 [V][Pst.Def.1Sg]
> 1 [V][_Mod][Prs.NDef.3Pl]
> 1 [V][_Mod][Prs.Def.3Sg][Punct]
> 1 [Punct]
> 1 POS
> 1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
> 1 [_PerfPtcp_Subj=tA/Adj][Nom]
> 1 [N][Poss.3Pl][Nom]
> 1 [N][All]
> 1 [N|Acron][Subl]
> 1 [N|Acron][Poss.1Sg][Subl]
> 1 [N|Acron][Poss.1Pl][All]
> 1 [N|Acron][Pl][Ter]
> 1 [N|Acron][Pl][Ins]
> 1 [N|Acron][Pl][Ine]
> 1 [N|Acron][Ade]
> 1 [N|Acron][Acc][Punct]
> 1 [N][Acc]
> 1 [N|Abbr][Ela]
> 1 [Adj][Pl][Ade]
> 1 [Adj][EssFor%:ként]
> 1 [Adj]
>
>
> Balázs
>
>
> 2016. július 29. 9:46 Veronika Vincze írta, <vinczev at inf.u-szeged.hu
> <mailto:vinczev at inf.u-szeged.hu>>:
>
> Sziasztok!
>
> A második hibát javítottuk a konverterben, frissültek a fájlok.
>
> Az elso" hiba nagyrészt tulajdonneveket érint, ha jól gondolom. A
> Szeged Korpuszban ezek egységesen fo"névi címkét kaptak, még akkor
> is, ha jelen esetben egy melléknév képezi a tulajdonnév részét. A
> konverter úgy mu"ködik, hogy az új harmonizált kódok közül
> választjuk ki az MSD-kód alapján a neki leginkább megfelelo"t,
> vagyis itt most a fo"névi kódnak megfelelo"en fo"névi kódot
> választ, ami persze nem helyes, de ezt automatikusan nem tudjuk
> eldönteni. Sajnos arra most nincs se ido"nk, se ero"forrásunk
> (Szegeden legalábbis), hogy ezeket az eseteket kézzel
> egyértelmu"sítsük :(
>
> Üdv:
> Vera
>
>
> On 2016.07.29. 8:22, Indig Balázs wrote:
>> Szasztok!
>>
>> @Vera:
>>
>> Megye -> Megy
>>
>> Jász-Nagykun-SzolnokJász-Nagykun-SzolnokNSubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=noneJász-Nagykun-Szolnok[/N][Nom]
>> MegyeiMegyeiNSubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=noneMegy[/N][Pl.Poss.3Sg][Nom]
>>
>> És ebbo"l van egy csomó...
>>
>> Illetve a másik:
>>
>> AaTSubPOS=fa[/Det|art.Def]
>> kétkétMSubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=nonekét[/Num|Attr][Nom]
>> óraóraNSubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=noneóra[/N][Nom]
>> köztiköztiASubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=noneközti[/Adj][Nom]
>> szüntetszüntetZ_[szüntet[/V][Prs.NDef.3Sg]]
>>
>> Értem én, de akkor valaki elmondhatná, hogy mi a formátum: Az
>> elso" [/ -to"l van a címke vagy az elso" [ -to"l? És ha az
>> elo"bbi akkor mit kezdjen a PurePOS a fenti "lemmakezdo" [" -el?
>>
>> Most az egész [szüntet[/V][Prs.NDef.3Sg]] címkének van véve és
>> így halál lassú a tanítás(az eddigi 1026 uniq cimke helyett van
>> 2408 a hülyeségekkel együtt), meg nem is biztos, hogy ez adja az
>> elvárt eredményt...
>>
>>
>> Balázs
>>
>>
>> 2016. július 28. 18:37 Indig Balázs írta,
>> <indig.balazs at itk.ppke.hu <mailto:indig.balazs at itk.ppke.hu>>:
>>
>> Sziasztok!
>>
>> Az új javított szeged korpuszhoz is elérheto" a PurePOS model
>> itt:
>>
>> http://pi.itk.ppke.hu/~dlazesz/infra/
>> <http://pi.itk.ppke.hu/%7Edlazesz/infra/>
>>
>>
>>
>> Üdv,
>>
>> Balázs
>>
>> 2016. július 28. 15:54 Veronika Vincze írta,
>> <vinczev at inf.u-szeged.hu <mailto:vinczev at inf.u-szeged.hu>>:
>>
>> Sziasztok,
>>
>> Javítottunk pár bugot a konvertálásban, most már elvben
>> jó minden sor formátuma. A Szeged Korpusz teljes anyaga
>> elérheto" a
>>
>> http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/ <http://www.inf.u-szeged.hu/%7Evinczev/infra/konvertalt_morf/>
>>
>> címen. Ha bármilyen problémát találtok, jelezzétek, kérlek.
>>
>> @Attila: néha a képzett szavaknál a szófaj elo"l lemarad
>> a / jel (pl. Dél-dunántúli Dél-dunántúli[Adj][Nom]), ezt
>> mi elvben javítottuk a konverzió során, de az elemzo"ben
>> is hasznos lenne átírni.
>>
>> Üdv:
>> Vera
>>
>>
>> On 2016.07.28. 13:46, Indig Balázs wrote:
>>> Kedves Mindenki!
>>>
>>> PurePOS modellek és a szeged korpusz formátumából
>>> purepos input formátumba konvertáló script:
>>>
>>> http://pi.itk.ppke.hu/~dlazesz/infra/
>>> <http://pi.itk.ppke.hu/%7Edlazesz/infra/>
>>>
>>> A szeged korpusz formátuma kicsit fura. Van ahol nem
>>> csak 5 mezo" van És csomó helyen viszonylag nehéz
>>> kinyerni, hogy mit is akarhatott a szerzo", hogy mi
>>> kerüljön a PurePOS-ba. A konvertáló script tele van
>>> ezirányú kommentekkel.
>>>
>>> Ami a "PurePOS-beli morfológiát" illeti:
>>>
>>> Így néz ki egy morfológiával szelektíven
>>> annotált{{annotál[\V]||annotáció[\N]}} input sor .
>>>
>>> Majd még fog alakulni a dolog. Most a héten ez megy.
>>>
>>>
>>> Üdv,
>>>
>>> Balázs
>>>
>>>
>>> 2016. július 25. 13:52 Veronika Vincze írta,
>>> <vinczev at inf.u-szeged.hu <mailto:vinczev at inf.u-szeged.hu>>:
>>>
>>> Kedves Mindenki,
>>>
>>>
>>> On 2016.07.25. 12:12, Sass Bálint wrote:
>>>
>>>
>>> 2.
>>> Vera, esetleg írj pár szót a fájl oszlopairól,
>>> hogy igaziból melyik kell nekünk most.
>>>
>>> Megnéztem, sztem ez van:
>>> 1. oszlop = szóalak
>>> 5. oszlop = újkódos szóto" + szófaj + elemzés
>>>
>>> Ugye ez a ketto" kell most a tanításhoz,
>>> a 2-3-4. oszlop régi, így figyelmen kívül hagyandó?
>>>
>>> Szóval az 5. oszlopban lévo" szótövet, szófajt
>>> és elemzést
>>> kellene rendre lemma, pos és feature -ként
>>> használni a tanításokhoz, ugye? :)
>>>
>>> Így igaz, az 1. és az 5. oszlop a fontos, a többit
>>> csak benne hagytuk a kiíratáskor.
>>>
>>> 3.
>>> Tekintetbe véve, hogy hét végére mindennek
>>> mennie kellene
>>> valamilyen formában a honlap mögött, azt kérem, hogy
>>> mindenki (az alább említettek)
>>> tanítson egy modellt ezen a részkorpuszon, hogy
>>> legyen valami,
>>> aztán majd késo"bb legyenek meg a teljes
>>> korpuszon tanított modellek.
>>>
>>> Nekiállunk mi is szintaxist tanítani (plusz
>>> csináljuk a többi alkorpusz infrásmorfológiára való
>>> átalakítását), ez valószínu"leg pár napot igénybe
>>> vesz nálunk.
>>>
>>> Üdv:
>>> Vera
>>>
>>>
>>>
>>> _______________________________________________
>>> nlp-infra-devel mailing list
>>> nlp-infra-devel at nytud.mta.hu
>>> <mailto:nlp-infra-devel at nytud.mta.hu>
>>> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>>>
>>>
>>>
>>>
>>> _______________________________________________
>>> nlp-infra-devel mailing list
>>> nlp-infra-devel at nytud.mta.hu <mailto:nlp-infra-devel at nytud.mta.hu>
>>> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>>
>>
>> _______________________________________________
>> nlp-infra-devel mailing list
>> nlp-infra-devel at nytud.mta.hu
>> <mailto:nlp-infra-devel at nytud.mta.hu>
>> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>>
>>
>>
>>
>>
>> _______________________________________________
>> nlp-infra-devel mailing list
>> nlp-infra-devel at nytud.mta.hu <mailto:nlp-infra-devel at nytud.mta.hu>
>> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu <mailto:nlp-infra-devel at nytud.mta.hu>
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>
>
>
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://corpus.nytud.hu/pipermail/nlp-infra-devel/attachments/20160729/b4088638/attachment-0001.html>
More information about the nlp-infra-devel
mailing list