[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás

Novák Attila novakat at gmail.com
Fri Jul 29 13:00:40 CEST 2016


és a csatolmány
On 2016.07.29. 12:40, Novák Attila wrote:
> Szia Balázs (és mindenki)!
>
> A nem /-rel kezdo"do" POS címkéket én szúrtam el. Köszönöm a jelzést, 
> elnézést kérek.
> Vera írta, hogy ilyeneket javítottak. Lehet, hogy nem minden esetben 
> sikerült.
>> @Attila: néha a képzett szavaknál a szófaj elo"l lemarad a / jel (pl. 
>> Dél-dunántúli Dél-dunántúli[Adj][Nom]), ezt mi elvben javítottuk a 
>> konverzió során, de az elemzo"ben is hasznos lenne átírni.
>>
>> Üdv:
>> Vera
>
> Ha a csatolt scriptet lefuttatjátok az elemzett forráson, akkor 
> kijavítja ezeket a hibákat, és a modell(eke)t így újra tudjátok tanítani.
>
> futtatás:
>
> perl postagfix.pl corpus-hibas-postagekkel.txt 
> >corpus-javitott-postagekkel.txt
>
> Azért nézzétek meg, hogy tényleg azt csinálja, amit kell... :)
>
> Attila
>
>
>
>
> On 2016.07.29. 10:13, Indig Balázs wrote:
>> Sziasztok!
>>
>> 1412 egyedi címke. Jobb a helyzet...
>>
>> A PurePOS model frissült.
>>
>> Már tisztul a kép, de még nem értek bizonyos dolgokat (most PurePOS 
>> jelölsében #-el elválasztva szóalak szóto" címke):
>>
>> 1) "leg"-et#"#[Punct]  Ez miért Punct ha a mondatvégi pont vesszo" 
>> stb. OTHER?
>> 2) Most akkor a címkének nem "[/" -el kelellene kezdo"dnie? Mert ezek 
>> a címkék furák:
>>
>>  252623 OTHER
>>    1305 [Adj][Nom]
>>      26 [N|Acron][Acc]
>>      17 [N|Acron][Pl][Nom]
>>      14 [N|Acron][Transl]
>>      12 [Num][Nom]
>>       6 [Adj][Pl][Nom]
>>       5 [N|Acron][Ins]
>>       5 [N|Abbr][Dat]
>>       4 [N][Nom]
>>       4 [Adj|nat][Nom]
>>       3 [N][Poss.3Sg][Nom]
>>       3 [N|Acron][Pl][Subl]
>>       3 [Adj][All]
>>       2 [V][Inf]
>>       2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
>>       2 [N][Poss.3Sg][Acc]
>>       2 [N|Acron][Pl][All]
>>       2 [N|Acron][Pl][Acc]
>>       2 [N|Acron][Nom]
>>       2 [N|Abbr][Subl]
>>       2 [N|Abbr][All]
>>       2 [N|Abbr][Acc]
>>       1 [V][Pst.Def.3Sg]
>>       1 [V][Pst.Def.1Sg]
>>       1 [V][_Mod][Prs.NDef.3Pl]
>>       1 [V][_Mod][Prs.Def.3Sg][Punct]
>>       1 [Punct]
>>       1 POS
>>       1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
>>       1 [_PerfPtcp_Subj=tA/Adj][Nom]
>>       1 [N][Poss.3Pl][Nom]
>>       1 [N][All]
>>       1 [N|Acron][Subl]
>>       1 [N|Acron][Poss.1Sg][Subl]
>>       1 [N|Acron][Poss.1Pl][All]
>>       1 [N|Acron][Pl][Ter]
>>       1 [N|Acron][Pl][Ins]
>>       1 [N|Acron][Pl][Ine]
>>       1 [N|Acron][Ade]
>>       1 [N|Acron][Acc][Punct]
>>       1 [N][Acc]
>>       1 [N|Abbr][Ela]
>>       1 [Adj][Pl][Ade]
>>       1 [Adj][EssFor%:ként]
>>       1 [Adj]
>>
>>
>> Balázs
>>
>>
>> 2016. július 29. 9:46 Veronika Vincze írta, <vinczev at inf.u-szeged.hu 
>> <mailto:vinczev at inf.u-szeged.hu>>:
>>
>>     Sziasztok!
>>
>>     A második hibát javítottuk a konverterben, frissültek a fájlok.
>>
>>     Az elso" hiba nagyrészt tulajdonneveket érint, ha jól gondolom. A
>>     Szeged Korpuszban ezek egységesen fo"névi címkét kaptak, még
>>     akkor is, ha jelen esetben egy melléknév képezi a tulajdonnév
>>     részét. A konverter úgy mu"ködik, hogy az új harmonizált kódok
>>     közül választjuk ki az MSD-kód alapján a neki leginkább
>>     megfelelo"t, vagyis itt most a fo"névi kódnak megfelelo"en
>>     fo"névi kódot választ, ami persze nem helyes, de ezt
>>     automatikusan nem tudjuk eldönteni. Sajnos arra most nincs se
>>     ido"nk, se ero"forrásunk (Szegeden legalábbis), hogy ezeket az
>>     eseteket kézzel egyértelmu"sítsük :(
>>
>>     Üdv:
>>     Vera
>>
>>
>>     On 2016.07.29. 8:22, Indig Balázs wrote:
>>>     Szasztok!
>>>
>>>     @Vera:
>>>
>>>     Megye -> Megy
>>>
>>>     Jász-Nagykun-SzolnokJász-Nagykun-SzolnokNSubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=noneJász-Nagykun-Szolnok[/N][Nom]
>>>     MegyeiMegyeiNSubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=noneMegy[/N][Pl.Poss.3Sg][Nom]
>>>
>>>     És ebbo"l van egy csomó...
>>>
>>>     Illetve a másik:
>>>
>>>     AaTSubPOS=fa[/Det|art.Def]
>>>     kétkétMSubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=nonekét[/Num|Attr][Nom]
>>>     óraóraNSubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=noneóra[/N][Nom]
>>>     köztiköztiASubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=noneközti[/Adj][Nom]
>>>     szüntetszüntetZ_[szüntet[/V][Prs.NDef.3Sg]]
>>>
>>>     Értem én, de akkor valaki elmondhatná, hogy mi a formátum: Az
>>>     elso" [/ -to"l van a címke vagy az elso" [ -to"l? És ha az
>>>     elo"bbi akkor mit kezdjen a PurePOS a fenti "lemmakezdo" [" -el?
>>>
>>>     Most az egész  [szüntet[/V][Prs.NDef.3Sg]] címkének van véve és
>>>     így halál lassú a tanítás(az eddigi 1026 uniq cimke helyett van
>>>     2408 a hülyeségekkel együtt), meg nem is biztos, hogy ez adja az
>>>     elvárt eredményt...
>>>
>>>
>>>     Balázs
>>>
>>>
>>>     2016. július 28. 18:37 Indig Balázs írta,
>>>     <indig.balazs at itk.ppke.hu <mailto:indig.balazs at itk.ppke.hu>>:
>>>
>>>         Sziasztok!
>>>
>>>         Az új javított szeged korpuszhoz is elérheto" a PurePOS
>>>         model itt:
>>>
>>>         http://pi.itk.ppke.hu/~dlazesz/infra/
>>>         <http://pi.itk.ppke.hu/%7Edlazesz/infra/>
>>>
>>>
>>>
>>>         Üdv,
>>>
>>>         Balázs
>>>
>>>         2016. július 28. 15:54 Veronika Vincze írta,
>>>         <vinczev at inf.u-szeged.hu <mailto:vinczev at inf.u-szeged.hu>>:
>>>
>>>             Sziasztok,
>>>
>>>             Javítottunk pár bugot a konvertálásban, most már elvben
>>>             jó minden sor formátuma. A Szeged Korpusz teljes anyaga
>>>             elérheto" a
>>>
>>>             http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
>>>             <http://www.inf.u-szeged.hu/%7Evinczev/infra/konvertalt_morf/>
>>>
>>>             címen. Ha bármilyen problémát találtok, jelezzétek, kérlek.
>>>
>>>             @Attila: néha a képzett szavaknál a szófaj elo"l lemarad
>>>             a / jel (pl. Dél-dunántúli Dél-dunántúli[Adj][Nom]), ezt
>>>             mi elvben javítottuk a konverzió során, de az elemzo"ben
>>>             is hasznos lenne átírni.
>>>
>>>             Üdv:
>>>             Vera
>>>
>>>
>>>             On 2016.07.28. 13:46, Indig Balázs wrote:
>>>>             Kedves Mindenki!
>>>>
>>>>             PurePOS modellek és a szeged korpusz formátumából
>>>>             purepos input formátumba konvertáló script:
>>>>
>>>>             http://pi.itk.ppke.hu/~dlazesz/infra/
>>>>             <http://pi.itk.ppke.hu/%7Edlazesz/infra/>
>>>>
>>>>             A szeged korpusz formátuma kicsit fura. Van ahol nem
>>>>             csak 5 mezo" van És csomó helyen viszonylag nehéz
>>>>             kinyerni, hogy mit is akarhatott a szerzo", hogy mi
>>>>             kerüljön a PurePOS-ba. A konvertáló script tele van
>>>>             ezirányú kommentekkel.
>>>>
>>>>             Ami a "PurePOS-beli morfológiát" illeti:
>>>>
>>>>             Így néz ki egy morfológiával szelektíven
>>>>             annotált{{annotál[\V]||annotáció[\N]}} input  sor .
>>>>
>>>>             Majd még fog alakulni a dolog. Most a héten ez megy.
>>>>
>>>>
>>>>             Üdv,
>>>>
>>>>             Balázs
>>>>
>>>>
>>>>             2016. július 25. 13:52 Veronika Vincze írta,
>>>>             <vinczev at inf.u-szeged.hu <mailto:vinczev at inf.u-szeged.hu>>:
>>>>
>>>>                 Kedves Mindenki,
>>>>
>>>>
>>>>                 On 2016.07.25. 12:12, Sass Bálint wrote:
>>>>
>>>>
>>>>                     2.
>>>>                     Vera, esetleg írj pár szót a fájl oszlopairól,
>>>>                     hogy igaziból melyik kell nekünk most.
>>>>
>>>>                     Megnéztem, sztem ez van:
>>>>                     1. oszlop = szóalak
>>>>                     5. oszlop = újkódos szóto" + szófaj + elemzés
>>>>
>>>>                     Ugye ez a ketto" kell most a tanításhoz,
>>>>                     a 2-3-4. oszlop régi, így figyelmen kívül hagyandó?
>>>>
>>>>                     Szóval az 5. oszlopban lévo" szótövet, szófajt
>>>>                     és elemzést
>>>>                     kellene rendre lemma, pos és feature -ként
>>>>                     használni a tanításokhoz, ugye? :)
>>>>
>>>>                 Így igaz, az 1. és az 5. oszlop a fontos, a többit
>>>>                 csak benne hagytuk a kiíratáskor.
>>>>
>>>>                     3.
>>>>                     Tekintetbe véve, hogy hét végére mindennek
>>>>                     mennie kellene
>>>>                     valamilyen formában a honlap mögött, azt kérem,
>>>>                     hogy
>>>>                     mindenki (az alább említettek)
>>>>                     tanítson egy modellt ezen a részkorpuszon, hogy
>>>>                     legyen valami,
>>>>                     aztán majd késo"bb legyenek meg a teljes
>>>>                     korpuszon tanított modellek.
>>>>
>>>>                 Nekiállunk mi is szintaxist tanítani (plusz
>>>>                 csináljuk a többi alkorpusz infrásmorfológiára való
>>>>                 átalakítását), ez valószínu"leg pár napot igénybe
>>>>                 vesz nálunk.
>>>>
>>>>                 Üdv:
>>>>                 Vera
>>>>
>>>>
>>>>
>>>>                 _______________________________________________
>>>>                 nlp-infra-devel mailing list
>>>>                 nlp-infra-devel at nytud.mta.hu
>>>>                 <mailto:nlp-infra-devel at nytud.mta.hu>
>>>>                 http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>>>>
>>>>
>>>>
>>>>
>>>>             _______________________________________________
>>>>             nlp-infra-devel mailing list
>>>>             nlp-infra-devel at nytud.mta.hu  <mailto:nlp-infra-devel at nytud.mta.hu>
>>>>             http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>>>
>>>
>>>             _______________________________________________
>>>             nlp-infra-devel mailing list
>>>             nlp-infra-devel at nytud.mta.hu
>>>             <mailto:nlp-infra-devel at nytud.mta.hu>
>>>             http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>>>
>>>
>>>
>>>
>>>
>>>     _______________________________________________
>>>     nlp-infra-devel mailing list
>>>     nlp-infra-devel at nytud.mta.hu  <mailto:nlp-infra-devel at nytud.mta.hu>
>>>     http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>>
>>
>>     _______________________________________________
>>     nlp-infra-devel mailing list
>>     nlp-infra-devel at nytud.mta.hu <mailto:nlp-infra-devel at nytud.mta.hu>
>>     http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>>
>>
>>
>>
>> _______________________________________________
>> nlp-infra-devel mailing list
>> nlp-infra-devel at nytud.mta.hu
>> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>

-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://corpus.nytud.hu/pipermail/nlp-infra-devel/attachments/20160729/5466bd97/attachment-0001.html>
-------------- next part --------------
while(<>)
{
	s/\[(?=(?:N|Num|V|Adj)[\]|])/[\//g;
	s#(?<!\])[_PerfPtcp_Subj=tA/Adj]#[/Adj]#g;
	s/(\[[^\]]*)\%:/$1:/g;
	print;
}


More information about the nlp-infra-devel mailing list