[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás

Novák Attila novakat at gmail.com
Fri Jul 29 12:40:52 CEST 2016


Szia Balázs (és mindenki)!

A nem /-rel kezdo"do" POS címkéket én szúrtam el. Köszönöm a jelzést, 
elnézést kérek.
Vera írta, hogy ilyeneket javítottak. Lehet, hogy nem minden esetben 
sikerült.
> @Attila: néha a képzett szavaknál a szófaj elo"l lemarad a / jel (pl. 
> Dél-dunántúli Dél-dunántúli[Adj][Nom]), ezt mi elvben javítottuk a 
> konverzió során, de az elemzo"ben is hasznos lenne átírni.
>
> Üdv:
> Vera

Ha a csatolt scriptet lefuttatjátok az elemzett forráson, akkor 
kijavítja ezeket a hibákat, és a modell(eke)t így újra tudjátok tanítani.

futtatás:

perl postagfix.pl corpus-hibas-postagekkel.txt 
 >corpus-javitott-postagekkel.txt

Azért nézzétek meg, hogy tényleg azt csinálja, amit kell... :)

Attila




On 2016.07.29. 10:13, Indig Balázs wrote:
> Sziasztok!
>
> 1412 egyedi címke. Jobb a helyzet...
>
> A PurePOS model frissült.
>
> Már tisztul a kép, de még nem értek bizonyos dolgokat (most PurePOS 
> jelölsében #-el elválasztva szóalak szóto" címke):
>
> 1) "leg"-et#"#[Punct]  Ez miért Punct ha a mondatvégi pont vesszo" 
> stb. OTHER?
> 2) Most akkor a címkének nem "[/" -el kelellene kezdo"dnie? Mert ezek 
> a címkék furák:
>
>  252623 OTHER
>    1305 [Adj][Nom]
>      26 [N|Acron][Acc]
>      17 [N|Acron][Pl][Nom]
>      14 [N|Acron][Transl]
>      12 [Num][Nom]
>       6 [Adj][Pl][Nom]
>       5 [N|Acron][Ins]
>       5 [N|Abbr][Dat]
>       4 [N][Nom]
>       4 [Adj|nat][Nom]
>       3 [N][Poss.3Sg][Nom]
>       3 [N|Acron][Pl][Subl]
>       3 [Adj][All]
>       2 [V][Inf]
>       2 [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
>       2 [N][Poss.3Sg][Acc]
>       2 [N|Acron][Pl][All]
>       2 [N|Acron][Pl][Acc]
>       2 [N|Acron][Nom]
>       2 [N|Abbr][Subl]
>       2 [N|Abbr][All]
>       2 [N|Abbr][Acc]
>       1 [V][Pst.Def.3Sg]
>       1 [V][Pst.Def.1Sg]
>       1 [V][_Mod][Prs.NDef.3Pl]
>       1 [V][_Mod][Prs.Def.3Sg][Punct]
>       1 [Punct]
>       1 POS
>       1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
>       1 [_PerfPtcp_Subj=tA/Adj][Nom]
>       1 [N][Poss.3Pl][Nom]
>       1 [N][All]
>       1 [N|Acron][Subl]
>       1 [N|Acron][Poss.1Sg][Subl]
>       1 [N|Acron][Poss.1Pl][All]
>       1 [N|Acron][Pl][Ter]
>       1 [N|Acron][Pl][Ins]
>       1 [N|Acron][Pl][Ine]
>       1 [N|Acron][Ade]
>       1 [N|Acron][Acc][Punct]
>       1 [N][Acc]
>       1 [N|Abbr][Ela]
>       1 [Adj][Pl][Ade]
>       1 [Adj][EssFor%:ként]
>       1 [Adj]
>
>
> Balázs
>
>
> 2016. július 29. 9:46 Veronika Vincze írta, <vinczev at inf.u-szeged.hu 
> <mailto:vinczev at inf.u-szeged.hu>>:
>
>     Sziasztok!
>
>     A második hibát javítottuk a konverterben, frissültek a fájlok.
>
>     Az elso" hiba nagyrészt tulajdonneveket érint, ha jól gondolom. A
>     Szeged Korpuszban ezek egységesen fo"névi címkét kaptak, még akkor
>     is, ha jelen esetben egy melléknév képezi a tulajdonnév részét. A
>     konverter úgy mu"ködik, hogy az új harmonizált kódok közül
>     választjuk ki az MSD-kód alapján a neki leginkább megfelelo"t,
>     vagyis itt most a fo"névi kódnak megfelelo"en fo"névi kódot
>     választ, ami persze nem helyes, de ezt automatikusan nem tudjuk
>     eldönteni. Sajnos arra most nincs se ido"nk, se ero"forrásunk
>     (Szegeden legalábbis), hogy ezeket az eseteket kézzel
>     egyértelmu"sítsük :(
>
>     Üdv:
>     Vera
>
>
>     On 2016.07.29. 8:22, Indig Balázs wrote:
>>     Szasztok!
>>
>>     @Vera:
>>
>>     Megye -> Megy
>>
>>     Jász-Nagykun-SzolnokJász-Nagykun-SzolnokNSubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=noneJász-Nagykun-Szolnok[/N][Nom]
>>     MegyeiMegyeiNSubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=noneMegy[/N][Pl.Poss.3Sg][Nom]
>>
>>     És ebbo"l van egy csomó...
>>
>>     Illetve a másik:
>>
>>     AaTSubPOS=fa[/Det|art.Def]
>>     kétkétMSubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=nonekét[/Num|Attr][Nom]
>>     óraóraNSubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=noneóra[/N][Nom]
>>     köztiköztiASubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=noneközti[/Adj][Nom]
>>     szüntetszüntetZ_[szüntet[/V][Prs.NDef.3Sg]]
>>
>>     Értem én, de akkor valaki elmondhatná, hogy mi a formátum: Az
>>     elso" [/ -to"l van a címke vagy az elso" [ -to"l? És ha az
>>     elo"bbi akkor mit kezdjen a PurePOS a fenti "lemmakezdo" [" -el?
>>
>>     Most az egész  [szüntet[/V][Prs.NDef.3Sg]] címkének van véve és
>>     így halál lassú a tanítás(az eddigi 1026 uniq cimke helyett van
>>     2408 a hülyeségekkel együtt), meg nem is biztos, hogy ez adja az
>>     elvárt eredményt...
>>
>>
>>     Balázs
>>
>>
>>     2016. július 28. 18:37 Indig Balázs írta,
>>     <indig.balazs at itk.ppke.hu <mailto:indig.balazs at itk.ppke.hu>>:
>>
>>         Sziasztok!
>>
>>         Az új javított szeged korpuszhoz is elérheto" a PurePOS model
>>         itt:
>>
>>         http://pi.itk.ppke.hu/~dlazesz/infra/
>>         <http://pi.itk.ppke.hu/%7Edlazesz/infra/>
>>
>>
>>
>>         Üdv,
>>
>>         Balázs
>>
>>         2016. július 28. 15:54 Veronika Vincze írta,
>>         <vinczev at inf.u-szeged.hu <mailto:vinczev at inf.u-szeged.hu>>:
>>
>>             Sziasztok,
>>
>>             Javítottunk pár bugot a konvertálásban, most már elvben
>>             jó minden sor formátuma. A Szeged Korpusz teljes anyaga
>>             elérheto" a
>>
>>             http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/ <http://www.inf.u-szeged.hu/%7Evinczev/infra/konvertalt_morf/>
>>
>>             címen. Ha bármilyen problémát találtok, jelezzétek, kérlek.
>>
>>             @Attila: néha a képzett szavaknál a szófaj elo"l lemarad
>>             a / jel (pl. Dél-dunántúli Dél-dunántúli[Adj][Nom]), ezt
>>             mi elvben javítottuk a konverzió során, de az elemzo"ben
>>             is hasznos lenne átírni.
>>
>>             Üdv:
>>             Vera
>>
>>
>>             On 2016.07.28. 13:46, Indig Balázs wrote:
>>>             Kedves Mindenki!
>>>
>>>             PurePOS modellek és a szeged korpusz formátumából
>>>             purepos input formátumba konvertáló script:
>>>
>>>             http://pi.itk.ppke.hu/~dlazesz/infra/
>>>             <http://pi.itk.ppke.hu/%7Edlazesz/infra/>
>>>
>>>             A szeged korpusz formátuma kicsit fura. Van ahol nem
>>>             csak 5 mezo" van És csomó helyen viszonylag nehéz
>>>             kinyerni, hogy mit is akarhatott a szerzo", hogy mi
>>>             kerüljön a PurePOS-ba. A konvertáló script tele van
>>>             ezirányú kommentekkel.
>>>
>>>             Ami a "PurePOS-beli morfológiát" illeti:
>>>
>>>             Így néz ki egy morfológiával szelektíven
>>>             annotált{{annotál[\V]||annotáció[\N]}} input  sor .
>>>
>>>             Majd még fog alakulni a dolog. Most a héten ez megy.
>>>
>>>
>>>             Üdv,
>>>
>>>             Balázs
>>>
>>>
>>>             2016. július 25. 13:52 Veronika Vincze írta,
>>>             <vinczev at inf.u-szeged.hu <mailto:vinczev at inf.u-szeged.hu>>:
>>>
>>>                 Kedves Mindenki,
>>>
>>>
>>>                 On 2016.07.25. 12:12, Sass Bálint wrote:
>>>
>>>
>>>                     2.
>>>                     Vera, esetleg írj pár szót a fájl oszlopairól,
>>>                     hogy igaziból melyik kell nekünk most.
>>>
>>>                     Megnéztem, sztem ez van:
>>>                     1. oszlop = szóalak
>>>                     5. oszlop = újkódos szóto" + szófaj + elemzés
>>>
>>>                     Ugye ez a ketto" kell most a tanításhoz,
>>>                     a 2-3-4. oszlop régi, így figyelmen kívül hagyandó?
>>>
>>>                     Szóval az 5. oszlopban lévo" szótövet, szófajt
>>>                     és elemzést
>>>                     kellene rendre lemma, pos és feature -ként
>>>                     használni a tanításokhoz, ugye? :)
>>>
>>>                 Így igaz, az 1. és az 5. oszlop a fontos, a többit
>>>                 csak benne hagytuk a kiíratáskor.
>>>
>>>                     3.
>>>                     Tekintetbe véve, hogy hét végére mindennek
>>>                     mennie kellene
>>>                     valamilyen formában a honlap mögött, azt kérem, hogy
>>>                     mindenki (az alább említettek)
>>>                     tanítson egy modellt ezen a részkorpuszon, hogy
>>>                     legyen valami,
>>>                     aztán majd késo"bb legyenek meg a teljes
>>>                     korpuszon tanított modellek.
>>>
>>>                 Nekiállunk mi is szintaxist tanítani (plusz
>>>                 csináljuk a többi alkorpusz infrásmorfológiára való
>>>                 átalakítását), ez valószínu"leg pár napot igénybe
>>>                 vesz nálunk.
>>>
>>>                 Üdv:
>>>                 Vera
>>>
>>>
>>>
>>>                 _______________________________________________
>>>                 nlp-infra-devel mailing list
>>>                 nlp-infra-devel at nytud.mta.hu
>>>                 <mailto:nlp-infra-devel at nytud.mta.hu>
>>>                 http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>>>
>>>
>>>
>>>
>>>             _______________________________________________
>>>             nlp-infra-devel mailing list
>>>             nlp-infra-devel at nytud.mta.hu  <mailto:nlp-infra-devel at nytud.mta.hu>
>>>             http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>>
>>
>>             _______________________________________________
>>             nlp-infra-devel mailing list
>>             nlp-infra-devel at nytud.mta.hu
>>             <mailto:nlp-infra-devel at nytud.mta.hu>
>>             http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>>
>>
>>
>>
>>
>>     _______________________________________________
>>     nlp-infra-devel mailing list
>>     nlp-infra-devel at nytud.mta.hu  <mailto:nlp-infra-devel at nytud.mta.hu>
>>     http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>
>
>     _______________________________________________
>     nlp-infra-devel mailing list
>     nlp-infra-devel at nytud.mta.hu <mailto:nlp-infra-devel at nytud.mta.hu>
>     http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>
>
>
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel

-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://corpus.nytud.hu/pipermail/nlp-infra-devel/attachments/20160729/b4088638/attachment-0001.html>


More information about the nlp-infra-devel mailing list