[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás

Veronika Vincze vinczev at inf.u-szeged.hu
Thu Jul 28 15:54:39 CEST 2016


Sziasztok,

Javítottunk pár bugot a konvertálásban, most már elvben jó minden sor 
formátuma. A Szeged Korpusz teljes anyaga elérhető a

http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/

címen. Ha bármilyen problémát találtok, jelezzétek, kérlek.

@Attila: néha a képzett szavaknál a szófaj elől lemarad a / jel (pl. 
Dél-dunántúli    Dél-dunántúli[Adj][Nom]), ezt mi elvben javítottuk a 
konverzió során, de az elemzőben is hasznos lenne átírni.

Üdv:
Vera

On 2016.07.28. 13:46, Indig Balázs wrote:
> Kedves Mindenki!
>
> PurePOS modellek és a szeged korpusz formátumából purepos input 
> formátumba konvertáló script:
>
> http://pi.itk.ppke.hu/~dlazesz/infra/ 
> <http://pi.itk.ppke.hu/%7Edlazesz/infra/>
>
> A szeged korpusz formátuma kicsit fura. Van ahol nem csak 5 mező van 
> És csomó helyen viszonylag nehéz kinyerni, hogy mit is akarhatott a 
> szerző, hogy mi kerüljön a PurePOS-ba. A konvertáló script tele van 
> ezirányú kommentekkel.
>
> Ami a "PurePOS-beli morfológiát" illeti:
>
> Így néz ki egy morfológiával szelektíven 
> annotált{{annotál[\V]||annotáció[\N]}} input  sor .
>
> Majd még fog alakulni a dolog. Most a héten ez megy.
>
>
> Üdv,
>
> Balázs
>
>
> 2016. július 25. 13:52 Veronika Vincze írta, <vinczev at inf.u-szeged.hu 
> <mailto:vinczev at inf.u-szeged.hu>>:
>
>     Kedves Mindenki,
>
>
>     On 2016.07.25. 12:12, Sass Bálint wrote:
>
>
>         2.
>         Vera, esetleg írj pár szót a fájl oszlopairól,
>         hogy igaziból melyik kell nekünk most.
>
>         Megnéztem, sztem ez van:
>         1. oszlop = szóalak
>         5. oszlop = újkódos szótő + szófaj + elemzés
>
>         Ugye ez a kettő kell most a tanításhoz,
>         a 2-3-4. oszlop régi, így figyelmen kívül hagyandó?
>
>         Szóval az 5. oszlopban lévő szótövet, szófajt és elemzést
>         kellene rendre lemma, pos és feature -ként
>         használni a tanításokhoz, ugye? :)
>
>     Így igaz, az 1. és az 5. oszlop a fontos, a többit csak benne
>     hagytuk a kiíratáskor.
>
>         3.
>         Tekintetbe véve, hogy hét végére mindennek mennie kellene
>         valamilyen formában a honlap mögött, azt kérem, hogy
>         mindenki (az alább említettek)
>         tanítson egy modellt ezen a részkorpuszon, hogy legyen valami,
>         aztán majd később legyenek meg a teljes korpuszon tanított
>         modellek.
>
>     Nekiállunk mi is szintaxist tanítani (plusz csináljuk a többi
>     alkorpusz infrásmorfológiára való átalakítását), ez valószínűleg
>     pár napot igénybe vesz nálunk.
>
>     Üdv:
>     Vera
>
>
>
>     _______________________________________________
>     nlp-infra-devel mailing list
>     nlp-infra-devel at nytud.mta.hu <mailto:nlp-infra-devel at nytud.mta.hu>
>     http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>
>
>
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel

-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://corpus.nytud.hu/pipermail/nlp-infra-devel/attachments/20160728/099f7cc0/attachment.html>


More information about the nlp-infra-devel mailing list