[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás
Veronika Vincze
vinczev at inf.u-szeged.hu
Thu Jul 28 15:54:39 CEST 2016
Sziasztok,
Javítottunk pár bugot a konvertálásban, most már elvben jó minden sor
formátuma. A Szeged Korpusz teljes anyaga elérhető a
http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
címen. Ha bármilyen problémát találtok, jelezzétek, kérlek.
@Attila: néha a képzett szavaknál a szófaj elől lemarad a / jel (pl.
Dél-dunántúli Dél-dunántúli[Adj][Nom]), ezt mi elvben javítottuk a
konverzió során, de az elemzőben is hasznos lenne átírni.
Üdv:
Vera
On 2016.07.28. 13:46, Indig Balázs wrote:
> Kedves Mindenki!
>
> PurePOS modellek és a szeged korpusz formátumából purepos input
> formátumba konvertáló script:
>
> http://pi.itk.ppke.hu/~dlazesz/infra/
> <http://pi.itk.ppke.hu/%7Edlazesz/infra/>
>
> A szeged korpusz formátuma kicsit fura. Van ahol nem csak 5 mező van
> És csomó helyen viszonylag nehéz kinyerni, hogy mit is akarhatott a
> szerző, hogy mi kerüljön a PurePOS-ba. A konvertáló script tele van
> ezirányú kommentekkel.
>
> Ami a "PurePOS-beli morfológiát" illeti:
>
> Így néz ki egy morfológiával szelektíven
> annotált{{annotál[\V]||annotáció[\N]}} input sor .
>
> Majd még fog alakulni a dolog. Most a héten ez megy.
>
>
> Üdv,
>
> Balázs
>
>
> 2016. július 25. 13:52 Veronika Vincze írta, <vinczev at inf.u-szeged.hu
> <mailto:vinczev at inf.u-szeged.hu>>:
>
> Kedves Mindenki,
>
>
> On 2016.07.25. 12:12, Sass Bálint wrote:
>
>
> 2.
> Vera, esetleg írj pár szót a fájl oszlopairól,
> hogy igaziból melyik kell nekünk most.
>
> Megnéztem, sztem ez van:
> 1. oszlop = szóalak
> 5. oszlop = újkódos szótő + szófaj + elemzés
>
> Ugye ez a kettő kell most a tanításhoz,
> a 2-3-4. oszlop régi, így figyelmen kívül hagyandó?
>
> Szóval az 5. oszlopban lévő szótövet, szófajt és elemzést
> kellene rendre lemma, pos és feature -ként
> használni a tanításokhoz, ugye? :)
>
> Így igaz, az 1. és az 5. oszlop a fontos, a többit csak benne
> hagytuk a kiíratáskor.
>
> 3.
> Tekintetbe véve, hogy hét végére mindennek mennie kellene
> valamilyen formában a honlap mögött, azt kérem, hogy
> mindenki (az alább említettek)
> tanítson egy modellt ezen a részkorpuszon, hogy legyen valami,
> aztán majd később legyenek meg a teljes korpuszon tanított
> modellek.
>
> Nekiállunk mi is szintaxist tanítani (plusz csináljuk a többi
> alkorpusz infrásmorfológiára való átalakítását), ez valószínűleg
> pár napot igénybe vesz nálunk.
>
> Üdv:
> Vera
>
>
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu <mailto:nlp-infra-devel at nytud.mta.hu>
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>
>
>
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://corpus.nytud.hu/pipermail/nlp-infra-devel/attachments/20160728/099f7cc0/attachment.html>
More information about the nlp-infra-devel
mailing list