[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás [Caution: Message contains Suspicious URL content]

Veronika Vincze vinczev at inf.u-szeged.hu
Fri Jul 29 11:48:09 CEST 2016


Kedves Tamás!

A Szeged Korpuszban kb. 68 000 tokennek van tulajdonnévi címkéje, ebből 
a newsml-ben 25 000 szerepel. Ezen kívül még kézi egyértelműsítést 
igényelne az X és Z címkék egy része is (amikre az új elemző nem ad 
elemzést), és persze az elemzettek között is lehet hiba, lásd a "Megyei" 
esetét. Így ha következetesen át akarunk nézni mindent, az bőven 
tízezres nagyságrendű szóalak lenne.

Üdv:
Vera


On 2016.07.29. 10:46, Tamás Váradi wrote:
> Kedves Vera!
>
> Mekkora munka lenne ez? Kb. hány esetről van szó?
> Mi valószinűleg meg tudnánk csinálni.
>
> Üdv.
> T
> 2016-07-29 9:46 GMT+02:00 Veronika Vincze <vinczev at inf.u-szeged.hu 
> <mailto:vinczev at inf.u-szeged.hu>>:
>
>     Sajnos arra most nincs se időnk, se erőforrásunk (Szegeden
>     legalábbis), hogy ezeket az eseteket kézzel egyértelműsítsük :(
>
>
>
>
>
> -- 
> ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
> Tamás Váradi
> Research Institute for Linguistics
> Hungarian Academy of Sciences
> H-1068 Benczur u. 33. Budapest, Hungary
> Tel.: (+36 1) 321 4830 / ext. 126
> Fax: (+36 1) 322 9297
> ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://corpus.nytud.hu/pipermail/nlp-infra-devel/attachments/20160729/8f7ebdd2/attachment.html>


More information about the nlp-infra-devel mailing list