[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás [Caution: Message contains Suspicious URL content]
Veronika Vincze
vinczev at inf.u-szeged.hu
Fri Jul 29 11:48:09 CEST 2016
Kedves Tamás!
A Szeged Korpuszban kb. 68 000 tokennek van tulajdonnévi címkéje, ebből
a newsml-ben 25 000 szerepel. Ezen kívül még kézi egyértelműsítést
igényelne az X és Z címkék egy része is (amikre az új elemző nem ad
elemzést), és persze az elemzettek között is lehet hiba, lásd a "Megyei"
esetét. Így ha következetesen át akarunk nézni mindent, az bőven
tízezres nagyságrendű szóalak lenne.
Üdv:
Vera
On 2016.07.29. 10:46, Tamás Váradi wrote:
> Kedves Vera!
>
> Mekkora munka lenne ez? Kb. hány esetről van szó?
> Mi valószinűleg meg tudnánk csinálni.
>
> Üdv.
> T
> 2016-07-29 9:46 GMT+02:00 Veronika Vincze <vinczev at inf.u-szeged.hu
> <mailto:vinczev at inf.u-szeged.hu>>:
>
> Sajnos arra most nincs se időnk, se erőforrásunk (Szegeden
> legalábbis), hogy ezeket az eseteket kézzel egyértelműsítsük :(
>
>
>
>
>
> --
> ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
> Tamás Váradi
> Research Institute for Linguistics
> Hungarian Academy of Sciences
> H-1068 Benczur u. 33. Budapest, Hungary
> Tel.: (+36 1) 321 4830 / ext. 126
> Fax: (+36 1) 322 9297
> ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
> ᐧ
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://corpus.nytud.hu/pipermail/nlp-infra-devel/attachments/20160729/8f7ebdd2/attachment.html>
More information about the nlp-infra-devel
mailing list