[nlp-infra-devel] részletes leírás az összes morfológiai kódról

Indig Balázs indig.balazs at itk.ppke.hu
Thu Jul 28 11:28:45 CEST 2016


Sziasztok!

Megerősítem, hogy a wget megáll letöltés közben. Mindenféle wait és
random-wait paraméterek esetén is kb a 3. fájl körül.
Ha sorban töltögetem le a fájlokat böngészőből akkor hasonlóan meghal a
letöltés kb a 3. fájlnál.
Ez valami webszerver beállítás lehet...


Én ezt futtatom:
wget -r -l1 -A disamb --random-wait
http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/

Ha valakinek van működő változata, akkor posztolja be! Köszönöm!

Ami a formátumot illeti:

Vannak olyan sorok, ahol nem 5 hanem 9 mezőből áll a token.

Az 5 mezősnél rájöttem, hogy 1. mező a szóalak 2. a szótő és az 5. mező
elejéről le kell szedni a szótőt, hogy a tag-hoz jussak, de a 9 mezős
változatnál csak sejtem, hogy nincs rajta tag és csak a szótő van az 5.
mezőben. De akkor azt minek taggelje a PurePOS? X, Z vagy mi legyen?
Notóriusan a PUNCT-oknál van ilyen például...

Ha ezeken a formátumbeli dolgokon sikerül túljutni, akkor elvileg ma kész a
PurePOS modell.


Köszönöm a segítséget előre is!


Balázs


2016. július 27. 14:48 Sass Bálint írta, <joker at nytud.hu>:

> sziasztok
>
> egyelőre, ha lehet, maradjon minden, ahogy van.
> legyenek készen a betanított modellek
> a legelső verzióban.
>
> a pos taggerrel mi a helyzet?
>
> kösz, üdv:
> Bálint
> Ezt írta ma:
>
>
> Sziasztok!
>>
>> Csináltam egy részletes leírást a hfst-s elemző jelenlegi
>> címkekészletéről. Egyelőre ez angolul van, négyoszlopos
>> formátumban. Az oszlopokat tabulátorok választják el.
>> A négy oszlop: tag    description    example    example analysis
>>
>> Közben rájöttem, hogy öt címke nem egészen úgy néz ki, ahogy
>> szerettem volna. A bal oldali, ahogy van, a jobb oldali, ahogy
>> inkább kellene, hogy legyen. Az utóbbi formában szerepelnek a
>> leírásban. Viszont a betanított modellek nyilván az előbbi
>> formátumban vannak kész. Az a kérdésem, hogy mennyi idő/mekkora
>> galiba újratanítani őket. Igazából csak a /Det|Art.Def és a
>> /Det|Art.NDef számít igazán (ezek a határozott és a határozatlan
>> névelő). A Loc még szórványosan előfordulhat (a Győrött típusú
>> helyhatározók címkéje), illetve a /Det|Q.NDef a minden
>> determináns címkéje.
>>
>> [Inl]    [Loc]
>> [_EssFor:kéntMA/Adj]    [_Adjz_Type:forma/Adj]
>> [/Det|art.Def]    [/Det|Art.Def]
>> [/Det|art.NDef]    [/Det|Art.NDef]
>> [/Det|Q|indef]    [/Det|Q.NDef]
>>
>> Egyelőre akár maradhat minden úgy is, ahogy van, de lesznek még
>> revíziók, gondolom, és ahhoz úgyis érdemes lenne bejáratni az
>> összes modell összehangolásának a koreográfiáját.
>>
>> Attila
>>
>>
>>
>>
>>
> --
>
> Üdvözlettel:
> Sass Bálint
>
> PhD, tud mts, MTA NYTI
>
> Utónévkereső: http://corpus.nytud.hu/utonevportal
> személyes oldal: http://digitus.itk.ppke.hu/~sass
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>
--------- k�vetkez� r�sz ---------
Egy csatolt HTML �llom�ny �t lett konvert�lva...
URL: <http://corpus.nytud.hu/pipermail/nlp-infra-devel/attachments/20160728/d8c40039/attachment.html>


More information about the nlp-infra-devel mailing list