[nlp-infra-devel] részletes leírás az összes morfológiai kódról
Indig Balázs
indig.balazs at itk.ppke.hu
Thu Jul 28 11:28:45 CEST 2016
Sziasztok!
Megerősítem, hogy a wget megáll letöltés közben. Mindenféle wait és
random-wait paraméterek esetén is kb a 3. fájl körül.
Ha sorban töltögetem le a fájlokat böngészőből akkor hasonlóan meghal a
letöltés kb a 3. fájlnál.
Ez valami webszerver beállítás lehet...
Én ezt futtatom:
wget -r -l1 -A disamb --random-wait
http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
Ha valakinek van működő változata, akkor posztolja be! Köszönöm!
Ami a formátumot illeti:
Vannak olyan sorok, ahol nem 5 hanem 9 mezőből áll a token.
Az 5 mezősnél rájöttem, hogy 1. mező a szóalak 2. a szótő és az 5. mező
elejéről le kell szedni a szótőt, hogy a tag-hoz jussak, de a 9 mezős
változatnál csak sejtem, hogy nincs rajta tag és csak a szótő van az 5.
mezőben. De akkor azt minek taggelje a PurePOS? X, Z vagy mi legyen?
Notóriusan a PUNCT-oknál van ilyen például...
Ha ezeken a formátumbeli dolgokon sikerül túljutni, akkor elvileg ma kész a
PurePOS modell.
Köszönöm a segítséget előre is!
Balázs
2016. július 27. 14:48 Sass Bálint írta, <joker at nytud.hu>:
> sziasztok
>
> egyelőre, ha lehet, maradjon minden, ahogy van.
> legyenek készen a betanított modellek
> a legelső verzióban.
>
> a pos taggerrel mi a helyzet?
>
> kösz, üdv:
> Bálint
> Ezt írta ma:
>
>
> Sziasztok!
>>
>> Csináltam egy részletes leírást a hfst-s elemző jelenlegi
>> címkekészletéről. Egyelőre ez angolul van, négyoszlopos
>> formátumban. Az oszlopokat tabulátorok választják el.
>> A négy oszlop: tag description example example analysis
>>
>> Közben rájöttem, hogy öt címke nem egészen úgy néz ki, ahogy
>> szerettem volna. A bal oldali, ahogy van, a jobb oldali, ahogy
>> inkább kellene, hogy legyen. Az utóbbi formában szerepelnek a
>> leírásban. Viszont a betanított modellek nyilván az előbbi
>> formátumban vannak kész. Az a kérdésem, hogy mennyi idő/mekkora
>> galiba újratanítani őket. Igazából csak a /Det|Art.Def és a
>> /Det|Art.NDef számít igazán (ezek a határozott és a határozatlan
>> névelő). A Loc még szórványosan előfordulhat (a Győrött típusú
>> helyhatározók címkéje), illetve a /Det|Q.NDef a minden
>> determináns címkéje.
>>
>> [Inl] [Loc]
>> [_EssFor:kéntMA/Adj] [_Adjz_Type:forma/Adj]
>> [/Det|art.Def] [/Det|Art.Def]
>> [/Det|art.NDef] [/Det|Art.NDef]
>> [/Det|Q|indef] [/Det|Q.NDef]
>>
>> Egyelőre akár maradhat minden úgy is, ahogy van, de lesznek még
>> revíziók, gondolom, és ahhoz úgyis érdemes lenne bejáratni az
>> összes modell összehangolásának a koreográfiáját.
>>
>> Attila
>>
>>
>>
>>
>>
> --
>
> Üdvözlettel:
> Sass Bálint
>
> PhD, tud mts, MTA NYTI
>
> Utónévkereső: http://corpus.nytud.hu/utonevportal
> személyes oldal: http://digitus.itk.ppke.hu/~sass
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>
--------- k�vetkez� r�sz ---------
Egy csatolt HTML �llom�ny �t lett konvert�lva...
URL: <http://corpus.nytud.hu/pipermail/nlp-infra-devel/attachments/20160728/d8c40039/attachment.html>
More information about the nlp-infra-devel
mailing list