[nlp-infra-devel] kérés: tesztelés -- 10.05-ig

Novák Attila novakat at gmail.com
Thu Sep 29 14:59:02 CEST 2016


Sziasztok!

Azt hiszem, ezt a Supl problémáját megoldja a hfst-wrapper 
konfigurációjában a csatolt frissítés.
Így a felsőfok címkéje _Supl lesz /Supl helyett. Kell még szerintetek 
ezen kívül valamit csinálni (azon kívül, hogy a tanítóanyagokban is 
lecserélni az összes /Supl előfordulást _Supl-ra)? Az egyes eszközökben 
implementált algoritmusokon kell valamit változtatni? A sorrend így is 
_Supl /Adj marad, mert ilyen sorrendben szerepelnek a morfémák a 
szavakban. De ha a / kezdet a címkében önmagában elég ahhoz, hogy azt 
tekintsék főkategóriának a láncba később befűzött eszközök, akkor így jó 
lesz.

Ha így OK, akkor a github-on is frissíteni kellene a konfig fájlt.

Attila

On 2016.09.29. 12:28, Veronika Vincze wrote:
> Kedves Bálint!
>
> Néhány válasz a felmerült kérdésekre:
>>
>> 2. A felsőfokú melléknév szófaja: Supl.
>> Valszeg 'Adj' kellene, de ez mintha elromlana valahol.
> Az újkódos elemzőben a szófajok szögletes zárójelben és perjellel 
> vannak jelölve, és a felsőfokú mellékneveknél [/Supl] szerepel, innen 
> jöhet ez.
>>
>> 3. Vera, Ricsi, Jani, tervezitek-e az új kódokat feature-kre
>> alakító DepTool.java fejlesztését, és szükséges-e ez?
> Valószínűleg akad 1-2 kisebb hiba, amit könnyen tudunk javítani (lásd 
> a fenti Supl esetet), úgyhogy valamennyi időt rászánunk majd ezek 
> javítására.
>
> Üdv:
> Vera
>>
>> Köszönettel:
>> Bálint
>>
>> Ezt írtam ma:
>>> Kedves mindenki!
>>>
>>> Jelentős előrelépés történt az e-magyar terén,
>>> összegyűltek a modellek, frissült sok minden:
>>>
>>> a honlap mögött mától a teljes korpuszon tanított
>>> Pos, Dep és Cons modell működik,
>>> valamint a legújabb emToken és emMorph van benne.
>>>
>>> http://www.e-magyar.hu
>>>
>>> Köszönöm a közreműködést! :)
>>>
>>> Üdvözlettel:
>>> Bálint
>>>
>>> Ezt írtam, 2016-08-30:
>>>> Kedves mindenki!
>>>>
>>>> Július végén, első körben, elvileg a Szeged korpusz
>>>> egy kisebb részének felhasználásával készültek el
>>>> az újkódos modellek az infra2-höz.
>>>>
>>>> Ezekről van szó:
>>>>
>>>> * újkódos modell a PurePOS-hoz (Balázs)
>>>> * újkódos modell a Dep elemzőhöz (Ricsi, Vera)
>>>> * újkódos modell a Cons elemzőhöz (Ricsi, Vera)
>>>> * újkódos modell az NP chunkerhez (Eszter)
>>>> * újkódos modell a NER-hez (Eszter)
>>>>
>>>> Számomra most vált világossá, hogy Veráék még július végén
>>>> elkészítették a teljes Szeged korpusz újkódos változatát:
>>>>
>>>> http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf
>>>>
>>>> Az utolsó módosítás itt 2016-07-29 17:30
>>>>
>>>> A cél az, hogy ez alapján a tanítókorpusz alapján
>>>> mindenki készítse el a végleges modellt.
>>>>
>>>> Simán lehet, hogy valamelyikőtök
>>>> már eleve a teljes korpusz alapján készítette
>>>> el a modellt július végén - augusztus elején,
>>>> akkor annak nincs más dolga, mint hogy ezt jelezze nekem.
>>>>
>>>> A többiektől azt kérem, hogy készítsék el a végleges modellt most.
>>>> (Ahogy Vera írta Tamásnak, ők már dolgoznak a szintaktikai 
>>>> modelleken.)
>>>>
>>>> A határidő legyen: 09.07. (jövő szerda)
>>>> Ha tartható, az jó, ha nem tartható, szóljatok! :)
>>>>
>>>> Minden érintettől kérek szépen visszajelzést.
>>>> Ide a listára, hogy mindenki lássa, hogyan állunk.
>>>>
>>>> Kösz szépen:
>>>> Bálint
>>
>>
>> _______________________________________________
>> nlp-infra-devel mailing list
>> nlp-infra-devel at nytud.mta.hu
>> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>

-------------- next part --------------
#
# Analyzer configuration

# OS dependent binaries with relative path to the jar file
analyzer.linux  = linux/hfst-lookup.sh
analyzer.win32  = win32/hfst-lookup.exe
analyzer.osx    = osx/hfst-lookup
# OS independent configuration parameters for the binary 
analyzer.params = --cascade=composition --xfst=print-pairs --xfst=print-space --pipe-mode -t 2 ../hu.hfstol
# maximum number of concurrent binaries
analyzer.max_count  = 3
# timeout in milliseconds for a query
analyzer.timeout_ms = 2000

#
# Stemmer configuration

#
# ';' separated list of tags



stemmer.STEM=/Adj;/Adj|Abbr;/Adj|Attr;/Adj|Attr|Abbr;/Adj|Attr|Pro;/Adj|Attr|Pro|Rel;/Adj|FN;/Adj|Pred;/Adj|Pred|Pro;/Adj|Pro;/Adj|Pro|Int;/Adj|Pro|Rel;/Adj|Unit;/Adj|col;/Adj|nat;/Adv;/Adv|(Adj);/Adv|(Num);/Adv|Abbr;/Adv|Acronx;/Adv|AdjMod;/Adv|Pro;/Adv|Pro|Abbr;/Adv|Pro|Int;/Adv|Pro|Rel;/CmpdPfx;/Cnj;/Cnj|Abbr;/Det;/Det|Pro;/Det|Pro|(Post);/Det|Pro|Int;/Det|Pro|Rel;/Det|Pro|def;/Det|Q;/Det|Q|indef;/Det|art.Def;/Det|art.NDef;/Ger:At;/Inj-Utt;/N;/Num;/Num|Abbr;/Num|Attr;/Num|Digit;/Num|Pro;/Num|Pro|Int;/Num|Pro|Rel;/Num|Roman;/N|Abbr;/N|Abbr|ChemSym;/N|Abbr|Unit;/N|Acron;/N|Acronx;/N|Ltr;/N|Pro;/N|Pro|(Post);/N|Pro|Abbr;/N|Pro|Int;/N|Pro|Rel;/N|Unit;/N|Unit|Abbr;/N|def;/N|lat;/N|mat;/Post;/Post|(Abl);/Post|(All);/Post|(Ela);/Post|(Ins);/Post|(N0);/Post|(Poss);/Post|(Subl);/Post|(Supe);/Post|(Ter);/Prep;/Prev;/QPtcl;/Slash;/Space;/S|Abbr;/S|Acron;/V;/V|Abbr;/X;/X|Abbr;Hyph:Dash;Hyph:Hyph;Hyph:Slash;_Abe/Adj;_AdjVbz_Ntr/V;_AdjVbz_Tr/V;_Adjz:i/Adj;_Adjz:s/Adj;_Adjz:Ă?/Adj;_Adjz:Ăš/Adj;_Adjz_Hab/Adj;_Adjz_Loc:beli/Adj;_Adjz_Ord:VdlAgOs/Adj;_Adjz_Quant/Adj;_Adjz_Type:fajta/Adj;_Adjz_Type:fĂ?le/Adj;_Adjz_Type:szerĹ?/Adj;_AdvPtcp:ttOn/Adv;_AdvPtcp:vĂ?st/Adv;_Advz:lAg/Adv;_Advz:rĂ?t/Adv;_Advz_LocDistr:szerte/Adv;_Advz_Quant:szám/Adv;_Des/N;_Dim:cskA/Adj;_Dim:cskA/N;_EssFor:kĂ?ntMA/Adj;_FutPtcp/Adj;_Ger:tA/N;_Ger/N;_ImpfPtcp/Adj;_MedPass/V;_MltComp/Adv;_ModPtcp/Adj;_Mrs/N;_NAdvz:ilAg/Adv;_VAdjz%:nivalĂł/Adj;_NVbz:l/V;_NVbz_Ntr:zik/V;_NVbz_Tr:z/V;_NegModPtcp/Adj;_NegPtcp/Adj;_Nz:s/N;_Nz_Abstr/N;_Nz_Type:fĂ?lesĂ?g/N;_Nz_Type:szerĹ?sĂ?g/N;_Pass/V;_PerfPtcp/Adj;_PerfPtcp_Subj=tA/Adj;_VAdvz:Ă?lAg/Adv;_VNz:nivalĂł/N;_Vbz:kOd/V

stemmer.PREFIX=/Supl

stemmer.COMP_MEMBER = /N;/Adj;/V;/CmpdPfx;/N|Acron;/N|Acronx;/N|Abbr;/N|lat|Abbr;/N|lat;/N|Unit;/N|mat

stemmer.COMP_DELIM = /Prev

stemmer.COMP_MUST_HAVE = /N;/Adj;/N|Acron;/N|Acronx;/N|Abbr;/N|lat|Abbr;/N|lat;/N|Unit;/N|mat

stemmer.COMP_BEFORE_HYPHEN=Nom;/N;/Adj;/N|Acron;/N|Acronx;/N|Abbr;/N|lat|Abbr;/N|lat;/N|Unit;/N|mat;/Num;/Num|Attr

stemmer.STEM_IF_COMP=_ImpfPtcp/Adj;_Adjz:s/Adj;_Adjz:Ă?/Adj;_Ger/N

stemmer.INT_PUNCT=Hyph:Dash;Hyph:Hyph;Hyph:Slash

stemmer.convert=_Abe/Adj=/Adj;_AdjVbz_Ntr/V=/V;_AdjVbz_Tr/V=/V;_Adjz:i/Adj=/Adj;_Adjz:s/Adj=/Adj;_Adjz:Ă?/Adj=/Adj;_Adjz:Ăš/Adj=/Adj;_Adjz_Hab/Adj=/Adj;_Adjz_Loc:beli/Adj=/Adj;_Adjz_Ord:VdlAgOs/Adj=/Adj;_Adjz_Quant/Adj=/Adj;_Adjz_Type:fajta/Adj=/Adj;_Adjz_Type:fĂ?le/Adj=/Adj;_Adjz_Type:szerĹ?/Adj=/Adj;_AdvPerfPtcp/Adv=/Adv;_AdvPtcp:ttOn/Adv=/Adv;_AdvPtcp:vĂ?st/Adv=/Adv;_AdvPtcp/Adv=/Adv;_Advz:lAg/Adv=/Adv;_Advz:rĂ?t/Adv=/Adv;_Advz_LocDistr:szerte/Adv=/Adv;_Advz_Quant:szám/Adv=/Adv;_Aggreg/Adv=/Adv;_Caus/V=/V;_Com:stUl/Adv=/Adv;_Comp/Adj=/Adj;_Comp/Adv=/Adv;_Comp/Adv|Pro=/Adv|Pro;_Comp/Num=/Num;_Comp/N|Pro=/N|Pro;_Comp/Post|(Abl)=/Post|(Abl);_Comp/Post|(All)=/Post|(All);_Des/N=/N;_Design/Adj=/Adj;_Dim:cskA/Adj=/Adj;_Dim:cskA/N=/N;_Distr:nkĂ?nt/Adv=/Adv;_DistrFrq:ntA/Adv=/Adv;_EssFor:kĂ?ntMA/Adj=/Adj;_Frac/Num=/Num;_Freq/V=/V;_FutPtcp/Adj=/Adj;_Ger:tA/N=/N;_Ger/N=/N;_ImpfPtcp/Adj=/Adj;_Manner:0/Adv=/Adv;_Manner/Adv=/Adv;_MedPass/V=/V;_Mlt-Iter/Adv=/Adv;_MltComp/Adv=/Adv;_Mod/V=/V;_ModPtcp/Adj=/Adj;_Mrs/N=/N;_NAdvz:ilAg/Adv=/Adv;_VAdjz%:nivalĂł/Adj=/Adj;_NVbz:l/V=/V;_NVbz_Ntr:zik/V=/V;_NVbz_Tr:z/V=/V;_NegModPtcp/Adj=/Adj;_NegPtcp/Adj=/Adj;_Nz:s/N=/N;_Nz_Abstr/N=/N;_Nz_Type:fĂ?lesĂ?g/N=/N;_Nz_Type:szerĹ?sĂ?g/N=/N;_Ord/Adj=/Adj;_OrdDate/N=/N;_Pass/V=/V;_PerfPtcp/Adj=/Adj;_PerfPtcp_Subj=tA/Adj /Adj;_Supe/N=/N;_Tmp_Ante/Adv=/Adv;_Tmp_Loc/Adv=/Adv;_VAdvz:Ă?lAg/Adv=/Adv;_VNz:nivalĂł/N=/N;_Vbz:kOd/V=/V

stemmer.replace=/Supl=_Supl;/Adj|col=/Adj;/Adj|nat=/Adj;/N|mat=/N;/N|Acron=/N;/N|Unit=/N;/N|Unit|Abbr=/N;/N|Abbr|ChemSym=/N;/N|Ltr=/N;/N|Acronx=/N;/N|Abbr=/N;/N|def=/N;/N|lat|Abbr=/N;/N|lat=/N;/Adj|lat=/Adj;/Num|lat=/Num

stemmer.copy2surface=* *


More information about the nlp-infra-devel mailing list