[nlp-infra-devel] kérés: tesztelés -- 10.05-ig
Sass Bálint
joker at nytud.hu
Mon Oct 3 15:41:50 CEST 2016
Kedves mindenki!
A Supl-Adj témáról.
Attila, sztem ilyen ad hoc változtatást ne csináljunk, amit javasolsz. :)
A "legjobb" elemzése:
leg[/Supl]=leg+jó[/Adj]=jo+bb[_Comp/Adj]=bb+[Nom]
Tök jó ez így.
Tudni kell, hogy ilyenkor az [/Adj] a főkategória, és kész.
Ez már legyen a további feldolgozó lépések dolga.
A tanítókorpusz oké, ti. ott a hfst kód van:
http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf
Nekem az a tippem, hogy ez egy DepTool.java szintű ügy.
(Ez az az eszköz, ami a hfst elemzésből kiszedi
a szófajt meg a feature-öket a további lépések számára.)
Azaz sztem a DepTool.java-ban kell ezt javítani. Meg is nézem...
https://github.com/dlt-rilmta/hunlp-GATE/blob/master/Lang_Hungarian/src/hu/nytud/gate/util/DepTool.java
Sztem első körben a 371. sor elejére kell egy return és ennyi! :)
Ezt javítani fogom most, hogy kiderült, de Vera, jó lenne,
ha ahogy írod, szánnátok időt a DepTool.java fejlesztésére,
és elküldenétek nekem az újabb/teljes/végleges verziót,
mondjuk akár egy pull request formájában. :)
[Erre tudtok határidőt vállalni?]
És ha lesz végső DepTool.java, akkor ha jól látom,
újra kell majd tanítani a POS tagger utáni eszközöket.
Egyelőre viszont ott tartunk, hogy próbáljuk feltárni a gondokat,
szóval várom a visszajelzéseket a tesztelésről. :)
Üdv:
Bálint
Ezt írta, 2016-09-29:
> Kedves mindenki!
>
> Attila javaslatát, legalábbis egyelőre, ne valósítsuk meg.
> Mindjárt írok erről kicsit bővebben.
>
> De a lényeg:
> kérem, hogy koncentráljunk a tesztelésre,
> ne az általam írt felvetésekre,
> amiket lényegében csak azért írtam,
> hogy milyen dolgok jöhetnek ki a tesztelés során például. :)
>
> Kösz szépen:
> Bálint
>
> Ezt írta ma Attila:
>> Sziasztok!
>>
>> Azt hiszem, ezt a Supl problémáját megoldja a hfst-wrapper
>> konfigurációjában a csatolt frissítés.
>> Így a felsőfok címkéje _Supl lesz /Supl helyett. Kell még szerintetek
>> ezen kívül valamit csinálni (azon kívül, hogy a tanítóanyagokban is
>> lecserélni az összes /Supl előfordulást _Supl-ra)? Az egyes eszközökben
>> implementált algoritmusokon kell valamit változtatni? A sorrend így is
>> _Supl /Adj marad, mert ilyen sorrendben szerepelnek a morfémák a
>> szavakban. De ha a / kezdet a címkében önmagában elég ahhoz, hogy azt
>> tekintsék főkategóriának a láncba később befűzött eszközök, akkor így jó
>> lesz.
>>
>> Ha így OK, akkor a github-on is frissíteni kellene a konfig fájlt.
>>
>> Attila
>>
>> On 2016.09.29. 12:28, Veronika Vincze wrote:
>>> Kedves Bálint!
>>>
>>> Néhány válasz a felmerült kérdésekre:
>>>>
>>>> 2. A felsőfokú melléknév szófaja: Supl.
>>>> Valszeg 'Adj' kellene, de ez mintha elromlana valahol.
>>> Az újkódos elemzőben a szófajok szögletes zárójelben és perjellel
>>> vannak jelölve, és a felsőfokú mellékneveknél [/Supl] szerepel, innen
>>> jöhet ez.
>>>>
>>>> 3. Vera, Ricsi, Jani, tervezitek-e az új kódokat feature-kre
>>>> alakító DepTool.java fejlesztését, és szükséges-e ez?
>>> Valószínűleg akad 1-2 kisebb hiba, amit könnyen tudunk javítani (lásd a
>>> fenti Supl esetet), úgyhogy valamennyi időt rászánunk majd ezek
>>> javítására.
>>>
>>> Üdv:
>>> Vera
>>>>
>>>> Köszönettel:
>>>> Bálint
>>>>
>>>> Ezt írtam ma:
>>>>> Kedves mindenki!
>>>>>
>>>>> Jelentős előrelépés történt az e-magyar terén,
>>>>> összegyűltek a modellek, frissült sok minden:
>>>>>
>>>>> a honlap mögött mától a teljes korpuszon tanított
>>>>> Pos, Dep és Cons modell működik,
>>>>> valamint a legújabb emToken és emMorph van benne.
>>>>>
>>>>> http://www.e-magyar.hu
>>>>>
>>>>> Köszönöm a közreműködést! :)
>>>>>
>>>>> Üdvözlettel:
>>>>> Bálint
>>>>>
>>>>> Ezt írtam, 2016-08-30:
>>>>>> Kedves mindenki!
>>>>>>
>>>>>> Július végén, első körben, elvileg a Szeged korpusz
>>>>>> egy kisebb részének felhasználásával készültek el
>>>>>> az újkódos modellek az infra2-höz.
>>>>>>
>>>>>> Ezekről van szó:
>>>>>>
>>>>>> * újkódos modell a PurePOS-hoz (Balázs)
>>>>>> * újkódos modell a Dep elemzőhöz (Ricsi, Vera)
>>>>>> * újkódos modell a Cons elemzőhöz (Ricsi, Vera)
>>>>>> * újkódos modell az NP chunkerhez (Eszter)
>>>>>> * újkódos modell a NER-hez (Eszter)
>>>>>>
>>>>>> Számomra most vált világossá, hogy Veráék még július végén
>>>>>> elkészítették a teljes Szeged korpusz újkódos változatát:
>>>>>>
>>>>>> http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf
>>>>>>
>>>>>> Az utolsó módosítás itt 2016-07-29 17:30
>>>>>>
>>>>>> A cél az, hogy ez alapján a tanítókorpusz alapján
>>>>>> mindenki készítse el a végleges modellt.
>>>>>>
>>>>>> Simán lehet, hogy valamelyikőtök
>>>>>> már eleve a teljes korpusz alapján készítette
>>>>>> el a modellt július végén - augusztus elején,
>>>>>> akkor annak nincs más dolga, mint hogy ezt jelezze nekem.
>>>>>>
>>>>>> A többiektől azt kérem, hogy készítsék el a végleges modellt most.
>>>>>> (Ahogy Vera írta Tamásnak, ők már dolgoznak a szintaktikai
>>>>>> modelleken.)
>>>>>>
>>>>>> A határidő legyen: 09.07. (jövő szerda)
>>>>>> Ha tartható, az jó, ha nem tartható, szóljatok! :)
>>>>>>
>>>>>> Minden érintettől kérek szépen visszajelzést.
>>>>>> Ide a listára, hogy mindenki lássa, hogyan állunk.
>>>>>>
>>>>>> Kösz szépen:
>>>>>> Bálint
More information about the nlp-infra-devel
mailing list