[nlp-infra-devel] kérés: tesztelés -- 10.05-ig

Sass Bálint joker at nytud.hu
Mon Oct 3 15:41:50 CEST 2016


Kedves mindenki!

A Supl-Adj témáról.

Attila, sztem ilyen ad hoc változtatást ne csináljunk, amit javasolsz. :)

A "legjobb" elemzése:
leg[/Supl]=leg+jó[/Adj]=jo+bb[_Comp/Adj]=bb+[Nom]

Tök jó ez így.
Tudni kell, hogy ilyenkor az [/Adj] a főkategória, és kész.
Ez már legyen a további feldolgozó lépések dolga.

A tanítókorpusz oké, ti. ott a hfst kód van:
http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf

Nekem az a tippem, hogy ez egy DepTool.java szintű ügy.
(Ez az az eszköz, ami a hfst elemzésből kiszedi
  a szófajt meg a feature-öket a további lépések számára.)

Azaz sztem a DepTool.java-ban kell ezt javítani. Meg is nézem...

https://github.com/dlt-rilmta/hunlp-GATE/blob/master/Lang_Hungarian/src/hu/nytud/gate/util/DepTool.java
Sztem első körben a 371. sor elejére kell egy return és ennyi! :)

Ezt javítani fogom most, hogy kiderült, de Vera, jó lenne,
ha ahogy írod, szánnátok időt a DepTool.java fejlesztésére,
és elküldenétek nekem az újabb/teljes/végleges verziót,
mondjuk akár egy pull request formájában. :)
[Erre tudtok határidőt vállalni?]

És ha lesz végső DepTool.java, akkor ha jól látom,
újra kell majd tanítani a POS tagger utáni eszközöket.

Egyelőre viszont ott tartunk, hogy próbáljuk feltárni a gondokat,
szóval várom a visszajelzéseket a tesztelésről. :)

Üdv:
Bálint

Ezt írta, 2016-09-29:
> Kedves mindenki!
>
> Attila javaslatát, legalábbis egyelőre, ne valósítsuk meg.
> Mindjárt írok erről kicsit bővebben.
>
> De a lényeg:
> kérem, hogy koncentráljunk a tesztelésre,
> ne az általam írt felvetésekre,
> amiket lényegében csak azért írtam,
> hogy milyen dolgok jöhetnek ki a tesztelés során például. :)
>
> Kösz szépen:
> Bálint
>
> Ezt írta ma Attila:
>> Sziasztok!
>> 
>> Azt hiszem, ezt a Supl problémáját megoldja a hfst-wrapper 
>> konfigurációjában a csatolt frissítés.
>> Így a felsőfok címkéje _Supl lesz /Supl helyett. Kell még szerintetek 
>> ezen kívül valamit csinálni (azon kívül, hogy a tanítóanyagokban is 
>> lecserélni az összes /Supl előfordulást _Supl-ra)? Az egyes eszközökben 
>> implementált algoritmusokon kell valamit változtatni? A sorrend így is 
>> _Supl /Adj marad, mert ilyen sorrendben szerepelnek a morfémák a 
>> szavakban. De ha a / kezdet a címkében önmagában elég ahhoz, hogy azt 
>> tekintsék főkategóriának a láncba később befűzött eszközök, akkor így jó 
>> lesz.
>> 
>> Ha így OK, akkor a github-on is frissíteni kellene a konfig fájlt.
>> 
>> Attila
>> 
>> On 2016.09.29. 12:28, Veronika Vincze wrote:
>>> Kedves Bálint!
>>> 
>>> Néhány válasz a felmerült kérdésekre:
>>>> 
>>>> 2. A felsőfokú melléknév szófaja: Supl.
>>>> Valszeg 'Adj' kellene, de ez mintha elromlana valahol.
>>> Az újkódos elemzőben a szófajok szögletes zárójelben és perjellel 
>>> vannak jelölve, és a felsőfokú mellékneveknél [/Supl] szerepel, innen 
>>> jöhet ez.
>>>> 
>>>> 3. Vera, Ricsi, Jani, tervezitek-e az új kódokat feature-kre
>>>> alakító DepTool.java fejlesztését, és szükséges-e ez?
>>> Valószínűleg akad 1-2 kisebb hiba, amit könnyen tudunk javítani (lásd a 
>>> fenti Supl esetet), úgyhogy valamennyi időt rászánunk majd ezek 
>>> javítására.
>>> 
>>> Üdv:
>>> Vera
>>>> 
>>>> Köszönettel:
>>>> Bálint
>>>> 
>>>> Ezt írtam ma:
>>>>> Kedves mindenki!
>>>>> 
>>>>> Jelentős előrelépés történt az e-magyar terén,
>>>>> összegyűltek a modellek, frissült sok minden:
>>>>> 
>>>>> a honlap mögött mától a teljes korpuszon tanított
>>>>> Pos, Dep és Cons modell működik,
>>>>> valamint a legújabb emToken és emMorph van benne.
>>>>> 
>>>>> http://www.e-magyar.hu
>>>>> 
>>>>> Köszönöm a közreműködést! :)
>>>>> 
>>>>> Üdvözlettel:
>>>>> Bálint
>>>>> 
>>>>> Ezt írtam, 2016-08-30:
>>>>>> Kedves mindenki!
>>>>>> 
>>>>>> Július végén, első körben, elvileg a Szeged korpusz
>>>>>> egy kisebb részének felhasználásával készültek el
>>>>>> az újkódos modellek az infra2-höz.
>>>>>> 
>>>>>> Ezekről van szó:
>>>>>> 
>>>>>> * újkódos modell a PurePOS-hoz (Balázs)
>>>>>> * újkódos modell a Dep elemzőhöz (Ricsi, Vera)
>>>>>> * újkódos modell a Cons elemzőhöz (Ricsi, Vera)
>>>>>> * újkódos modell az NP chunkerhez (Eszter)
>>>>>> * újkódos modell a NER-hez (Eszter)
>>>>>> 
>>>>>> Számomra most vált világossá, hogy Veráék még július végén
>>>>>> elkészítették a teljes Szeged korpusz újkódos változatát:
>>>>>> 
>>>>>> http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf
>>>>>> 
>>>>>> Az utolsó módosítás itt 2016-07-29 17:30
>>>>>> 
>>>>>> A cél az, hogy ez alapján a tanítókorpusz alapján
>>>>>> mindenki készítse el a végleges modellt.
>>>>>> 
>>>>>> Simán lehet, hogy valamelyikőtök
>>>>>> már eleve a teljes korpusz alapján készítette
>>>>>> el a modellt július végén - augusztus elején,
>>>>>> akkor annak nincs más dolga, mint hogy ezt jelezze nekem.
>>>>>> 
>>>>>> A többiektől azt kérem, hogy készítsék el a végleges modellt most.
>>>>>> (Ahogy Vera írta Tamásnak, ők már dolgoznak a szintaktikai 
>>>>>> modelleken.)
>>>>>> 
>>>>>> A határidő legyen: 09.07. (jövő szerda)
>>>>>> Ha tartható, az jó, ha nem tartható, szóljatok! :)
>>>>>> 
>>>>>> Minden érintettől kérek szépen visszajelzést.
>>>>>> Ide a listára, hogy mindenki lássa, hogyan állunk.
>>>>>> 
>>>>>> Kösz szépen:
>>>>>> Bálint




More information about the nlp-infra-devel mailing list