<html>
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type">
</head>
<body bgcolor="#FFFFFF" text="#000000">
<p>Sziasztok,</p>
<p>A konst modell nemrégen lett kész, fel is raktam ide:</p>
<p><a class="moz-txt-link-freetext"
href="http://www.inf.u-szeged.hu/%7Evinczev/infra/depmodel">http://www.inf.u-szeged.hu/~vinczev/infra/konst</a></p>
<p>Bálint többi kérdésére Zsibrita Jani fog nemsokára válaszolni.</p>
<p>Üdv:<br>
Vera<br>
</p>
<br>
<div class="moz-cite-prefix">On 2016.08.02. 10:51, Sass Bálint
wrote:<br>
</div>
<blockquote
cite="mid:alpine.DEB.2.11.1608021026180.46445@oliphant.nytud.hu"
type="cite">Kedves Vera és Ricsi (és mindenki)!
<br>
<br>
1.
<br>
Segítsetek, légyszi, abban, amit tegnap (alább) írtam. :)
<br>
<br>
A leggyorsabb válasz gondolom az lenne,
<br>
ha simán odateszitek a tanítókorpuszt a
<br>
<a class="moz-txt-link-freetext" href="http://www.inf.u-szeged.hu/~vinczev/infra/depmodel">http://www.inf.u-szeged.hu/~vinczev/infra/depmodel</a>
<br>
címre, de persze nekem jobb, ha van mellé magyarázat is,
<br>
a legjobb pedig az, ha megvan a pontos algoritmus,
<br>
amivel az új POS-tagger kódokból kijön az,
<br>
amit a Dep elemzőnek inputként (form,lemma,pos,feat) kell beadni.
<br>
<br>
2.
<br>
Hogy látjátok, a konstituens elemző modellje mikorra várható?
<br>
Légyszi, jelezzetek vissza, hogy
<br>
most szerda-csütörtökre (08.03-04.) kész tud-e lenni.
<br>
Az nagyon jó lenne. :)
<br>
<br>
Kösz, üdv:
<br>
Bálint
<br>
<br>
Ezt írtam, 2016-08-01:
<br>
<blockquote type="cite">Sziasztok, főként a szegediek!
<br>
<br>
A magyarlanc-3.0 -ban lévő depparser van integrálva a GATE-be.
<br>
<br>
Egy ponton van egy
<br>
<br>
String[][] pars =
<br>
MyMateParser.getInstance().parseSentence(form,lemma,pos,feat);
<br>
<br>
hívás, ez csinálja a dep elemzést.
<br>
<br>
Van egy szk.mate.model nevű fájl, ami a dep elemző (régi)
modellje.
<br>
<br>
Ennek a helyére tettem be egy az egyben az új modellfájlt.
<br>
(Remélve, hogy ez így simán megy!)
<br>
<br>
Fut is a dolog, csak az hiányzik, hogy pontosan milyen inputot
<br>
vár a fenti hívás a form, lemma, pos és feat pontokon.
<br>
<br>
Az első kettő trivi (mondjátok, ha nem!).
<br>
<br>
A kérdés, hogy mi a 'pos' és mi a 'feat' az újkódos rendszerben?
<br>
<br>
Így néznek ki a POS taggerből kijövő újkódos elemzések:
<br>
<br>
[/Det|art.Def]
<br>
[/N][Ine]
<br>
[/Adv]
<br>
[/V][Prs.NDef.3Sg]
<br>
[/Prev]
<br>
<br>
Próbáltam többféleképpen, a legbíztatóbb eredményre azzal
jutottam,
<br>
hogy a pos az első []-ben lévő dolog az kezdő "/" nélkül,
<br>
a feat meg a második []-ben lévő dolog, azaz:
<br>
<br>
pos="Det|art.Def" feat=""
<br>
pos="N" feat="Ine"
<br>
pos="Adv" feat=""
<br>
pos="V" feat="Prs.NDef.3Sg"
<br>
pos="Prev" feat=""
<br>
<br>
De egyáltalán nem vagyok biztos benne, hogy így gondoltátok.
<br>
<br>
Szóval milyen input szükséges itt pontosan?
<br>
Ezt lenne most fontos tudnom. :)
<br>
<br>
Ha feltesztek a modell mellé egy tanítókorpusz-részletet, az is
segíthet.
<br>
<br>
Kösz szépen:
<br>
Bálint
<br>
<br>
Ezt írta Vera, 2016-07-31:
<br>
<blockquote type="cite">On 2016.07.31. 18:31, Sass Bálint wrote:
<br>
<blockquote type="cite">Sziasztok!
<br>
<br>
Köszi, Vera! :)
<br>
<br>
Mi ez az anna-3.61.jar ? Kell vele tenni valamit?
<br>
</blockquote>
Ez maga a depparser, amihez tartozik a modell. Nem így
integráltátok a GATE-be?
<br>
<blockquote type="cite">
<br>
A konstituensmodell akkor még készül, ugye? :)
<br>
</blockquote>
Igen :)
<br>
<br>
Vera
<br>
<blockquote type="cite">
<br>
Kösz, üdv:
<br>
Bálint
<br>
<br>
Ezt írta ma Vera:
<br>
<blockquote type="cite">Sziasztok,
<br>
<br>
Elkészült a dependenciamodell, itt elérhető:
<br>
<br>
<a class="moz-txt-link-freetext" href="http://www.inf.u-szeged.hu/~vinczev/infra/depmodel">http://www.inf.u-szeged.hu/~vinczev/infra/depmodel</a>
<br>
<br>
Üdv:
<br>
<br>
Vera
<br>
<br>
<br>
On 2016.07.29. 14:30, Sass Bálint wrote:
<br>
<blockquote type="cite">@Balázs: Állítás volt. :)
<br>
<br>
De persze frissítsd és szólj is, ha lesz új/jobb verzió.
<br>
<br>
Kösz szépen:
<br>
Bálint
<br>
<br>
Ezt írta ma:
<br>
<blockquote type="cite">@Bálint: Ha ez kérdés volt,
akkor a válasz: Igen, ez a ma 9:35 körüli
<br>
Szeged korpusz állapotokat tükrözi és majd frissítem,
ha lesz "új,
<br>
mindenhol peres" javított korpusz.
<br>
<br>
<br>
Balázs
<br>
<br>
2016. július 29. 12:06 Sass Bálint írta,
<a class="moz-txt-link-rfc2396E" href="mailto:joker@nytud.hu"><joker@nytud.hu></a>:
<br>
Sziasztok!
<br>
<br>
Most akkor ez a modell lesz az, amit az infra2
láncba,
<br>
az e-magyar.hu honlap mögé beteszünk:
<br>
<br>
<a class="moz-txt-link-freetext" href="http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new">http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new</a>
<br>
<br>
időbélyege: 2016-07-29 10:10 mérete: 82M
<br>
<br>
Kösz szépen mindenkinek a közreműködést ebben.
<br>
<br>
A két szintaktikai modellt még nagyon várjuk! :)
<br>
<br>
Üdv:
<br>
Bálint
<br>
<br>
Ezt írta ma Balázs:
<br>
Sziasztok!
<br>
<br>
1412 egyedi címke. Jobb a helyzet...
<br>
<br>
A PurePOS model frissült.
<br>
Már tisztul a kép, de még nem értek
bizonyos
<br>
dolgokat (most PurePOS
<br>
jelölsében #-el elválasztva szóalak szótő
címke):
<br>
<br>
1) "leg"-et#"#[Punct] Ez miért Punct ha a
<br>
mondatvégi pont vessző stb.
<br>
OTHER?
<br>
2) Most akkor a címkének nem "[/" -el
kelellene
<br>
kezdődnie? Mert ezek a
<br>
címkék furák:
<br>
<br>
252623 OTHER
<br>
1305 [Adj][Nom]
<br>
26 [N|Acron][Acc]
<br>
17 [N|Acron][Pl][Nom]
<br>
14 [N|Acron][Transl]
<br>
12 [Num][Nom]
<br>
6 [Adj][Pl][Nom]
<br>
5 [N|Acron][Ins]
<br>
5 [N|Abbr][Dat]
<br>
4 [N][Nom]
<br>
4 [Adj|nat][Nom]
<br>
3 [N][Poss.3Sg][Nom]
<br>
3 [N|Acron][Pl][Subl]
<br>
3 [Adj][All]
<br>
2 [V][Inf]
<br>
2
[_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
<br>
2 [N][Poss.3Sg][Acc]
<br>
2 [N|Acron][Pl][All]
<br>
2 [N|Acron][Pl][Acc]
<br>
2 [N|Acron][Nom]
<br>
2 [N|Abbr][Subl]
<br>
2 [N|Abbr][All]
<br>
2 [N|Abbr][Acc]
<br>
1 [V][Pst.Def.3Sg]
<br>
1 [V][Pst.Def.1Sg]
<br>
1 [V][_Mod][Prs.NDef.3Pl]
<br>
1 [V][_Mod][Prs.Def.3Sg][Punct]
<br>
1 [Punct]
<br>
1 POS
<br>
1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
<br>
1 [_PerfPtcp_Subj=tA/Adj][Nom]
<br>
1 [N][Poss.3Pl][Nom]
<br>
1 [N][All]
<br>
1 [N|Acron][Subl]
<br>
1 [N|Acron][Poss.1Sg][Subl]
<br>
1 [N|Acron][Poss.1Pl][All]
<br>
1 [N|Acron][Pl][Ter]
<br>
1 [N|Acron][Pl][Ins]
<br>
1 [N|Acron][Pl][Ine]
<br>
1 [N|Acron][Ade]
<br>
1 [N|Acron][Acc][Punct]
<br>
1 [N][Acc]
<br>
1 [N|Abbr][Ela]
<br>
1 [Adj][Pl][Ade]
<br>
1 [Adj][EssFor%:ként]
<br>
1 [Adj]
<br>
<br>
<br>
Balázs
<br>
<br>
<br>
2016. július 29. 9:46 Veronika Vincze
írta,
<br>
<a class="moz-txt-link-rfc2396E" href="mailto:vinczev@inf.u-szeged.hu"><vinczev@inf.u-szeged.hu></a>:
<br>
<br>
Sziasztok!
<br>
<br>
A második hibát javítottuk a
konverterben,
<br>
frissültek a
<br>
fájlok.
<br>
<br>
Az első hiba nagyrészt
tulajdonneveket
<br>
érint, ha jól
<br>
gondolom. A Szeged Korpuszban ezek
<br>
egységesen főnévi címkét
<br>
kaptak, még akkor is, ha jelen
esetben egy
<br>
melléknév képezi a
<br>
tulajdonnév részét. A konverter úgy
<br>
működik, hogy az új
<br>
harmonizált kódok közül választjuk
ki az
<br>
MSD-kód alapján a
<br>
neki leginkább megfelelőt, vagyis
itt most
<br>
a főnévi kódnak
<br>
megfelelően főnévi kódot választ,
ami
<br>
persze nem helyes, de
<br>
ezt automatikusan nem tudjuk
eldönteni.
<br>
Sajnos arra most
<br>
nincs se időnk, se erőforrásunk
(Szegeden
<br>
legalábbis), hogy
<br>
ezeket az eseteket kézzel
egyértelműsítsük
<br>
:(
<br>
<br>
Üdv:
<br>
Vera
<br>
<br>
<br>
On 2016.07.29. 8:22, Indig Balázs
wrote:
<br>
Szasztok!
<br>
@Vera:
<br>
<br>
Megye -> Megy
<br>
<br>
Jász-Nagykun-Szolnok Jász-Nagykun-Szolnok
N
<br>
SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
<br>
Jász-Nagykun-Szolnok[/N][Nom]
<br>
Megyei Megyei N
<br>
SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
<br>
Megy[/N][Pl.Poss.3Sg][Nom]
<br>
<br>
És ebből van egy csomó...
<br>
<br>
Illetve a másik:
<br>
<br>
A a T SubPOS=f a[/Det|art.Def]
<br>
két két M
<br>
SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none
<br>
két[/Num|Attr][Nom]
<br>
óra óra N
<br>
SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
<br>
óra[/N][Nom]
<br>
közti közti A
<br>
SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
<br>
közti[/Adj][Nom]
<br>
szüntet szüntet Z _
[szüntet[/V][Prs.NDef.3Sg]]
<br>
<br>
Értem én, de akkor valaki elmondhatná,
hogy mi a
<br>
formátum: Az
<br>
első [/ -től van a címke vagy az első [
-től? És
<br>
ha az előbbi
<br>
akkor mit kezdjen a PurePOS a fenti
"lemmakezdő
<br>
[" -el?
<br>
<br>
Most az egész [szüntet[/V][Prs.NDef.3Sg]]
<br>
címkének van véve
<br>
és így halál lassú a tanítás(az eddigi
1026 uniq
<br>
cimke
<br>
helyett van 2408 a hülyeségekkel együtt),
meg nem
<br>
is biztos,
<br>
hogy ez adja az elvárt eredményt...
<br>
<br>
<br>
Balázs
<br>
<br>
<br>
2016. július 28. 18:37 Indig Balázs írta,
<br>
<a class="moz-txt-link-rfc2396E" href="mailto:indig.balazs@itk.ppke.hu"><indig.balazs@itk.ppke.hu></a>:
<br>
Sziasztok!
<br>
<br>
Az új javított szeged korpuszhoz is
<br>
elérhető a
<br>
PurePOS model itt:
<br>
<br>
<a class="moz-txt-link-freetext" href="http://pi.itk.ppke.hu/~dlazesz/infra/">http://pi.itk.ppke.hu/~dlazesz/infra/</a>
<br>
<br>
<br>
<br>
Üdv,
<br>
<br>
Balázs
<br>
<br>
2016. július 28. 15:54 Veronika Vincze
írta,
<br>
<a class="moz-txt-link-rfc2396E" href="mailto:vinczev@inf.u-szeged.hu"><vinczev@inf.u-szeged.hu></a>:
<br>
<br>
Sziasztok,
<br>
<br>
Javítottunk pár bugot a
konvertálásban,
<br>
most már elvben jó minden sor
formátuma. A
<br>
Szeged Korpusz teljes anyaga
elérhető a
<br>
<br>
<br>
<a class="moz-txt-link-freetext" href="http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/">http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/</a>
<br>
<br>
címen. Ha bármilyen problémát
találtok,
<br>
jelezzétek, kérlek.
<br>
<br>
@Attila: néha a képzett szavaknál a
szófaj
<br>
elől lemarad a / jel (pl.
Dél-dunántúli
<br>
Dél-dunántúli[Adj][Nom]), ezt mi
elvben
<br>
javítottuk a konverzió során, de az
<br>
elemzőben is hasznos lenne átírni.
<br>
<br>
Üdv:
<br>
Vera
<br>
<br>
On 2016.07.28. 13:46, Indig Balázs
wrote:
<br>
Kedves Mindenki!
<br>
PurePOS modellek és a szeged korpusz
<br>
formátumából purepos input formátumba
<br>
konvertáló script:
<br>
<br>
<a class="moz-txt-link-freetext" href="http://pi.itk.ppke.hu/~dlazesz/infra/">http://pi.itk.ppke.hu/~dlazesz/infra/</a>
<br>
<br>
A szeged korpusz formátuma kicsit fura.
Van
<br>
ahol nem csak 5 mező van És csomó helyen
<br>
viszonylag nehéz kinyerni, hogy mit is
<br>
akarhatott a szerző, hogy mi kerüljön a
<br>
PurePOS-ba. A konvertáló script tele van
<br>
ezirányú kommentekkel.
<br>
<br>
Ami a "PurePOS-beli morfológiát" illeti:
<br>
<br>
Így néz ki egy morfológiával szelektíven
<br>
annotált{{annotál[\V]||annotáció[\N]}}
<br>
input sor .
<br>
<br>
Majd még fog alakulni a dolog. Most a
héten
<br>
ez megy.
<br>
<br>
<br>
Üdv,
<br>
<br>
Balázs
<br>
<br>
<br>
2016. július 25. 13:52 Veronika Vincze
<br>
írta, <a class="moz-txt-link-rfc2396E" href="mailto:vinczev@inf.u-szeged.hu"><vinczev@inf.u-szeged.hu></a>:
<br>
Kedves Mindenki,
<br>
<br>
<br>
On 2016.07.25. 12:12, Sass
<br>
Bálint wrote:
<br>
<br>
2.
<br>
Vera, esetleg írj
<br>
pár szót a fájl
<br>
oszlopairól,
<br>
hogy igaziból
<br>
melyik kell nekünk
<br>
most.
<br>
<br>
Megnéztem, sztem ez
<br>
van:
<br>
1. oszlop = szóalak
<br>
5. oszlop = újkódos
<br>
szótő + szófaj +
<br>
elemzés
<br>
<br>
Ugye ez a kettő
<br>
kell most a
<br>
tanításhoz,
<br>
a 2-3-4. oszlop
<br>
régi, így figyelmen
<br>
kívül hagyandó?
<br>
<br>
Szóval az 5.
<br>
oszlopban lévő
<br>
szótövet, szófajt
<br>
és elemzést
<br>
kellene rendre
<br>
lemma, pos és
<br>
feature -ként
<br>
használni a
<br>
tanításokhoz, ugye?
<br>
:)
<br>
<br>
Így igaz, az 1. és az 5. oszlop
<br>
a fontos, a többit csak benne
<br>
hagytuk a kiíratáskor.
<br>
3.
<br>
Tekintetbe véve,
<br>
hogy hét végére
<br>
mindennek mennie
<br>
kellene
<br>
valamilyen formában
<br>
a honlap mögött,
<br>
azt kérem, hogy
<br>
mindenki (az alább
<br>
említettek)
<br>
tanítson egy
<br>
modellt ezen a
<br>
részkorpuszon, hogy
<br>
legyen valami,
<br>
aztán majd később
<br>
legyenek meg a
<br>
teljes korpuszon
<br>
tanított modellek.
<br>
<br>
Nekiállunk mi is szintaxist
<br>
tanítani (plusz csináljuk a
<br>
többi alkorpusz
<br>
infrásmorfológiára való
<br>
átalakítását), ez valószínűleg
<br>
pár napot igénybe vesz nálunk.
<br>
<br>
Üdv:
<br>
Vera
<br>
</blockquote>
</blockquote>
</blockquote>
</blockquote>
</blockquote>
</blockquote>
<br>
<br>
_______________________________________________
<br>
nlp-infra-devel mailing list
<br>
<a class="moz-txt-link-abbreviated" href="mailto:nlp-infra-devel@nytud.mta.hu">nlp-infra-devel@nytud.mta.hu</a>
<br>
<a class="moz-txt-link-freetext" href="http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel">http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel</a>
<br>
</blockquote>
<br>
</body>
</html>