<html>
<head>
<meta content="text/html; charset=UTF-8" http-equiv="Content-Type">
</head>
<body bgcolor="#FFFFFF" text="#000000">
<p>Sziasztok!</p>
<p>A második hibát javítottuk a konverterben, frissültek a fájlok.</p>
<p>Az első hiba nagyrészt tulajdonneveket érint, ha jól gondolom. A
Szeged Korpuszban ezek egységesen főnévi címkét kaptak, még akkor
is, ha jelen esetben egy melléknév képezi a tulajdonnév részét. A
konverter úgy működik, hogy az új harmonizált kódok közül
választjuk ki az MSD-kód alapján a neki leginkább megfelelőt,
vagyis itt most a főnévi kódnak megfelelően főnévi kódot választ,
ami persze nem helyes, de ezt automatikusan nem tudjuk eldönteni.
Sajnos arra most nincs se időnk, se erőforrásunk (Szegeden
legalábbis), hogy ezeket az eseteket kézzel egyértelműsítsük :(</p>
<p>Üdv:<br>
Vera<br>
</p>
<br>
<div class="moz-cite-prefix">On 2016.07.29. 8:22, Indig Balázs
wrote:<br>
</div>
<blockquote
cite="mid:CAFSpsSD_mVHJtmTeaQANEdjSqVvD4OkeGU0U3z+hZU3V3UDvuw@mail.gmail.com"
type="cite">
<div dir="ltr">Szasztok!
<div><br>
</div>
<div>@Vera: </div>
<div><br>
</div>
<div>Megye -> Megy<br>
</div>
<div><br>
</div>
<div>
<div>Jász-Nagykun-Szolnok<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>Jász-Nagykun-Szolnok<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>N<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>Jász-Nagykun-Szolnok[/N][Nom]</div>
<div>Megyei<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>Megyei<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>N<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>Megy[/N][Pl.Poss.3Sg][Nom]</div>
</div>
<div><br>
</div>
<div>És ebből van egy csomó... </div>
<div><br>
</div>
<div>Illetve a másik:</div>
<div><br>
</div>
<div>
<div>A<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>a<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>T<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>SubPOS=f<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>a[/Det|art.Def]</div>
<div>két<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>két<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>M<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>két[/Num|Attr][Nom]</div>
<div>óra<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>óra<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>N<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>óra[/N][Nom]</div>
<div>közti<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>közti<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>A<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>közti[/Adj][Nom]</div>
<div>szüntet<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>szüntet<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>Z<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>_<span class="gmail-Apple-tab-span" style="white-space:pre"> </span>[szüntet[/V][Prs.NDef.3Sg]]</div>
</div>
<div><br>
</div>
<div>Értem én, de akkor valaki elmondhatná, hogy mi a formátum:
Az első [/ -től van a címke vagy az első [ -től? És ha az
előbbi akkor mit kezdjen a PurePOS a fenti "lemmakezdő [" -el?</div>
<div><br>
</div>
<div>Most az egész [szüntet[/V][Prs.NDef.3Sg]] címkének van
véve és így halál lassú a tanítás(az eddigi 1026 uniq cimke
helyett van 2408 a hülyeségekkel együtt), meg nem is biztos,
hogy ez adja az elvárt eredményt...</div>
<div><br>
</div>
<div><br>
</div>
<div>Balázs</div>
<div><br>
</div>
</div>
<div class="gmail_extra"><br>
<div class="gmail_quote">2016. július 28. 18:37 Indig Balázs
írta, <span dir="ltr"><<a moz-do-not-send="true"
href="mailto:indig.balazs@itk.ppke.hu" target="_blank">indig.balazs@itk.ppke.hu</a>></span>:<br>
<blockquote class="gmail_quote" style="margin:0 0 0
.8ex;border-left:1px #ccc solid;padding-left:1ex">
<div dir="ltr">Sziasztok!<br>
<br>
<div>Az új javított szeged korpuszhoz is elérhető a
PurePOS model itt:</div>
<div><br>
</div>
<div><a moz-do-not-send="true"
href="http://pi.itk.ppke.hu/%7Edlazesz/infra/"
target="_blank">http://pi.itk.ppke.hu/~dlazesz/infra/</a><br>
</div>
<div><br>
</div>
<div><br>
</div>
<div><br>
</div>
<div>Üdv,</div>
<div><br>
</div>
<div>Balázs</div>
</div>
<div class="HOEnZb">
<div class="h5">
<div class="gmail_extra"><br>
<div class="gmail_quote">2016. július 28. 15:54
Veronika Vincze írta, <span dir="ltr"><<a
moz-do-not-send="true"
href="mailto:vinczev@inf.u-szeged.hu"
target="_blank">vinczev@inf.u-szeged.hu</a>></span>:<br>
<blockquote class="gmail_quote" style="margin:0 0 0
.8ex;border-left:1px #ccc solid;padding-left:1ex">
<div bgcolor="#FFFFFF" text="#000000">
<p>Sziasztok,</p>
<p>Javítottunk pár bugot a konvertálásban, most
már elvben jó minden sor formátuma. A Szeged
Korpusz teljes anyaga elérhető a<br>
</p>
<a moz-do-not-send="true"
href="http://www.inf.u-szeged.hu/%7Evinczev/infra/konvertalt_morf/"
target="_blank">http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/</a><br>
<br>
címen. Ha bármilyen problémát találtok,
jelezzétek, kérlek.<br>
<br>
@Attila: néha a képzett szavaknál a szófaj elől
lemarad a / jel (pl. Dél-dunántúli
Dél-dunántúli[Adj][Nom]), ezt mi elvben
javítottuk a konverzió során, de az elemzőben is
hasznos lenne átírni.<br>
<br>
Üdv:<br>
Vera
<div>
<div><br>
<br>
<div>On 2016.07.28. 13:46, Indig Balázs
wrote:<br>
</div>
<blockquote type="cite">
<div dir="ltr">Kedves Mindenki!
<div><br>
</div>
<div>PurePOS modellek és a szeged
korpusz formátumából purepos input
formátumba konvertáló script:</div>
<div><br>
</div>
<div><a moz-do-not-send="true"
href="http://pi.itk.ppke.hu/%7Edlazesz/infra/"
target="_blank">http://pi.itk.ppke.hu/~dlazesz/infra/</a><br>
</div>
<div><br>
</div>
<div>A szeged korpusz formátuma kicsit
fura. Van ahol nem csak 5 mező van És
csomó helyen viszonylag nehéz
kinyerni, hogy mit is akarhatott a
szerző, hogy mi kerüljön a PurePOS-ba.
A konvertáló script tele van ezirányú
kommentekkel.</div>
<div><br>
</div>
<div>Ami a "PurePOS-beli morfológiát"
illeti:</div>
<div><br>
</div>
<div>Így néz ki egy morfológiával
szelektíven
annotált{{annotál[\V]||annotáció[\N]}}
input sor .</div>
<div><br>
</div>
<div>Majd még fog alakulni a dolog. Most
a héten ez megy.</div>
<div><br>
</div>
<div><br>
</div>
<div>Üdv,</div>
<div><br>
</div>
<div>Balázs</div>
<div><br>
</div>
</div>
<div class="gmail_extra"><br>
<div class="gmail_quote">2016. július
25. 13:52 Veronika Vincze írta, <span
dir="ltr"><<a
moz-do-not-send="true"
href="mailto:vinczev@inf.u-szeged.hu"
target="_blank">vinczev@inf.u-szeged.hu</a>></span>:<br>
<blockquote class="gmail_quote"
style="margin:0 0 0
.8ex;border-left:1px #ccc
solid;padding-left:1ex">Kedves
Mindenki,<span><br>
<br>
<br>
On 2016.07.25. 12:12, Sass Bálint
wrote:<br>
<blockquote class="gmail_quote"
style="margin:0 0 0
.8ex;border-left:1px #ccc
solid;padding-left:1ex"> <br>
2.<br>
Vera, esetleg írj pár szót a
fájl oszlopairól,<br>
hogy igaziból melyik kell nekünk
most.<br>
<br>
Megnéztem, sztem ez van:<br>
1. oszlop = szóalak<br>
5. oszlop = újkódos szótő +
szófaj + elemzés<br>
<br>
Ugye ez a kettő kell most a
tanításhoz,<br>
a 2-3-4. oszlop régi, így
figyelmen kívül hagyandó?<br>
<br>
Szóval az 5. oszlopban lévő
szótövet, szófajt és elemzést<br>
kellene rendre lemma, pos és
feature -ként<br>
használni a tanításokhoz, ugye?
:)<br>
</blockquote>
</span> Így igaz, az 1. és az 5.
oszlop a fontos, a többit csak benne
hagytuk a kiíratáskor.<span><br>
<blockquote class="gmail_quote"
style="margin:0 0 0
.8ex;border-left:1px #ccc
solid;padding-left:1ex"> 3.<br>
Tekintetbe véve, hogy hét végére
mindennek mennie kellene<br>
valamilyen formában a honlap
mögött, azt kérem, hogy<br>
mindenki (az alább említettek)<br>
tanítson egy modellt ezen a
részkorpuszon, hogy legyen
valami,<br>
aztán majd később legyenek meg a
teljes korpuszon tanított
modellek.<br>
</blockquote>
</span> Nekiállunk mi is szintaxist
tanítani (plusz csináljuk a többi
alkorpusz infrásmorfológiára való
átalakítását), ez valószínűleg pár
napot igénybe vesz nálunk.<br>
<br>
Üdv:<br>
Vera
<div>
<div><br>
<br>
<br>
_______________________________________________<br>
nlp-infra-devel mailing list<br>
<a moz-do-not-send="true"
href="mailto:nlp-infra-devel@nytud.mta.hu"
target="_blank">nlp-infra-devel@nytud.mta.hu</a><br>
<a moz-do-not-send="true"
href="http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel"
rel="noreferrer"
target="_blank">http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel</a><br>
</div>
</div>
</blockquote>
</div>
<br>
</div>
<br>
<fieldset></fieldset>
<br>
<pre>_______________________________________________
nlp-infra-devel mailing list
<a moz-do-not-send="true" href="mailto:nlp-infra-devel@nytud.mta.hu" target="_blank">nlp-infra-devel@nytud.mta.hu</a>
<a moz-do-not-send="true" href="http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel" target="_blank">http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel</a>
</pre>
</blockquote>
<br>
</div>
</div>
</div>
<br>
_______________________________________________<br>
nlp-infra-devel mailing list<br>
<a moz-do-not-send="true"
href="mailto:nlp-infra-devel@nytud.mta.hu"
target="_blank">nlp-infra-devel@nytud.mta.hu</a><br>
<a moz-do-not-send="true"
href="http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel"
rel="noreferrer" target="_blank">http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel</a><br>
<br>
</blockquote>
</div>
<br>
</div>
</div>
</div>
</blockquote>
</div>
<br>
</div>
<br>
<fieldset class="mimeAttachmentHeader"></fieldset>
<br>
<pre wrap="">_______________________________________________
nlp-infra-devel mailing list
<a class="moz-txt-link-abbreviated" href="mailto:nlp-infra-devel@nytud.mta.hu">nlp-infra-devel@nytud.mta.hu</a>
<a class="moz-txt-link-freetext" href="http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel">http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel</a>
</pre>
</blockquote>
<br>
</body>
</html>