<html>
<head>
<meta content="text/html; charset=UTF-8" http-equiv="Content-Type">
</head>
<body bgcolor="#FFFFFF" text="#000000">
<p>Sziasztok,</p>
<p>Javítottunk pár bugot a konvertálásban, most már elvben jó minden
sor formátuma. A Szeged Korpusz teljes anyaga elérhető a<br>
</p>
<a class="moz-txt-link-freetext"
href="http://www.inf.u-szeged.hu/%7Evinczev/infra/konvertalt_morf/">http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/</a><br>
<br>
címen. Ha bármilyen problémát találtok, jelezzétek, kérlek.<br>
<br>
@Attila: néha a képzett szavaknál a szófaj elől lemarad a / jel (pl.
Dél-dunántúli Dél-dunántúli[Adj][Nom]), ezt mi elvben javítottuk
a konverzió során, de az elemzőben is hasznos lenne átírni.<br>
<br>
Üdv:<br>
Vera<br>
<br>
<div class="moz-cite-prefix">On 2016.07.28. 13:46, Indig Balázs
wrote:<br>
</div>
<blockquote
cite="mid:CAFSpsSASteXJ0Hu=Asx__2m185Jm9qHFYbvuy2auufETWmC8rg@mail.gmail.com"
type="cite">
<div dir="ltr">Kedves Mindenki!
<div><br>
</div>
<div>PurePOS modellek és a szeged korpusz formátumából purepos
input formátumba konvertáló script:</div>
<div><br>
</div>
<div><a moz-do-not-send="true"
href="http://pi.itk.ppke.hu/%7Edlazesz/infra/">http://pi.itk.ppke.hu/~dlazesz/infra/</a><br>
</div>
<div><br>
</div>
<div>A szeged korpusz formátuma kicsit fura. Van ahol nem csak 5
mező van És csomó helyen viszonylag nehéz kinyerni, hogy mit
is akarhatott a szerző, hogy mi kerüljön a PurePOS-ba. A
konvertáló script tele van ezirányú kommentekkel.</div>
<div><br>
</div>
<div>Ami a "PurePOS-beli morfológiát" illeti:</div>
<div><br>
</div>
<div>Így néz ki egy morfológiával szelektíven
annotált{{annotál[\V]||annotáció[\N]}} input sor .</div>
<div><br>
</div>
<div>Majd még fog alakulni a dolog. Most a héten ez megy.</div>
<div><br>
</div>
<div><br>
</div>
<div>Üdv,</div>
<div><br>
</div>
<div>Balázs</div>
<div><br>
</div>
</div>
<div class="gmail_extra"><br>
<div class="gmail_quote">2016. július 25. 13:52 Veronika Vincze
írta, <span dir="ltr"><<a moz-do-not-send="true"
href="mailto:vinczev@inf.u-szeged.hu" target="_blank">vinczev@inf.u-szeged.hu</a>></span>:<br>
<blockquote class="gmail_quote" style="margin:0 0 0
.8ex;border-left:1px #ccc solid;padding-left:1ex">Kedves
Mindenki,<span class=""><br>
<br>
<br>
On 2016.07.25. 12:12, Sass Bálint wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0
.8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
2.<br>
Vera, esetleg írj pár szót a fájl oszlopairól,<br>
hogy igaziból melyik kell nekünk most.<br>
<br>
Megnéztem, sztem ez van:<br>
1. oszlop = szóalak<br>
5. oszlop = újkódos szótő + szófaj + elemzés<br>
<br>
Ugye ez a kettő kell most a tanításhoz,<br>
a 2-3-4. oszlop régi, így figyelmen kívül hagyandó?<br>
<br>
Szóval az 5. oszlopban lévő szótövet, szófajt és
elemzést<br>
kellene rendre lemma, pos és feature -ként<br>
használni a tanításokhoz, ugye? :)<br>
</blockquote>
</span>
Így igaz, az 1. és az 5. oszlop a fontos, a többit csak
benne hagytuk a kiíratáskor.<span class=""><br>
<blockquote class="gmail_quote" style="margin:0 0 0
.8ex;border-left:1px #ccc solid;padding-left:1ex">
3.<br>
Tekintetbe véve, hogy hét végére mindennek mennie
kellene<br>
valamilyen formában a honlap mögött, azt kérem, hogy<br>
mindenki (az alább említettek)<br>
tanítson egy modellt ezen a részkorpuszon, hogy legyen
valami,<br>
aztán majd később legyenek meg a teljes korpuszon
tanított modellek.<br>
</blockquote>
</span>
Nekiállunk mi is szintaxist tanítani (plusz csináljuk a
többi alkorpusz infrásmorfológiára való átalakítását), ez
valószínűleg pár napot igénybe vesz nálunk.<br>
<br>
Üdv:<br>
Vera
<div class="HOEnZb">
<div class="h5"><br>
<br>
<br>
_______________________________________________<br>
nlp-infra-devel mailing list<br>
<a moz-do-not-send="true"
href="mailto:nlp-infra-devel@nytud.mta.hu"
target="_blank">nlp-infra-devel@nytud.mta.hu</a><br>
<a moz-do-not-send="true"
href="http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel"
rel="noreferrer" target="_blank">http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel</a><br>
</div>
</div>
</blockquote>
</div>
<br>
</div>
<br>
<fieldset class="mimeAttachmentHeader"></fieldset>
<br>
<pre wrap="">_______________________________________________
nlp-infra-devel mailing list
<a class="moz-txt-link-abbreviated" href="mailto:nlp-infra-devel@nytud.mta.hu">nlp-infra-devel@nytud.mta.hu</a>
<a class="moz-txt-link-freetext" href="http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel">http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel</a>
</pre>
</blockquote>
<br>
</body>
</html>