<html>
  <head>
    <meta content="text/html; charset=UTF-8" http-equiv="Content-Type">
  </head>
  <body bgcolor="#FFFFFF" text="#000000">
    <p>Sziasztok,</p>
    <p>Javítottunk pár bugot a konvertálásban, most már elvben jó minden
      sor formátuma. A Szeged Korpusz teljes anyaga elérhető a<br>
    </p>
    <a class="moz-txt-link-freetext"
      href="http://www.inf.u-szeged.hu/%7Evinczev/infra/konvertalt_morf/">http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/</a><br>
    <br>
    címen. Ha bármilyen problémát találtok, jelezzétek, kérlek.<br>
    <br>
    @Attila: néha a képzett szavaknál a szófaj elől lemarad a / jel (pl.
    Dél-dunántúli    Dél-dunántúli[Adj][Nom]), ezt mi elvben javítottuk
    a konverzió során, de az elemzőben is hasznos lenne átírni.<br>
    <br>
    Üdv:<br>
    Vera<br>
    <br>
    <div class="moz-cite-prefix">On 2016.07.28. 13:46, Indig Balázs
      wrote:<br>
    </div>
    <blockquote
cite="mid:CAFSpsSASteXJ0Hu=Asx__2m185Jm9qHFYbvuy2auufETWmC8rg@mail.gmail.com"
      type="cite">
      <div dir="ltr">Kedves Mindenki!
        <div><br>
        </div>
        <div>PurePOS modellek és a szeged korpusz formátumából purepos
          input formátumba konvertáló script:</div>
        <div><br>
        </div>
        <div><a moz-do-not-send="true"
            href="http://pi.itk.ppke.hu/%7Edlazesz/infra/">http://pi.itk.ppke.hu/~dlazesz/infra/</a><br>
        </div>
        <div><br>
        </div>
        <div>A szeged korpusz formátuma kicsit fura. Van ahol nem csak 5
          mező van És csomó helyen viszonylag nehéz kinyerni, hogy mit
          is akarhatott a szerző, hogy mi kerüljön a PurePOS-ba. A
          konvertáló script tele van ezirányú kommentekkel.</div>
        <div><br>
        </div>
        <div>Ami a "PurePOS-beli morfológiát" illeti:</div>
        <div><br>
        </div>
        <div>Így néz ki egy morfológiával szelektíven
          annotált{{annotál[\V]||annotáció[\N]}} input  sor .</div>
        <div><br>
        </div>
        <div>Majd még fog alakulni a dolog. Most a héten ez megy.</div>
        <div><br>
        </div>
        <div><br>
        </div>
        <div>Üdv,</div>
        <div><br>
        </div>
        <div>Balázs</div>
        <div><br>
        </div>
      </div>
      <div class="gmail_extra"><br>
        <div class="gmail_quote">2016. július 25. 13:52 Veronika Vincze
          írta, <span dir="ltr"><<a moz-do-not-send="true"
              href="mailto:vinczev@inf.u-szeged.hu" target="_blank">vinczev@inf.u-szeged.hu</a>></span>:<br>
          <blockquote class="gmail_quote" style="margin:0 0 0
            .8ex;border-left:1px #ccc solid;padding-left:1ex">Kedves
            Mindenki,<span class=""><br>
              <br>
              <br>
              On 2016.07.25. 12:12, Sass Bálint wrote:<br>
              <blockquote class="gmail_quote" style="margin:0 0 0
                .8ex;border-left:1px #ccc solid;padding-left:1ex">
                <br>
                2.<br>
                Vera, esetleg írj pár szót a fájl oszlopairól,<br>
                hogy igaziból melyik kell nekünk most.<br>
                <br>
                Megnéztem, sztem ez van:<br>
                1. oszlop = szóalak<br>
                5. oszlop = újkódos szótő + szófaj + elemzés<br>
                <br>
                Ugye ez a kettő kell most a tanításhoz,<br>
                a 2-3-4. oszlop régi, így figyelmen kívül hagyandó?<br>
                <br>
                Szóval az 5. oszlopban lévő szótövet, szófajt és
                elemzést<br>
                kellene rendre lemma, pos és feature -ként<br>
                használni a tanításokhoz, ugye? :)<br>
              </blockquote>
            </span>
            Így igaz, az 1. és az 5. oszlop a fontos, a többit csak
            benne hagytuk a kiíratáskor.<span class=""><br>
              <blockquote class="gmail_quote" style="margin:0 0 0
                .8ex;border-left:1px #ccc solid;padding-left:1ex">
                3.<br>
                Tekintetbe véve, hogy hét végére mindennek mennie
                kellene<br>
                valamilyen formában a honlap mögött, azt kérem, hogy<br>
                mindenki (az alább említettek)<br>
                tanítson egy modellt ezen a részkorpuszon, hogy legyen
                valami,<br>
                aztán majd később legyenek meg a teljes korpuszon
                tanított modellek.<br>
              </blockquote>
            </span>
            Nekiállunk mi is szintaxist tanítani (plusz csináljuk a
            többi alkorpusz infrásmorfológiára való átalakítását), ez
            valószínűleg pár napot igénybe vesz nálunk.<br>
            <br>
            Üdv:<br>
            Vera
            <div class="HOEnZb">
              <div class="h5"><br>
                <br>
                <br>
                _______________________________________________<br>
                nlp-infra-devel mailing list<br>
                <a moz-do-not-send="true"
                  href="mailto:nlp-infra-devel@nytud.mta.hu"
                  target="_blank">nlp-infra-devel@nytud.mta.hu</a><br>
                <a moz-do-not-send="true"
                  href="http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel"
                  rel="noreferrer" target="_blank">http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel</a><br>
              </div>
            </div>
          </blockquote>
        </div>
        <br>
      </div>
      <br>
      <fieldset class="mimeAttachmentHeader"></fieldset>
      <br>
      <pre wrap="">_______________________________________________
nlp-infra-devel mailing list
<a class="moz-txt-link-abbreviated" href="mailto:nlp-infra-devel@nytud.mta.hu">nlp-infra-devel@nytud.mta.hu</a>
<a class="moz-txt-link-freetext" href="http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel">http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel</a>
</pre>
    </blockquote>
    <br>
  </body>
</html>