<html>
  <head>
    <meta content="text/html; charset=utf-8" http-equiv="Content-Type">
  </head>
  <body bgcolor="#FFFFFF" text="#000000">
    <p>Sziasztok,</p>
    <p>A konst modell nemrégen lett kész, fel is raktam ide:</p>
    <p><a class="moz-txt-link-freetext"
        href="http://www.inf.u-szeged.hu/%7Evinczev/infra/depmodel">http://www.inf.u-szeged.hu/~vinczev/infra/konst</a></p>
    <p>Bálint többi kérdésére Zsibrita Jani fog nemsokára válaszolni.</p>
    <p>Üdv:<br>
      Vera<br>
    </p>
    <br>
    <div class="moz-cite-prefix">On 2016.08.02. 10:51, Sass Bálint
      wrote:<br>
    </div>
    <blockquote
      cite="mid:alpine.DEB.2.11.1608021026180.46445@oliphant.nytud.hu"
      type="cite">Kedves Vera és Ricsi (és mindenki)!
      <br>
      <br>
      1.
      <br>
      Segítsetek, légyszi, abban, amit tegnap (alább) írtam. :)
      <br>
      <br>
      A leggyorsabb válasz gondolom az lenne,
      <br>
      ha simán odateszitek a tanítókorpuszt a
      <br>
      <a class="moz-txt-link-freetext" href="http://www.inf.u-szeged.hu/~vinczev/infra/depmodel">http://www.inf.u-szeged.hu/~vinczev/infra/depmodel</a>
      <br>
      címre, de persze nekem jobb, ha van mellé magyarázat is,
      <br>
      a legjobb pedig az, ha megvan a pontos algoritmus,
      <br>
      amivel az új POS-tagger kódokból kijön az,
      <br>
      amit a Dep elemzőnek inputként (form,lemma,pos,feat) kell beadni.
      <br>
      <br>
      2.
      <br>
      Hogy látjátok, a konstituens elemző modellje mikorra várható?
      <br>
      Légyszi, jelezzetek vissza, hogy
      <br>
      most szerda-csütörtökre (08.03-04.) kész tud-e lenni.
      <br>
      Az nagyon jó lenne. :)
      <br>
      <br>
      Kösz, üdv:
      <br>
      Bálint
      <br>
      <br>
      Ezt írtam, 2016-08-01:
      <br>
      <blockquote type="cite">Sziasztok, főként a szegediek!
        <br>
        <br>
        A magyarlanc-3.0 -ban lévő depparser van integrálva a GATE-be.
        <br>
        <br>
        Egy ponton van egy
        <br>
        <br>
        String[][] pars =
        <br>
         MyMateParser.getInstance().parseSentence(form,lemma,pos,feat);
        <br>
        <br>
        hívás, ez csinálja a dep elemzést.
        <br>
        <br>
        Van egy szk.mate.model nevű fájl, ami a dep elemző (régi)
        modellje.
        <br>
        <br>
        Ennek a helyére tettem be egy az egyben az új modellfájlt.
        <br>
        (Remélve, hogy ez így simán megy!)
        <br>
        <br>
        Fut is a dolog, csak az hiányzik, hogy pontosan milyen inputot
        <br>
        vár a fenti hívás a form, lemma, pos és feat pontokon.
        <br>
        <br>
        Az első kettő trivi (mondjátok, ha nem!).
        <br>
        <br>
        A kérdés, hogy mi a 'pos' és mi a 'feat' az újkódos rendszerben?
        <br>
        <br>
        Így néznek ki a POS taggerből kijövő újkódos elemzések:
        <br>
        <br>
        [/Det|art.Def]
        <br>
        [/N][Ine]
        <br>
        [/Adv]
        <br>
        [/V][Prs.NDef.3Sg]
        <br>
        [/Prev]
        <br>
        <br>
        Próbáltam többféleképpen, a legbíztatóbb eredményre azzal
        jutottam,
        <br>
        hogy a pos az első []-ben lévő dolog az kezdő "/" nélkül,
        <br>
        a feat meg a második []-ben lévő dolog, azaz:
        <br>
        <br>
        pos="Det|art.Def" feat=""
        <br>
        pos="N"           feat="Ine"
        <br>
        pos="Adv"         feat=""
        <br>
        pos="V"           feat="Prs.NDef.3Sg"
        <br>
        pos="Prev"        feat=""
        <br>
        <br>
        De egyáltalán nem vagyok biztos benne, hogy így gondoltátok.
        <br>
        <br>
        Szóval milyen input szükséges itt pontosan?
        <br>
        Ezt lenne most fontos tudnom. :)
        <br>
        <br>
        Ha feltesztek a modell mellé egy tanítókorpusz-részletet, az is
        segíthet.
        <br>
        <br>
        Kösz szépen:
        <br>
        Bálint
        <br>
        <br>
        Ezt írta Vera, 2016-07-31:
        <br>
        <blockquote type="cite">On 2016.07.31. 18:31, Sass Bálint wrote:
          <br>
          <blockquote type="cite">Sziasztok!
            <br>
            <br>
            Köszi, Vera! :)
            <br>
            <br>
            Mi ez az anna-3.61.jar ? Kell vele tenni valamit?
            <br>
          </blockquote>
          Ez maga a depparser, amihez tartozik a modell. Nem így
          integráltátok a GATE-be?
          <br>
          <blockquote type="cite">
            <br>
            A konstituensmodell akkor még készül, ugye? :)
            <br>
          </blockquote>
          Igen :)
          <br>
          <br>
          Vera
          <br>
          <blockquote type="cite">
            <br>
            Kösz, üdv:
            <br>
            Bálint
            <br>
            <br>
            Ezt írta ma Vera:
            <br>
            <blockquote type="cite">Sziasztok,
              <br>
              <br>
              Elkészült a dependenciamodell, itt elérhető:
              <br>
              <br>
              <a class="moz-txt-link-freetext" href="http://www.inf.u-szeged.hu/~vinczev/infra/depmodel">http://www.inf.u-szeged.hu/~vinczev/infra/depmodel</a>
              <br>
              <br>
              Üdv:
              <br>
              <br>
              Vera
              <br>
              <br>
              <br>
              On 2016.07.29. 14:30, Sass Bálint wrote:
              <br>
              <blockquote type="cite">@Balázs: Állítás volt. :)
                <br>
                <br>
                De persze frissítsd és szólj is, ha lesz új/jobb verzió.
                <br>
                <br>
                Kösz szépen:
                <br>
                Bálint
                <br>
                <br>
                Ezt írta ma:
                <br>
                <blockquote type="cite">@Bálint: Ha ez kérdés volt,
                  akkor a válasz: Igen, ez a ma 9:35 körüli
                  <br>
                  Szeged korpusz állapotokat tükrözi és majd frissítem,
                  ha lesz "új,
                  <br>
                  mindenhol peres" javított korpusz.
                  <br>
                  <br>
                  <br>
                  Balázs
                  <br>
                  <br>
                  2016. július 29. 12:06 Sass Bálint írta,
                  <a class="moz-txt-link-rfc2396E" href="mailto:joker@nytud.hu"><joker@nytud.hu></a>:
                  <br>
                        Sziasztok!
                  <br>
                  <br>
                        Most akkor ez a modell lesz az, amit az infra2
                  láncba,
                  <br>
                        az e-magyar.hu honlap mögé beteszünk:
                  <br>
                  <br>
<a class="moz-txt-link-freetext" href="http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new">http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new</a>
                  <br>
                  <br>
                        időbélyege: 2016-07-29 10:10 mérete: 82M
                  <br>
                  <br>
                        Kösz szépen mindenkinek a közreműködést ebben.
                  <br>
                  <br>
                        A két szintaktikai modellt még nagyon várjuk! :)
                  <br>
                  <br>
                        Üdv:
                  <br>
                        Bálint
                  <br>
                  <br>
                        Ezt írta ma Balázs:
                  <br>
                              Sziasztok!
                  <br>
                  <br>
                              1412 egyedi címke. Jobb a helyzet...
                  <br>
                  <br>
                              A PurePOS model frissült.
                  <br>
                              Már tisztul a kép, de még nem értek
                  bizonyos
                  <br>
                              dolgokat (most PurePOS
                  <br>
                              jelölsében #-el elválasztva szóalak szótő
                  címke):
                  <br>
                  <br>
                              1) "leg"-et#"#[Punct]  Ez miért Punct ha a
                  <br>
                              mondatvégi pont vessző stb.
                  <br>
                              OTHER?
                  <br>
                              2) Most akkor a címkének nem "[/" -el
                  kelellene
                  <br>
                              kezdődnie? Mert ezek a
                  <br>
                              címkék furák:
                  <br>
                  <br>
                               252623 OTHER
                  <br>
                                 1305 [Adj][Nom]
                  <br>
                                   26 [N|Acron][Acc]
                  <br>
                                   17 [N|Acron][Pl][Nom]
                  <br>
                                   14 [N|Acron][Transl]
                  <br>
                                   12 [Num][Nom]
                  <br>
                                    6 [Adj][Pl][Nom]
                  <br>
                                    5 [N|Acron][Ins]
                  <br>
                                    5 [N|Abbr][Dat]
                  <br>
                                    4 [N][Nom]
                  <br>
                                    4 [Adj|nat][Nom]
                  <br>
                                    3 [N][Poss.3Sg][Nom]
                  <br>
                                    3 [N|Acron][Pl][Subl]
                  <br>
                                    3 [Adj][All]
                  <br>
                                    2 [V][Inf]
                  <br>
                                    2
                  [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
                  <br>
                                    2 [N][Poss.3Sg][Acc]
                  <br>
                                    2 [N|Acron][Pl][All]
                  <br>
                                    2 [N|Acron][Pl][Acc]
                  <br>
                                    2 [N|Acron][Nom]
                  <br>
                                    2 [N|Abbr][Subl]
                  <br>
                                    2 [N|Abbr][All]
                  <br>
                                    2 [N|Abbr][Acc]
                  <br>
                                    1 [V][Pst.Def.3Sg]
                  <br>
                                    1 [V][Pst.Def.1Sg]
                  <br>
                                    1 [V][_Mod][Prs.NDef.3Pl]
                  <br>
                                    1 [V][_Mod][Prs.Def.3Sg][Punct]
                  <br>
                                    1 [Punct]
                  <br>
                                    1 POS
                  <br>
                                    1 [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
                  <br>
                                    1 [_PerfPtcp_Subj=tA/Adj][Nom]
                  <br>
                                    1 [N][Poss.3Pl][Nom]
                  <br>
                                    1 [N][All]
                  <br>
                                    1 [N|Acron][Subl]
                  <br>
                                    1 [N|Acron][Poss.1Sg][Subl]
                  <br>
                                    1 [N|Acron][Poss.1Pl][All]
                  <br>
                                    1 [N|Acron][Pl][Ter]
                  <br>
                                    1 [N|Acron][Pl][Ins]
                  <br>
                                    1 [N|Acron][Pl][Ine]
                  <br>
                                    1 [N|Acron][Ade]
                  <br>
                                    1 [N|Acron][Acc][Punct]
                  <br>
                                    1 [N][Acc]
                  <br>
                                    1 [N|Abbr][Ela]
                  <br>
                                    1 [Adj][Pl][Ade]
                  <br>
                                    1 [Adj][EssFor%:ként]
                  <br>
                                    1 [Adj]
                  <br>
                  <br>
                  <br>
                              Balázs
                  <br>
                  <br>
                  <br>
                              2016. július 29. 9:46 Veronika Vincze
                  írta,
                  <br>
                              <a class="moz-txt-link-rfc2396E" href="mailto:vinczev@inf.u-szeged.hu"><vinczev@inf.u-szeged.hu></a>:
                  <br>
                  <br>
                                    Sziasztok!
                  <br>
                  <br>
                                    A második hibát javítottuk a
                  konverterben,
                  <br>
                              frissültek a
                  <br>
                                    fájlok.
                  <br>
                  <br>
                                    Az első hiba nagyrészt
                  tulajdonneveket
                  <br>
                              érint, ha jól
                  <br>
                                    gondolom. A Szeged Korpuszban ezek
                  <br>
                              egységesen főnévi címkét
                  <br>
                                    kaptak, még akkor is, ha jelen
                  esetben egy
                  <br>
                              melléknév képezi a
                  <br>
                                    tulajdonnév részét. A konverter úgy
                  <br>
                              működik, hogy az új
                  <br>
                                    harmonizált kódok közül választjuk
                  ki az
                  <br>
                              MSD-kód alapján a
                  <br>
                                    neki leginkább megfelelőt, vagyis
                  itt most
                  <br>
                              a főnévi kódnak
                  <br>
                                    megfelelően főnévi kódot választ,
                  ami
                  <br>
                              persze nem helyes, de
                  <br>
                                    ezt automatikusan nem tudjuk
                  eldönteni.
                  <br>
                              Sajnos arra most
                  <br>
                                    nincs se időnk, se erőforrásunk
                  (Szegeden
                  <br>
                              legalábbis), hogy
                  <br>
                                    ezeket az eseteket kézzel
                  egyértelműsítsük
                  <br>
                              :(
                  <br>
                  <br>
                                    Üdv:
                  <br>
                                    Vera
                  <br>
                  <br>
                  <br>
                                    On 2016.07.29. 8:22, Indig Balázs
                  wrote:
                  <br>
                                    Szasztok!
                  <br>
                              @Vera:
                  <br>
                  <br>
                              Megye -> Megy
                  <br>
                  <br>
                              Jász-Nagykun-Szolnok Jász-Nagykun-Szolnok
                  N
                  <br>
                  SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
                  <br>
                              Jász-Nagykun-Szolnok[/N][Nom]
                  <br>
                              Megyei Megyei N
                  <br>
                  SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
                  <br>
                              Megy[/N][Pl.Poss.3Sg][Nom]
                  <br>
                  <br>
                              És ebből van egy csomó...
                  <br>
                  <br>
                              Illetve a másik:
                  <br>
                  <br>
                              A a T SubPOS=f a[/Det|art.Def]
                  <br>
                              két két M
                  <br>
SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none
                  <br>
                              két[/Num|Attr][Nom]
                  <br>
                              óra óra N
                  <br>
                  SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
                  <br>
                              óra[/N][Nom]
                  <br>
                              közti közti A
                  <br>
SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
                  <br>
                              közti[/Adj][Nom]
                  <br>
                              szüntet szüntet Z _
                  [szüntet[/V][Prs.NDef.3Sg]]
                  <br>
                  <br>
                              Értem én, de akkor valaki elmondhatná,
                  hogy mi a
                  <br>
                              formátum: Az
                  <br>
                              első [/ -től van a címke vagy az első [
                  -től? És
                  <br>
                              ha az előbbi
                  <br>
                              akkor mit kezdjen a PurePOS a fenti
                  "lemmakezdő
                  <br>
                              [" -el?
                  <br>
                  <br>
                              Most az egész  [szüntet[/V][Prs.NDef.3Sg]]
                  <br>
                              címkének van véve
                  <br>
                              és így halál lassú a tanítás(az eddigi
                  1026 uniq
                  <br>
                              cimke
                  <br>
                              helyett van 2408 a hülyeségekkel együtt),
                  meg nem
                  <br>
                              is biztos,
                  <br>
                              hogy ez adja az elvárt eredményt...
                  <br>
                  <br>
                  <br>
                              Balázs
                  <br>
                  <br>
                  <br>
                              2016. július 28. 18:37 Indig Balázs írta,
                  <br>
                              <a class="moz-txt-link-rfc2396E" href="mailto:indig.balazs@itk.ppke.hu"><indig.balazs@itk.ppke.hu></a>:
                  <br>
                                    Sziasztok!
                  <br>
                  <br>
                                    Az új javított szeged korpuszhoz is
                  <br>
                              elérhető a
                  <br>
                                    PurePOS model itt:
                  <br>
                  <br>
                              <a class="moz-txt-link-freetext" href="http://pi.itk.ppke.hu/~dlazesz/infra/">http://pi.itk.ppke.hu/~dlazesz/infra/</a>
                  <br>
                  <br>
                  <br>
                  <br>
                              Üdv,
                  <br>
                  <br>
                              Balázs
                  <br>
                  <br>
                              2016. július 28. 15:54 Veronika Vincze
                  írta,
                  <br>
                              <a class="moz-txt-link-rfc2396E" href="mailto:vinczev@inf.u-szeged.hu"><vinczev@inf.u-szeged.hu></a>:
                  <br>
                  <br>
                                    Sziasztok,
                  <br>
                  <br>
                                    Javítottunk pár bugot a
                  konvertálásban,
                  <br>
                                    most már elvben jó minden sor
                  formátuma. A
                  <br>
                                    Szeged Korpusz teljes anyaga
                  elérhető a
                  <br>
                  <br>
                  <br>
<a class="moz-txt-link-freetext" href="http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/">http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/</a>
                  <br>
                  <br>
                                    címen. Ha bármilyen problémát
                  találtok,
                  <br>
                                    jelezzétek, kérlek.
                  <br>
                  <br>
                                    @Attila: néha a képzett szavaknál a
                  szófaj
                  <br>
                                    elől lemarad a / jel (pl.
                  Dél-dunántúli
                  <br>
                                    Dél-dunántúli[Adj][Nom]), ezt mi
                  elvben
                  <br>
                                    javítottuk a konverzió során, de az
                  <br>
                                    elemzőben is hasznos lenne átírni.
                  <br>
                  <br>
                                    Üdv:
                  <br>
                                    Vera
                  <br>
                  <br>
                                    On 2016.07.28. 13:46, Indig Balázs
                  wrote:
                  <br>
                                    Kedves Mindenki!
                  <br>
                              PurePOS modellek és a szeged korpusz
                  <br>
                              formátumából purepos input formátumba
                  <br>
                              konvertáló script:
                  <br>
                  <br>
                              <a class="moz-txt-link-freetext" href="http://pi.itk.ppke.hu/~dlazesz/infra/">http://pi.itk.ppke.hu/~dlazesz/infra/</a>
                  <br>
                  <br>
                              A szeged korpusz formátuma kicsit fura.
                  Van
                  <br>
                              ahol nem csak 5 mező van És csomó helyen
                  <br>
                              viszonylag nehéz kinyerni, hogy mit is
                  <br>
                              akarhatott a szerző, hogy mi kerüljön a
                  <br>
                              PurePOS-ba. A konvertáló script tele van
                  <br>
                              ezirányú kommentekkel.
                  <br>
                  <br>
                              Ami a "PurePOS-beli morfológiát" illeti:
                  <br>
                  <br>
                              Így néz ki egy morfológiával szelektíven
                  <br>
                              annotált{{annotál[\V]||annotáció[\N]}}
                  <br>
                              input  sor .
                  <br>
                  <br>
                              Majd még fog alakulni a dolog. Most a
                  héten
                  <br>
                              ez megy.
                  <br>
                  <br>
                  <br>
                              Üdv,
                  <br>
                  <br>
                              Balázs
                  <br>
                  <br>
                  <br>
                              2016. július 25. 13:52 Veronika Vincze
                  <br>
                              írta, <a class="moz-txt-link-rfc2396E" href="mailto:vinczev@inf.u-szeged.hu"><vinczev@inf.u-szeged.hu></a>:
                  <br>
                                    Kedves Mindenki,
                  <br>
                  <br>
                  <br>
                                    On 2016.07.25. 12:12, Sass
                  <br>
                                    Bálint wrote:
                  <br>
                  <br>
                                          2.
                  <br>
                                          Vera, esetleg írj
                  <br>
                                          pár szót a fájl
                  <br>
                                          oszlopairól,
                  <br>
                                          hogy igaziból
                  <br>
                                          melyik kell nekünk
                  <br>
                                          most.
                  <br>
                  <br>
                                          Megnéztem, sztem ez
                  <br>
                                          van:
                  <br>
                                          1. oszlop = szóalak
                  <br>
                                          5. oszlop = újkódos
                  <br>
                                          szótő + szófaj +
                  <br>
                                          elemzés
                  <br>
                  <br>
                                          Ugye ez a kettő
                  <br>
                                          kell most a
                  <br>
                                          tanításhoz,
                  <br>
                                          a 2-3-4. oszlop
                  <br>
                                          régi, így figyelmen
                  <br>
                                          kívül hagyandó?
                  <br>
                  <br>
                                          Szóval az 5.
                  <br>
                                          oszlopban lévő
                  <br>
                                          szótövet, szófajt
                  <br>
                                          és elemzést
                  <br>
                                          kellene rendre
                  <br>
                                          lemma, pos és
                  <br>
                                          feature -ként
                  <br>
                                          használni a
                  <br>
                                          tanításokhoz, ugye?
                  <br>
                                          :)
                  <br>
                  <br>
                                    Így igaz, az 1. és az 5. oszlop
                  <br>
                                    a fontos, a többit csak benne
                  <br>
                                    hagytuk a kiíratáskor.
                  <br>
                                          3.
                  <br>
                                          Tekintetbe véve,
                  <br>
                                          hogy hét végére
                  <br>
                                          mindennek mennie
                  <br>
                                          kellene
                  <br>
                                          valamilyen formában
                  <br>
                                          a honlap mögött,
                  <br>
                                          azt kérem, hogy
                  <br>
                                          mindenki (az alább
                  <br>
                                          említettek)
                  <br>
                                          tanítson egy
                  <br>
                                          modellt ezen a
                  <br>
                                          részkorpuszon, hogy
                  <br>
                                          legyen valami,
                  <br>
                                          aztán majd később
                  <br>
                                          legyenek meg a
                  <br>
                                          teljes korpuszon
                  <br>
                                          tanított modellek.
                  <br>
                  <br>
                                    Nekiállunk mi is szintaxist
                  <br>
                                    tanítani (plusz csináljuk a
                  <br>
                                    többi alkorpusz
                  <br>
                                    infrásmorfológiára való
                  <br>
                                    átalakítását), ez valószínűleg
                  <br>
                                    pár napot igénybe vesz nálunk.
                  <br>
                  <br>
                                    Üdv:
                  <br>
                                    Vera
                  <br>
                </blockquote>
              </blockquote>
            </blockquote>
          </blockquote>
        </blockquote>
      </blockquote>
      <br>
      <br>
      _______________________________________________
      <br>
      nlp-infra-devel mailing list
      <br>
      <a class="moz-txt-link-abbreviated" href="mailto:nlp-infra-devel@nytud.mta.hu">nlp-infra-devel@nytud.mta.hu</a>
      <br>
      <a class="moz-txt-link-freetext" href="http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel">http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel</a>
      <br>
    </blockquote>
    <br>
  </body>
</html>