[nlp-infra-devel] kérés: írjatok a listára, amint vmi elkészül -- newsml korpusz, tanítás
Sass Bálint
joker at nytud.hu
Tue Aug 2 11:31:54 CEST 2016
Szia Vera!
Ó, ez szuper, mindjárt nézem is! :)
Plusz, Jani, várom a leveledet,
ha lehet akkor ugyanazokat a dolgokat
rögtön a konst modell vonatkozásában is.
Kösz, üdv:
Bálint
Ezt írta ma Vera:
> Sziasztok,
>
> A konst modell nemrégen lett kész, fel is raktam ide:
>
> http://www.inf.u-szeged.hu/~vinczev/infra/konst
>
> Bálint többi kérdésére Zsibrita Jani fog nemsokára válaszolni.
>
> Üdv:
> Vera
>
>
> On 2016.08.02. 10:51, Sass Bálint wrote:
> Kedves Vera és Ricsi (és mindenki)!
>
> 1.
> Segítsetek, légyszi, abban, amit tegnap (alább) írtam. :)
>
> A leggyorsabb válasz gondolom az lenne,
> ha simán odateszitek a tanítókorpuszt a
> http://www.inf.u-szeged.hu/~vinczev/infra/depmodel
> címre, de persze nekem jobb, ha van mellé magyarázat is,
> a legjobb pedig az, ha megvan a pontos algoritmus,
> amivel az új POS-tagger kódokból kijön az,
> amit a Dep elemzőnek inputként (form,lemma,pos,feat) kell
> beadni.
>
> 2.
> Hogy látjátok, a konstituens elemző modellje mikorra várható?
> Légyszi, jelezzetek vissza, hogy
> most szerda-csütörtökre (08.03-04.) kész tud-e lenni.
> Az nagyon jó lenne. :)
>
> Kösz, üdv:
> Bálint
>
> Ezt írtam, 2016-08-01:
> Sziasztok, főként a szegediek!
>
> A magyarlanc-3.0 -ban lévő depparser van
> integrálva a GATE-be.
>
> Egy ponton van egy
>
> String[][] pars =
> MyMateParser.getInstance().parseSentence(form,lemma,pos,feat);
>
> hívás, ez csinálja a dep elemzést.
>
> Van egy szk.mate.model nevű fájl, ami a dep
> elemző (régi) modellje.
>
> Ennek a helyére tettem be egy az egyben az új
> modellfájlt.
> (Remélve, hogy ez így simán megy!)
>
> Fut is a dolog, csak az hiányzik, hogy pontosan
> milyen inputot
> vár a fenti hívás a form, lemma, pos és feat
> pontokon.
>
> Az első kettő trivi (mondjátok, ha nem!).
>
> A kérdés, hogy mi a 'pos' és mi a 'feat' az
> újkódos rendszerben?
>
> Így néznek ki a POS taggerből kijövő újkódos
> elemzések:
>
> [/Det|art.Def]
> [/N][Ine]
> [/Adv]
> [/V][Prs.NDef.3Sg]
> [/Prev]
>
> Próbáltam többféleképpen, a legbíztatóbb
> eredményre azzal jutottam,
> hogy a pos az első []-ben lévő dolog az kezdő "/"
> nélkül,
> a feat meg a második []-ben lévő dolog, azaz:
>
> pos="Det|art.Def" feat=""
> pos="N" feat="Ine"
> pos="Adv" feat=""
> pos="V" feat="Prs.NDef.3Sg"
> pos="Prev" feat=""
>
> De egyáltalán nem vagyok biztos benne, hogy így
> gondoltátok.
>
> Szóval milyen input szükséges itt pontosan?
> Ezt lenne most fontos tudnom. :)
>
> Ha feltesztek a modell mellé egy
> tanítókorpusz-részletet, az is segíthet.
>
> Kösz szépen:
> Bálint
>
> Ezt írta Vera, 2016-07-31:
> On 2016.07.31. 18:31, Sass Bálint
> wrote:
> Sziasztok!
>
> Köszi, Vera! :)
>
> Mi ez az anna-3.61.jar ?
> Kell vele tenni valamit?
>
> Ez maga a depparser, amihez tartozik
> a modell. Nem így integráltátok a
> GATE-be?
>
> A konstituensmodell akkor
> még készül, ugye? :)
>
> Igen :)
>
> Vera
>
> Kösz, üdv:
> Bálint
>
> Ezt írta ma Vera:
> Sziasztok,
>
> Elkészült a
> dependenciamodell,
> itt elérhető:
>
> http://www.inf.u-szeged.hu/~vinczev/infra/depmodel
>
> Üdv:
>
> Vera
>
>
> On
> 2016.07.29.
> 14:30, Sass
> Bálint wrote:
> @Balázs:
> Állítás
> volt.
> :)
>
> De
> persze
> frissítsd
> és
> szólj
> is,
> ha
> lesz
> új/jobb
> verzió.
>
> Kösz
> szépen:
> Bálint
>
> Ezt
> írta
> ma:
> @Bálint:
> Ha
> ez
> kérdés
> volt,
> akkor
> a
> válasz:
> Igen,
> ez
> a
> ma
> 9:35
> körüli
> Szeged
> korpusz
> állapotokat
> tükrözi
> és
> majd
> frissítem,
> ha
> lesz
> "új,
> mindenhol
> peres"
> javított
> korpusz.
>
>
> Balázs
>
> 2016.
> július
> 29.
> 12:06
> Sass
> Bálint
> írta,
> <joker at nytud.hu>:
>
> Sziasztok!
>
>
> Most
> akkor
> ez
> a
> modell
> lesz
> az,
> amit
> az
> infra2
> láncba,
>
> az
> e-magyar.hu
> honlap
> mögé
> beteszünk:
>
> http://pi.itk.ppke.hu/~dlazesz/infra/purepos_szeged.model.new
>
>
> időbélyege:
> 2016-07-29
> 10:10
> mérete:
> 82M
>
>
> Kösz
> szépen
> mindenkinek
> a
> közreműködést
> ebben.
>
>
> A
> két
> szintaktikai
> modellt
> még
> nagyon
> várjuk!
> :)
>
>
> Üdv:
>
> Bálint
>
>
> Ezt
> írta
> ma
> Balázs:
>
> Sziasztok!
>
>
> 1412
> egyedi
> címke.
> Jobb
> a
> helyzet...
>
>
> A
> PurePOS
> model
> frissült.
>
> Már
> tisztul
> a
> kép,
> de
> még
> nem
> értek
> bizonyos
>
> dolgokat
> (most
> PurePOS
>
> jelölsében
> #-el
> elválasztva
> szóalak
> szótő
> címke):
>
>
> 1)
> "leg"-et#"#[Punct]
> Ez
> miért
> Punct
> ha
> a
>
> mondatvégi
> pont
> vessző
> stb.
>
> OTHER?
>
> 2)
> Most
> akkor
> a
> címkének
> nem
> "[/"
> -el
> kelellene
>
> kezdődnie?
> Mert
> ezek
> a
>
> címkék
> furák:
>
>
> 252623
> OTHER
>
> 1305
> [Adj][Nom]
>
> 26
> [N|Acron][Acc]
>
> 17
> [N|Acron][Pl][Nom]
>
> 14
> [N|Acron][Transl]
>
> 12
> [Num][Nom]
>
> 6
> [Adj][Pl][Nom]
>
> 5
> [N|Acron][Ins]
>
> 5
> [N|Abbr][Dat]
>
> 4
> [N][Nom]
>
> 4
> [Adj|nat][Nom]
>
> 3
> [N][Poss.3Sg][Nom]
>
> 3
> [N|Acron][Pl][Subl]
>
> 3
> [Adj][All]
>
> 2
> [V][Inf]
>
> 2
> [_PerfPtcp_Subj=tA/Adj][Pl][AnP][All]
>
> 2
> [N][Poss.3Sg][Acc]
>
> 2
> [N|Acron][Pl][All]
>
> 2
> [N|Acron][Pl][Acc]
>
> 2
> [N|Acron][Nom]
>
> 2
> [N|Abbr][Subl]
>
> 2
> [N|Abbr][All]
>
> 2
> [N|Abbr][Acc]
>
> 1
> [V][Pst.Def.3Sg]
>
> 1
> [V][Pst.Def.1Sg]
>
> 1
> [V][_Mod][Prs.NDef.3Pl]
>
> 1
> [V][_Mod][Prs.Def.3Sg][Punct]
>
> 1
> [Punct]
>
> 1
> POS
>
> 1
> [_PerfPtcp_Subj=tA/Adj][Pl][Dat]
>
> 1
> [_PerfPtcp_Subj=tA/Adj][Nom]
>
> 1
> [N][Poss.3Pl][Nom]
>
> 1
> [N][All]
>
> 1
> [N|Acron][Subl]
>
> 1
> [N|Acron][Poss.1Sg][Subl]
>
> 1
> [N|Acron][Poss.1Pl][All]
>
> 1
> [N|Acron][Pl][Ter]
>
> 1
> [N|Acron][Pl][Ins]
>
> 1
> [N|Acron][Pl][Ine]
>
> 1
> [N|Acron][Ade]
>
> 1
> [N|Acron][Acc][Punct]
>
> 1
> [N][Acc]
>
> 1
> [N|Abbr][Ela]
>
> 1
> [Adj][Pl][Ade]
>
> 1
> [Adj][EssFor%:ként]
>
> 1
> [Adj]
>
>
>
> Balázs
>
>
>
> 2016.
> július
> 29.
> 9:46
> Veronika
> Vincze
> írta,
>
> <vinczev at inf.u-szeged.hu>:
>
>
> Sziasztok!
>
>
> A
> második
> hibát
> javítottuk
> a
> konverterben,
>
> frissültek
> a
>
> fájlok.
>
>
> Az
> első
> hiba
> nagyrészt
> tulajdonneveket
>
> érint,
> ha
> jól
>
> gondolom.
> A
> Szeged
> Korpuszban
> ezek
>
> egységesen
> főnévi
> címkét
>
> kaptak,
> még
> akkor
> is,
> ha
> jelen
> esetben
> egy
>
> melléknév
> képezi
> a
>
> tulajdonnév
> részét.
> A
> konverter
> úgy
>
> működik,
> hogy
> az
> új
>
> harmonizált
> kódok
> közül
> választjuk
> ki
> az
>
> MSD-kód
> alapján
> a
>
> neki
> leginkább
> megfelelőt,
> vagyis
> itt
> most
>
> a
> főnévi
> kódnak
>
> megfelelően
> főnévi
> kódot
> választ,
> ami
>
> persze
> nem
> helyes,
> de
>
> ezt
> automatikusan
> nem
> tudjuk
> eldönteni.
>
> Sajnos
> arra
> most
>
> nincs
> se
> időnk,
> se
> erőforrásunk
> (Szegeden
>
> legalábbis),
> hogy
>
> ezeket
> az
> eseteket
> kézzel
> egyértelműsítsük
>
> :(
>
>
> Üdv:
>
> Vera
>
>
>
> On
> 2016.07.29.
> 8:22,
> Indig
> Balázs
> wrote:
>
> Szasztok!
>
> @Vera:
>
>
> Megye
> ->
> Megy
>
>
> Jász-Nagykun-Szolnok
> Jász-Nagykun-Szolnok
> N
> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>
> Jász-Nagykun-Szolnok[/N][Nom]
>
> Megyei
> Megyei
> N
> SubPOS=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>
> Megy[/N][Pl.Poss.3Sg][Nom]
>
>
> És
> ebből
> van
> egy
> csomó...
>
>
> Illetve
> a
> másik:
>
>
> A
> a
> T
> SubPOS=f
> a[/Det|art.Def]
>
> két
> két
> M
> SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none
>
> két[/Num|Attr][Nom]
>
> óra
> óra
> N
> SubPOS=c|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>
> óra[/N][Nom]
>
> közti
> közti
> A
> SubPOS=f|Deg=p|Num=s|Cas=n|NumP=none|PerP=none|NumPd=none
>
> közti[/Adj][Nom]
>
> szüntet
> szüntet
> Z
> _
> [szüntet[/V][Prs.NDef.3Sg]]
>
>
> Értem
> én,
> de
> akkor
> valaki
> elmondhatná,
> hogy
> mi
> a
>
> formátum:
> Az
>
> első
> [/
> -től
> van
> a
> címke
> vagy
> az
> első
> [
> -től?
> És
>
> ha
> az
> előbbi
>
> akkor
> mit
> kezdjen
> a
> PurePOS
> a
> fenti
> "lemmakezdő
>
> ["
> -el?
>
>
> Most
> az
> egész
> [szüntet[/V][Prs.NDef.3Sg]]
>
> címkének
> van
> véve
>
> és
> így
> halál
> lassú
> a
> tanítás(az
> eddigi
> 1026
> uniq
>
> cimke
>
> helyett
> van
> 2408
> a
> hülyeségekkel
> együtt),
> meg
> nem
>
> is
> biztos,
>
> hogy
> ez
> adja
> az
> elvárt
> eredményt...
>
>
>
> Balázs
>
>
>
> 2016.
> július
> 28.
> 18:37
> Indig
> Balázs
> írta,
>
> <indig.balazs at itk.ppke.hu>:
>
> Sziasztok!
>
>
> Az
> új
> javított
> szeged
> korpuszhoz
> is
>
> elérhető
> a
>
> PurePOS
> model
> itt:
>
>
> http://pi.itk.ppke.hu/~dlazesz/infra/
>
>
>
>
> Üdv,
>
>
> Balázs
>
>
> 2016.
> július
> 28.
> 15:54
> Veronika
> Vincze
> írta,
>
> <vinczev at inf.u-szeged.hu>:
>
>
> Sziasztok,
>
>
> Javítottunk
> pár
> bugot
> a
> konvertálásban,
>
> most
> már
> elvben
> jó
> minden
> sor
> formátuma.
> A
>
> Szeged
> Korpusz
> teljes
> anyaga
> elérhető
> a
>
>
> http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
>
>
> címen.
> Ha
> bármilyen
> problémát
> találtok,
>
> jelezzétek,
> kérlek.
>
>
> @Attila:
> néha
> a
> képzett
> szavaknál
> a
> szófaj
>
> elől
> lemarad
> a
> /
> jel
> (pl.
> Dél-dunántúli
>
> Dél-dunántúli[Adj][Nom]),
> ezt
> mi
> elvben
>
> javítottuk
> a
> konverzió
> során,
> de
> az
>
> elemzőben
> is
> hasznos
> lenne
> átírni.
>
>
> Üdv:
>
> Vera
>
>
> On
> 2016.07.28.
> 13:46,
> Indig
> Balázs
> wrote:
>
> Kedves
> Mindenki!
>
> PurePOS
> modellek
> és
> a
> szeged
> korpusz
>
> formátumából
> purepos
> input
> formátumba
>
> konvertáló
> script:
>
>
> http://pi.itk.ppke.hu/~dlazesz/infra/
>
>
> A
> szeged
> korpusz
> formátuma
> kicsit
> fura.
> Van
>
> ahol
> nem
> csak
> 5
> mező
> van
> És
> csomó
> helyen
>
> viszonylag
> nehéz
> kinyerni,
> hogy
> mit
> is
>
> akarhatott
> a
> szerző,
> hogy
> mi
> kerüljön
> a
>
> PurePOS-ba.
> A
> konvertáló
> script
> tele
> van
>
> ezirányú
> kommentekkel.
>
>
> Ami
> a
> "PurePOS-beli
> morfológiát"
> illeti:
>
>
> Így
> néz
> ki
> egy
> morfológiával
> szelektíven
>
> annotált{{annotál[\V]||annotáció[\N]}}
>
> input
> sor
> .
>
>
> Majd
> még
> fog
> alakulni
> a
> dolog.
> Most
> a
> héten
>
> ez
> megy.
>
>
>
> Üdv,
>
>
> Balázs
>
>
>
> 2016.
> július
> 25.
> 13:52
> Veronika
> Vincze
>
> írta,
> <vinczev at inf.u-szeged.hu>:
>
> Kedves
> Mindenki,
>
>
>
> On
> 2016.07.25.
> 12:12,
> Sass
>
> Bálint
> wrote:
>
>
> 2.
>
> Vera,
> esetleg
> írj
>
> pár
> szót
> a
> fájl
>
> oszlopairól,
>
> hogy
> igaziból
>
> melyik
> kell
> nekünk
>
> most.
>
>
> Megnéztem,
> sztem
> ez
>
> van:
>
> 1.
> oszlop
> =
> szóalak
>
> 5.
> oszlop
> =
> újkódos
>
> szótő
> +
> szófaj
> +
>
> elemzés
>
>
> Ugye
> ez
> a
> kettő
>
> kell
> most
> a
>
> tanításhoz,
>
> a
> 2-3-4.
> oszlop
>
> régi,
> így
> figyelmen
>
> kívül
> hagyandó?
>
>
> Szóval
> az
> 5.
>
> oszlopban
> lévő
>
> szótövet,
> szófajt
>
> és
> elemzést
>
> kellene
> rendre
>
> lemma,
> pos
> és
>
> feature
> -ként
>
> használni
> a
>
> tanításokhoz,
> ugye?
>
> :)
>
>
> Így
> igaz,
> az
> 1.
> és
> az
> 5.
> oszlop
>
> a
> fontos,
> a
> többit
> csak
> benne
>
> hagytuk
> a
> kiíratáskor.
>
> 3.
>
> Tekintetbe
> véve,
>
> hogy
> hét
> végére
>
> mindennek
> mennie
>
> kellene
>
> valamilyen
> formában
>
> a
> honlap
> mögött,
>
> azt
> kérem,
> hogy
>
> mindenki
> (az
> alább
>
> említettek)
>
> tanítson
> egy
>
> modellt
> ezen
> a
>
> részkorpuszon,
> hogy
>
> legyen
> valami,
>
> aztán
> majd
> később
>
> legyenek
> meg
> a
>
> teljes
> korpuszon
>
> tanított
> modellek.
>
>
> Nekiállunk
> mi
> is
> szintaxist
>
> tanítani
> (plusz
> csináljuk
> a
>
> többi
> alkorpusz
>
> infrásmorfológiára
> való
>
> átalakítását),
> ez
> valószínűleg
>
> pár
> napot
> igénybe
> vesz
> nálunk.
>
>
> Üdv:
>
> Vera
More information about the nlp-infra-devel
mailing list