[nlp-infra-devel] memo
Eszter Simon
simon.eszterke at gmail.com
Mon Jun 27 12:54:15 CEST 2016
Kedves Mindenki,
csatolva a szerdai infra meeting jegyzőkönyve.
Üdv,
Eszter
--
DR. ESZTER SIMON
Research Fellow
Research Institute for Linguistics
Hungarian Academy of Sciences
H-1068 Budapest, Benczúr u. 33.
Tel./Fax. +36 1 321 4830/ 129
simon.eszter at nytud.mta.hu
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://corpus.nytud.hu/pipermail/nlp-infra-devel/attachments/20160627/21ba11d8/attachment.html>
-------------- next part --------------
Infra meeting
2016.06.22.
Jegyzőkönyv
Jelenlevők:
Ács Judit (ÁJ)
Farkas Richárd (FR)
Gerőcs Mátyás
Indig Balázs (IB)
Kornai András (KA)
Kundráth Péter
Makrai Márton (MM)
Mittelholcz Iván
Nemeskey Dávid (ND)
Novák Attila (NA)
Pajkossy Katalin (PK)
Prószéky Gábor
Rebrus Péter
Sass Bálint (SB)
Schreiner József (SchJ)
Simon Eszter (SE)
Takács Dávid (TD)
Váradi Tamás
Szövegfeldolgozó lánc
Quntoken:
KA: karakterkódolást/konvertálást meg kell oldani, ha az egyszeri júzer bekopizza a szöveget az ablakba, akkor ebből ne legyen probléma
Morf elemző & PurePos:
A PurePos 3 működési módja:
i) a Humor és a PurePos egy monolit egységet alkot: a Humor és a PurePos integrációja úgy volt megoldva, hogy van egy C++-ban írt rendszer, ami meghívja a Humort, és eköré van építve egy Java interface --> ezt át kell írni --> ez lesz az első lépés, de a többit is meg kell csinálni, a többség szerint a moduláris működés az üdvös
ii) a PurePos a morf elemző kimenetei közül kiválasztja a legvalószínűbb tő+címke párost
iii) tanítás korpuszon --> nyelvmodell --> tő+címke
NA: a HFST API és a lemmatizáló integrálásával az i) verzió előáll --> HATÁRIDŐ: 06.29.
NA&FR: meg kell oldani az ÚjKimenet2UnivMorf leképezést & a Szeged Korpusz ÚjKimenetre való konvertálását --> ehhez: NA küld egy legfrissebb verziót a morf elemzőből, FR küld egy legfrossebb verziót a Szeged Korpuszból --> HATÁRIDŐ: 07.06.
FR&IB: IB elküldi a PurePos legfrissebb Pázmányon levő verzióját, FR elküldi a PurePos magyarláncben levő legfrissebb verzióját
SB: az új morf elemző adja ki (és őrizze meg?) az összes lehetséges kimenetet
SE: a legutóbbi megbeszélésen abban maradtunk, hogy minden formátum között lesz átjárás, amihez meg kell oldani a konverziót közöttük
Formátumok és felelősök:
Humor: NA
UnivMorf: FR
KR: KA
(MSD: szívesen megválnának tőle, nem kell)
NA elküldi a morf elemző ápdételt leírását mindenkinek --> ez után a felelősök vezetésével megcsinálódik a konverzió
Syntax & NER:
FR&SE: ha megvan az új Szeged Korpusz, le kell gyártani az új modelleket a szintaktikai elemzők, a HunTag és a PurePos alá --> HATÁRIDŐ: 07.13.
Beszédadatbázis
Valószínűségi nyelvmodellező (ND): ez valamilyen okból kifolyólag a szövegfeldolgozó modulok közé volt sorolva, de a beszédes ezsközök része lesz
Szünetdetektáló (ÁJ): kéne valami zajszűrés, különben jó, ill. a Réger Zita-anyagon nem jó
Mintafelismerő (voice grep) (KA): nincs
Nyelvdetektálás (MM): magyarra és mindenféle nyelvekre vannak anyagok, a pontos számok a slide-okon
Beszélődetekció & szegmentáló (PK): szétválasztja az egy stream-ben szereplő beszélőket, és szegmentálja a megszólalásokat --> még javítani kell (kb. 3 hét)
Hardver (KA&BZs): van 157TG, ennek most 8%-án van adat --> több kéne
Adatbázis (BZs): NAVA-tól és OGyK-tól folyamatosan kérnek, de nem válaszolnak --> ütni kell a vasat tovább
SchJ: van sok magyar nyelvű felvett beszélt nyelvi anyaga, amit az adatbázis számára oda tud adni
Archívum (KA): a metaadatok kinyerése és az egész maintainelése nincs megoldva: a silver minőségű metaadatolás megoldott, de a goldhoz digitális könyvtáros kéne --> júl. végére pontosan meg kell mondani, hogy mennyi micsoda van
Weboldal (TD): a funkciók (böngészés, konvertálás, letöltés) pluginként lesznek alátolva; előre le lehet gyártani valamilyen formátumokat, de amúgy a konvertálás kérésre fog menni; ami már elkészült, azt el lehet tárolni; lesz metaadatokban grep-like keresés, és uploadra is lesz lehetőség
Weblap
Júl. 31-re készen kell lennie.
More information about the nlp-infra-devel
mailing list