[nlp-infra-devel] memo

Eszter Simon simon.eszterke at gmail.com
Mon Jun 27 12:54:15 CEST 2016


Kedves Mindenki,
csatolva a szerdai infra meeting jegyzőkönyve.

Üdv,
Eszter

-- 
DR. ESZTER SIMON
Research Fellow
Research Institute for Linguistics
Hungarian Academy of Sciences
H-1068 Budapest, Benczúr u. 33.
Tel./Fax.       +36 1   321 4830/ 129
simon.eszter at nytud.mta.hu
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://corpus.nytud.hu/pipermail/nlp-infra-devel/attachments/20160627/21ba11d8/attachment.html>
-------------- next part --------------
Infra meeting
2016.06.22.
Jegyzőkönyv

Jelenlevők:

Ács Judit (ÁJ)
Farkas Richárd (FR)
Gerőcs Mátyás
Indig Balázs (IB)
Kornai András (KA)
Kundráth Péter
Makrai Márton (MM)
Mittelholcz Iván
Nemeskey Dávid (ND)
Novák Attila (NA)
Pajkossy Katalin (PK)
Prószéky Gábor
Rebrus Péter
Sass Bálint (SB)
Schreiner József (SchJ)
Simon Eszter (SE)
Takács Dávid (TD)
Váradi Tamás 


Szövegfeldolgozó lánc

Quntoken:

KA: karakterkódolást/konvertálást meg kell oldani, ha az egyszeri júzer bekopizza a szöveget az ablakba, akkor ebből ne legyen probléma

Morf elemző & PurePos:

A PurePos 3 működési módja:	
i) a Humor és a PurePos egy monolit egységet alkot: a Humor és a PurePos integrációja úgy volt megoldva, hogy van egy C++-ban írt rendszer, ami meghívja a Humort, és eköré van építve egy Java interface --> ezt át kell írni --> ez lesz az első lépés, de a többit is meg kell csinálni, a többség szerint a moduláris működés az üdvös
ii) a PurePos a morf elemző kimenetei közül kiválasztja a legvalószínűbb tő+címke párost
iii) tanítás korpuszon --> nyelvmodell --> tő+címke

NA: a HFST API és a lemmatizáló integrálásával az i) verzió előáll --> HATÁRIDŐ: 06.29.

NA&FR: meg kell oldani az ÚjKimenet2UnivMorf leképezést & a Szeged Korpusz ÚjKimenetre való konvertálását --> ehhez: NA küld egy legfrissebb verziót a morf elemzőből, FR küld egy legfrossebb verziót a Szeged Korpuszból --> HATÁRIDŐ: 07.06.

FR&IB: IB elküldi a PurePos legfrissebb Pázmányon levő verzióját, FR elküldi a PurePos magyarláncben levő legfrissebb verzióját

SB: az új morf elemző adja ki (és őrizze meg?) az összes lehetséges kimenetet

SE: a legutóbbi megbeszélésen abban maradtunk, hogy minden formátum között lesz átjárás, amihez meg kell oldani a konverziót közöttük

Formátumok és felelősök:
Humor: NA
UnivMorf: FR
KR: KA
(MSD: szívesen megválnának tőle, nem kell)

NA elküldi a morf elemző ápdételt leírását mindenkinek --> ez után a felelősök vezetésével megcsinálódik a konverzió

Syntax & NER:

FR&SE: ha megvan az új Szeged Korpusz, le kell gyártani az új modelleket a szintaktikai elemzők, a HunTag és a PurePos alá --> HATÁRIDŐ: 07.13.




Beszédadatbázis

Valószínűségi nyelvmodellező (ND): ez valamilyen okból kifolyólag a szövegfeldolgozó modulok közé volt sorolva, de a beszédes ezsközök része lesz

Szünetdetektáló (ÁJ): kéne valami zajszűrés, különben jó, ill. a Réger Zita-anyagon nem jó

Mintafelismerő (voice grep) (KA): nincs

Nyelvdetektálás (MM): magyarra és mindenféle nyelvekre vannak anyagok, a pontos számok a slide-okon

Beszélődetekció & szegmentáló (PK): szétválasztja az egy stream-ben szereplő beszélőket, és szegmentálja a megszólalásokat --> még javítani kell (kb. 3 hét)

Hardver (KA&BZs): van 157TG, ennek most 8%-án van adat --> több kéne

Adatbázis (BZs): NAVA-tól és OGyK-tól folyamatosan kérnek, de nem válaszolnak --> ütni kell a vasat tovább
SchJ: van sok magyar nyelvű felvett beszélt nyelvi anyaga, amit az adatbázis számára oda tud adni

Archívum (KA): a metaadatok kinyerése és az egész maintainelése nincs megoldva: a silver minőségű metaadatolás megoldott, de a goldhoz digitális könyvtáros kéne --> júl. végére pontosan meg kell mondani, hogy mennyi micsoda van

Weboldal (TD): a funkciók (böngészés, konvertálás, letöltés) pluginként lesznek alátolva; előre le lehet gyártani valamilyen formátumokat, de amúgy a konvertálás kérésre fog menni; ami már elkészült, azt el lehet tárolni; lesz metaadatokban grep-like keresés, és uploadra is lesz lehetőség





Weblap

Júl. 31-re készen kell lennie.


More information about the nlp-infra-devel mailing list