[Hejes-devel] humor vs. hunspell összehasonlítás
Márton Miháltz
mmihaltz at gmail.com
Thu May 23 17:08:50 CEST 2013
Sziasztok!
Köszönöm Juli és Attila elemzéseit. Ezek alapján a
http://helyesiras.mta.hu/helyesiras/default/suggest<http://helyesiras.mta.hu/helyesiras/default/suggest#>
oldalon
kipróbálható a módosított Helyes-e így, ami csak a hunspellt használja,
illetve ismeretlen szavaknál csak az első 5 javaslatot mutatja (de
mindenképpen kihagyja a szóközöket tartalmazó, szerintem zavaró
javaslatokat.)
További variációk (humor + hunspell konjunkció, ajánlatokra is valami
kombináció) is lehetnek, de egyelőre ezt kéne tesztelni.
Emlékeztető: ezen az oldalon kipróbálható hogy mit mond külön-külön mind2
motor:
http://htp-devel.nytud.hu/helyesiras_test/default/spell_test<https://htp-devel.nytud.hu/helyesiras_test/default/spell_test#>
Üdv,
Marci
2013/5/9 Mártonfi Attila <martonfi at gmail.com>
> Sziasztok!
>
> Összefoglalom az eddigieket:
>
> A mindkét elemző által elutasított szavak közül egyetlen van, amit el
> kellene fogadni: kultrovat. A többi esetben jó az eredmény.
>
> A csak a HUMor által elfogadott tételek közül majdnem mind hibás,
> néhány viszont extrém olvasattal menthető:
> gója ('kínai táblás játéka')
> karmól ('6*10^23 db kar mint mértékegység')
> Ivett-tel (Ez jelenleg még helytelen, de a 12. kiadásban vsz. ez lesz
> már a helyes.)
>
> Mindössze két esetben utasít el a HUMor, amikor a hunspell elfogad.
> Ebből az egyik hibás: 2-őt; a másik helyes: műkancatompor. Igazából az
> ilyen szavak bővebb listája alapján lehetne dönteni arról, hogy
> hunspell vagy konjunkció. Egyelőre döntetlen e tekintetben az állás.
>
> A mindkét elemző által elfogadott alakok közül problémásak,
> kifejezetten helytelen outputtal:
> vinyetta
> videóajánló
> videóanyag
> videóinstalláció
> videólejátszás
> videólejátszó
> videólemez
> videóművészet
> videószerű
> Churchill-el
> 1-el
> 5-el
> 6-el
> dezoxi-ribonukleinsav
> biobrikett-projekt
> Itt tehát néhány típussal állunk szemben:
> 1. Vannak olyan latin eredetű szavak, pontosabban önállósulóban levő
> előtagok (legjellemzőbb a videó), amelyek önmagukban vagy toldalékolva
> ó-ra végződnek, de összetételi előtagként rövid o-sak (nem ilyen a
> foto/auto, hiszen ott az o hosszúságát értelemtükröztetésre
> használjuk: foto- 'fény', fotó- 'fénykép'; auto- 'ön', autó-
> 'személygépkocsi'). Minthogy a fn+fn típusú összetételek produktívak,
> az ilyesféle letiltást külön utószabállyal lehet csak megoldani.
> 2. Az -el utótagot ne tartsuk elfogadhatónak, láthatólag a -vAl rag
> hibás alakváltozata, ezeket -- a gyakori hibák okán -- külön is
> lekezelhetnénk.
> 3. A fn+fn összetételek kötőjellel látszólag még az egybeírásnál is
> produktívabbak: laza mellérendelő összetételként is értelmezhetők. De
> ezek valójában csak azonos szemantikai kategóriájú elemekre
> érvényesülhetnek. Ezért fura a biobrikett és a projekt laza
> összetétele. Az ilyes kötőjeles dolgokat általában elfogadják az
> elemzők, lehet, hogy ezeket valahogy vissza kéne nyesni. Hogy miként,
> azt nem tudom. Erre mindenképpen csak hosszú távú megoldást lehet
> találni. (Mindazonáltal a 7 szótagot meg nem haladó kötőjeles
> alakulatok esetében lehet, hogy érdemes lenne utószűrést végezni, és
> ha az adott tétel nincs benn az OH.-ban, akkor csak azokban az
> esetekben engedni a kötőjelet, ha a kötőjel előtt -- esetleg után --
> kimutathatóan különírt szókapcsolat alkalmi egybeírása található, vagy
> három egyforma mássalhangzót kell elkülöníteni, vagy
> tulajdonnév/betűszó/rövidítés az összetétel egyik tagja.)
>
> A mindkét elemző által elfogadott alakok közül problémásak, extrém, de
> lehetséges outputtal:
> ellem (Épp most ellem ezt a kisborjút - mondta a tehén.)
> jól esik (Jól esik az eső; a 12. kiadásban viszont vsz. a mai jólesik
> helyett is ez fog állni.)
> kőr ('piros szívvel jelölt lap a francia kártyában')
> mellet (A mellet kevésbé ajánlom gung bao csirke készítéséhez, mint a
> felsőcombfilét.)
> brossúra (Ezt a jelmezt nagy brossúra tervezd!)
> eltusol (A műszaki rajzoló ezt az illusztrációt durván eltusolta.)
>
> Attila
>
> Pajzs Julia <pajzs.julia at nytud.mta.hu> írta (2013. május 9. 11:57):
> > Sziasztok,
> > Még néhány szót teszteltem, Tibor listájából, meg a sajtó alapján.
> > Egyre inkább Attilával értek egyet: Hunspell párti lettem. Ha a
> > javaslatokból is csak az általuk adottakat (vagy azoknak egy részét,
> > pl. az első kettőt-hármat, vagy azokat, amiket szótárban is
> > megtalálunk) vesszük figyelembe, valószínűleg jobban járunk, mint most.
> > Juli
> >
> >
> >>
> >> Kedves Juli,
> >>
> >> csatolok még szavakat, illetve a redmine-ban az általam beírtak
> > között
> >> találsz hasonlókat.
> >>
> >> Üdv,
> >> tibor
> >>
> >>
> >> 2013. május 8. 9:37 Pajzs Julia írta, <pajzs.julia at nytud.mta.hu>:
> >>
> >> > Sziasztok!
> >> > Csatolom az első 100 szónyi teszt eredményét. A szavak a Marci
> > által
> >> > küldöttek, plusz a redmine-ból bányásztam, meg ami csakúgy eszembe
> >> > jutott.
> >> > 1-el jelöltem, ha az adott program felismeri a szót.
> >> > Nekem az eddigiek alapján a HUNSpell a meggyőzőbb, de szívesen
> >> > próbálgatom még, küldjetek szavakat, ha vannak.
> >> > A fel nem ismert szavaknál a javaslatok közül úgy tűnik, a HUNSpell
> >> > első, néha második javaslata jó, legalábbis ebben a néhány szóban,
> >> > néha persze a Humoré is.
> >> >
> >> > Örömmel várom a véleményeket és az újabb tesztelni valót,
> >> > Juli
> >> >
> >> >
> >> >
> >> > >
> >> > > Kedves Juli!
> >> > >
> >> > > Ezen az oldalon tudod a humor és hunspell motorokat
> > összehasonlítani:
> >> > >
> >> > > https://htp-devel.nytud.hu/helyesiras_test/default/spell_test#
> >> > >
> >> > > Tesztszavak a csatolt tsv fájlban: 1. oszlop a helytelen alak
> > (ha 2.
> >> > > oszlopban 0 volt), 3. oszlop az általunk megadott javasolt alak.
> >> > Először
> >> > > akkor az 1. oszlopbeli szavakat kellene végignézni.
> >> > >
> >> > > Kérdések:
> >> > > 1. helyes/helytelen: melyik motor mit mond
> >> > > 2. javaslatok: melyik motor mond használhatóbb javaslatokat
> >> > >
> >> > > Jelenleg a 2 motor eredményeinek az uniója jelenik meg a
> >> > helyesiras.hu-n:
> >> > > ha valamelyik a 2 közül elfogadja, akkor elfogadjuk, ha egyik sem
> >> > fogadja
> >> > > el, akkor a 2 motor javaslatainak unióját adjuk vissza (de
> > először a
> >> > humor
> >> > > javaslatait).
> >> > > A cél, hogy ennél esetleg jobb algoritmust találjunk a 2 motor
> >> > ötvözésére,
> >> > > pl.
> >> > > - metszet? (Attila)
> >> > > - csak az egyik?
> >> > > - ...?
> >> > >
> >> > > További tesztszavakat Tibor tud majd szállítani.
> >> > >
> >> > > Másoktól is várunk ötleteket, nyugodtan lehet segíteni tesztelni.
> >> > >
> >> > > Üdv,
> >> > > Marci
> >> > >
> >> > >
> >> >
> >> >
> >> > **********************************
> >> > Julia Pajzs
> >> > senior research fellow
> >> > Research Institute for Linguistics
> >> > **********************************
> >> >
> >>
> >>
> >>
> >> --
> >> Research Institute for Linguistics,
> >> Hungarian Academy of Sciences
> >> Department of Language Technology and Applied Linguistics
> >> http://ny01.nytud.hu/~tpinter/
> >>
> >> H-1068 Benczúr u. 33., Budapest, Hungary
> >> tel: (36-1) 321-4830
> >> fax: (36-1) 322-9297
> >> ------------------------------------
> >>
> >> Gramma Language Office
> >> Sk-929 01 Bacsákova 240/13, Dunajská Streda, Slovakia
> >>
> >>
> >
> >
> > **********************************
> > Julia Pajzs
> > senior research fellow
> > Research Institute for Linguistics
> > **********************************
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://corpus.nytud.hu/pipermail/hejes-devel/attachments/20130523/3139e31e/attachment.html>
More information about the Hejes-devel
mailing list