|
Tartalomjegyzék
Hogyan tokenizál az Intex?Az Intexnek a tokenizáláshoz szüksége van az Alpabet.lst fájlra. Ez a fájl tartalmazza az adott nyelv összes betűjét. Az Alphabet.lst fájlt a nyelvhez tartozó munkakönytvárba (C:\Intex\Hungarian) kell másolni. Az Intex azokat a karaktersorozatokat fogja szónak (simple word, a gráfokban TartalomjegyzékMi számít többtagú szónak (compound word)?Az Intex ismeri az összetett szó kategóriáját is: ezek olyan szavak, melyek tartalmaznak valamilyen szeparátor karaktert, azaz központozási jelet, ám a szövegfeldolgozás későbbi részeiben mégis egy szónak szeretnénk tekinteni őket. Ilyenek lehetnek a kötőjellel írt összetett szavak vagy a többtagú tulajdonnevek. Ezeket a kifejezéseket ugyanúgy szótárban soroljuk fel, mint az egytagú szavakat: erre szolgálnak az úgynevezett Delacf szótárak. A szerkezetük ugyanolyan, mint az egytagú szavakat tartalmazó Delaf szótáraké, azzal a különbséggel, hogy a szóalakok és lemmák bármilyen karaktert tartalmazhatnak. A Delacf szótárt a Delacf könyvtárba kell másolni. Ha kiadjuk az Apply Lexical resources parancsot, az előugró ablakban "compond words" címszó alatt jelenik meg a Delacf könyvtár tartalma, itt választhatjuk ki a szótárt, amit használni akarunk. TartalomjegyzékHogyan működik a mondatszegmentálás?A mondatszegmentálás szabályai nincsenek beépítve az Intexbe, mivel ezek nyelvspecifikus szabályok. A felhasználónak kell létrehoznia a gráfot, amely a mondathatárt jelző {S} jelet beilleszti a szövegbe. Maga a művelet az úgynevezett Preprocessing része. Ha megnyitunk egy új szövegfájlt, az Intex megkérdezi, hogy akarjuk-e preprocesszálni a szöveget. Ha igent válaszolunk, megjelenik egy ablak, melyben megadhatjuk a mondatszegmentáláshoz használt gráfot (ajánlott az Intex/Hungarian/Graphs/Preprocessing könyvtárba másolni Sentence.fst néven). TartalomjegyzékMi a különbség az .snt és a .txt fájlok között?Az .snt kiterjesztésű szövegfájlok abban különböznek a sima .txt fájloktól, hogy tartalmazzák a mondatokat elválasztó {S} jelet. Amikor először nyitunk meg egy szövegfájlt az Intexben, a program automatikusan felajánlja a lehetőséget, hogy preprocesszáljuk a szöveget, ami elsősorban a mondatszegmentáló gráf lefuttatását jelenti. Amikor ez a gráf lefut, az Intex létrehozza az .snt kiterjesztésű fájlt a Corpus könyvtárban. Ha legközelebb már az .snt fájlt nyitjuk meg, akkor nem szükséges újra preprocesszálni a szöveget. TartalomjegyzékHogyan kell a gráfokat alkalmazni a szövegre?A gráfok alkalmazásához a Text menüben a locate Pattern pontot kell választani (billentyűparancs: Ctrl+L). A megjelenő ablakban kiválaszthatjuk a gráfot, megadhatjuk, hogy hány találatot szeretnénk látni, és eldönthetjük, hogy a gráf kimenetét be akarjuk-e illeszteni a szövegbe. TartalomjegyzékAuthor information goes here.
|
Copyright © 2004 MTA Nyelvtudományi Intézet
|