Visszajelzés Tartalom Keresés

Hírek
Regisztáció
Rendszer
Magyar modul
Tudástár
GyIK


Tartalomjegyzék

  1. Hogyan tokenizál az Intex?
  2. Mi számít többtagú szónak (compound word)?
  3. Hogyan működik a mondatszegmentálás?
  4. Mi a különbség az .snt és a .txt fájlok között?
  5. Hogyan kell a gráfokat alkalmazni a szövegre?

Hogyan tokenizál az Intex?

Az Intexnek a tokenizáláshoz szüksége van az Alpabet.lst fájlra. Ez a fájl tartalmazza az adott nyelv összes betűjét. Az Alphabet.lst fájlt a nyelvhez tartozó munkakönytvárba (C:\Intex\Hungarian) kell másolni. Az Intex azokat a karaktersorozatokat fogja szónak (simple word, a gráfokban ) tekinteni, melyek kizárólag az Alphabet.lst fájlban felsorolt karaktereket tartalmazzák. Az összes olyan karakter, ami nem szerepel ebben a fájlban, központozási jelnek számít (a gráfokban ), és szavakat választ el egymástól.

Mikor megnyitjuk az Intexet, ki kell választanunk a munkanyelvet. Ennek az a jelentősége, hogy a szövegfeldolgozással kapcsolatos műveletekhez az Intex a megadott nyelv Alphabet fájlját fogja használni.

Tartalomjegyzék

Mi számít többtagú szónak (compound word)?

Az Intex ismeri az összetett szó kategóriáját is: ezek olyan szavak, melyek tartalmaznak valamilyen szeparátor karaktert, azaz központozási jelet, ám a szövegfeldolgozás későbbi részeiben mégis egy szónak szeretnénk tekinteni őket. Ilyenek lehetnek a kötőjellel írt összetett szavak vagy a többtagú tulajdonnevek. Ezeket a kifejezéseket ugyanúgy szótárban soroljuk fel, mint az egytagú szavakat: erre szolgálnak az úgynevezett Delacf szótárak. A szerkezetük ugyanolyan, mint az egytagú szavakat tartalmazó Delaf szótáraké, azzal a különbséggel, hogy a szóalakok és lemmák bármilyen karaktert tartalmazhatnak. A Delacf szótárt a Delacf könyvtárba kell másolni. Ha kiadjuk az Apply Lexical resources parancsot, az előugró ablakban "compond words" címszó alatt jelenik meg a Delacf könyvtár tartalma, itt választhatjuk ki a szótárt, amit használni akarunk.

Tartalomjegyzék

Hogyan működik a mondatszegmentálás?

A mondatszegmentálás szabályai nincsenek beépítve az Intexbe, mivel ezek nyelvspecifikus szabályok. A felhasználónak kell létrehoznia a gráfot, amely a mondathatárt jelző {S} jelet beilleszti a szövegbe. Maga a művelet az úgynevezett Preprocessing része. Ha megnyitunk egy új szövegfájlt, az Intex megkérdezi, hogy akarjuk-e preprocesszálni a szöveget. Ha igent válaszolunk, megjelenik egy ablak, melyben megadhatjuk a mondatszegmentáláshoz használt gráfot (ajánlott az Intex/Hungarian/Graphs/Preprocessing könyvtárba másolni Sentence.fst néven).

Tartalomjegyzék

Mi a különbség az .snt és a .txt fájlok között?

Az .snt kiterjesztésű szövegfájlok abban különböznek a sima .txt fájloktól, hogy tartalmazzák a mondatokat elválasztó {S} jelet. Amikor először nyitunk meg egy szövegfájlt az Intexben, a program automatikusan felajánlja a lehetőséget, hogy preprocesszáljuk a szöveget, ami elsősorban a mondatszegmentáló gráf lefuttatását jelenti. Amikor ez a gráf lefut, az Intex létrehozza az .snt kiterjesztésű fájlt a Corpus könyvtárban. Ha legközelebb már az .snt fájlt nyitjuk meg, akkor nem szükséges újra preprocesszálni a szöveget.

Tartalomjegyzék

Hogyan kell a gráfokat alkalmazni a szövegre?

A gráfok alkalmazásához a Text menüben a locate Pattern pontot kell választani (billentyűparancs: Ctrl+L). A megjelenő ablakban kiválaszthatjuk a gráfot, megadhatjuk, hogy hány találatot szeretnénk látni, és eldönthetjük, hogy a gráf kimenetét be akarjuk-e illeszteni a szövegbe.

Tartalomjegyzék

Author information goes here.
Copyright © 2001  [OrganizationName]. All rights reserved.
Revised: 11/22/04.

 

Copyright © 2004 MTA Nyelvtudományi Intézet
Utolsó módosítás: 2004.11.28.