[nlp-infra-devel] POS modell és Szeged Korpusz letöltés
Indig Balázs
indig.balazs at itk.ppke.hu
Fri Sep 9 21:01:16 CEST 2016
Kedves Mindenki!
"Csak a modellek lesznek nyilvánosan elérhetők, a Szeged Korpusz
szövegeinek eredeti tulajdonosai anno nem engedélyezték a nyilvános
hozzáférhetőséget."
Ezt a választ csak részben tudom elfogadni.
Nyilván az "anno" óta eltelt már némi idő, valamint más a leányzó fekvése
minekutána immár egy teljes nyílt forrású szoftver stack épül rá.
Kár, hogy pont az alapja nem nyílt.
Lehet, hogy túl későn, illetve túl könnyen beszélek (és a nyílt forrás náci
szól belőlem), de lehet hogy felül kellene vizsgálni ezt a kérdést: azaz
teljesen nyílt alapokra helyezni az egész rendszert.
A technikai dologról, amiről érdemben is tudok nyilatkozni:
Egy fájl letöltése megy. De mind böngészőből mind wget-ttel, ha az összes
fájlt letölteném, akkor a 4-5.-körül lelassul és megáll a letöltés és utána
eléggé nehézkessé válik a dolog, mert mindig újra kell kezdeni, mert
megáll... Valami "intelligens" DoS védelmet látok mögé.
Ahogy júliusban is írtam, az alábbi parancsot futtatom (kiterjesztés
aktualizálva):
wget -r -l1 -A disamb.new --random-wait http://www.inf.u-szeged.hu/~
vinczev/infra/konvertalt_morf/
Ezzel le kellene jönnie az összes disamb.new fájlnak, 1 mélységben a linken
belül és ráadásul véletlen időt vár, tehát még az sincs, hogy DoS-olom a
szervert.
Ha ez a parancs működésre bírható valami trükkel, vagy ezzel ekvivalens
működő változatról van tudomásotok, akkor kíváncsi vagyok.
Balázs
2016. szeptember 9. 11:33 Veronika Vincze írta, <vinczev at inf.u-szeged.hu>:
> Kedves Mindenki,
>
> Alább néhány válasz:
>
> On 2016.09.08. 10:53, Sass Bálint wrote:
>
>
> 2.
> Balázs mondja:
> "Óva intenék mindenkit, hogy a morfológia a PUNCT-ra azt mondja,
> hogy OTHER... Nem biztos, hogy jó így."
>
> Részünkről lehet PUNCT is, ha Attila is jónak látja.
>
>
> 3.
> Balázs kérdezi:
> "A szeged korpusz is nyilvánosan elérhetővé válik most vagy csak a
> modellek?
> Ha a korpusz is, hol elérhető? (amiről rendesen le lehet tölteni
> remélhetőleg...)"
>
> Csak a modellek lesznek nyilvánosan elérhetők, a Szeged Korpusz
> szövegeinek eredeti tulajdonosai anno nem engedélyezték a nyilvános
> hozzáférhetőséget.
>
> Ide kapcsolódik: a http://www.inf.u-szeged.hu/~
> vinczev/infra/konvertalt_morf
> címről továbbra sem lehet wget-tel letölteni a dolgokat, megáll.
>
>
> Itt nálunk technikailag rendben van a letöltés:
>
> ------------------
>
> wget http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
> newsml.conll-2009_ready.disamb.new
> --2016-09-08 17:15:17-- http://www.inf.u-szeged.hu/~
> vinczev/infra/konvertalt_morf/newsml.conll-2009_ready.disamb.new
> Resolving www.inf.u-szeged.hu (www.inf.u-szeged.hu)... 10.2.0.33
> Connecting to www.inf.u-szeged.hu (www.inf.u-szeged.hu)|10.2.0.33|:80...
> connected.
> HTTP request sent, awaiting response... 200 OK
> Length: 16424207 (16M) [text/plain]
> Saving to: ‘newsml.conll-2009_ready.disamb.new’
>
> newsml.conll-2009_ready.disamb.new 100%[=========================
> ==========================================>] 15.66M 46.2MB/s in 0.3s
>
> 2016-09-08 17:15:17 (46.2 MB/s) - ‘newsml.conll-2009_ready.disamb.new’
> saved [16424207/16424207]
>
> ------------------
>
> *Esetleg nem a wget timeout-ol?*
> * http://stackoverflow.com/questions/2291524/does-wget-timeout
> <http://stackoverflow.com/questions/2291524/does-wget-timeout>*
>
> Üdv:
> Vera
>
>
> Üdv:
> Bálint
>
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>
>
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>
>
--------- k�vetkez� r�sz ---------
Egy csatolt HTML �llom�ny �t lett konvert�lva...
URL: <http://corpus.nytud.hu/pipermail/nlp-infra-devel/attachments/20160909/470b9ebc/attachment.html>
More information about the nlp-infra-devel
mailing list