[nlp-infra-devel] POS modell és Szeged Korpusz letöltés

Indig Balázs indig.balazs at itk.ppke.hu
Fri Sep 9 21:01:16 CEST 2016


Kedves Mindenki!

"Csak a modellek lesznek nyilvánosan elérhetők, a Szeged Korpusz
szövegeinek eredeti tulajdonosai anno nem engedélyezték a nyilvános
hozzáférhetőséget."

Ezt a választ csak részben tudom elfogadni.
Nyilván az "anno" óta eltelt már némi idő, valamint más a leányzó fekvése
minekutána immár egy teljes nyílt forrású szoftver stack épül rá.
Kár, hogy pont az alapja nem nyílt.

Lehet, hogy túl későn, illetve túl könnyen beszélek (és a nyílt forrás náci
szól belőlem), de lehet hogy felül kellene vizsgálni ezt a kérdést: azaz
teljesen nyílt alapokra helyezni az egész rendszert.


A technikai dologról, amiről érdemben is tudok nyilatkozni:

Egy fájl letöltése megy. De mind böngészőből mind wget-ttel, ha az összes
fájlt letölteném, akkor a 4-5.-körül lelassul és megáll a letöltés és utána
eléggé nehézkessé válik a dolog, mert mindig újra kell kezdeni, mert
megáll... Valami "intelligens" DoS védelmet látok mögé.

Ahogy júliusban is írtam, az alábbi parancsot futtatom (kiterjesztés
aktualizálva):

wget -r -l1 -A disamb.new --random-wait http://www.inf.u-szeged.hu/~
vinczev/infra/konvertalt_morf/

Ezzel le kellene jönnie az összes disamb.new fájlnak, 1 mélységben a linken
belül és ráadásul véletlen időt vár, tehát még az sincs, hogy DoS-olom a
szervert.

Ha ez a parancs működésre bírható valami trükkel, vagy ezzel ekvivalens
működő változatról van tudomásotok, akkor kíváncsi vagyok.


Balázs


2016. szeptember 9. 11:33 Veronika Vincze írta, <vinczev at inf.u-szeged.hu>:

> Kedves Mindenki,
>
> Alább néhány válasz:
>
> On 2016.09.08. 10:53, Sass Bálint wrote:
>
>
> 2.
> Balázs mondja:
> "Óva intenék mindenkit, hogy a morfológia a PUNCT-ra azt mondja,
>  hogy OTHER... Nem biztos, hogy jó így."
>
> Részünkről lehet PUNCT is, ha Attila is jónak látja.
>
>
> 3.
> Balázs kérdezi:
> "A szeged korpusz is nyilvánosan elérhetővé válik most vagy csak a
> modellek?
>  Ha a korpusz is, hol elérhető? (amiről rendesen le lehet tölteni
>  remélhetőleg...)"
>
> Csak a modellek lesznek nyilvánosan elérhetők, a Szeged Korpusz
> szövegeinek eredeti tulajdonosai anno nem engedélyezték a nyilvános
> hozzáférhetőséget.
>
> Ide kapcsolódik: a http://www.inf.u-szeged.hu/~
> vinczev/infra/konvertalt_morf
> címről továbbra sem lehet wget-tel letölteni a dolgokat, megáll.
>
>
> Itt nálunk technikailag rendben van a letöltés:
>
> ------------------
>
>  wget http://www.inf.u-szeged.hu/~vinczev/infra/konvertalt_morf/
> newsml.conll-2009_ready.disamb.new
> --2016-09-08 17:15:17--  http://www.inf.u-szeged.hu/~
> vinczev/infra/konvertalt_morf/newsml.conll-2009_ready.disamb.new
> Resolving www.inf.u-szeged.hu (www.inf.u-szeged.hu)... 10.2.0.33
> Connecting to www.inf.u-szeged.hu (www.inf.u-szeged.hu)|10.2.0.33|:80...
> connected.
> HTTP request sent, awaiting response... 200 OK
> Length: 16424207 (16M) [text/plain]
> Saving to: ‘newsml.conll-2009_ready.disamb.new’
>
> newsml.conll-2009_ready.disamb.new  100%[=========================
> ==========================================>]  15.66M  46.2MB/s   in 0.3s
>
> 2016-09-08 17:15:17 (46.2 MB/s) - ‘newsml.conll-2009_ready.disamb.new’
> saved [16424207/16424207]
>
> ------------------
>
> *Esetleg nem a wget timeout-ol?*
> * http://stackoverflow.com/questions/2291524/does-wget-timeout
> <http://stackoverflow.com/questions/2291524/does-wget-timeout>*
>
> Üdv:
> Vera
>
>
> Üdv:
> Bálint
>
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>
>
>
> _______________________________________________
> nlp-infra-devel mailing list
> nlp-infra-devel at nytud.mta.hu
> http://corpus.nytud.hu/dltlist/listinfo/nlp-infra-devel
>
>
--------- k�vetkez� r�sz ---------
Egy csatolt HTML �llom�ny �t lett konvert�lva...
URL: <http://corpus.nytud.hu/pipermail/nlp-infra-devel/attachments/20160909/470b9ebc/attachment.html>


More information about the nlp-infra-devel mailing list