Mit wget wikipedia-images ziehen [Archiv] - linuxforen.de -- User helfen Usern

Archiv verlassen und diese Seite im Standarddesign anzeigen : Mit wget wikipedia-images ziehen

Ybbus

16.05.04, 17:34

Hi!

Ich habe mir die deutsche Wikipedia lokal installiert, und hätte eben noch gern die images dazu.
Auf der Wiki-Seite steht das man das am besten mit wget machen sollte.

Aber irgendwie funktioniert das bei mir leider nicht.

Ich habe es mit:

wget --user-agent="Alex" -r -l0 --accept=gif http://de.wikipedia.org/wiki

Probiert, aber das funktioniert irgendwie nicht so richtig.

Wäre echt schön wenn mir jemand helfen könnte.
Find wikipedia richtig super aber leider habe ich die meiste zeit kein internet :(

Natty

16.05.04, 18:47

Hi,

was genau geht denn nicht? Eine genauere Beschreibung inclusive evtl. auftretenden Fehlermeldungen wäre gut....

gruß Natty

Ybbus

16.05.04, 21:14

wget --user-agent="Alex" -r -l0 --accept=gif http://de.wikipedia.org/wiki
--22:11:15-- http://de.wikipedia.org/wiki
=> `de.wikipedia.org/wiki'
Resolving de.wikipedia.org... done.
Connecting to de.wikipedia.org[207.142.131.235]:80... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: http://de.wikipedia.org/wiki/Hauptseite [following]
--22:11:17-- http://de.wikipedia.org/wiki/Hauptseite
=> `de.wikipedia.org/wiki/Hauptseite'
Connecting to de.wikipedia.org[207.142.131.235]:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]

[ <=> ] 26,789 44.42K/s

22:11:18 (44.42 KB/s) - `de.wikipedia.org/wiki/Hauptseite' saved [26789]

Removing de.wikipedia.org/wiki/Hauptseite since it should be rejected.

FINISHED --22:11:18--
Downloaded: 26,789 bytes in 1 files

Natty

16.05.04, 23:57

Hm, das hier habe ich spontan dazu gefunden. Hoffe das hilft dir weiter...

http://www.amigascene.at/amigascene/deutsch/0x0064.html#11

Gruß Natty

Dewitt

17.05.04, 13:53

Versuchst du da grad die ganzen Seiten runterzuladen? :eek:
Lade dir lieber die Datenbank runter. http://download.wikimedia.org/ ;)

Ybbus

17.05.04, 15:31

Dewitt

Wie wärs denn mal mit lesen??

Doh!

17.05.04, 15:50

Dewitt

Wie wärs denn mal mit lesen??

wollt grad sagen: in der Fehlermeldung steht doch alles drin... und mit -l0 kommste eh net weit.

Ybbus

18.05.04, 16:05

wieso komm ich mit -l0 nicht weit?

delmonico

18.05.04, 16:34

wieso komm ich mit -l0 nicht weit?
Kommst du wohle, weil 0=unendlich.

Dewitt

18.05.04, 18:01

Wie wärs denn mal mit lesen??

Bei so vielen Foren und so vielen Themen ist das ein Vollzeitjob. Aber Recht haste. :)

Ybbus

19.05.04, 18:49

Naja jedenfalls komm ich leider nicht an meine images :(

Nach der geposteten meldung gehts eben nich weiter

Dewitt

19.05.04, 21:16

Ybbus

22.05.04, 16:10

Hi.

Am besten wäre, du fragst mal die jenigen, die sich damit auskennen. ;)

http://de.wikipedia.org/wiki/Wikipedia:Administratoren
http://mail.wikipedia.org/mailman/listinfo/wikide-l

Die kennen Wikipedia wohl besser. Vielleicht gibt's ja ein Archiv der Bilder. Vielleicht isses ja auch das hier (http://de.wikipedia.org/upload/), was du grabben musst.

Bye,
Dennis

Ja, das verzeichnis könnte es sein, aber ich komm mit wget einfach nich an die bilder.

Habs probiert, aber es endet immer ziemlich schnell mit

C:\wget>wget.exe --user-agent="Alex" -m --accept=jpg,jpeg,gif,png de.wikipedia.
org/upload
--17:04:54-- http://de.wikipedia.org/upload
=> `de.wikipedia.org/upload.1'
Resolving de.wikipedia.org... 207.142.131.235
Connecting to de.wikipedia.org|207.142.131.235|:80... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: http://de.wikipedia.org/upload/ [following]
--17:04:55-- http://de.wikipedia.org/upload/
=> `de.wikipedia.org/upload/index.html'
Connecting to de.wikipedia.org|207.142.131.235|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]

[ <=> ] 7,043 --.--K/s

Last-modified header missing -- time-stamps turned off.
17:04:57 (49.13 KB/s) - `de.wikipedia.org/upload/index.html' saved [7043]

Loading robots.txt; please ignore errors.
--17:04:57-- http://de.wikipedia.org/robots.txt
=> `de.wikipedia.org/robots.txt'
Connecting to de.wikipedia.org|207.142.131.235|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2,548 [text/plain]
Server file no newer than local file `de.wikipedia.org/robots.txt' -- not retrie
ving.

Removing de.wikipedia.org/upload/index.html since it should be rejected.

FINISHED --17:04:59--
Downloaded: 7,043 bytes in 1 files

C:\wget>wget de.wikipedia.org/upload/
--17:05:38-- http://de.wikipedia.org/upload/
=> `index.html'
Resolving de.wikipedia.org... 207.142.131.235
Connecting to de.wikipedia.org|207.142.131.235|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]

[ <=> ] 7,043 34.39K/s

17:05:42 (34.39 KB/s) - `index.html' saved [7043]

C:\wget>

Ybbus

25.05.04, 15:14

Kann mir da echt niemand helfen? :(

Bin langsam am verzweifeln.

Leichter kann es für wget doch nicht sein. Ein verzeichnis ausschließlich mit bildern und unterordner, aber trotzdem klappts (bei mir) nicht...

Dewitt

25.05.04, 17:32

Hast du unter Windows eigentlich eine .wgetrc? Kannst ja mal ein "robots = off" dort eintragen. Vielleicht klappt es ja. Dein Wget holt sich die robots.txt Datei (http://de.wikipedia.org/robots.txt) und bricht dann ab. Kein Wunder, denn in der robots.txt steht ja drinnen, dass wget da nichts zu suchen hat.

Grüßle,
DEnnis

Ybbus

25.05.04, 18:04

@Dewitt:

--user-agent="Alex"

Deswegen erkennt er es doch nich als wget...

Dewitt

25.05.04, 18:53

Aber der Webserver blockiert ja auch gar nicht. Ich schätze mal, wget sträubt sich gegen den download der Dateien, weil er sieht, dass wget da nichts machen soll.

Ybbus

25.05.04, 18:55

Ach so meinst du dass.

Na dann probier ich das mal so aus

Ybbus

26.05.04, 11:33

Hi, Dewitt!

Das hat geholfen, danke :)