» / » Workshop » WGET
Übersicht CECS-Info CECS-Werker Workshop Kontakt
Workshop - WGET

WGET - Das Universaltool

Auch im Rahmen der Zertifizierung dieser Website stellte sich die Frage: Wie erstellt man eine Momentaufnahme einer Website, welche zur Projektdokumentation benötigt wird?
Mit WGET, einem Befehlszeilen Tool zum Herunterladen einzelner Dateien oder ganzer Websites, ist das gar kein Problem; wenn man die zahlreichen Optionen beherrscht, die dieses Tool bietet.

Linux Anwender und Experten im Bereich Internet kennen es schon lange, doch auch für Windows gibt es mittlerweile eine Art Schweizer Taschenmesser für den Download ganzer Websites zum Offline Lesen, ein Download Tool zum Herunterladen ganzer Verzeichnisse per HTTP und FTP oder auch für den gezielten Download bestimmter Dateitypen über eine vorgegebene Hirarchieebene.

Die folgende Auflistung möglicher Befehlzeilenoptionen stellt ganz bewusst nur eine kleine Auswahl der möglichen Optionen dieses Tools vor, damit der Wald wegen zu vieler Bäume nicht aus dem Blick gerät; Einzelheiten findet man bekanntlich in der Manualseite.

Die wichtigsten Optionen:

-b: Arbeitet im Hintergrund (--background)
-c: Abgebrochenen Download wieder aufnehmen ( --continue)
-r: Folgt den Links (--recursive) - mit Vorsicht zu verwenden!
-k: Konvertiert Links um fürs Offline-Lesen (--convert-links)
-p: Alle Elemente (z. B. Bilder) heruntergeladen (--page-requisites)
-l: TIEFE der Verfolgung an (--level=TIEFE)
-m: Erstellt exakte Kopie der Seite (--mirror)
-H: Folgt auch Links zu anderen Hosts (--span-hosts)
-np: Folgt nicht den Links ins Elternverzeichnis (--no-parent)
-t: VERSUCHE - Anzahl der Downloadversuche (--tries=Versuche)
-A: MUSTER - Lädt nur Dateien, die das MUSTER enthalten (--accept MUSTER)
 

Beispiele:

Download einer Seite inklusive Bilder
Will man nicht nur die reine HTML-Seite herunterladen, sondern auch alle anderen Elemente, die zur Darstellung dazugehören, dann kommt der Schalter -p ins Spiel.
wget -p http://website.im.netz/index.html
 

Offline-Version einer Homepage erstellen
Eine interessante Webpräsenz soll mit ihrer gesamten Struktur auf die Festplatte gespeichert werden. Dies erreicht man durch folgenden Befehl:
wget -rkpl 5 http://website.im.netz/rezepte/
Das -r sorgt dafür, daß auch die verlinkten Seiten heruntergeladen werden. Über wie viele Webseiten den Links gefolgt werden soll, kann mit dem Schalter -l und der Angabe der Tiefe geregelt werden. Der Schalter -k sorgt dafür, daß absolute Links in relative Links umgewandelt werden. Wurde die Seite nicht mit heruntergeladen, so wird ein absoluter Link mit Protokoll und Domain-Name (z. B. aus apfelmus.html wird http://website.im.netz/rezepte/apfelmus.html) erzeugt.
 

Spiegelung einer Homepage erstellen
Eine Spiegelung (Mirror) ist eine exakte Kopie einer Homepage, um sie zusätzlich auf einem oder mehreren Servern anzubieten. Dies erfolgt in der Regel, um die Last bei stark frequentierten Webpräsenzen zu verteilen.
wget -m 5 http://website.im.netz/rezepte/
Entspricht den Schaltern -r -N -l inf -nr.
 

Nur bestimmte Dateien herunterladen
Um z. B. nur die JPEG-Bilder aus einem FTP-Server-Verzeichnis herunterzuladen, nimmt man den -A.
wget -rl 1 -np -A .jpg,.jpeg ftp://ftp.website.im.netz/pic/
 

Aber bitte nur, was auch erlaubt ist!
Nicht alles, was technisch möglich ist, muss rechtlich erlaubt sein. Wer WGET einsetzt, sollte sich darüber im Klaren sein! Selbstverständlich ist jeder für sein Handeln selbst verantwortlich. Deshalb hier der Rat, verantwortungsvoll mit diesem Werkzeug umzugehen.
 

Weiterführende Informationen zu WGET:
Gibt es auf der GNU Website...
GNU wget - GNU Project - Free Software Foundation (FSF)
Zuletzt geändert: 20.12.04