Die Wayback Machine – Erklärung und Funktionsweise

Written By Johannes Huber | News, Organisation | 0 Comments

Inhaltsverzeichnis

Es gibt ein Internet Archive, welches Billionen an Websites enthält. Die Wayback Machine macht Recherchen in diesem Archiv möglich. Hier können alte Aufnahmen und Speicherungen von Websites durchforstet werden.

Was ist das Internet Archive und was ist die Wayback Machine?

Das Internet Archive wurde im Jahre 1996 von Brewser Kahle gegründet. Ziel war es (und ist es bis heute) die digitalen Daten für lange Zeit zu archivieren. Hierunter fallen aber nicht nur Websites, sondern auch folgende Daten:

Bücher
Filme / Videos
Audio / Musik
Software
Bilder
Webseiten

Hierzu werden automatisiert Snapshots, also Momentaufnahmen der Medien erstellt und abgespeichert. Die Wayback Machine ist das Tool, um auf die Daten des Internet Archive zugreifen zu können.

Übrigens ist das Archive seit 2007 sogar eine anerkannte Bibliothek des US-Staat Kalifornien.

Funktionsweise der Wayback Machine

Man öffnet die offizielle Seite der Wayback Machine, welche sich unter der Seite Archive.org verbirgt. Da es täglich neue Daten gibt und viele Websites hinzu kommen, wächt der Datenbestand jedes Jahr um mehr als 100 Terra-Byte an. Der aktuelle Datenbestand liegt definitiv schon im Petabyte-Bereich.

Um nun ältere Inhalte von Websites zu finden, ist die Vorgehensweise sehr einfach:

WayBack-Machine öffnen (Link oben)
In das Textfeld die gewünschte Domain eingeben. (Bsp: www.itnator.net)
In einem Jahres-Zeitstrahl und in Monaten dargestellt erscheinen die Aufnahmen der Seite.
Mit einem Kick auf ein Datum wird die Website angezeigt, wie sie zum gewählten Datum ausgesehen hat.

Natürlich ist auch die Suche eines Begriffs (wie in Google) möglich. Hier erscheint dann eine Liste mit passenden Seiten zum gesuchten Keyword. Mit einem Klick auf die gewünschte Site wird die Website wie in Punkt 3 dargestellt.

Das schöne am den Websites des Internet Archive ist, dass die Snapshots nicht wie bei einem Screenshot als Bild vorliegen, sondern als HTML-Daten. Das Bedeutet, dass die Links und Inhalte klickbar sind. Das bedeutet, man kann mit den bereitgestellten Inhalten viel besser arbeiten. Schön an den Links ist auch, dass man mit einem Klick auf den Link auf die jeweilige historische Seite gelangt und nicht auf die Live-Version der URL.

Wer nutzt eigentlich das Internet Archive um alte Inhalte zu finden?

Diese Frage hab ich mir anfangs auch gestellt. Man findet doch alle relevanten Web-Inhalte in Google? Das ist son nicht ganz korrekt. Das Team von ITnator.net nutzt beispielsweise auch die Weg-Zurück-Maschine. Wir geben euch ein paar Beispiele, wann der Einsatz der Maschine durchaus Sinn macht.

Für uns als Betreiber einer Website ist die Wayback Machine ein sehr nützliches Tool. Hier hat man die Möglichkeit auf frühere Inhalte der Seite zugreifen zu können, ohne ein Backup einspielen zu müssen. Hier kann man oft alte Inhalte finden, bei denen man glaubte sie seien verloren. Auch ist das einfache einspielen eines Backups oft gar nicht so einfach.
Auch für SEO Zwecke ist die Wayback-Machine ein hervorragendes Werkzeug. Wurden Änderungen an der Seite durchgeführt und die Google-Rankings sinken, liegt das oft an dem Aufbau der Website, beziehungsweise des Blogs. Mit dem Archive.org Tools kann man den alten Aufbau nachsehen, beziehungsweise die Änderungen nachvollziehen, falls man diese nicht dokumentiert hat.
Duplicate Content ist im Internet nicht nur schlecht für das Ranking in Google, sondern auch ein Streitpunkt im Urheberrecht. Mit der WaybackMachine kann somit nachgewiesen werden, ob veröffentliche Inhalte vielleicht schon auf dem eigenen Blog erschienen sind.
Für gerichtliche Zwecke wird ein Snapshot der Wayback-Machine oft anerkannt. Trotzdem gibt es noch streitigkeiten um die rechtlichen Aspekte des Konzepts. Denn hier werden ohne Nachfrage beim Urheber Kopien der Seiten erstellt und bereit gestellt.

Website aus der Wayback Machine entfernen

Möchte man nicht, dass die eigene Seite durch archive.org indiziert wird, so kann man dies Einstellen. Auch das nachträgliche Entfernen der eigenen Seite ist möglich. Um die Archivierung der eigenen Seite zu verhindern, muss ein spezieller Eintrag in der robots.txt vorgenommen werden.

User-agent: ia_archiver
Disallow: /

Mit Hilfe der robots.txt erkennen die Suchmaschinen, dass die Domain nicht indexiert werden soll. Vorsicht ist geboten, wenn man eine Domain erwirbt. Denn mit dem Erwerb einer Domain ist man nicht gleichzeitig der Urheber der Inhalte. Somit muss man aufpassen, ob man dann die Einträge in der robots Datei entfernen kann, beziehungsweise darf.