Google findet zu viel

Praxis & Tipps | Tipps & Tricks

Ich war ein wenig schockiert, als ich feststellen musste, dass Google auf meinem Webserver abgelegte Office-Dateien in seinen Suchergebnissen anzeigt, die ich dort Freunden bereitgestellt, aber auf meinem Server nirgendwo verlinkt hatte. Wie kann das sein? Wie bekomme ich die Datei aus dem Google-Cache gelöscht? Und: Kann mir so etwas mit bei Dropbox oder anderen Datei-Hostern freigegebenen Dateien auch passieren?

Googles Crawler ruft nur Dokumente auf, deren URL er kennt. Von der Existenz erfährt der Crawler, indem der Webmaster sie in den Webmaster Tools explizit angibt, oder wenn er sie auf anderen indexierten Webseiten findet. Möglicherweise hat also einer Ihrer Freunde irgendwo anders im Web einen Link auf die Dokumente gesetzt. Man kann solche Dokumente über Googles Webmaster-Tools aus dem Google-Cache entfernen lassen – siehe Screenshot oben. Falls Sie Googles Webmaster Tools noch nicht nutzen: Diese Werkzeuge helfen bei vielen Aufgabenstellungen, die nicht nur die Google-Suche betreffen; ihre Nutzung ist vollkommen gratis.

Auch die Adressen von bei Dropbox oder anderen Datei-Hostern hinterlegten Dateien kann Google über externe Links erfahren. Und im Prinzip könnte Google diese Dateien auch abrufen und indexieren, sofern sie nur unter einer Adresse mit komplizierter URL lagern und nicht durch ein Passwort geschützt sind. Aber Google ruft diese Dateien nicht auf und indexiert sie nicht, weil Google sich an den sogenannten Robots Exclusion Standard hält. Damit können Webmaster die Crawler von Google und anderen Diensten davon abhalten, die gesamte Site oder bestimmte Bereiche der Website zu besuchen.

Eine im Wurzelverzeichnis des Webservers hinterlegte Textdatei namens robots.txt steuert dabei, welche Crawler welche Bereiche des Servers besuchen dürfen. Die grundlegende Syntax ist selbsterklärend. Die folgenden Angaben in einer Datei robots.txt zum Beispiel sperren Googles Crawler von der gesamten Site und alle Crawler vom Verzeichnis privat aus:

User-agent: Googlebot
Disallow: /
User-agent: *
Disallow: /privat

Feinheiten zu robots.txt finden Sie unter den Sites unter dem c’t-Link. Es ist aber wichtig zu wissen, dass dieses keine technische Beschränkung darstellt. Im Grunde halten sich die Programmierer von Crawlern freiwillig an den Standard. Daher ist es ratsam, sensible Daten nur in einem passwortgeschützten Bereich von Websites zu lagern, an den Google und Co. definitiv nicht drankommen. (jo)

Artikel kostenlos herunterladen

Infos zum Artikel

0Kommentare
Kommentieren
Kommentar verfassen
Anzeige

Anzeige

Anzeige