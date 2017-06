¯ Nicht alle Suchmaschinen-Crawler und andere Web-Bots halten sich an die Steuerdatei robots.txt, mit der Website-Betreiber vorgeben, welche Bereiche sie besuchen dürfen und welche nicht (siehe dazu auch c’t 12/17, Seite 170). Mit einer kleinen Falle kann man das nachvollziehen: Legen Sie auf Ihrer Homepage zwei neue Seiten an, zum Beispiel nice.php und evil.php; die Inhalte sind egal. Um die Ergebnisse nicht mühsam aus dem Access-Log herausklauben zu müssen, bauen Sie ein kleines PHP-Skript ein, das Informationen über den Zugriff in eine Logdatei schreibt:

$props = array(

'REMOTE_ADDR',

'REMOTE_HOST',

'HTTP_USER_AGENT',

'SERVER_PORT',

'QUERY_STRING',

'HTTP_REFERER'

);

$log = array('evil',

date(DATE_ATOM));

foreach ($props as $prop) {

$entry = array_key_exists($prop,

$_SERVER)? $_SERVER[$prop] : '';

array_push($log, $entry);

}

file_put_contents('bot.log',

join("\t", $log) . "

",

FILE_APPEND);

Nun verweisen Sie von der Startseite auf diese beiden Seiten und lassen die Links per CSS verschwinden, etwa mit transparenter Schrift in winziger Größe (der Google-Bot erkennt angeblich 'display: none'). Zuletzt ergänzen Sie robots.txt:

User-agent: *

Disallow: /evil.php

Allow: /nice.php

Nun können Sie in bot.log studieren, welche Bots bei Ihnen vorbeikommen und ob sie sich an die Spielregeln halten. Bei einem Test auf einer privaten Website kamen innerhalb von vier Tagen gut ein Dutzend verschiedene Bots vorbei – bekannte, obskure und dubiose mit offensichtlich falscher User-Agent-Kennung, die dann auch die robots.txt ignorierten. (Herbert Braun/jo@ct.de)