Spider Trap – die Falle für böse Bots
Thomas Zeithaml ein nettes Tool gebastelt auf das wohl viele Webmaster schon lange gewartet haben, gerade wohl auch diejnigen die aufgrund von Duplicate Content durch Spambots verursacht ihre Seiten nur noch auf den hinteren Rängen wiederfinden.
Spidertrap ist eine Falle für genau diese bösen Bots / Spambots, die Installation und Anwendung ist denkbar einfach. Man installiert spider-trap auf dem Server und setzt einen Link von der Seite, z.B. in Form einer Grafik wie hier oben rechts zu sehen, mit einer 1px Grafik, oder mit einem normalen Textlink oder …
Dieser Link verweist nun in das Verzeichnis /spider-trap/ auf dem Server, jetzt verbietet man mithilfe der robots.txt den entsprechenden Bots den Link zu folgen, also z.B.
User-agent: *
Disallow: /spider-trap
Also in diesem Fall hat kein Bot diesen Link zu verfolgen, gute Bots halten sich an die robots.txt, böse Bots halten sich meist nicht an die robots.txt und werden diesen Link verfolgen und landen im Verzeichnis /spider-trap/, sind also in die Falle getappt. Ist der Bot in die Falle gegangen, schreibt Spider Trap ein deny from in die .htaccess und der Bot ist für die komplette Seite gesperrt. Um dort wieder rauszukommen müsste er ein Wort auf der spider-trap/index.php eingeben, bei uns wäre das Wort mensch. Klickt also ein Besucher auf den Link, kann er seinen deny from durch Eingabe des vogegebenen Wortes entfernen und hat somit wieder vollen Zugriff auf die Seite, ein Bot kann dieses natürlich nicht und bleibt somit gesperrt.
Auch Google hält sich ja manchmal nicht an die robots.txt, um den Googlebot nicht ausversehen einzufangen, gibt es eine Whitelist in der man über den Useragent definieren kann wer nie eingefangen werden darf, also Googlebot, slurp usw. Über die Whitelist könnte man auch nur die gewünschten Bots zulassen und alle anderen komplett in die Falle tappen lassen. Will man z.B. nur den Googlebot zulassen, könnte man das so machen.
robots.txt:
User-agent: *
Disallow:
also alle “dürfen” in die Falle
und Whitelist mit dem Eintrag: Googlebot, das wäre dann die ganz harte Nummer
Hier gibt es noch wesentlich mehr möglichkeiten, welche auf Spider Trap genauer beschrieben werden.
Wir haben das die letzten Tage mal ausgiebig getestet, so sind z.B. auf no-nofollow.de nach nur kurzer Zeit knapp 20 böse Bots in die Falle gegangen, die Kollegen kamen aus allen Ländern. China, Korea, Rußland, USA usw. und hatten sicherlich nichts gutes vor. Wenn man möchte kann man sich auch automatisch per mail informieren lassen wenn jemand in die Falle geht.
Fazit: Ein Super Tool, einfach zu installieren, kostenlos!
Mehr dazu, wie Download, Installationsanleitung, Funktionsweise sowie eine Möglichkeit böse Bots zu melden und bereits gemeldete in einer Übersicht zu sehen gibts direkt auf Spider Trap
Viel Spaß beim Spambot fangen
Wer es mal ausprobieren möchte, der klicke hier auf die Spinne.

Endgeiiilll, wenn ich das mal so sagen darf hier, dem werd ich mich morgen mal annehmen, hab nämlich gerade 2 Seiten wegen so einem sch… verloren.
Die jag ich da alle rein, Google darf, rest geht schlafen
Tim
13 Jan 06 at 1:05 am
Nettes tool, gibt es das ganze auch mit captcha?
Charmed Fan
13 Jan 06 at 10:28 am
ne noch nicht, könnte Thomas aber bestimmt noch einbauen denke ich mal
Mario
13 Jan 06 at 10:43 am
Wow, da hat sich aber einer mal richtig Mühe gemacht *den Hut zieh* und vielen dank für die tolle Zusammenfassung und Erklärung hier!
Astoi
13 Jan 06 at 11:01 am
Danke Thomas und Mario, bin begeistert! Schützt das Tool auch gegen automatische Mülleintragungen im Weblog?
Gruß
Karsten
Karsten
13 Jan 06 at 1:38 pm
Gegen Kommentarspam wird dir das hier sicher helfen
Mario
13 Jan 06 at 2:00 pm
Erstmal danke für euer Lob. Sind ein paar Nächte und Bierkisten dafür ins Land gegangen.
Captcha ist in der nächsten Version geplant !
Was Mario noch vergessen hat. Ich habe extra ein Forum eingerichtet und würde mich über einige Verbesserungsvorschläge, Bugfixes usw sehr freuen
Gruß Thomas
Tom
14 Jan 06 at 1:43 am
[...] Gestern habe ich bei Mario den Beitrag über die Spider-Trap gelesen. Diese kleine Falle fängt Spider ein, die sich nicht an die robots.txt halten und in verbotenen Verzeichnissen spidern wollen. Die IP dieser fiesen Robots wird sogleich per .htaccess gesperrt. Damit dürfte man so einige Content-Grabber von ihrem Tun abhalten können. [...]
Spider-Trap für böse Bots - Faris SEO Blog
14 Jan 06 at 10:43 am
Ideen klauen kann der Tom ganz gut, chapeau!
bull
14 Jan 06 at 2:31 pm
Hallo Jan,
die Idee dazu entstammt hier:
http://www.omtalk.com/suchmasc...g-allgemein/32-robots-txt.html
Such mal nach “Bot-Trap”. Es sind also schon mehrere auf die Idee gekommen. Aber es hat halt noch keiner in dem Umfang realisiert. Weiß jetzt also nicht genau warum du sauer bist.
Wenn du mein Emails beantworten würdest wäre das ja alles kein Problem.
Da ich es auch kostenlos zum Download anbiete und kein Adsense oder sonst was drauf habe solltest du auch erkennen dass es mir dabei um die Sache geht und kein kommerzieller Hintergedanke eine Rolle spielt.
Gruß Thomas
Tom
14 Jan 06 at 4:01 pm
geniales Tool, gleich 7 Stück eingefangen heute
Martin
14 Jan 06 at 11:15 pm
Gibt es nicht auch Google-Bots, die “verdeckt ermitteln” um Cloaking-Seiten aufzuspüren? Hab ich nur vor längerer Zeit mal gelesen, aber mich nie näher damit beschäftigt weil es für mich nicht relevant ist).
Wenn dem so ist, könnte es nicht fatale Folgen haben, wenn so ein verdeckter Googlebot in die Falle geht?
Markus
16 Jan 06 at 12:38 pm
Richtig, in dem omtalk-Thread wird auf disallow.de verwiesen, von wo konzeptionell fast alles stammt was man jetzt bei spider-trap “bewundern” kann. Warum ich von solchen Leuten auch noch e-mails beantworten soll, ist mir schleierhaft.
bull
19 Jan 06 at 5:04 pm
@bull
Naja, Post Nr. 6 von ThomasB erklärt wie eine Spider Trap funktioniert. Das kann man also auch ohne Kenntnis von disallow umsetzen.
Dein “erster” Entwurf auf Disallow ist vom 21.10.2005.
Die erste Version von spider-trap (die ich dir in der EMail geschrieben habe) ist vom 5.Feb 2005.
Die Grund-Idee für eine Spider Trap wurde schon Anfang 2002 veröffentlicht. Findet man auch unter meinen Links auf meiner Seite.
Jetzt ist das ganze halt auch für den Webmaster einsetzbar ohne das einer das programmieren muss.
Es ist auf jeden Fall in meinem Interesse Unstritigkeiten mit dir beizulegen weil wir beide für die gleiche Sache kämpfen.
Wenn du auch Interesse daran hast die Sache aus der Welt zu schaffen, an mir soll es nicht liegen.
Tom
19 Jan 06 at 11:47 pm
Testlauf Spider-Trap – don´t click!!!
Ich habe heute Spider-Trap installiert – ein Tool, das sehr viel Gutes verspricht! Leider läuft noch nicht alles rund, denn die Sicherheits-Abfrage wird nicht korrekt in ein PNG umgewandelt und ist damit nicht lesbar – vermutlich ein Server-Fehler…
Hertz-lich gebloggt...
18 Mrz 06 at 2:14 pm
> Dein “erster” Entwurf auf Disallow ist vom 21.10.2005.
Dieser Entwurf ist auf meinem Blog gepostet worden. Wir haben zwar den selben Vornamen, sind aber immer noch verschiedene Personen. Nur damit da nichts durcheinander gerät.
Jan Piotrowski
5 Jul 06 at 1:54 pm
Disallow ist tot.
Das war’s, hiermit beende ich das Projekt Disallow.
Disallow war eine gute Idee. Natürlich ist es ein gutes Anliegen die eigenen Webseiten vor Contentgrabbern und Pseudosuchmaschinen zu schützen. Nur lohnt sich die investierte Zeit hi…
Disallowblog
5 Jul 06 at 1:56 pm
nach der falle für meinen blog, jetzt auch für die ganze seite
thx
Paul
22 Jan 07 at 8:04 pm
Ich habe beim spider-trap leider das Problemm das ich den google-bot da manuell raus “befreien” muss.
Dieser tappt beinahe täglich bei mir da rein
Also auf jeden Fall Email-Benachrichtigung aktivieren und den whoise des “Gefangenen” checken.
Noch etwas was evtl. interessant sein könnte: seit die Falle direkt am Anfang des Quelltextes der Seite ist, tappen da mehr Bots rein als am Anfang wo diese vom /body stand
Yury
7 Dez 07 at 1:00 pm