Abgelegt unter:
SEO Tests,
Tipps
Viele Webmaster – zu denen auch ich gehöre – beklagen immer wieder das Google sich nicht an die robots.txt hält. Dazu habe ich mal ein paar kleine Versuche gemacht.
Will man das ein Verzeichnis namens “test” nicht von Google gespidert wird, sollte man ja annehmen das eine robots.txt mit:
User-Agent: *
Disallow: /test
ausreicht umd den Googlebot am spidern zu hindern, dieses funktioniert aber irgendwie nur in ca. 70% aller Fälle. Hingegen hält sich Google zu 100% an die robots.txt wenn man den Googlebot genau spezifiziert, also:
User-Agent: Googlebot
Disallow: /test
Ich hab das ganze mehrfach hin und her probiert, mit alten Seiten und mit neuen Seiten, es scheint wirklich so, dass Google sich nicht immer an
User-Agent: *
hält, sondern nur dann zu 100% wenn er auch direkt angesprochen wird. Finde ich schon krass, denn Google selbst sagt was anderes und auch die robots.txt von Google beginnt mit: User-Agent: *
Das sicherste ist also wenn man die Einträge in der robots.txt doppelt, also einmal mit * und einmal mit Googlebot
SEOigg it! |
wong it! |
del.icio.us this
TrackBack URI
Zeilen und Absätze brechen automatisch um, E-Mail-Adresse wird nie angezeigt, HTML erlaubt: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>
Weitere Beiträge
Nofollow ExperimentSo gehts aus der Google SandboxWildcards in Robots.txtMaskieren von LinksAussperren dynamischer Seiten per robots.txt
November 15th, 2005 at 12:07 am
Was meinst du mit “gespidert”?
(Ich erinnere an: http://betamode.de/2005/09/25/...ndnisse-im-index-vs-gespidert/)
November 15th, 2005 at 1:01 am
Mit ‘gespidert’ meine ich das Google die Seiten im index aufnimmt (teilweise sogar mit cache) oder sie trotz Ausschluß per robots.txt über die Suche auffindbar macht.
Ja dein Beitrag damals war glaube ich mit der Auslöser das mal genauer zu testen
November 15th, 2005 at 9:17 am
DANKE!
Damit hast du mich (bzw. meine Seite) möglicherweise gerettet
Ich hätte nie daran gedacht, das selbst so auszuprobieren, da es ja eigentlich völlig widersinnig ist. Manchmal folgt Google schon einer sehr merkwrdigen “Logik”…
November 20th, 2005 at 1:46 pm
[...] EDIT: Andere SEO und Webmaster haben anscheinend mit der robots.txt keine guten Erfahrungen gemacht. Mario hat dazu auf seinem Weblog die Ergebnisse seiner Experimente veröffentlicht. [...]
November 20th, 2005 at 10:23 pm
[...] die ich nach neuesten Erkenntnissen noch mit: [...]
Januar 26th, 2006 at 12:47 am
Man lernt nie aus – eine interessante Beobachtung Mario!
Ich werde mal meine robots.txt darauf hin überprüfen….
PS: Dieser Artikel ist mit 5 Kommentaren klar “unterbewertet” !
Januar 27th, 2006 at 2:00 am
Das “a” bei “User-agent” muss übrigens klein geschrieben werden. Manche Spider sind da durchaus pingelig.
Juni 28th, 2006 at 8:24 pm
Verboten? Google hackt sich in geschützte Seiten
Always deliver more than expected.
Dieses Zitat scheint Google unter seinen Firmengrundsätzen dann vielleicht doch anders gemeint zu haben.
Dennoch tauchen immer wieder Ergebnisseiten auf Google auf, die dort eigentlich nichts zu suchen haben. Beka
März 24th, 2007 at 4:34 pm
Ich kann mich nur anschliessen. Seitdem ich Google direkt anspreche, tauchen nur noch Link auf, die ok sind.
Juni 2nd, 2007 at 5:55 pm
Danke für den Tipp, habe mich gerade gewundert wieso Google Seiten trotz nur javascript & nofollow verlinkt und per robots.txt von der Indexierung ausgeschlossen, trotzdem fröhlich weiter in den Indexgepumpt hat