Suchmaschinen News

SEO News

Google und die robots.txt – Experiment-

mit 10 Kommentaren

Viele Webmaster – zu denen auch ich gehöre – beklagen immer wieder das Google sich nicht an die robots.txt hält. Dazu habe ich mal ein paar kleine Versuche gemacht.

Will man das ein Verzeichnis namens “test” nicht von Google gespidert wird, sollte man ja annehmen das eine robots.txt mit:

User-Agent: *
Disallow: /test

ausreicht umd den Googlebot am spidern zu hindern, dieses funktioniert aber irgendwie nur in ca. 70% aller Fälle. Hingegen hält sich Google zu 100% an die robots.txt wenn man den Googlebot genau spezifiziert, also:

User-Agent: Googlebot
Disallow: /test

Ich hab das ganze mehrfach hin und her probiert, mit alten Seiten und mit neuen Seiten, es scheint wirklich so, dass Google sich nicht immer an

User-Agent: *

hält, sondern nur dann zu 100% wenn er auch direkt angesprochen wird. Finde ich schon krass, denn Google selbst sagt was anderes und auch die robots.txt von Google beginnt mit: User-Agent: *

Das sicherste ist also wenn man die Einträge in der robots.txt doppelt, also einmal mit * und einmal mit Googlebot

Geschrieben von Mario

am November 14th, 2005 at 10:42 pm

Veröffentlicht in SEO Tests,Tipps

10 Kommentare zu 'Google und die robots.txt – Experiment-'

Subscribe to comments with RSS or TrackBack to 'Google und die robots.txt – Experiment-'.

  1. Was meinst du mit “gespidert”?

    (Ich erinnere an: http://betamode.de/2005/09/25/...ndnisse-im-index-vs-gespidert/)

    Jan

    15 Nov 05 at 12:07 am

  2. Mit ‘gespidert’ meine ich das Google die Seiten im index aufnimmt (teilweise sogar mit cache) oder sie trotz Ausschluß per robots.txt über die Suche auffindbar macht.

    Ja dein Beitrag damals war glaube ich mit der Auslöser das mal genauer zu testen

    Mario

    15 Nov 05 at 1:01 am

  3. DANKE!

    Damit hast du mich (bzw. meine Seite) möglicherweise gerettet ;-)

    Ich hätte nie daran gedacht, das selbst so auszuprobieren, da es ja eigentlich völlig widersinnig ist. Manchmal folgt Google schon einer sehr merkwrdigen “Logik”…

    Markus

    15 Nov 05 at 9:17 am

  4. [...] EDIT: Andere SEO und Webmaster haben anscheinend mit der robots.txt keine guten Erfahrungen gemacht. Mario hat dazu auf seinem Weblog die Ergebnisse seiner Experimente veröffentlicht. [...]

  5. [...] die ich nach neuesten Erkenntnissen noch mit: [...]

  6. Man lernt nie aus – eine interessante Beobachtung Mario!

    Ich werde mal meine robots.txt darauf hin überprüfen….

    PS: Dieser Artikel ist mit 5 Kommentaren klar “unterbewertet” ! ;-)

    Stephan Hertz

    26 Jan 06 at 12:47 am

  7. Das “a” bei “User-agent” muss übrigens klein geschrieben werden. Manche Spider sind da durchaus pingelig.

    Martin

    27 Jan 06 at 2:00 am

  8. Verboten? Google hackt sich in geschützte Seiten

    Always deliver more than expected.
    Dieses Zitat scheint Google unter seinen Firmengrundsätzen dann vielleicht doch anders gemeint zu haben.

    Dennoch tauchen immer wieder Ergebnisseiten auf Google auf, die dort eigentlich nichts zu suchen haben. Beka

    Christoph's Blog

    28 Jun 06 at 8:24 pm

  9. Ich kann mich nur anschliessen. Seitdem ich Google direkt anspreche, tauchen nur noch Link auf, die ok sind.

  10. Danke für den Tipp, habe mich gerade gewundert wieso Google Seiten trotz nur javascript & nofollow verlinkt und per robots.txt von der Indexierung ausgeschlossen, trotzdem fröhlich weiter in den Indexgepumpt hat ;)

    Tim

    2 Jun 07 at 5:55 pm

Leave a Reply