Skip to content

How not to be seen

Gestern fühlte ich mich ja irgendwie zu dämlich, eine Suchmaschine zu bedienen. Ich suchte Informationen über das Dortmunder Schulverwaltungsamt, eine Stellenausschreibung, Ansprechpartner, doch Google scheint dort niemanden zu kennen. Inzwischen bin ich etwas schlauer, habe mich durchgeklickt und von dort sogar schon eine hilfreiche E-Mail bekommen.

Trotzdem wollte ich wissen, warum Google sich so unwissend gibt. Die Lösung liegt in einer kleinen Textdatei auf dem Webserver des Schulverwaltungsamtes. Diese heißt "robots.txt" und hat folgenden Inhalt:

# Ganze Site für alle Robots sperren
User-agent: *
Disallow: /


Lustig, nicht? Die Spezialisten dort stellen Informationen ins Internet und sorgen gleichzeitig auf wirksame Art dafür, dass diese nicht durch Suchmaschinen erfasst werden können. Damit jeder sieht, dass es nicht aus Versehen geschehen ist, wird die Tat auch noch ausführlich kommentiert.

„Aber Mr. Dent, die Pläne lagen die letzten neun Monate im Planungsbüro aus.“
„O ja. Als ich davon hörte, bin ich gestern Nachmittag gleich rübergegangen, um sie mir anzusehen. Man hatte sich nicht gerade viel Mühe gemacht die Aufmerksamkeit darauf zu lenken. Ich meine, dass man’s jemandem gesagt hätte oder so.“
„Aber die Pläne lagen aus…“
„Lagen aus? Ich musste schließlich erst in den Keller runter…“
„Da werden sie immer ausgehängt.“
„Mit einer Taschenlampe.“
„Tja, das Licht war wohl kaputt.“
„Die Treppe auch.“
„Aber die Bekanntmachung haben Sie doch gefunden, oder?“
„Jaja“, sagte Arthur, „ja, das habe ich. Ganz zuunterst in einem verschlossenen Aktenschrank in einem unbenutzten Klo, an dessen Tür stand Vorsicht! Bissiger Leopard!“


Zitat aus: Douglas Adams - Per Anhalter durch die Galaxis

Nachtrag (13. September 2008):

Irrsinnig komisch ist auch die robots.txt des Nordrheinwestfälischen Schulministeriums. Microsoft und andere dem Ministerium genehme Firmen dürfen dort alles durchsuchen; allein Google hat augenscheinlich weitreichendes Hausverbot:
User-agent: Googlebot
#Disallow: /*.mitte.html$
#Disallow: /*.rechts.html$
#Disallow: /*.links.html$
#Disallow: /*.abstand.html$
#Disallow: /*.oben.html$
#Disallow: /*.unten.html$
#Disallow: /*.hauptmenue.html$
#Disallow: /*.bannerleiste.html$
#Disallow: /*.kontextbezogene_links.html$
#Disallow: /*.micronavigation.html$
#Disallow: /*.impressum.html$
#Disallow: /*.inhaltsbereich.html$
Disallow: /*.jsp$
Disallow: /*.php$
Disallow: /BPBP
Disallow: /BP/dpa
Disallow: /BP/Schule
Disallow: /*?
Disallow: /*.jpg$

http://www.schulministerium.nrw.de/robots.txt

Nachtrag (15. September 2008):

Inzwischen gibt es eine offizielle Erklärung für die Robotsperrungen auf dortmund.de. Das verwendete CMS ist wohl nicht vernünftig erweiterbar und soll 2009 durch ein besseres System ersetzt werden. Bis dahin wird ein Notbetrieb aufrechterhalten, der soviel Traffic wie möglich vermeidet, damit die Server nicht wieder zusammenbrechen.
Beim Schulministerium dagegen konnte man dessen Google-Embargo bisher nicht begründen, behauptete mir gegenüber jedoch, interessierte Lehrer würden die Seiten trotzdem finden.