How not to be seen
Gestern fühlte ich mich ja irgendwie zu dämlich, eine Suchmaschine zu bedienen. Ich suchte Informationen über das Dortmunder Schulverwaltungsamt, eine Stellenausschreibung, Ansprechpartner, doch Google scheint dort niemanden zu kennen. Inzwischen bin ich etwas schlauer, habe mich durchgeklickt und von dort sogar schon eine hilfreiche E-Mail bekommen.
Trotzdem wollte ich wissen, warum Google sich so unwissend gibt. Die Lösung liegt in einer kleinen Textdatei auf dem Webserver des Schulverwaltungsamtes. Diese heißt "robots.txt" und hat folgenden Inhalt:
Lustig, nicht? Die Spezialisten dort stellen Informationen ins Internet und sorgen gleichzeitig auf wirksame Art dafür, dass diese nicht durch Suchmaschinen erfasst werden können. Damit jeder sieht, dass es nicht aus Versehen geschehen ist, wird die Tat auch noch ausführlich kommentiert.
Zitat aus: Douglas Adams - Per Anhalter durch die Galaxis
Nachtrag (13. September 2008):
Irrsinnig komisch ist auch die robots.txt des Nordrheinwestfälischen Schulministeriums. Microsoft und andere dem Ministerium genehme Firmen dürfen dort alles durchsuchen; allein Google hat augenscheinlich weitreichendes Hausverbot:
http://www.schulministerium.nrw.de/robots.txt
Nachtrag (15. September 2008):
Inzwischen gibt es eine offizielle Erklärung für die Robotsperrungen auf dortmund.de. Das verwendete CMS ist wohl nicht vernünftig erweiterbar und soll 2009 durch ein besseres System ersetzt werden. Bis dahin wird ein Notbetrieb aufrechterhalten, der soviel Traffic wie möglich vermeidet, damit die Server nicht wieder zusammenbrechen.
Beim Schulministerium dagegen konnte man dessen Google-Embargo bisher nicht begründen, behauptete mir gegenüber jedoch, interessierte Lehrer würden die Seiten trotzdem finden.
Trotzdem wollte ich wissen, warum Google sich so unwissend gibt. Die Lösung liegt in einer kleinen Textdatei auf dem Webserver des Schulverwaltungsamtes. Diese heißt "robots.txt" und hat folgenden Inhalt:
# Ganze Site für alle Robots sperren
User-agent: *
Disallow: /
Lustig, nicht? Die Spezialisten dort stellen Informationen ins Internet und sorgen gleichzeitig auf wirksame Art dafür, dass diese nicht durch Suchmaschinen erfasst werden können. Damit jeder sieht, dass es nicht aus Versehen geschehen ist, wird die Tat auch noch ausführlich kommentiert.
„Aber Mr. Dent, die Pläne lagen die letzten neun Monate im Planungsbüro aus.“
„O ja. Als ich davon hörte, bin ich gestern Nachmittag gleich rübergegangen, um sie mir anzusehen. Man hatte sich nicht gerade viel Mühe gemacht die Aufmerksamkeit darauf zu lenken. Ich meine, dass man’s jemandem gesagt hätte oder so.“
„Aber die Pläne lagen aus…“
„Lagen aus? Ich musste schließlich erst in den Keller runter…“
„Da werden sie immer ausgehängt.“
„Mit einer Taschenlampe.“
„Tja, das Licht war wohl kaputt.“
„Die Treppe auch.“
„Aber die Bekanntmachung haben Sie doch gefunden, oder?“
„Jaja“, sagte Arthur, „ja, das habe ich. Ganz zuunterst in einem verschlossenen Aktenschrank in einem unbenutzten Klo, an dessen Tür stand Vorsicht! Bissiger Leopard!“
Zitat aus: Douglas Adams - Per Anhalter durch die Galaxis
Nachtrag (13. September 2008):
Irrsinnig komisch ist auch die robots.txt des Nordrheinwestfälischen Schulministeriums. Microsoft und andere dem Ministerium genehme Firmen dürfen dort alles durchsuchen; allein Google hat augenscheinlich weitreichendes Hausverbot:
User-agent: Googlebot
#Disallow: /*.mitte.html$
#Disallow: /*.rechts.html$
#Disallow: /*.links.html$
#Disallow: /*.abstand.html$
#Disallow: /*.oben.html$
#Disallow: /*.unten.html$
#Disallow: /*.hauptmenue.html$
#Disallow: /*.bannerleiste.html$
#Disallow: /*.kontextbezogene_links.html$
#Disallow: /*.micronavigation.html$
#Disallow: /*.impressum.html$
#Disallow: /*.inhaltsbereich.html$
Disallow: /*.jsp$
Disallow: /*.php$
Disallow: /BPBP
Disallow: /BP/dpa
Disallow: /BP/Schule
Disallow: /*?
Disallow: /*.jpg$
http://www.schulministerium.nrw.de/robots.txt
Nachtrag (15. September 2008):
Inzwischen gibt es eine offizielle Erklärung für die Robotsperrungen auf dortmund.de. Das verwendete CMS ist wohl nicht vernünftig erweiterbar und soll 2009 durch ein besseres System ersetzt werden. Bis dahin wird ein Notbetrieb aufrechterhalten, der soviel Traffic wie möglich vermeidet, damit die Server nicht wieder zusammenbrechen.
Beim Schulministerium dagegen konnte man dessen Google-Embargo bisher nicht begründen, behauptete mir gegenüber jedoch, interessierte Lehrer würden die Seiten trotzdem finden.
Trackbacks
Vogels Perspektive am : Stellenangebot Grundschulleiter/Grundschulleiterin Grundschule Eichlinghofen
Vorschau anzeigen
Irgendwo "im Internet" soll das Schulverwaltungsamt Dortmund eine Stellenanzeige mit der Ausschreibung der demnächst frei werdenden Stelle des Schulleiters oder der Schulleiterin der Grundschule Dortmund-Eichlinghofen geschaltet haben. Leider reichen mein
Vogels Perspektive am : IT-Kompetenz des NRW-Schulministeriums
Vorschau anzeigen
Die Vorliebe des Schulministeriums für Microsoft-Produkte macht's möglich: Eine VBScript-Fehlermeldung sieht man selten auf professionell betriebenen Webservern.Besuche auf den Internetseiten des NRW-Schulministeriums sind immer wieder ein Erlebnis. Nachd
Vogels Perspektive am : Bibliothek Dortmund-Hombruch: Fristen von Büchern online verlängern
Vorschau anzeigen
Die Stadtteilbibliothek Hombruch hat eine Internetseite, auf der die Online-Verlängerung von Ausleihfristen möglich ist. Für ausgeliehene Bücher kann dort eine Fristverlängerung von bis zu vier Wochen über ein Webformular aktiviert werden. Aus irgendwelch
Kommentare
Ansicht der Kommentare: Linear | Verschachtelt
Andi am :
Google indiziert die Webseite des Bildungsministeriums NRW im gegensatz zur Dortmunder Webseite allerdings. Google indiziert fast 5000 Seiten: http://www.google.de/search?q=site%3Ahttp%3A%2F%2Fwww.schulministerium.nrw.de&btnG=Suche
Die robots.txt erlaubt aber u.a. keinen Zugriff auf Bilddateien
Disallow: /*.jpg$
(Der richtige Befehl hierfür wäre eigentlich:
User-Agent: Googlebot-Image
Disallow: / )
PHP oder asp-Dateien und ein paar Unterverzeichnisse werden ebenfalls blockiert. Eines davon zeigt zu den DPA-Meldungen.
Was aber bedeutet: "Disallow: /*?" ???
Die Seite mit den Stellenausschreibungen ist auch indiziert:
http://www.schulministerium.nrw.de/BP/Lehrer/Stellen/index.html
Mit dem Suchbegriff "stellenangebote schulministerium" hätte man es wohl gefunden. Wäre die Webseite suchmaschinenfreundlich gestaltet hätte man es auch mit "stellenausschreibung ..." finden müssen.
Martin Vogel am :
Warum aber nicht einfach in die Metatags der erzeugten Seiten ein "noindex, nofollow" eingesetzt wird, ist im Moment allerdings noch das Geheimnis des Schulministeriums.
Andi am :