Es kann sehr verwirrend sein, wenn man eine Webseite auf seinem Computer blockiert hat, diese aber trotzdem laden kann. Das passiert häufig trotz Eintragungen in der hosts-Datei oder anderen Blockiermechanismen des Betriebssystems. Für viele Nutzer stellen sich die Fragen: Warum funktioniert die Blockade nicht wie erwartet? Wie ist es technisch möglich, dass bestimmte Seiten trotzdem angezeigt werden, obwohl der direkte Zugriff eigentlich gesperrt sein sollte? Und welche Rolle spielt dabei Google oder andere Browsertechnologien? Um diese Fragen zu beantworten, lohnt es sich zunächst, die Funktionsweise von Webseitenblockaden und die aktuellen Web-Browser-Technologien genauer zu betrachten. Das Verstehen, warum das Problem entsteht, beginnt mit einem Blick darauf, wie das Blockieren von Webseiten auf einem Computer tatsächlich funktioniert. Häufig wird die Datei hosts verwendet – eine lokale Systemdatei, in der Domainnamen bestimmten IP-Adressen zugeordnet werden können.
Indem man eine Domain wie www.bbc.co.uk auf die IP-Adresse 127.0.
0.1 umleitet, also die eigene lokale Maschine, wird der Zugriff auf diese Webseite normalerweise vollständig unterbunden, weil der Computer versucht, die Verbindung zu sich selbst herzustellen und nicht zum echten Server der Webseite. Im Regelfall zeigt der Browser dann eine Fehlermeldung, wie ERR_CONNECTION_REFUSED, an und die Webseite lädt nicht. Warum aber sehen manche Nutzer trotzdem die Startseite der blockierten Webseite? Dies liegt an einer modernen Technik, die von Google in seiner Suchmaschine genutzt wird, um das Surferlebnis zu verbessern und Webseiten schneller zu laden. Google verwendet sogenannte Spekulationsregeln oder Speculation Rules, bei denen Inhalte von Seiten, die mit hoher Wahrscheinlichkeit der Nutzer als nächstes besuchen will, vorab geladen werden.
Dabei wird nicht erst gewartet, bis der Nutzer einen Link anklickt, sondern der Browser holt sich vorab die Daten, sodass der Seitenwechsel nahezu verzögerungsfrei erscheint. Diese Technik bezeichnet man als Prefetching oder Prerendering. Im Fall von Google-Suchergebnissen nutzt der Browser eine spezielle Proxy-Technologie, die den Inhalt nicht direkt vom Server der betreffenden Webseite abruft, sondern über einen Google-eigenen Proxy-Server. Dieser Proxy fungiert dabei als Zwischenstation und nimmt die Anfrage entgegen. Das hat den Vorteil, dass der Browser auf dem Computer des Nutzers niemals direkt mit der eigentlich blockierten Webseite kommuniziert.
Stattdessen wird die Webseite quasi von Google abgerufen und anschließend lokal im Browser bereitgestellt. Aus Datenschutzgründen ist es wichtig, dass der Proxy die IP-Adresse des eigentlichen Nutzers nicht an die Webseite weitergibt. Google hat dafür eine Eigenschaft in den Spekulationsregeln eingebaut, die als anonymous-client-ip-when-cross-origin bezeichnet wird. Dies gewährleistet, dass die Vorababfrage nur dann durchgeführt wird, wenn die Nutzer-IP anonym über den Proxy bleibt. Allerdings ist diese Funktion in der Regel nur Google-eigenen Seiten vorbehalten, weil der Proxy ansonsten Zugang zu sensiblen Nutzerdaten hätte, welche missbraucht werden könnten.
So entsteht der scheinbar paradoxe Effekt, dass Webseiten trotz Blockade auf dem eigenen Rechner zunächst geladen werden können, weil die eigentliche Datenquelle nicht mehr der gesperrte Server, sondern der Google-Proxy ist. Dabei handelt es sich zumeist nur um das reine HTML-Dokument der Startseite. Weitere Inhaltsressourcen wie Bilder, Stylesheets oder Scripts werden in der Regel weiterhin direkt vom Server geladen. Wenn diese nicht erreichbar sind, können sie jedoch zu Ladefehlern führen oder das Seitenbild beeinträchtigen. Eine weitere Einschränkung dieser Proxy-Prefetching-Technologie besteht darin, dass sie meist nur beim ersten Besuch der Seite in einem inkognito-Modus nützlich ist.
Sobald Cookies für die Webseite gespeichert sind, die eine personalisierte Nutzererfahrung ermöglichen, endet die Möglichkeit der anonymen Vorababfrage. Denn personalisierte Inhalte können nicht über einen anonymen Proxy bereitgestellt werden, ohne die Nutzererfahrung zu verfälschen. Somit gerät die Blockade beim erneuten direkten Besuch der Webseite schnell wieder zum Tragen, weil der Browser dann selbst nochmals eine Verbindung zum gesperrten Server aufbaut. Dieses Verhalten erklärt auch Beobachtungen bei anderen Webseiten, wie etwa Hacker News, bei denen zwar das HTML-Template geladen wird, aber andere Seitenelemente wie Stylesheets blockiert bleiben und dadurch die Darstellung unvollständig bleibt. Insgesamt zeigt dieses Verhalten, dass moderne Browser und Suchmaschinen zunehmend Techniken einsetzen, die darauf abzielen, Nutzer schneller ans Ziel zu bringen und das Surferlebnis zu optimieren.
Dadurch entstehen neue Herausforderungen bei der zuverlässigen Blockade von Webseiten auf Rechnern. Technisch gesehen sind solche Proxy-basierten Vorababrufe eine clevere Lösung für schnellere Ladezeiten, die aber auch die Erwartungen an klassische Sperrmechanismen über den Haufen werfen können. Für Nutzer, die gezielt Seiten vollständig blockieren wollen, bedeutet das, dass neben Einträgen in der hosts-Datei gegebenenfalls weitere Maßnahmen notwendig sind, um auch Proxy- und Browser-spezifische Vorabverbindungen zu verhindern. Dazu können Firewall-Regeln, DNS-Filter oder spezielle Sicherheitslösungen genutzt werden, die auch den Datenverkehr von Zwischensystemen oder Browservorauslademechanismen überwachen und steuern können. Abschließend zeigt sich, dass das vermeintliche Laden einer gesperrten Webseite eigentlich eine Kombination aus Browseroptimierung und serverseitigem Proxy-Zwischenspeicher ist.
Die Webseite wird nicht klassisch direkt vom originären Server geladen, sondern von einem Dritten, der die Zugänglichkeit vereinfacht. Diese Technik stellt neben Verbesserungen für die Nutzer auch hohe Anforderungen an den Datenschutz und erfordert ein Bewusstsein für die Grenzen gängiger Blockiermethoden auf Rechnern. Wer also wirklich sicherstellen möchte, dass eine Webseite nicht erreichbar ist, sollte neben einfachen lokalen Blockaden auch die Nutzung von Proxys und Browser-vorausladenden Mechanismen mitberücksichtigen und gegebenenfalls umfassendere Netzwerksicherheitskonzepte implementieren.