Wenn eine Webseite betrachtet wird, werden in der Regel dutzende von Dateien vom Webserver an den Browser geschickt: die eigentliche Datei mit dem HTML-Gerüst, Bilder, Style- und Script-Dateien, Flash-Animationen etc. Bei jedem dieser Dateiaufrufe werden einige Daten vom Webserver angefordert und
protokolliert, solch ein Log-Eintrag sieht in der Regel so aus (Daten abgeändert):
85.123.123.123 - - [13/Jun/2007:00:12:07 +0200] "GET /seite.html HTTP/1.1" 200 178 "http://atomarer-erstschlag.blogspot.com/" "Mozilla/5.0 (Windows; U; Windows NT 5.1; de-DE; rv:1.8.1.3) Gecko/20070309 Firefox/2.0.0.3"
Im Detail: zuerst kommt die
IP-Adresse, die sozusagen die Telefonnumer eines Rechners im Internet ist. Nach Datum und Uhrzeit kommt die Datei, die angefragt wird (hier seite.html). Dann folgt der
Referer (hier natürlich mein Blog). Dieser Wert bleibt leer, wenn man die Webadresse per Hand eintippt, sonst zeigt er, von welcher Seite der Link kommt. Schließlich folgt der
User Agent, der Auskunft gibt über Browser und Betriebssystem des Besuchers (hier Mozilla Firefox und Windows XP). Dazu kommen manchmal noch weitere Kommunikationsdaten, die protokolliert werden können.
Diese Datensammelei der Webserver ist insofern legal, da es sich nicht um personenbezogene Daten handelt, das identifizierende Merkmal ist die IP-Adresse. Wer sich dahinter verbirgt weiß nur der Internetprovider, und der darf diese Daten nur an Strafverfolgungsbehörden rausrücken.
Aber auch ohne die direkte Paarung von IP-Adresse und Person sagt die IP einiges aus. Bei festen IP-Adressen (z.B.
RWTH-Rechner) ist das Erkennen wiederkehrender Rechner sehr einfach. Bei Einwahl über einen Provider werden die IPs in der Regel dynamisch vergeben, d.h. sie ändern sich bei jeder Einwahl oder auch während des Surfens. Immerhin der Einwahl-Provider und die geografische Lage des Rechners lassen sich aber mit einfachen
Netzwerkbefehlen leicht rausfinden. Da die Angaben zum Browser und Betriebssytem gleich bleiben, lässt sich ein Surfer auch bei wechselnder IP-Adresse in der Logdatei verfolgen. Es gibt
Programme, die Server-Logs automatisiert auswerten bzw.
Webdienste, die ähnliche Funktionen bereitstellen wenn man keinen Zugang zum Webserver hat (wie hier bei Blogger).
Die IP-Adresse wird auch zur
Zensur von Webinhalten genutzt. Das trifft aber nicht nur
Chinesen, die bestimmte IPs(und damit Webseiten) nicht besuchen dürfen, sondern auch uns, wenn wir manche
Suchergebnisse bei Google nicht angezeigt bekommen.
Da die Identifikation eines Nutzers allein aufgrund des Datenaustausches schwierig ist, gibt es
Cookies. Dies sind kleine Textdateien, die von besuchten Webseiten im Browser abgelegt werden, um so den Browser (und dessen Nutzer) wieder zuerkennen. Das kann sehr sinnvoll sein, damit man z. B. beim Amazon-Kauf nicht plötzlich den Warenkorb eines anderen zahlen muss, weil der Provider gerade die IPs neu verteilt hat.
Cookies können nur von dem Webserver gelesen werden, von dem sie stammen, so dass sich das Wiedererkennen eigentlich jeweils auf einen Webserver beschränkt. Gerade in Zeiten von Web 2.0 sind aber beim Betrachten einer Seite meist mehrere Server involviert, ionsbesondere Anzeigen und PopUps werden von zentralen
Adservern eingeblendet - die immer auch ihr Cookie setzen. Auf diese Art wird man nun auf jeder Seite wieder erkannt, die mit dem Adserver zusammenarbeitet. So werden ständig riesige Datenbanken mit dem Surfverhalten der Webnutzer gefüllt. Gibt man nun an einer Stelle persönliche Daten an, weil man z.B. einen Newsletter abbonieren oder etwas kaufen möchte, können die gesammelten Surfdaten, die bisher nur an IPs und Cookies gebunden waren, personalisiert werden und als Konsumentenprofil auch in der Offline-Welt genutzt werden. Als Beispiel soll hier Google dienen, das jede Suchanfrage mit IP
bislang unbegfristet speichert - und nach dem
Kauf von
DoubleClick nun auch Zugriff auf die eine der größten Sammlung von Webnutzer-Daten hat.
Was also tun, um den Datensammlern das Leben schwer zu machen?
- IP-Adressen kann man nicht fälschen, aber mithilfe von Proxy-Servern kann man in fremden Gewändern surfen.
- Anonymizer Proxy
Das ist ein Programm, das unter allen teilnehmenden Websurfern zufällig IP-Adressen verteilt, ohne dies zu protokollieren. Eine Webseite kann den Besucher also nur bis zu diesem Proxy verfolgen, dann verliert sich die Spur unwiderruflich. Ein solches Projekt bietet z.B. die Uni Dresden an.
- Circumventor Proxy
Hier wird eine Anfrage nicht direkt an die Webseite geschickt, sondern an den Circumventor. Gegenüber dem Webserver tritt dann der Circumventor mit seiner IP-Adresse als Anfragender auf. Umgekehrt bekommt der Surfer den Inhalt von der IP des Proxies geschickt und nicht direkt vom Webserver Damit lassen sich an die Lokalisierung geknüpfte Einschränkungen umgehen. Z.B. kann ein chinesischer Surfer über einen nicht blockierten ausländischen Circumventor eine ansonsten blockierte regimekritische Seite aufrufen. Oder man kann sich britische Tageszeitungen ansehen ohne deutsche Werbung eingeblendet zu bekommen. Circumventor sind technisch einfacher zu realisieren als Anonymizer, daher gibt es sie auch einfach als Webdienste, z.B. peacefire.org.
- Cookies
Webbrowser bieten leider meist ein sehr grobes Cookie-Management: Alle, keine, oder immer nachfragen.
Akzeptiert man alle, macht man sich zum gläsernen Surfer. Blockiert man hingegen alle, funktionieren viele Webseiten nicht. Wenn man aber bei jedem Cookie eine Nachfrage erhält, Kann das sehr nervig werden, weil da locker 10 Nachfragen pro Seite kommen können. Man kann auch alle akzeptieren aber nach der Sitzung alle Cookies löschen. Dann wird man zumindest am nächsten Tag nicht wieder erkannt. Kann aber auch doof sein, weil man vielleicht das Cookie vom Online-Banking behalten möchte, und einzeln löschen ist wieder zu aufwendig.
Firefox-Nutzer können sich da mit der Erweiterung CookieSafe helfen, die ein sehr vielseitiges Management erlaubt. So kann man nützliche Cookies speichern und nervige temporär (solange man die Seite besucht) oder für die Sitzung (solange der Browser geöffnet ist) erlauben.
- Sonstiges
Für die Kontrolle der Referer- und User Agent-Informationen bieten die meisten Browser keine Funktionen, da dies als weniger sicherheitsrelevant angesehen wird. Bei Opera kann man da von Haus aus was machen, für Firefox gibt es Erweiterungen um Referer und User Agent zu modifizieren. Komplettes Zurückhalten dieser Informationen wird aber ebenso wie das Ausschalten von Cookies von den meisten Webseiten unnötig hart bestraft - indem man nichts zu sehen bekommt.
Wenn ich es irgendwann schaffe, wird es noch einen Teil zum Datenschutz im "echten" Leben (also Offline) geben. Beendet wird die Vortragsreihe dann mit einem Ausblick auf das, wass uns in Sachen Datenschutz bzw. Raubbau an selbigem demnächst bevorsteht.