Warum wir der Datensammlung nicht entkommen können – und was CAPTCHAs damit zu tun haben

von Felix Castello

Lesedauer: 5 Minuten

Von den Erscheinungen, denen man im Internet fast täglich begegnet, gehören vor allem CAPTCHAs zu den nervigeren Dingen. Fast jede*r kennt die „Ich bin kein Roboter“-Formulare bei Registrierungen auf Websites, bei denen man Text eingeben oder bestimmte Elemente auf einem Bild anklicken muss, um zu beweisen, dass man ein Mensch ist und kein Bot. Im Laufe der Jahre haben sich diese zu lösenden Aufgaben stark gewandelt. Doch mittlerweile sind viele dieser typischen Elemente von CAPTCHAs fast vollständig verschwunden. Was zunächst erleichternd klingt, da damit der nervige Prozess Geschichte ist, ist bei genauerer Betrachtung jedoch keine unbedingt gute Entwicklung für die Nutzer*innen.

Über Roboter, Bücher und Google – die Anfänge von CAPTCHAs

Rund um die Jahrtausendwende suchten Computerfachleute nach einem Weg, um bei Websites zwischen menschlichen Nutzer*innen und automatisierten Bots unterscheiden zu können. Das Ergebnis war im Jahr 2000 die Geburt des Systems CAPTCHA, was „Completely Automated Public Turing test to tell Computers and Humas Apart“ bedeutet. Die Idee war, Nutzer*innen eine Aufgabe zu stellen, die ein Mensch lösen kann, eine Maschine jedoch nicht. Als das System online ging, musste man lediglich Buchstaben und Zahlen in ein Feld eingeben. Doch da mit der Zeit die Computer immer besser wurden, mussten auch die CAPTCHAs schwerer werden. So wurde Nutzer*innen unter anderem auch die Aufgabe gestellt, zwei Worte in ein Feld einzugeben: Eines war der tatsächliche Test und eines das Wort von einem eingescannten Dokument, das der Computer nicht lesen konnte. Und so wurde es möglich, mithilfe von CAPTCHAs Dokumente zu digitalisieren. 2007 wurde reCAPTCHA veröffentlicht, mit dem Ziel, alle Ausgaben der New York Times zu transkribieren. Im Jahr 2009 wurde reCAPTCHA von Google gekauft, daraufhin wurden nicht nur Artikel der New York Times digitalisiert, sondern auch Bücher für das eigene Archiv Google Books. Über die Jahre hinweg wurden dadurch Millionen von Artikeln und Büchern transkribiert und damit für das digitale Archiv von Google Books durchsuchbar gemacht. 2012 tauchten dann neue Formen von CAPTCHAs auf, als Google versuchte, die eigenen Aufnahmen von Google Street View auszuwerten, und Nutzer*innen zum Beispiel eine abfotografierte Hausnummer abtippen mussten. Im Jahr 2014 wurde jedoch klar, dass auch dieses System für Bots kein Hindernis mehr darstellte, und so wurde das System von Google durch das sogenannte „NoCAPTCHA reCAPTCHA“ ersetzt.

Unsichtbar und trotzdem da: das Problem der neuen CAPTCHAs

Nutzer*innen mussten von nun an nur noch eine kleine Box anklicken, auf der „Ich bin kein Roboter“ steht. Das individuelle Surfverhalten der Person wurde dann im Hintergrund analysiert und es wurde bewertet, ob ein Risiko besteht. Doch auch dieses System wurde vor einiger Zeit aktualisiert: Mit reCAPTCHA V3 verschwand auch dieser letzte Schritt des Anklickens. Damit ist seitdem der Prozess der Analyse für Nutzer*innen fast vollständig unsichtbar. Nur ein kleines Feld am Bildschirmrand weist darauf hin, dass das eigene Surfverhalten im Hintergrund aufgezeichnet und bewertet wird. Auf einer Risiko-Skala wird dieses dann eingeordnet, um festzustellen, ob es sich potenziell um einen Roboter handeln könnte. Und natürlich hat dieses System für Nutzer*innen, für Webseitenbetreibende und auch für Google selbst enorme Vorteile: Nutzer*innen wird ein nerviger Prozess erspart. Das System ist zudem ökonomischer im Sammeln von Daten und kann deutlich schlechter ausgetrickst werden als seine Vorgängerversionen – vor allem, da nicht öffentlich ist, wie dieser Bewertungsprozess genau abläuft. Allerdings konnte man feststellen, dass ein hoher Risikowert besonders dann häufig auftritt, wenn man nicht über Google angemeldet ist, keine Google-Cookies vorweisen kann oder eine VPN-Verbindung benutzt. Und das ist ein Problem: Denn wer reCAPTCHA V3 auf seiner Website nutzen möchte, muss das System nicht nur auf Registrierungsformularen oder einer Anmeldeseite nutzen, sondern auf der kompletten Seite. Im Dezember 2022 nutzten über 5 Millionen Websites dieses System. Der Service von reCAPTCHA allgemein wird auf über 29 Millionen Websites genutzt. Auf diesem Weg bekommt Google massenhaft Daten über die Nutzer*innen von diesen Seiten. Und wer im Browser permanent mit seinem Google-Account angemeldet ist, läuft zudem Gefahr, möglicherweise jede einzelne besuchte Website, die reCAPTCHA V3 nutzt, an Google zu übermitteln. Google sagt zwar, sie würden die erhobenen Daten nur für Risikoanalysen verwenden. Ob das tatsächlich stimmt, ist aber fraglich, ganz besonders, wenn man bedenkt, dass Google in der Vergangenheit die Technologie von CAPTCHAs vor allem für die Entwicklung des eigenen Unternehmens genutzt hat.

Wir sollten uns also Folgendem bewusst sein: Wir alle haben durch das Lösen von CAPTCHAs über Jahre hinweg Bücher transkribiert, künstliche Intelligenzen trainiert und unser individuelles Surfverhalten an Google übermittelt, ohne es zu merken. Das Ganze passiert in einer Dimension, die mittlerweile so gigantisch ist, dass es auch für kritische und datensparsame Nutzer*innen fast unmöglich wird, dieser alltäglichen Datensammlung zu entkommen. Und mit dieser Entwicklung im Hinterkopf sollten wir uns langsam darüber Gedanken machen, ob wir wirklich so weitermachen wollen.

Quellen

https://phys.org/news/2012-06-captcha-story-squiggly-letters.html (Letzter Zugriff 27.12.2022).

https://www.techradar.com/news/captcha-if-you-can-how-youve-been-training-ai-for-years-without-realising-it (Letzter Zugriff 27.12.2022).

https://www.fastcompany.com/90369697/googles-new-recaptcha-has-a-dark-side (Letzter Zugriff 27.12.2022).

https://www.mentalfloss.com/article/81927/surprisingly-devious-history-captcha (Letzter Zugriff 27.12.2022).

https://trends.builtwith.com/websitelist/reCAPTCHA-v3 (Letzter Zugriff 27.12.2022).