Immer dann, wenn man sich im Web irgendwo registriert, muss man einen Code eingeben, um zu beweisen, dass man kein Spam-Roboter ist. Mit der Technik haben Forscher zahlreiche alte Werke transkribiert - inzwischen spart Google damit gutes Geld.
Jeder Nutzer kennt die kleinen Prüfkästchen, die erscheinen, wenn man sich für einen neuen Dienst im Web registrieren will: Verzerrte Buchstaben oder Zahlen, die in Form eines Bildes dargestellt sind, müssen eingegeben werden, um die Anmeldung abzuschließen. Die Technik nennt sich "Captcha", was für "Completely Automated Public Test To Tell Computers and Humans Apart" steht – sprich: für einen vollautomatischen Test, um Maschine und Mensch auseinanderzuhalten.
Das System dient dazu, Online-Gaunern die Nutzung kostenloser Internet-Services zu erschweren. So soll verhindert werden, dass beispielsweise eine Roboter-Software Abertausende Zugänge bei einem Gratis-Postdienst wie Yahoo Mail anlegt, um darüber dann Spam zu verschicken. Auch der automatisierte Missbrauch sozialer Netzwerke soll so verhindert werden, genauso wie ein Abgreifen zu vieler Daten über Suchfunktionen, die regelmäßig zur Captcha-Eingabe bitten.
Wissenschaftler an der Carnegie Mellon University (CMU) im amerikanischen Pittsburgh kamen im Jahr 2008 allerdings auf die Idee, die Anti-Spam-Technik noch zu einem anderen Zweck einzusetzen: Sie digitalisieren damit alte Bücher, die in Hochschularchiven und Bibliotheken lagerten und von so schlechter Qualität waren, dass ein Computer allein sie mittels Texterkennung (Optical Character Recognition, OCR) nicht entschlüsseln konnte.
Das technische Prinzip dahinter ist clever: Die Werke werden Wort für Wort zerlegt und mehreren Nutzern in Form des typischen Spam-Schutz-Puzzles vorgelegt. Stimmen drei Lösungen überein, schließt das System, dass es sich um die korrekte Transkription handelt. Das "Recaptcha" genannte Projekt hatte schnell erstaunliche Erfolge zu vermelden: Im ersten Jahr wurden über 17.000 Bände transkribiert. Das entsprach insgesamt 440 Millionen für den Rechner mittels OCR nicht identifizierbaren Worten.
Die Fehlerquote war dabei erstaunlich gering, sie lag im Schnitt unter einem Prozent. Eingebunden wurde Recaptcha aufgrund seines geisteswissenschaftlich karitativen Charakters auf diversen populären Websites – so machten etwa das soziale Netzwerk Facebook, der Kommunikationsdienst Twitter und der Kartenverkäufer Ticketmaster mit. Über 50.000 Angebote nutzten den Dienst schnell, mittlerweile werden jeden Tag sage und schreibe 30 Millionen Recaptchas gelöst.
Das Projekt beeindruckte den Internet-Riesen Google so sehr, dass er sich Ende 2009 dazu entschloss, das mittlerweile von der CMU als Spin-off ausgegründete Start-up Recaptcha zu übernehmen. Wie viel Geld floss, ist unklar – doch seither arbeiten Millionen Nutzer nicht mehr nur an der Selbstdigitalisierung von Uni-Bibliotheken, sondern am großen (und in der Verlagsbranche bei weitem nicht unumstrittenen) Google Books-Projekt mit.
Das erste Vorhaben für die neue Google-Abteilung Recaptcha war die Digitalisierung der ersten 20 Jahrgänge der "New York Times". Das Material, das in einem nur schlecht mittels automatisierter Texterkennung erfassbaren Microfiche-Zustand vorliegt, wird seither Wort für Wort computerlesbar. Nach dem Abschluss der ersten 20 Jahre sollen die nächsten 110 noch in diesem Jahr abgeschlossen sein. Google kann die Inhalte dann in seine Suchmaschine einbauen und parallel Werbung dazu schalten, von deren Erlösen ein Teil an die New York Times Company geht.
Die Nutzer wissen bei Recaptcha allerdings auf den ersten Blick nicht, dass sie Hilfsarbeiten für Google erledigen. Im Gegensatz zu anderen Kombinationsprojekten aus schlauer Software und noch schlaueren menschlichen Zuarbeitern wie Amazons Mechanical Turk bekommen die Nutzer keinen Lohn, kommen noch nicht einmal um das erhoffte Lösen der Recaptchas herum, weil sie diese ja schließlich zum Abschluss ihrer Anmeldung brauchen.
Captchas an sich sind als Anti-Betrugs-Werkzeug indes beileibe nicht perfekt. So gibt es ein regelrechtes Wettrennen zwischen Website-Betreibern und Spammern, die ihre Erkennungsprogramme regelmäßig anpassen – unter anderem mit Algorithmen aus der künstlichen Intelligenz. Sind die Spam-Schutz-Symbole beispielsweise nicht verzerrt genug dargestellt oder mit einer gewissen Regelmäßigkeit abgeändert, können die Programme der Werbemüllversender sie lesen und dann wieder so tun, als seien sie echte Menschen. Auch Googles Recaptcha ließ sich bereits mit speziellen Verfahren in guten Wahrscheinlichkeitsstufen überlisten.
Und wenn das alles nicht mehr funktioniert, bedienen sich eben auch die Online-Gauner dem Engagement kostengünstiger Arbeitskräfte, die nichts davon wissen. Die Krönung aller Hacks zum Thema setzt auf die Beliebtheit sexueller Inhalte im Netz: Eine von Sicherheitsexperten vor einigen Jahren entdeckte Software zeigt dem Nutzer Pornobildchen, die sich nur aufdecken lassen, wenn er Captchas löst. Die Technologie ist derart trickreich, dass sie deren Korrektheit sogar in Echtzeit überprüfen kann – nur dann bekommt der Affe (Internet-Hilfsarbeiter) Zucker (Sexdarstellungen).
Permalink: http://heise.de/-1027525