Studie: Algorithmen prognostizieren Rückfallkriminalität besser als Laien

Big-Data-Programme können Rückfallwahrscheinlichkeiten offenbar unter gewissen Bedingungen doch genauer voraussagen als zufällig gewählte Clickworker.

Lesezeit: 3 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 50 Beiträge

(Bild: whiteMocca/Shutterstock.com)

Von

Seit Jahren schon entzweit die Menschheit die Frage, ob Maschinen die besseren Richter sein könnten. Eine am Freitag im Fachjournal "Science Advances" erschienene Studie liefert einen weiteren Beitrag zu dieser Debatte. Sie zeigt laut ihren Autoren, dass Algorithmen unter realistischen Bedingungen Rückfallwahrscheinlichkeiten bei Kriminellen zumindest besser einschätzen können als menschliche Laien. Ob sie auch ausgebildete Juristen, erfahrene Richter und Bewährungshelfer schlagen, haben die Forscher nicht getestet.

heise online daily Newsletter

Keine News verpassen! Mit unserem täglichen Newsletter erhalten Sie jeden Morgen alle Nachrichten von heise online der vergangenen 24 Stunden.

Die neue Analyse knüpft an eine Anfang 2018 publizierte Vorläuferuntersuchung zu dem in den USA eingesetzten Algorithmus Correctional Offender Management Profiling for Alternative Sanctions (Compas) an. Damals hatte das Ergebnis noch gelautet, dass die Vorhersagen von Laien zur Rückfallgefahr von Straftätern ähnlich genau waren wie die des Systems für maschinelles Lernen. Auch die Macher der Folgestudie lassen Compas wieder gegen zufällig über den Crowdworking-Dienst Mechanical Turk von Amazon ausgewählte Clickworker antreten. Die Resultate decken sich zunächst zudem mit denen von vor zwei Jahren, wenn Menschen und Maschine je nur auf Basis von fünf Risikofaktoren ein Urteil fällen sollten.

Unter lebensnäheren Bedingungen mit mehr Faktoren, keiner unverzüglichen Rückmeldung zur Richtigkeit der Entscheidungen und bei einem anderen Algorithmus schnitten die Laien aber schlechter ab als das technische System. Die verwendeten Verfahren Compas und LSI-R (Level of Service Inventory-Revised), das ein breiteres Datenset mit mehr Risikofaktoren verarbeiten kann als die Konkurrenz, urteilten in speziellen Fällen mit geringer Rückfallrate jedoch letztlich nur so gut wie ein einfacher Klassifikator, der immer vorhersagt, die Person würde nicht wieder eine Straftat begehen. Ferner konnten die Autoren sogar mit einem einfachen Regressionsmodell eine ähnliche Genauigkeit erreichen wie die Algorithmen, was diese nach wie vor nicht sonderlich "intelligent" wirken lässt.

Der zuvor gerade bei Compas kritisierte Aspekt der Voreingenommenheit war nicht Teil der Studie. Die Verfasser erwähnen ihn auch nur am Rande. Laut einem Bericht des Rechercheportals ProPublica von 2016 beurteilte der Algorithmus Afroamerikaner oft ungerecht. Compas liefert als Ergebnis einen Risikowert von eins bis zehn und teilt auf dieser Basis Beurteilte in die Risikogruppen niedrig (1 bis 4), mittel (5 bis 7) und hoch (8 bis 10) ein. Schwarze stufte das System häufiger zu Unrecht in die letzte Kategorie ein. Vor allem in den Fällen, in denen der Algorithmus falsch lag, attestierte er Afroamerikanern ein höheres Risiko als Weißen, erneut straffällig zu werden.

Den Berechnungen der ProPublica-Autoren zufolge wurden insgesamt 61 Prozent der von Compas in die hohe Risikogruppen eingestuften Personen innerhalb von zwei Jahren tatsächlich rückfällig. Die aktuelle Studie attestiert dem Algorithmus bei der korrekten Beurteilung der Rückfallgefahr jetzt eine etwas höhere Genauigkeit von 65 Prozent. Beide Werte liegen aber unter den 70 Prozent, die der Hersteller Equivant selbst als Grenze zur zufriedenstellenden Verlässlichkeit der Analyse angibt.

In Deutschland gebe es keine Rechtsgrundlage für den Einsatz eines solchen Systems, macht Christian Djeffal klar, Professor für Recht, Wissenschaft und Technologie an der TU München. Ähnliche Verfahren seien in der Verwaltung aber bereits in Betrieb, bei der Kasse Hamburg etwa zum Erkennen prüfwürdiger Fälle im Hinblick auf Betrug, beim Zoll zur Ressourceneinteilung und bei der Polizei zur Planung von Streifen in Regionen mit einer hohen Gefahr für Einbruchsdiebstähle. Die Finanzverwaltung versuche mit vergleichbaren Ansätzen, prüfwürdigen Steuererklärungen auf die Spur zu kommen.

Mithilfe der Ergebnisse der Studie könnte die Aus- und Weiterbildung von Richtern etwa durch Übungen anhand historischer Datensätze mit sofortigem Feedback verbessert werden, was die Fehlerrate menschlicher Entscheidungen erkennbar senke, hofft Djeffal. Manchmal kämen diskriminierende Praktiken erst durch digitale Anwendungen ans Licht oder können abgemildert werden.

Trotz der Indizien für bessere Prognosefähigkeiten der Algorithmen sei immer zu beachten, "dass Menschen so sehr viel mehr können als aktuelle Verfahren des maschinellen Lernens", gibt Kristian Kersting, Leiter des Fachgebiets Maschinelles Lernen an der TU Darmstadt, zu bedenken. Sie seien etwa imstande, sich zu erklären, Stimmungen wahrzunehmen oder Analogien zu schließen. Mit "unseren ethischen und moralischen Ansprüchen" könne man kaum vereinbaren, "dass Maschinen über das Schicksal von Menschen bestimmen". Zugleich gebe es ein generelles Diskriminierungsproblem. Kersting plädiert daher für eine "Partnerschaft aus Mensch und Maschine", wobei letztere ersteren auch auf seine eigenen Vorurteile hinweisen könnte.

Prinzipiell als profund schätzen die Medienrechtler Stephan Dreyer und Johannes Schmees vom Hamburger Hans-Bredow-Institut die neue Analyse ein. Die Autoren machten deutlich, dass die zusammengestellten Informationsgrundlagen zu den zu beurteilenden Personen eine hohe Relevanz für die menschlichen wie für die errechneten Entscheidungen hätten. An mancher Stelle könnten statistische Voraussagen rechnerisch differenziertere Ergebnisse aufweisen als Menschen. Es dürfe aber nicht vergessen werden, dass es sich um "Experimentalstudien in einem sehr engen Setting" handle. Verallgemeinerungen für algorithmische und menschliche Entscheidungen könnten daraus nur äußerst begrenzt gezogen werden. (tiw)