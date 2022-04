Fehlerhafte Daten, egal ob böswillig manipuliert oder durch Schlamperei oder technische Fehler entstanden, können eine KI übel in die Irre führen. Dann werden beispielsweise Schildkröten als Waffen erkannt oder eine Geschwindigkeitsbegrenzung als Stoppschild. Ramon Wartala, Director Data Science bei Sinner Schrader und langjähriger iX-Autor, erklärt im Interview, wie Tools dabei helfen können, die Datenqualität zu sichern.

iX: Data Scientists verbringen viel Zeit damit, die verarbeiteten Daten händisch auf Plausibilität zu prüfen und Unstimmigkeiten nachzugehen. Wie lässt sich die Datenqualität automatisiert erhöhen?

Ramon Wartala, Director Data Science bei Sinner Schrader und langjähriger iX-Autor

Wartala: Das Training moderner KI-Lösungen setzt in der Regel sehr große Datenmengen voraus. Diese Trainingsdaten manuell, also „mit bloßem Auge zu prüfen“, ist schlicht nicht möglich. Beispiel moderne Sprachmodelle, die mit mehreren Terabyte Daten trainiert werden: Diese Daten lassen sich beim besten Willen nicht mehr querlesen. Oder denken Sie an das Thema autonomes Fahren, das erst mithilfe von Petabytes an LiDAR-, Kamera- und Sensordaten möglich wird. Bei all diesen Fällen benötigt man einen maschinellen Torwächter, der genau aufpasst, welche Daten verarbeitet werden. Und das am besten rund um die Uhr.

Werkzeuge für bessere Datenqualität

iX: Welche Aufgaben können dabei Tools übernehmen?

Wartala: Beim automatisierten Datenimport ist es wichtig, statistische Ausreißer frühzeitig zu identifizieren. Dazu lassen sich im Vorfeld zum Beispiel Wertebereiche definieren, die „die guten ins Töpfchen und die schlechten ins Kröpfchen“ befördern. Der einfachste Fall wäre hier ein vordefiniertes Minimum oder Maximum, unter oder über die Werte innerhalb der importierten Daten nicht hinausgehen sollten. Das Werkzeug Deequ, das „Unit Tests for Data“ verspricht, und seine Python-API PyDeequ können selbstständig und völlig ohne Konfiguration Vorschläge für solche Wertebereiche generieren.

iX: Das klingt ziemlich aufwendig. Warum genügt es nicht, nachzubessern, wenn das Ergebnis nicht stimmt?

Wartala: Aufwendig ist es nur am Anfang, wenn man sich Gedanken über seine Datenqualitätsanforderungen macht. Da die Qualität von Machine-Learning-Modellen nicht nur von der Menge, sondern auch von der Qualität der Daten abhängig ist, sollte diese bei jedem KI-Projekt von Anfang an im Fokus stehen. Es gibt einige Studien, die den positiven Einfluß einer hohen Datenqualität auf so wichtige Unternehmenskennzahlen wie Gewinn oder Wachstum nachgewiesen haben.

iX: Wie lässt sich die Qualitätskontrolle automatisieren?

PyDeequ lässt sich sehr einfach dazu nutzen, eine erste Bestandsaufnahme der Datenqualität auf bestehenden Datensätzen durchzuführen (aus iX 5/2022). Kann man dafür einen eigenen Spark-Cluster nutzen, lassen sich damit auch sehr große Datenbestände auf ihre Qualität prüfen. Im einfachsten Fall erzeugt PyDeequ dafür selber Vorschläge in lesbarer Form. Wurden geeignete Beschränkungen mit PyDeequ definiert, können diese bei jedem Datenimport automatisch angewendet und deren Ergebnisse gespeichert werden. Damit lassen sich dann zum Beispiel Dashboards aufbauen, die die Qualität der importierten Daten anzeigen. Denkbar ist auch, dass man damit ein Monitoringsystem etabliert, das Alarm schlägt, wenn ein bestimmter Grad der Korrektheit der Daten unterschritten wird.

