Das Monitoring lernt selbst: KI in Überwachungsszenarien

Künstliche Intelligenz ist eines der großen Themen der digitalen Transformation. Auch im IT-Systemmanagement werden angesichts steigender Komplexität hohe Erwartungen an selbstlernende Systeme gestellt. Bei der frühzeitigen Prognose von Störungen kann KI bereits heute einiges leisten.

Know-how  –  0 Kommentare
Das Monitoring lernt selbst: KI in Überwachungsszenarien

2017 schlug das alte Brettspiel Go in der IT-Welt große Wellen. Denn bislang galt: Nur Menschen können meisterlich das vor allem in Japan und Korea populäre igo spielen. Nicht mal sehr gute Amateure waren bislang von einem Algorithmus zu schlagen, von Profis ganz zu schweigen. Doch im vergangenen Jahr geschah das Unglaubliche. AlphaGo von DeepMind siegte nicht nur in 60 Online-Partien gegen Profis, sondern schlug auch die Nummer eins der Weltrangliste Ke Jie.

Die Basis von AlphaGo sind neuronale Netze. Und der Nachfolger AlphaGo Zero ist noch stärker, diese Version brachte sich das Spiel ohne externen Input bei. Das alles wäre bestenfalls eine Randnotiz in der Fachpresse, wenn nicht Künstliche Intelligenz (KI) eines der zentralen Themen der digitalen Transformation darstellen würde.

Die maschinelle, selbstständige Auswertung der allerorts erzeugten Datenmassen gewinnt an Bedeutung. Das IT-Systemmanagement bildet da keine Ausnahme. Denn nicht zuletzt mit dem Internet of Things (IoT) wächst das zu analysierende Datenvolumen auch im Monitoring massiv an. Zudem steigt der Business-Impact der IT; digitale Geschäftsmodelle und Unternehmensabläufe erlauben keine ungeplanten Downtimes.

Hier stoßen die herkömmlichen Monitoring-Ansätze auf Basis von Mittel- und Schwellenwerten rasch an ihre Grenzen. Denn eine Störung in der IT darf heute nicht zum Problem auswachsen, sie muss bereits vorher erkannt und beseitigt werden. Ein Alarm, der erst dann eintrifft, wenn die Endanwender bereits den Help Desk belagern, ist nichts wert.

Es geht darum, sich anbahnende Störungen möglichst frühzeitig zu bemerken, bevor sich das Netzwerk oder eine kritische Anwendung in die falsche Richtung bewegt. KI kann dazu im Monitoring neue Einblicke und Möglichkeiten bieten, die analog zur Wartung industrieller Anlagen unter dem Begriff "Predictive Maintenance" zusammengefasst werden.

Bessere Trainingsdaten

Auch wenn es grundsätzlich schwierig ist, natürliche und künstliche Intelligenz zu definieren, kann als Minimalkonsens gelten: KI-Systeme sind „quasi-intelligent“ und in der Lage, auf neue Situationen sinnvoll zu reagieren. Damit adressieren KI-Systeme prinzipiell zwei grundsätzliche Probleme im IT-Systemmanagement: Zum einen ist in einem idealen IT-Management jedes Problem neu. Denn im Idealfall wird bei einem auftretenden Problem der eigentliche Grund – der sogenannte Rootcause – erkannt und beseitigt.

Das Problem kann also theoretisch nicht nochmal in genau der bekannten Konstellation auftreten. Zum anderen kann die KI extrem schnell reagieren, wenn bestimmte antrainierte Muster auftreten. Wobei hier der Vollständigkeit halber auf das Problem des Klugen Hans (siehe Kasten) hingewiesen werden sollte.

Wie gut die KI bestimmte Muster innerhalb der im Monitoring erhobenen Daten erkennen kann, hängt zunächst einmal von der Qualität dieses Inputs ab. Die mit den heute üblichen Mittelwertmessungen erhobene Datenqualität reicht für das KI-basierende IT-Management jedoch nicht.

Diese Sicht auf die IT ist nicht exakt genug: Geht man im Monitoring von einem Mittelwert aus, der als normal angenommen wird, kommt es durch die gesetzten Zeitintervalle bei der Messung zu Informationsverlusten. Peaks können untergehen und damit Probleme unerkannt bleiben. Man erhält eine eindimensionale Abbildung eines einzelnen Messwerts, der mit einem mehr oder minder willkürlichen Schwellwert verglichen wird.

Ein Beispiel aus der Praxis macht das Problem deutlich. Die Aufgabe war, eine Umstellung an einem SAP-System in einem großen Unternehmen zu begleiten und die sogenannte Real User Experience (RUE) zu ermitteln – also die wahrgenommene Performance aus Anwendersicht. Dazu sollten vor, während und nach der Umstellung Daten erhoben werden. Das klassische Monitoring liefert Daten wie in der folgenden Tabelle dargestellt:

Jeder Wert ist ein Durchschnitt aus 100 Messungen. Im oberen Drittel der Tabelle stehen die Werte vor der Umstellung, in der Mitte während der Umstellung, unten nach der Umstellung. (Abb. 1) (Bild: Würth Phoenix)

Es ist nicht möglich, aus dieser Tabelle abzuleiten, ob sich die IT aus Sicht der Anwender verbessert hat oder nicht. Die Server-Latenz liegt durchgängig in einem schmalen, homogenen Bereich, die Client-Latenz hat sich signifikant verändert. Der Trend scheint offensichtlich, aber der Blick auf das große Ganze ist so nicht möglich. Augenfällig wird dies, wenn die Messung verfeinert und grafisch aufbereitet wird:

Eine genauere Betrachtung der Client-Latenz offenbart große Schwankungen über den Messzeitraum. (Abb. 2) (Bild: Würth Phoenix)