Datengetriebene IT-Projekte im Wandel

Know-how  –  0 Kommentare

Der Nutzen von Daten und Informationen hört nicht an Abteilungsgrenzen auf. Im Gegenteil – beide entfalten erst dann ihr ganzes Potenzial, wenn es Unternehmen gelingt, genau diese Grenzen zu überwinden. Deswegen muss im Big-Data-Umfeld ein Umdenken einsetzen.

Erst der berühmte "ganzheitliche Blick“ auf Prozesse, Kunden, Produkte sowie Services und deren Lebenszyklus, inklusive der Interaktionen zwischen Nutzer und Dienstleister oder Hersteller, erlaubt es den Verantwortlichen, die bestmögliche Entscheidung zu treffen. Fehlt dieser Einblick, müssen sie ihre Entscheidungen auf Intuition oder abgeleitete Informationen stützen. Wie aber sollen Unternehmen den Überblick behalten, wenn sie Hunderte – bei größeren Unternehmen oft auch Tausende – Anwendungen nutzen? Wie sollen sie die Informationen, die in Datenbanken, Logfiles, Tabellenkalkulationen, Chats oder Dokumenten gespeichert sind, zusammenbringen?

Big Data bedeutet eine methodisch und technisch neue Form der Datenverarbeitung, die Antworten auf solche Fragen gibt. Big Data fordert aber auch ein Umdenken ein. Das betrifft die technische Seite des Themas, aber auch damit einhergehende methodische, organisatorische und fachliche Aspekte. Nur wenn sämtliche dieser Fragestellungen berücksichtigt und ernst genommen werden, kann die Transition zu durch Daten optimierten Geschäfts- und Produktionsprozessen gelingen. Allzu oft aber konzentrieren sich die Experten zu früh auf die Techniken.

"Technology last" statt "Technology first"

Techniken sind die eine Seite der Medaille. Immer noch stellen verteilte Systeme – also welche, die für die Ausführung auf physisch getrennter Hardware konzipiert sind – oder die Integration von Cloud-Produkten in die IT-Infrastruktur die Experten vor Herausforderungen. Dazu gehören auch die Verfahren und Abläufe, die bei solchen verteilten Systemen zum Zuge kommen: MapReduce beispielsweise, um Datenverarbeitungsprozesse auf verteilten Systemen auszuführen, oder In-Memory-Netzwerke – verteilte Systeme, die hauptspeicherresidente Techniken nutzen – sind die Konzepte der Stunde. Diese müssen die Fachleute erlernen und beherrschen.

Darüber hinaus kommen vor dem Hintergrund heutiger Informationslandschaften etablierte Umgangsformen mit Daten an ihre Grenzen. Bisher galt die Regel: "Daten kommen in die Datenbank." Gemeint sind damit häufig relationale Datenbanken. Die Arbeit mit dieser Art von Datenbank folgt typischerweise folgendem Muster:

  1. Daten modellieren (in Form von Relationen, Konsistenz- und Integritätsbedingungen);
  2. Daten erfassen, beispielsweise eingeben oder importieren beziehungsweise laden;
  3. Daten per standardisierter Sprache anfragen, beispielsweise SQL.

Ein Ansatz, der gut funktioniert, solange das "Datenumfeld", in dem das Unternehmen agiert, stabil ist. Ändern sich aber die Geschäftsprozesse, sollen Datenströme verarbeitet werden oder lässt sich das Datenvolumen nur schwer oder gar nicht prognostizieren, dann wird dieses Muster zu einem Korsett, das die Weiterentwicklung von Datenverarbeitungsprozessen verzögern kann.

Einen anderen Ansatz implementieren viele Big-Data-Techniken, die (horizontale) Skalierbarkeit und insbesondere dynamische Schemata anbieten. Sie ermöglichen es, Daten "as is" zu sammeln, also ohne vorab ein Schema zu modellieren, aber auch im Fall von Änderungen zu speichernder Daten ohne manuelle Schritte geänderte Daten sofort aufnehmen zu können.

Diese Flexibilität ermöglicht zum Beispiel die Umsetzung eines Datensees, der als Senke für unterschiedlich strukturierte Informationen fungiert. (Die Idee des Data Lake geht auf James Dixon, Mitgründer und CTO von Pentaho, zurück.) Die Daten im See dürfen sich dabei verändern und lassen sich zunächst wirtschaftlich sammeln.

Die Idee des Datensees: Verschiedenste Daten flexibel einsammeln, verwalten, auswerten und für unterschiedlichste Anwendungsfälle verwerten.

Ein Datensee ist gleichzeitig die Basis für vielfältige Verwertungsansätze. Er setzt, im Vergleich zu beispielsweise Data-Warehouse-Ansätzen, auf eine andere Art der Arbeit mit den Daten. Darüber hinaus unterscheidet sich die verwendete Datenbanktechnik durch ihre größere Flexibilität. Diese beschleunigt den Prozess der Informationssammlung. Das gilt vor allem, wenn es die Verantwortlichen mit Informationen unterschiedlicher Struktur und aus unterschiedlichen Quellen zu tun haben oder wenn Detailinformationen fehlen beziehungsweise variieren. Solche Eigenschaften bringen im Bereich der Big-Data-Techniken die NoSQL-Datenbanken mit, die oftmals als Open-Source-Software zur Verfügung stehen, Teil größerer Projekte wie Apache Hadoop sind, aber heute auch vermehrt unter der Haube von Produkten etablierter Hersteller zu finden sind.

NoSQL-Techniken können die Anforderungen an Flexibilität erfüllen. Sie beantworten allerdings nicht die Frage, wie mit Ungenauigkeit, Qualitätsmängeln der Daten oder der Komplexität der Datenintegration umgegangen werden soll. Eine große Herausforderung ist es daher, die richtige Balance – im Sinne unternehmerischer Wertschöpfung – zu finden. Mehr Über- und Einblick können sinnvoll sein, auch wenn die Verantwortlichen dafür Unschärfe in Kauf nehmen müssen. In anderen Situationen sind Anwender den Umgang mit Unschärfe gewohnt: Die Trefferlisten in Suchmaschinen enthalten auch weniger passende Links. Das ist der Preis, den Suchende dafür bezahlen, dass sie das Internet nahezu vollständig durchforsten können und eben nicht nur die Top-Zwei-Prozent aller Webseiten, deren Informationen vorab sorgfältig modelliert und für die Suchmaschine beschrieben wurden, um vollständig exakte Antworten liefern zu können.

Damit diese Einstellung zu Unsicherheit und Unvollständigkeit auch auf Unternehmensseite Einzug hält, müssen sich sowohl technische Fähigkeiten, analytisches und fachliches Know-how als auch organisatorische Aspekte verändern.