"Data Science ist immer Teamsport"

Data Science

heise Developer: Wohin geht also die Reise?

Bollhöfer: Neben den neuen großen Themen Industrie 4.0, Smart (Eco-)Systems oder Internet of Things (IoT), die alle ihre Daseinsberechtigung haben und de facto Big Data weiter ausdifferenzieren, sehe ich derzeit drei große Entwicklungen am Markt.

Erstens Algorithmen. Nachdem verstanden ist, dass sich mit Big Data grundsätzlich beliebige Daten speichern, verarbeiten und perspektivisch nutzen lassen, geht es nun immer stärker in Richtung Mathematik. Machine Learning, Natural Language Processing, Predictive Analytics, neuronale Netze, Cognitive Computing oder Deep Learning sind nur einige der Begriffe, die zunehmend in den allgemeinen (Business-)Sprachgebrauch diffundieren. Sie erlauben es, Muster, Trends, Relationen oder semantische Entitäten in Daten zu identifizieren und den nächsten Phasen im Data Lifecycle zuzuführen. Verpackt in neuartige Produkte ermöglichen es uns diese Verfahren, mehr und mehr Analysetätigkeiten an "Maschinen" zu übergeben.

Zweitens Data Interfaces. Die Interfaces in Richtung von Big Data werden immer vielfältiger, komfortabler und Business-tauglicher. Als Beispiele seien hier zahlreiche SQL-Interfaces für Hadoop, Visual-Analytics-Produkte wie Tableau, IPython Notebooks oder IBM Watson genannt. Ihnen ist gemein, dass sie die Daten visualisieren, in den Zugriff stellen und dem Anwender das Arbeiten und "Spielen" mit Daten so einfach wie möglich machen beziehungsweise bekannte und gelernte Interfaces adoptieren. Das ergibt in mehrfacher Hinsicht Sinn. Zum einen ist es für Unternehmen sinnvoll, gar zwingend, dem Business-Anwender in Entscheidungsprozessen direkt den Zugang zu Daten und Analyse- beziehungsweise Visualisierungswerkzeugen in einer für ihn verdaulichen und sinnhaften Art und Weise zur Verfügung zu stellen. Zum anderen ermöglicht es Unternehmen, dem Fachkräftemangel, der massiv im Bereich Big Data Engineering und Data Science spürbar wird, ein Stück weit entgegenzuwirken.

Drittens Plattformen. Die oft größte Herausforderung sind derzeit aber häufig weder Algorithmen noch Interfaces zu den Daten. Die erste Hürde liegt auf Seiten des Datenimports, dem Data Ingestion. Reden wir von der Digitalisierung von Fertigungsstraßen, Optimierungsprozessen in der Logistik oder ganzheitlichen Mobilitätskonzepten, liegt die primäre Aufgabe darin, all die Daten im ersten Schritt eins zu eins abzugreifen und zu speichern. Das ist alles andere als trivial. Das ist höchste Ingenieurskunst. Der Trend ist – sofern man von Trend sprechen kann –, dass Konzerne mehr und mehr auf heterogene Datenlandschaften setzen, eine Vielzahl neuer Technologiebausteine mit etablierten, erprobten Lösungen zusammenstecken, um für die datenbetriebene Unternehmenszukunft gewappnet zu sein. Initial geht es um Import und Speicherung. In naher Zukunft werden mehr und mehr Analytics- und Business-Applikationen auf dieser neuen Plattform entwickelt und integriert werden. Technisch reden wir häufig von sogenannten Lambda-Architekturen mit je nach Anforderung ausgewählten Komponenten für die einzelnen Schichten Ingest Layer, Speed Layer, Batch Layer, Storage Layer und Serving Layer.

heise Developer: Was ergeben sich auf dem Job-Markt durch Big Data für Möglichkeiten? Oder anders gefragt: Sind überhaupt genug Fachkräfte da, das Potenzial datengetriebener IT-Projekte auszuschöpfen?

Bollhöfer: Big Data verlangt nach neuen Skills, Ressourcen, aber vor allem nach Expertise. Wie man sich vorstellen kann, liegt in letzterem der größte Knackpunkt. Deswegen haben wir sicherlich einen leichten Ressourcen-Engpass. So riesig wie die Kluft aus Angebot und Nachfrage im Bereich Big Data und Data Science häufig beschrieben sowie wieder und wieder zitiert wird, ist sie aber meines Erachtens momentan noch nicht. Aber sie wird größer. Nach meiner Schätzung waren 2014 in Deutschland etwa 500 Data Scientists tätig, die Nachfrage war weitgehend gedeckt. Mittlerweile gehe ich von deutlich mehr als tausend Data Scientists aus bei einer zunehmend wachsenden Nachfrage, die deutlich über dieser Annahme liegen wird.

Big Data ist in Deutschland angekommen, und es geht an allen Ecken und Enden los. Diesen Schub kann der Personalmarkt zurzeit sicherlich schwer bedienen. Es ist nur selten realistisch, heute in Deutschland jemanden zu finden und für sich zu gewinnen, der schon mehr als fünf Jahre Data-Engineering- oder Data-Science-Expertise besitzt, sich in einer Vielzahl an Techniken und Methoden bestens auskennt und gleichzeitig noch das viel zitierte und wirklich relevante Domänenwissen mitbringt. Davon abgesehen, dass man diesen Jemand höchstwahrscheinlich weder bezahlen will noch kann.

Aber natürlich passiert gerade so einiges – zahlreiche Weiterbildungsangebote aus Wissenschaft und Wirtschaft, erste Studiengänge, Start-up-Initiativen wie das Data Science Retreat aus Berlin, ein kompaktes 3-Monats-Hands-on mit namhaften internationalen Chief Data Scientists, und die hochkarätigen Angebote von Plattformen wie Coursera, Udacity und Co. geben Starthilfe und Zusatzqualifikation. Auf den Punkt gebracht, könnte man sagen: Neben Raum braucht es auch Zeit, um Big Data für sich urbar zu machen.

heise Developer: Was kennzeichnet für Sie einen guten Data Scientist aus?

Bollhöfer: Das ist nicht so einfach zu beantworten und würde höchstwahrscheinlich jeder Chief Data Scientist oder Teamlead anders beantworten. Ursprünglich, ich meine von Hilary Mason zu ihrer Zeit als Chief Data Scientist bei bit.ly auf den Punkt gebracht, wurden Data Scientists als "awesome nerds" bezeichnet. Damit meinte sie die Skills-Schnittmenge aus Engineering, Mathematik, Computer Sciences und Hacking. Das trifft es in meinen Augen nicht zu hundert Prozent.

Ich finde die von, so meine ich, O'Reilly vorgestellten T-shaped Profiles passend, die beschreiben, dass es "den" Data Scientist nicht gibt, sondern dass Data Science de facto immer Teamsport ist. Ein Team von Data Scientists, das sich mit seinen Schwerpunkten in etwa Statistik oder Programmierung oder Business-Kommunikation (die "Ts" in T-shaped) gut ergänzt, ist das Erfolg versprechendste.

Mir persönlich geht es daher immer mehr um Teamplay und Motivation als um die Zahl der Titel und Papers in Lebensläufen. Sicherlich ein Grund, warum ich mir diese vor Einstellungsgesprächen fast nie durchlese.

heise Developer: Vielen Dank für das Gespräch.

Die Fragen stellte Alexander Neumann, Redakteur von heise Developer für das im Frühjahr 2015 erschienene iX-Developer-Sonderheft "Big Data".