zurück zum Artikel

"Data Science ist immer Teamsport"

Know-how
"Data Science ist immer Teamsport"

Wie sieht es mit dem Potenzial von Big Data und Data Science aus? Was sind hier die langfristigen Trends? Antworten vom in der Big-Data-Szene umtriebigen Klaas Wilhelm Bollhöfer.

heise Developer: Lange erschien Big Data vor allem als Hype, auf den sich Tool-Hersteller und Marketing-Experten stürzten. Das hat sich glücklicherweise geändert. Sie haben das von Beginn an mitverfolgen können ...

Klaas Wilhelm Bollhöfer: Ich bin jetzt wirklich schon einige Zeit dabei. Als vor einigen Jahren auch in Deutschland der Begriff "Big Data" allmählich auf fruchtbaren Boden fiel, erste innovative Unternehmen begannen, hatte ich meine ersten Berührungspunkte. Ursprünglich aus dem Bereich der digitalen Medien und der Online-Agenturwelt kommend, geerdet im klassischen Ingenieursstudium, hatte ich begonnen, meine programmatischen und mathematischen Grundlagen mit dem Business- und vor allem Design-Denken aus der Internet-Ära zu kombinieren. Dass sich diese Mischung von Skills irgendwann Data Science nennen würde, war – mir zumindest – zu dem Zeitpunkt nicht klar.

Klaas Wilhem Bollhöfer

ist ist Chief Data Scientist bei The unbelievable Machine Company (*um), einem Dienstleister für Cloud Computing und Big Data aus Berlin. Außerdem ist und war er in die Organisation des Data Science Day (DSDay) und der Big Data Week in Berlin involviert.

Das Interview wurde bereits im Frühjahr 2015 für ein Big-Data-Sonderheft geführt hat, die getroffenen Aussagen haben aber nach Meinung der Redaktion immer noch eine hohe Relevanz.

Seitdem ist einiges passiert. Nach dem großen Hype und den großen Erwartungen an neue datenbetriebene Geschäftsmodelle, neuartige Datenlösungen und disruptive Marktverschiebungen ist aber erstaunlicherweise keine Ernüchterung eingetreten. Im Gegenteil – seit einiger Zeit kommt nun wirklich Bewegung in den Markt hierzulande. Die Budgets scheinen allokiert, Fördertöpfe von EU und Bund ausgeschüttet, die Use- und/oder Business Cases eruiert, der Blick auf die nächsten Jahre ist vorausgeworfen, ein guter Teil der doch recht steilen Lernkurve wurde beschritten. Big Data ist da. Und was viel wichtiger ist: Big Data bleibt.

heise Developer: Obgleich Big Data also auch hierzulande angekommen ist, erscheint es trotzdem so, dass noch immer vor allem US-amerikanische Start-ups das Thema mehr für sich besetzt hätten …

Bollhöfer: Seit einiger Zeit zeichnet sich in Europa ein weiterer, sehr spannender Entwicklungsschritt ab – Industrie 4.0. Anfangs noch müde belächelt, zumindest in der eingefleischten Big-Data-Community, wird Industrie 4.0 als "das europäische Big-Data-Vehikel" genutzt, um nicht zuletzt auch als trojanisches Pferd der Markt- und Technologiemacht der Amerikaner bei Big Data einen Gutteil abzutrotzen.

Was jedoch viel entscheidender ist: Die letzten Jahre wurden intensiv genutzt, um das eigene Know-how und einen ersten unternehmensrelevanten und vor allem -spezifischen Erfahrungsschatz aufzubauen. Es ist nicht so, dass die Unternehmen jahrelang untätig waren, sich auf Konferenzen haben berieseln lassen und mehrheitlich das Thema Big Data als Modeerscheinung abgetan hätten. Big Data wurde und wird sehr ernst genommen.

heise Developer: Fehlt der deutschen IT-Szene trotzdem noch etwas?

Bollhöfer: Neben all der Planung und "Ernsthaftigkeit" kommt der Spaß zu kurz. Es ist ungemein notwendig, dass jeder, der sich heute (aber vor allem morgen) mit Daten beschäftigen soll, wird oder muss, mehr über Daten und Big Data in all seinen Facetten lernt. Und das idealerweise selbstmotiviert, spielerisch und ergebnisoffen ohne den etablierten "Druck" üblicher Ablauf- und Aufbauorganisationen. Big Data ist eine Art "infinite game", das uns jeden zu jedem Zeitpunkt auffordert zu lernen, zu denken, Entscheidungen zu fällen und (egal wie) voranzuschreiten. Deshalb ist für mich Big Data auch letztlich ein organisatorisches, wenn nicht gar ein Design-Thema.

heise Developer: Im Zusammenhang mit Big Data fallen häufig die Stichworte NoSQL, Spark und Hadoop. Ist damit schon alles gesagt?

Bollhöfer: Auf keinen Fall! Big Data ist weit mehr als Technologie, und Big Data ist auch mehr als drei, vier oder siebzehn Vs [Volume, Velocity, Variety, Red.]. Hadoop oder NoSQL oder was auch immer für "latest hot shit technologies": Es geht um Prozesse und Verfahren, Techniken, Menschen und nicht zuletzt Design – ohne Gewichtung in der Reihenfolge. Es geht um die ganzheitliche und nachhaltige Wertschöpfungskette rund um Daten in aller Vielfalt. Aus diesem Grund gehe ich stark davon aus, dass der Begriff Big Data in der Form verschwinden wird und wir in Zukunft nur noch von "Data" sprechen, bitte nicht von Smart Data, Intelligent Data, Ambient Data oder Quokka Data.

Data Science

heise Developer: Wohin geht also die Reise?

Bollhöfer: Neben den neuen großen Themen Industrie 4.0, Smart (Eco-)Systems oder Internet of Things (IoT), die alle ihre Daseinsberechtigung haben und de facto Big Data weiter ausdifferenzieren, sehe ich derzeit drei große Entwicklungen am Markt.

Erstens Algorithmen. Nachdem verstanden ist, dass sich mit Big Data grundsätzlich beliebige Daten speichern, verarbeiten und perspektivisch nutzen lassen, geht es nun immer stärker in Richtung Mathematik. Machine Learning, Natural Language Processing, Predictive Analytics, neuronale Netze, Cognitive Computing oder Deep Learning sind nur einige der Begriffe, die zunehmend in den allgemeinen (Business-)Sprachgebrauch diffundieren. Sie erlauben es, Muster, Trends, Relationen oder semantische Entitäten in Daten zu identifizieren und den nächsten Phasen im Data Lifecycle zuzuführen. Verpackt in neuartige Produkte ermöglichen es uns diese Verfahren, mehr und mehr Analysetätigkeiten an "Maschinen" zu übergeben.

Zweitens Data Interfaces. Die Interfaces in Richtung von Big Data werden immer vielfältiger, komfortabler und Business-tauglicher. Als Beispiele seien hier zahlreiche SQL-Interfaces für Hadoop, Visual-Analytics-Produkte wie Tableau, IPython Notebooks oder IBM Watson genannt. Ihnen ist gemein, dass sie die Daten visualisieren, in den Zugriff stellen und dem Anwender das Arbeiten und "Spielen" mit Daten so einfach wie möglich machen beziehungsweise bekannte und gelernte Interfaces adoptieren. Das ergibt in mehrfacher Hinsicht Sinn. Zum einen ist es für Unternehmen sinnvoll, gar zwingend, dem Business-Anwender in Entscheidungsprozessen direkt den Zugang zu Daten und Analyse- beziehungsweise Visualisierungswerkzeugen in einer für ihn verdaulichen und sinnhaften Art und Weise zur Verfügung zu stellen. Zum anderen ermöglicht es Unternehmen, dem Fachkräftemangel, der massiv im Bereich Big Data Engineering und Data Science spürbar wird, ein Stück weit entgegenzuwirken.

Drittens Plattformen. Die oft größte Herausforderung sind derzeit aber häufig weder Algorithmen noch Interfaces zu den Daten. Die erste Hürde liegt auf Seiten des Datenimports, dem Data Ingestion. Reden wir von der Digitalisierung von Fertigungsstraßen, Optimierungsprozessen in der Logistik oder ganzheitlichen Mobilitätskonzepten, liegt die primäre Aufgabe darin, all die Daten im ersten Schritt eins zu eins abzugreifen und zu speichern. Das ist alles andere als trivial. Das ist höchste Ingenieurskunst. Der Trend ist – sofern man von Trend sprechen kann –, dass Konzerne mehr und mehr auf heterogene Datenlandschaften setzen, eine Vielzahl neuer Technologiebausteine mit etablierten, erprobten Lösungen zusammenstecken, um für die datenbetriebene Unternehmenszukunft gewappnet zu sein. Initial geht es um Import und Speicherung. In naher Zukunft werden mehr und mehr Analytics- und Business-Applikationen auf dieser neuen Plattform entwickelt und integriert werden. Technisch reden wir häufig von sogenannten Lambda-Architekturen mit je nach Anforderung ausgewählten Komponenten für die einzelnen Schichten Ingest Layer, Speed Layer, Batch Layer, Storage Layer und Serving Layer.

heise Developer: Was ergeben sich auf dem Job-Markt durch Big Data für Möglichkeiten? Oder anders gefragt: Sind überhaupt genug Fachkräfte da, das Potenzial datengetriebener IT-Projekte auszuschöpfen?

Bollhöfer: Big Data verlangt nach neuen Skills, Ressourcen, aber vor allem nach Expertise. Wie man sich vorstellen kann, liegt in letzterem der größte Knackpunkt. Deswegen haben wir sicherlich einen leichten Ressourcen-Engpass. So riesig wie die Kluft aus Angebot und Nachfrage im Bereich Big Data und Data Science häufig beschrieben sowie wieder und wieder zitiert wird, ist sie aber meines Erachtens momentan noch nicht. Aber sie wird größer. Nach meiner Schätzung waren 2014 in Deutschland etwa 500 Data Scientists tätig, die Nachfrage war weitgehend gedeckt. Mittlerweile gehe ich von deutlich mehr als tausend Data Scientists aus bei einer zunehmend wachsenden Nachfrage, die deutlich über dieser Annahme liegen wird.

Big Data ist in Deutschland angekommen, und es geht an allen Ecken und Enden los. Diesen Schub kann der Personalmarkt zurzeit sicherlich schwer bedienen. Es ist nur selten realistisch, heute in Deutschland jemanden zu finden und für sich zu gewinnen, der schon mehr als fünf Jahre Data-Engineering- oder Data-Science-Expertise besitzt, sich in einer Vielzahl an Techniken und Methoden bestens auskennt und gleichzeitig noch das viel zitierte und wirklich relevante Domänenwissen mitbringt. Davon abgesehen, dass man diesen Jemand höchstwahrscheinlich weder bezahlen will noch kann.

Aber natürlich passiert gerade so einiges – zahlreiche Weiterbildungsangebote aus Wissenschaft und Wirtschaft, erste Studiengänge, Start-up-Initiativen wie das Data Science Retreat aus Berlin, ein kompaktes 3-Monats-Hands-on mit namhaften internationalen Chief Data Scientists, und die hochkarätigen Angebote von Plattformen wie Coursera, Udacity und Co. geben Starthilfe und Zusatzqualifikation. Auf den Punkt gebracht, könnte man sagen: Neben Raum braucht es auch Zeit, um Big Data für sich urbar zu machen.

heise Developer: Was kennzeichnet für Sie einen guten Data Scientist aus?

Bollhöfer: Das ist nicht so einfach zu beantworten und würde höchstwahrscheinlich jeder Chief Data Scientist oder Teamlead anders beantworten. Ursprünglich, ich meine von Hilary Mason zu ihrer Zeit als Chief Data Scientist bei bit.ly auf den Punkt gebracht, wurden Data Scientists als "awesome nerds" bezeichnet. Damit meinte sie die Skills-Schnittmenge aus Engineering, Mathematik, Computer Sciences und Hacking. Das trifft es in meinen Augen nicht zu hundert Prozent.

Ich finde die von, so meine ich, O'Reilly vorgestellten T-shaped Profiles passend, die beschreiben, dass es "den" Data Scientist nicht gibt, sondern dass Data Science de facto immer Teamsport ist. Ein Team von Data Scientists, das sich mit seinen Schwerpunkten in etwa Statistik oder Programmierung oder Business-Kommunikation (die "Ts" in T-shaped) gut ergänzt, ist das Erfolg versprechendste.

Mir persönlich geht es daher immer mehr um Teamplay und Motivation als um die Zahl der Titel und Papers in Lebensläufen. Sicherlich ein Grund, warum ich mir diese vor Einstellungsgesprächen fast nie durchlese.

heise Developer: Vielen Dank für das Gespräch.

Die Fragen stellte Alexander Neumann, Redakteur von heise Developer für das im Frühjahr 2015 erschienene iX-Developer-Sonderheft "Big Data" [1].


URL dieses Artikels:
http://www.heise.de/-3597632

Links in diesem Artikel:
[1] https://shop.heise.de/katalog/ix-developer-datenbanken-2015