Data Scientist – ein neues Berufsbild für die Big-Data-Welt

Know-how  –  0 Kommentare

Wer in der IT-Welt auf Jobsuche ist, trifft in letzter Zeit immer häufiger auf den Begriff Data Scientist, meist in Verbindung mit dem Schlagwort Big Data. Ein Blick auf die Aufgaben hinter der Jobbeschreibung und Wege in den Beruf.

Aktuelle Trends in den Stellenangeboten im IT-Markt zeigen, dass die Suche nach Data Scientists sich zunehmend ausweitet. Kein Wunder, sprach der Harvard Business Review 2012 in dem Zusammenhang etwa vom "sexiest job in the 21st century". Nicht immer ist eine entsprechende Ausschreibung auf den ersten Blick zu erkennen, denn nicht alle Unternehmen nutzen exakt diese Bezeichnung. Stattdessen suchen sie häufig nach dem schon länger bekannten BI-Analysten oder Big Data Engineers. Der Grund für die Begriffsvielfalt liegt darin, dass es in der IT-Welt keine eindeutige Definition für Data Science und die damit befassten Personen gibt.

Auch an dieser Stelle sollte man daher nicht versuchen, eine allumfassende Definition zu finden. Stattdessen führt der Artikel im folgenden einige Charakteristika der (neuen) Berufsgruppe auf. Im Fokus steht dabei die Frage, wie man sich in diesen Bereich einarbeiten und in ihm fortbilden kann, wenn man ein – wie auch immer definierter – Data Scientist werden will oder sich in dem Umfeld positionieren möchte.

Häufig werden die Begriffe Data Science, Big Data und NoSQL vermischt. Das liegt daran, dass zumindest für die ersten beiden keine genaue Definition existiert. Man kann Big Data als den Informatik-lastigen Teil der Data Science ansehen, während man es im mathematischen Teil eher mit Begriffen wie Machine Learning oder Predictive Analytics zu tun hat. NoSQL dagegen ist nicht mit Data Science gleichzusetzen. Vielmehr handelt es sich um einen technischen Aspekt von Big Data und somit der Data Science, der sich mit dem nicht-relationalen Persistieren von Daten beschäftigt.

NoSQL-Kenntnisse allein bringen im Data-Science-Umfeld allerdings noch keinen Mehrwert. Stattdessen ist die Auswahl der passenden NoSQL-Technik für eine konkrete Aufgabenstellung und das Einbinden eines NoSQL-Produkts in die Realisierung des Gesamtsystems von Interesse.

Ein Data Scientist benötigt (mindestens) Kenntnisse in zwei klassischen Fächern: Mathematik und Informatik. Dazu kommt idealerweise noch Wissen aus dem jeweiligen Anwendungsgebiet, denn Kernaufgabe eines Data Scientist ist es, aus diversen Datenquellen Antworten auf Fragen zu finden, die dem (internen oder externen) Kunden einen Mehrwert für einen konkreten Themenkomplex gibt.

Die Kenntnisse kommen zum Tragen, um die richtigen Fragen und dazu passende verfügbare Daten zu finden (Anwendungskenntnisse), die Daten zu analysieren (mathematische Kenntnisse) und die daraus gewonnenen Erkenntnisse in ein produktives System umzusetzen (Informatikkenntnisse). Darüber hinaus sollte ein Data Scientist gute Kommunikations- und Präsentationsfähigkeiten haben, um Entscheidungsträger im Unternehmen bei Projektstart vom Potenzial von Data-Science-Projekten zu überzeugen und ihnen später Ergebnisse präsentieren zu können.

Im Projektalltag kommen dem Data Scientist unterschiedliche Aufgaben zu. Darunter fallen

  • Datensuche (welche Daten stehen zur Verfügung beziehungsweise welche lassen sich zusätzlich besorgen),
  • Datenbereinigung (Aufbereitung der Daten für die anschließende Analyse),
  • Offline-Datenanalyse (wie lassen sich aus den vorliegenden Daten die gewünschten Informationen extrahieren) und
  • Überführen der Ergebnisse in ein produktives System zur Online-Analyse.

Insbesondere in der Offline-Datenanalyse-Phase sind tiefgehende mathematische Kenntnisse gefragt, während für die Überführung der Ergebnisse in ein Produktivsystem der Informatik-Background zum Einsatz kommt.

Eine Liste konkreter Techniken und Tools zu erstellen, die ein Data Scientist beherrschen sollte, ist aufgrund des weiten Aufgabengebiets schwierig. In jedem Fall sollte man sich aber mit der mathematischen Analysen in der Statistiksprache R sowie in Python beschäftigen und sich gut mit Hadoop sowie den diversen Bestandteilen des dazugehörenden Ökosystems auskennen.

Wer sich derzeit noch in einer Ausbildung befindet, hat vielleicht das Glück, bereits Kurse beziehungsweise Vertiefungen im Bereich Big Data angeboten zu bekommen. Aber auch abseits solcher Spezialisierungen ist eine Mischung aus den für Data Science benötigten Fächern innerhalb des Studiums (zum Beispiel Informatik mit Nebenfach Mathematik oder umgekehrt) empfehlenswert, wenn man sich auf eine Karriere in dieser Diziplin vorbereiten möchte. Daher der dringende Aufruf an alle interessierten IT-Studierenden, die Mathematik- und speziell die Statistikvorlesungen nicht als notwendiges Übel, sondern als zwingende Voraussetzung für die Big-Data-Welt anzusehen.

Wer seine Ausbildung bereits hinter sich hat und eine Möglichkeit sucht, sich in den Data-Science-Bereich einzuarbeiten, für den bieten sich Konferenzen über Big-Data-Themen als erste Orientierung an. Im deutschsprachigen Raum können das beispielsweise die jährlich stattfindenden Konferenzen Berlin Buzzwords mit einer starken technischen Ausrichtung, die TDWI-Konferenz in München mit Schwerpunkt auf Data-Warehouse-Themen sowie die data2day-Konferenz des Heise-Verlages sein. Auch auf anderen (Entwickler-)Konferenzen sowie bei Veranstaltungen von User Groups findet man Programmpunkte aus den Bereichen Data Science und Big Data.

Herangehensweisen

Wer eine kompakte Intensivausbildung in der deutschen Big-Data-Hauptstadt Berlin sucht, sollte sich das Angebot des Data Science Retreat ansehen. Die Besonderheit des Programms ist die Tatsache, dass jeder Teilnehmer eine intensive persönliche Betreuung erhält. Jedem der maximal zehn Teilnehmern in den drei Monate dauernden Kursen stellen die Organisatoren einen Mentor zur Seite. Bei ihnen handelt es sich um Chief Data Scientists aus bekannten Big-Data-Unternehmen, die durch eigene Erfahrungen die für den Praxiseinsatz benötigten Fähigkeiten in das Programm einbringen.

Neben der Vermittlung der fachlichen Kenntnisse wird im Kursprogramm des Data Science Retreat auch viel Wert auf die benötigten Soft Skills (Präsentations- und Kommunikationstechniken) und ausreichend Praxisbezug gelegt. Im Mittelpunkt des Programms steht für jeden Teilnehmer ein Portfolio-Projekt, in dem er, zusammen mit seinem Mentor, von Beginn des Kurses an das wahre Leben eines Data Scientist kennen lernt. Beispiele für Projekte vergangener Kurse findet man auf dem Blog des Data Science Retreat.

Das Projekt und damit auch der Kurs enden mit einer Präsentation der Ergebnisse am sogenannten Hiring Day. An ihm nehmen Personalverantwortliche aus diversen Unternehmen, größtenteils aus dem Berliner Raum, mit dem klaren Ziel teil, aus dem Kreis der frischgebackenen Data Scientists neue Mitarbeiter für ihr Unternehmen zu gewinnen. Die auf der Webseite des Programms veröffentlichten Zahlen zeigen, dass die Teilnehmer der bisherigen drei Kursdurchläufe dabei meist die Qual der Wahl hatten.

Zurzeit laufen parallel zur vierten Auflage des Kurses die Vorbereitungen für die Erstauflage eines Big-Data-Engineer-Programms. Bei ihm liegt der Schwerpunkt auf der Vermittlung der Kenntnisse, die man für das Erstellen eines Big-Data-Produkts benötigt, während die Veranstalter beim Angebot für Data Scientists den mathematischen Teil der Disziplin ausführlicher behandeln.

Für wen eine solche Intensivausbildung nicht in Frage kommt, dem bleibt meist nur der Weg über ein Selbststudium. Material dafür (meist in englischer Sprache und kostenlos oder zumindest kostengünstig) ist in Form von Büchern und Online-Kursangeboten reichlich vorhanden. Wer also ein guter Autodidakt ist, hat an dieser Stelle eine große Auswahl. Im Hadoop-Bereich findet man entsprechende Angebote unter anderem bei den Anbietern der Hadoop-Distributionen Hortonworks, Cloudera und MapR, meist auch in Verbindung mit Sandboxen. Letztere bieten die Möglichkeit, die Einarbeitung in Testumgebungen in einem VMware- oder VirtualBox-Image durchzuführen.

In der Regel bieten die Unternehmen hinter derartigen Online-Kursen eine anschließende Zertifizierung zum "XYZ-zertifizierten" Hadoop-Entwickler an. Inwieweit solche Zertifizierungen alleine aber schon ausreichen, um sich erfolgreich auf eine entsprechende Stellenausschreibung zu bewerben, ist allerdings in Frage zu stellen.

Es gibt kein definiertes Vorgehen für das Durchführen von Big-Data-Projekten. Stattdessen kommt es viel auf Erfahrung, Ausdauer bei der Arbeit mit den großen Datenmengen und eine ausgewogene Mischung aus Domänen- und Technik-Wissen an. Diese Eigenschaften lassen sich nicht durch Zertifizierungen nachweisen. Ein Nachweis über den praktischen Umgang mit den Themen in Projekten oder die Veröffentlichung von eigenen Arbeiten, etwa im persönlichen GitHub-Profil, sagen meist mehr aus. Trotzdem kann die Teilnahme an solchen Online-Zertifizierungen sinnvoll sein, beispielsweise dann, wenn man für die Einarbeitung in Data Science ein Ziel benötigt. Nur darf man nach Erreichen dieses (Zwischen-)Ziels nicht glauben, dass man am Ende des Weges ist. Jose Quesada, der Initiator des Berliner Data Science Retreat, hat dies wie folgt formuliert: "A good GitHub profile is ten times better than any certification".

Die Entscheidung, sich im Bereich Data Science zu spezialisieren, verspricht interessante und vielfältige Aufgaben. Material für ein Selbststudium ist in diesem Bereich genügend vorhanden. Es bleibt die persönliche Frage nach den dafür benötigten autodidaktischen Fähigkeiten und der zur Verfügung stehenden Zeit. Eine gute Lösung würde darin bestehen, dass ein Unternehmen ein Data-Science-Pilotprojekt startet, das dessen Mitarbeiter zum Wissensaufbau nutzen können. Auch für das Unternehmen ergäben sich daraus (mindestens) zwei Pluspunkte: Es hätte danach Mitarbeiter mit Data-Science-Know-how und – idealerweise – aus dem Pilotprojekt Erkenntnisse darüber gewonnen, ob und wenn ja in welcher Form Data-Science-Projekte der Firma Mehrwert bringen.

Aus Sicht eines Unternehmens, das sich mit Data-Science-Projekten beschäftigt oder plant, es in naher Zukunft zu tun, spielt die Personalauswahl und -schulung eine entscheidende Rolle. Obwohl die Tool-Unterstützung für Big-Data-Aufgaben insbesondere in der Hadoop-Welt schon gegeben ist, kommt es in einem Data-Science-Projekt noch stark auf die handelnden Personen an. Vor allem während der ersten Schritte eines Projekts, also der Identifizierung der interessanten Fragen, der verfügbaren Daten sowie ihrer Offline-Analyse mit mathematischen Methoden, kann man kein Produkt kaufen, das diese Aufgaben auf Knopfdruck durchführt. Stattdessen sind in dem Stadium die technischen Kenntnisse, der "gesunde Menschenverstand" und die Erfahrung der Data Scientists gefragt.

Gerade der Punkt Erfahrung macht Data Scientists in einem noch relativ jungen Anwendungsgebiet zu einer stark nachgefragten Personengruppe. Und bekanntlich steigert die Nachfrage den Preis. Aber nicht nur wegen der Aussicht auf attraktive Verdienstmöglichkeiten lohnt sich ein Einstieg beziehungsweise eine Weiterbildung als Data Scientist. Es lockt eine eigenverantwortliche Tätigkeit im Bereich Big Data, der über die Einstufung als reines Hype-Thema hinweg ist und zukünftig wahrscheinlich noch viele Anwendungsgebiete zu Tage bringen wird, in denen zurzeit noch gar nicht über den Einsatz von Data Scientists nachgedacht wird. (jul)

Rudolf Jansen
ist Diplom-Informatiker aus Aachen und arbeitet als freiberuflicher Softwareentwickler und Journalist. Seine Tätigkeitsschwerpunkte liegen in den Bereichen Java, C++ und Datenbanken.