Data Scientist – ein neues Berufsbild für die Big-Data-Welt

Herangehensweisen

Inhaltsverzeichnis

Wer eine kompakte Intensivausbildung in der deutschen Big-Data-Hauptstadt Berlin sucht, sollte sich das Angebot des Data Science Retreat ansehen. Die Besonderheit des Programms ist die Tatsache, dass jeder Teilnehmer eine intensive persönliche Betreuung erhält. Jedem der maximal zehn Teilnehmern in den drei Monate dauernden Kursen stellen die Organisatoren einen Mentor zur Seite. Bei ihnen handelt es sich um Chief Data Scientists aus bekannten Big-Data-Unternehmen, die durch eigene Erfahrungen die für den Praxiseinsatz benötigten Fähigkeiten in das Programm einbringen.

Neben der Vermittlung der fachlichen Kenntnisse wird im Kursprogramm des Data Science Retreat auch viel Wert auf die benötigten Soft Skills (Präsentations- und Kommunikationstechniken) und ausreichend Praxisbezug gelegt. Im Mittelpunkt des Programms steht für jeden Teilnehmer ein Portfolio-Projekt, in dem er, zusammen mit seinem Mentor, von Beginn des Kurses an das wahre Leben eines Data Scientist kennen lernt. Beispiele für Projekte vergangener Kurse findet man auf dem Blog des Data Science Retreat.

Das Projekt und damit auch der Kurs enden mit einer Präsentation der Ergebnisse am sogenannten Hiring Day. An ihm nehmen Personalverantwortliche aus diversen Unternehmen, größtenteils aus dem Berliner Raum, mit dem klaren Ziel teil, aus dem Kreis der frischgebackenen Data Scientists neue Mitarbeiter für ihr Unternehmen zu gewinnen. Die auf der Webseite des Programms veröffentlichten Zahlen zeigen, dass die Teilnehmer der bisherigen drei Kursdurchläufe dabei meist die Qual der Wahl hatten.

Zurzeit laufen parallel zur vierten Auflage des Kurses die Vorbereitungen für die Erstauflage eines Big-Data-Engineer-Programms. Bei ihm liegt der Schwerpunkt auf der Vermittlung der Kenntnisse, die man für das Erstellen eines Big-Data-Produkts benötigt, während die Veranstalter beim Angebot für Data Scientists den mathematischen Teil der Disziplin ausführlicher behandeln.

Für wen eine solche Intensivausbildung nicht in Frage kommt, dem bleibt meist nur der Weg über ein Selbststudium. Material dafür (meist in englischer Sprache und kostenlos oder zumindest kostengünstig) ist in Form von Büchern und Online-Kursangeboten reichlich vorhanden. Wer also ein guter Autodidakt ist, hat an dieser Stelle eine große Auswahl. Im Hadoop-Bereich findet man entsprechende Angebote unter anderem bei den Anbietern der Hadoop-Distributionen Hortonworks, Cloudera und MapR, meist auch in Verbindung mit Sandboxen. Letztere bieten die Möglichkeit, die Einarbeitung in Testumgebungen in einem VMware- oder VirtualBox-Image durchzuführen.

In der Regel bieten die Unternehmen hinter derartigen Online-Kursen eine anschließende Zertifizierung zum "XYZ-zertifizierten" Hadoop-Entwickler an. Inwieweit solche Zertifizierungen alleine aber schon ausreichen, um sich erfolgreich auf eine entsprechende Stellenausschreibung zu bewerben, ist allerdings in Frage zu stellen.

Es gibt kein definiertes Vorgehen für das Durchführen von Big-Data-Projekten. Stattdessen kommt es viel auf Erfahrung, Ausdauer bei der Arbeit mit den großen Datenmengen und eine ausgewogene Mischung aus Domänen- und Technik-Wissen an. Diese Eigenschaften lassen sich nicht durch Zertifizierungen nachweisen. Ein Nachweis über den praktischen Umgang mit den Themen in Projekten oder die Veröffentlichung von eigenen Arbeiten, etwa im persönlichen GitHub-Profil, sagen meist mehr aus. Trotzdem kann die Teilnahme an solchen Online-Zertifizierungen sinnvoll sein, beispielsweise dann, wenn man für die Einarbeitung in Data Science ein Ziel benötigt. Nur darf man nach Erreichen dieses (Zwischen-)Ziels nicht glauben, dass man am Ende des Weges ist. Jose Quesada, der Initiator des Berliner Data Science Retreat, hat dies wie folgt formuliert: "A good GitHub profile is ten times better than any certification".

Die Entscheidung, sich im Bereich Data Science zu spezialisieren, verspricht interessante und vielfältige Aufgaben. Material für ein Selbststudium ist in diesem Bereich genügend vorhanden. Es bleibt die persönliche Frage nach den dafür benötigten autodidaktischen Fähigkeiten und der zur Verfügung stehenden Zeit. Eine gute Lösung würde darin bestehen, dass ein Unternehmen ein Data-Science-Pilotprojekt startet, das dessen Mitarbeiter zum Wissensaufbau nutzen können. Auch für das Unternehmen ergäben sich daraus (mindestens) zwei Pluspunkte: Es hätte danach Mitarbeiter mit Data-Science-Know-how und – idealerweise – aus dem Pilotprojekt Erkenntnisse darüber gewonnen, ob und wenn ja in welcher Form Data-Science-Projekte der Firma Mehrwert bringen.

Aus Sicht eines Unternehmens, das sich mit Data-Science-Projekten beschäftigt oder plant, es in naher Zukunft zu tun, spielt die Personalauswahl und -schulung eine entscheidende Rolle. Obwohl die Tool-Unterstützung für Big-Data-Aufgaben insbesondere in der Hadoop-Welt schon gegeben ist, kommt es in einem Data-Science-Projekt noch stark auf die handelnden Personen an. Vor allem während der ersten Schritte eines Projekts, also der Identifizierung der interessanten Fragen, der verfügbaren Daten sowie ihrer Offline-Analyse mit mathematischen Methoden, kann man kein Produkt kaufen, das diese Aufgaben auf Knopfdruck durchführt. Stattdessen sind in dem Stadium die technischen Kenntnisse, der "gesunde Menschenverstand" und die Erfahrung der Data Scientists gefragt.

Gerade der Punkt Erfahrung macht Data Scientists in einem noch relativ jungen Anwendungsgebiet zu einer stark nachgefragten Personengruppe. Und bekanntlich steigert die Nachfrage den Preis. Aber nicht nur wegen der Aussicht auf attraktive Verdienstmöglichkeiten lohnt sich ein Einstieg beziehungsweise eine Weiterbildung als Data Scientist. Es lockt eine eigenverantwortliche Tätigkeit im Bereich Big Data, der über die Einstufung als reines Hype-Thema hinweg ist und zukünftig wahrscheinlich noch viele Anwendungsgebiete zu Tage bringen wird, in denen zurzeit noch gar nicht über den Einsatz von Data Scientists nachgedacht wird.

Rudolf Jansen
ist Diplom-Informatiker aus Aachen und arbeitet als freiberuflicher Softwareentwickler und Journalist. Seine Tätigkeitsschwerpunkte liegen in den Bereichen Java, C++ und Datenbanken.
(jul)