Data Science – was ist das eigentlich?!

In einem kompakten Buch illustrieren die beiden Autoren die komplexen Konzepte der Datenwissenschaft einfach und ohne viel Mathematik. Die Ausführungen bleiben besonders für Einsteiger verständlich.

Literatur  –  0 Kommentare

(Bild: Shutterstock)

Annalyn Ng, Kenneth Soo
Data Science – was ist das eigentlich?!

Springer 2018
179 Seiten, 19,99 Euro
ISBN: 978-3-662-56775-3

Lassen sich die Algorithmen des maschinellen Lernens in aller Kürze verständlich erklären? Diese Frage stellt sich automatisch, wenn man das kompakte Taschenbuch von Annalyn Ng und Kenneth Soo erstmals in den Händen hält. Die Autoren wagen den Versuch, die komplexen Konzepte der Datenwissenschaft einfach und ohne viel Mathematik zu illustrieren – und das gelingt ihnen überraschend gut.

Datenwissenschaft für Anfänger

Zum Einstieg legen die Autoren ein Fundament aus Grundlagen an, auf dem die spätere Auswahl der Algorithmen aufbaut. Das Buch behandelt insgesamt zehn Algorithmen, die sich für unterschiedliche Anwendungsszenarien eignen. Jedem Algorithmus widmen Ng und Soo jeweils rund zehn Seiten, mit einer ausführlichen Beschreibung der jeweiligen Aufgabenstellung – häufig anhand eines konkreten Beispiels aus der Praxis. Zahlreiche farbige Abbildungen erleichtern das Verständnis, ohne dass eine ausufernde mathematische Formelsprache nötig wäre. Jedes Kapitel schließt mit einer kurzen Zusammenfassung ab, die in wenigen Sätzen die wesentlichen Informationen zum behandelten Algorithmus rekapituliert – dabei werden auch die Nachteile des Algorithmus beleuchtet.

Data Science – was ist das eigentlich?! (Bild: Springer)

Intuitive Anwendungsbeispiele für Jedermann

Die Autoren starten mit den Algorithmen aus der Kategorie des unüberwachten Lernens (Unsupervised Learning) wie k-Means-Clustering, Hauptkomponentenanalyse, Assoziationsanalyse, Soziale Netzwerkanalyse und Regressionsanalyse. Darauf folgen die wichtigsten Algorithmen des überwachten Lernens (Supervised Learning) wie k-Nächste-Nachbarn und Ausreißererkennung, Support-Vektor-Maschine, Entscheidungsbaum, Random Forest und Neuronale Netze auf. Abschließend erklären Ng und Soo noch wie A/B-Tests im Detail funktionieren.

Da die Vorstellungen der einzelnen Algorithmen jeweils mit dem konkreten Beispiel beziehungsweise mit einer praktischen Fragestellung beginnen, kann der interessierte Leser bereits am Anfang des Kapitels entscheiden, ob er hier tiefer einsteigen will oder nicht. Im Anhang schließlich findet sich neben einem ausführlichen Glossar auch noch eine Auflistung der wichtigsten Metriken zu einigen der Algorithmen.

Fazit: Sanfter Einstieg für Anfänger

Das Buch ist in erster Linie für diejenigen geeignet, die endlich verstehen wollen, was hinter den Buzzwörtern "Data Science" und "Machine Learning" steckt. Ng und Soo gelingt ein sanfter Einstieg in die Welt der Datenwissenschaft, der anhand intuitiver und gut illustrierter Beispiele die wichtigsten Data-Science-Algorithmen vorstellt. Die Autoren verzichten dabei bewusst auf allzu viele mathematische Formeln, um ihre Ausführungen auch für Laien nachvollziehbar zu halten. Als leicht verständliche Einführung in die Data-Science-Welt ist das eine klare Leseempfehlung. (map)

Vladimir Poliakov

arbeitete im Forschungsinstitut für Arktis und Antarktis, nachdem er das wissenschaftliche Studium an der Russian State Hydrometeorological University (RSHU) in St. Petersburg absolviert hatte. 1996 wanderte er nach Deutschland aus und entwickelte sich vom Programmierer bis zum BI-DWH- und Big-Data-Spezialisten. Zurzeit ist er hauptberuflich als Data Engineer im Data Analytics Center bei der TeamBank AG tätig.