Machine-Learning-Anwendungen entwickeln mit RStudio und sparklyr

Im Zusammenspiel mit Apache Spark und Amazons Elastic Map Reduce (EMR) lässt sich eine skalierbare Datenverarbeitungs-Pipeline mit R und RStudio aufbauen.

Lesezeit: 8 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen
Von
Inhaltsverzeichnis

Als offenes Datenverarbeitungsframework hat sich in den letzten Jahren Apache Spark in den Bereichen Data Engineering und Data Science etabliert. Eine üppige Auswahl an parallelen Machine-Learning-Algorithmen erlaubt es, damit sowohl lokal mit wenig Daten als auch in großen Clustern ML-Anwendungen zu entwickeln.

Die Programmiersprache R existiert bereits seit den 1990er-Jahren. Version 1.0 erschien im Jahr 2000. R stammt in direkter Linie von der Statistiksprache S ab, deren Wurzeln noch weiter zurückreichen. Die statistischen und analytischen Modelle der Programmiersprache sind besonders bei Anwendern interaktiver Datenanalysen, Statistik und Zeitreihenprognosen beliebt. Schon für die ersten Versionen von Hadoop gab es mit RHadoop und RHive Schnittstellen, um auch von der R-Umgebung aus auf verteilte Dateisysteme und die Computing-Power von Clustersystemen zuzugreifen.

Seit Version 1.4 liefert auch das In-Memory-Framework Spark mit SparkR eine Schnittstelle für R mit. Damit können Fans der Programmiersprache gleich zwischen zwei Tools wählen, wenn sie große Datenmengen mit der Kombination aus Spark und R verarbeiten wollen. Neben SparkR gibt es sparklyr, das von Javier Luraschi und anderen aus dem RStudio-Projekt entwickelt wird. Welches das bessere Framework ist, soll an dieser Stelle nicht beleuchtet werden. Einen guten Überblick über die Vor- und Nachteile beider Frameworks finden Sie hier.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

  • Zugriff auf alle Inhalte von heise+
  • exklusive Tests, Ratgeber & Hintergründe: unabhängig, kritisch fundiert
  • c't, iX, Technology Review, Mac & i, Make, c't Fotografie direkt im Browser lesen
  • einmal anmelden – auf allen Geräten lesen - monatlich kündbar
  • erster Monat gratis, danach monatlich 9,95 €
  • Wöchentlicher Newsletter mit persönlichen Leseempfehlungen des Chefredakteurs
GRATIS-Monat beginnen Jetzt GRATIS-Monat beginnen Mehr Informationen zu heise+