Menü
Developer

Big Data: Umfrage zur Verbreitung zu Apache Spark

Die Ergebnisse der Umfrage legen nah, dass die Zahl der Unternehmen, die Spark 2015 im Produktiveinsatz nutzt, weiter steigen wird. Besonders für Batch Processing in großen Datenmengen erhoffen sich die Befragten Vorteile.

Von
vorlesen Drucken Kommentare lesen 1 Beitrag
Big Data: Umfrage zur Verbreitung zu Apache Spark

Das hinter Scala und Akka stehende Unternehmen Typesafe hat die Ergebnisse einer nicht repräsentativen Umfrage zum Einsatz und der Verbreitung des Cluster-Computing-Frameworks Apache Spark veröffentlicht. 31 Prozent der 2136 der Umfrageteilnehmer gaben an, den Einsatz von Spark in ihrem Unternehmen derzeit zu prüfen, während 13 Prozent es bereits produktiv nutzen und 20 Prozent den Einsatz für 2015 planen. 28 Prozent hingegen hatten bis zum Zeitpunkt der Umfrage noch nichts von dem Framework gehört.

Laut den Aussagen der überwiegend aus der Berufsgruppe der Softwareentwickler stammenden Befragten, kommt Spark mit 16 Prozent besonders häufig in Telekommunikationsunternehmen zum Einsatz, gefolgt von Banken (12 %), Einzelhändlern (11 %), Software- und Technikunternehmen (10 %) sowie Werbefirmen (9 %). Die meisten versuchen damit die Verarbeitungsgeschwindigkeit bei Berechnungen auf großen Datenmengen zu erhöhen (78 %), aber auch die Möglichkeit, die Verarbeitung von Event Streams implementieren zu können, spricht häufig an (60 %). Vom Wechsel von MapReduce zur Spark Core API versprechen sich im Big-Data-Bereich wohl die meisten Verbesserungen (82 %), während der Einsatz der Streaming Library (65 %) oder der für Machine Learning (59 %) etwa auch gefragt, aber weiter unten auf der Liste der Prioritäten zu finden ist.

Da das Projekt in Scala und mit Hilfe von Akka umgesetzt wird und Typesafe durch seine Beteiligung an der Sprache besonders diese Zielgruppe erreicht, verwundert es nicht, dass die meisten Befragten (88 %) Scala als wichtige Sprache ihrer Spark-Installation angeben. Aber auch Java (44 %) und Python (22 %) kommen laut Umfrage häufig gemeinsam mit dem Framework zum Einsatz.

Apache Spark ist ein quelloffenes Framework für verteilte Kalkulationen auf Rechnerclustern. Durch Bibliotheken für Streaming-Szenarien und Machine Learning lässt es sich unter anderem gut für Datenanalysezwecke einsetzen, weshalb es im Big-Data-Umfeld für Unternehmen von Interesse sein kann. Um funktionieren zu können ist ein Cluster Manager und ein System für verteilten Speicher von Nöten. Spark unterstützt daher unter anderem Hadoop YARN, Apache Mesos, Hadoops Distributed File System, Cassandra, Amazon S3 und OpenStacks Object Storage Swift. (jul)