Big Data: Google Cloud Dataflow bekommt Runner für Apache Flink

Nach Apache Spark gibt es nun auch für das Flink-Projekt einen Runner für Googles Datenanalysedienst. Nutzer von Dataflow können Flink damit als Backend verwenden.

 –  0 Kommentare
Big Data: Google Cloud Dataflow bekommt Runner für Apache Flink

Google und und das Start-up Data Artisans haben die Verfügbarkeit eines Google Cloud Dataflow Runners für Apache Flink bekanntgegeben. Mit ihm sollen Dataflow-Nutzer ihre Programme auf Flink-Clustern laufen lassen können. Als Vorteile wird in der Bekanntmachung die Portierbarkeit, Flexibilität und Leistungsfähigkeit von Flink angegeben.

Außerdem sei so sichergestellt, dass sich Dataflow-Pipelines auch außerhalb von Googles Cloud-Dienst nutzen ließen, da man sie mit dem Flink Runner auf eigener Hardware oder in der Cloud auf virtuellen Maschinen einsetzen könne. Momentan kann der Flink-Runner nur mit der Batch-Funktion von Dataflow umgehen. Die Entwickler arbeiten aber wohl bereits an der Unterstützung der Streaming-Funktion. Bisher existiert zudem ein Runner für Apache Spark.

Apache Flink bietet ein System, dass Streaming-, Pipelining- und Batch-Verarbeitungsprozesse kombiniert, um Daten aus derartigen Prozessen analysieren zu können. Das Projekt war zu Anfang des Jahres in die Reihen der Apache-Top-Level-Projekte aufgenommen worden. Google hingegen stellte Dataflow im Sommer 2014 als Nachfolger für die hauseigene MapReduce-Implementierung vor. Das zugehörige Cloud-Angebot befindet sich derzeit in der Alphaphase. Es soll sich zum Schreiben von Pipelines zur Analyse von Streaming- und Batch-Daten verwenden lassen, die dann auf der Cloud-Plattform des Unternehmens laufen können. (jul)