Mit Blick auf den strategischen Wandel hin zu einer Enterprise Data Company kündigt Cloudera drei Ergänzungen seiner Cloudera Data Platform (CDP) an: CDP Data Engineering, CDP Operational Database, CDP Data Visualization. Die neuen Dienste sollen Datenexperten in den Unternehmen die notwendigen Werkzeuge an die Hand geben, um auf Basis automatisierter, integrierter Data Pipelines gezielten Einblick in den Datenpool zu gewährleisten und aussagekräftige Analysen daraus ableiten zu können.

Apache Spark auf Kubernetes integriert

CDP Data Engineering ergänzt die aus der Fusion von Cloudera mit Hortonworks hervorgegangene CDP um einen verwalteten Apache-Spark-Service auf Kubernetes. Der Dienst bündelt Werkzeuge zum Orchestrieren von Data Pipelines, zum Automatisieren und Überwachen sowie zum Rationalisieren von ETL-Prozessen, um auch komplexe Daten einfacher für analytische Zwecke bereitstellen zu können –, ohne dass sich die Datenexperten mit der aufwendigen Infrastrukturverwaltung auseinandersetzen müssen. Neue containerisierte virtuelle Cluster lassen sich schnell aufsetzen und bedarfsgerecht skalieren, das Verwalten komplexer YARN-Policies entfällt.

Für die raschere Fehlersuche und Problemlösung stellt CDP Data Engineering eine GUI-basierte Überwachung, Fehlerbehebung und Leistungsoptimierung zur Verfügung. Zum Planen und Bereitstellen von Datenpipelines können Anwender auf APIs und die native Integration von Apache Airflow zum Orchestrieren zurückgreifen. Da der neue Service zudem auf Clouderas Shared Data Experience (SDX) aufbaut, können Data Engineers auch die notwendigen Governance- und Security-Anforderungen abdecken.

Überblick der Kernkomponenten von CDP Data Engineering (Bild: Cloudera)

Ergänzend zu CDP Data Engineering kündigt Cloudera auch den NoSQL-Datenbankdienst CDP Operational Database sowie das Visualisierungs-Tool CDP Data Visualization an – die beide jedoch noch den Status einer Technical Preview haben, aber Verlauf des Jahres noch offiziell verfügbar werden sollen. CDP Data Engineering hingegen steht ab sofort über AWS zur Verfügung. Nähere Informationen zu den neuen Diensten finden sich in der Ankündigung von Cloudera. Eine tiefer gehende technische Betrachtung zu CDP Data Engineering liefert ein Blogbeitrag.

