Menü
Developer

Databricks stellt Open-Source-Projekt Delta Lake vor

Mit dem Delta-Lake-Projekt will Databricks Datenanalysten und Entwicklern zuverlässigere Data Lakes auf Basis von Apache Spark garantieren.

vorlesen Drucken Kommentare lesen

Das Big-Data-Unternehmen Databricks hat mit Delta Lake ein Open-Source-Projekt vorgestellt, mit dem sich die Zuverlässigkeit von Data Lakes beim Verarbeiten und Analysieren von Batch- und Streaming-Daten erhöhen lassen soll. Bei dem Projekt handelt es sich um eine Speicherschicht für das Big-Data-Framework Apache Spark, die ACID-Transaktionen und andere Datenverwaltungsfunktionen für maschinelles Lernen und andere große Datenarbeiten bereitstellt.

Databricks, bekannt als maßgeblicher Treiber von Apache Spark, präsentierte Delta Lake während des Spark +AI Summit, der diese Woche in San Francisco stattfindet. Das Projekt, das auch die Basis für Databricks' proprietärer Cloud-Data-Lakes-Managementplattform Databricks Delta stellt, steht unter der Apache License 2.0.

Die Idee des Data Lake geht auf James Dixon, Mitgründer und CTO von Pentaho, zurück. "Die Daten im See" dürfen sich dabei verändern und lassen sich zunächst wirtschaftlich sammeln. Ein Data Lake ist gleichzeitig die Basis für vielfältige Verwertungsansätze. Er setzt, im Vergleich zu beispielsweise Data-Warehouse-Ansätzen, auf eine andere Art der Arbeit mit den Daten. Darüber hinaus unterscheidet sich die verwendete Datenbanktechnik durch ihre größere Flexibilität. Diese beschleunigt den Prozess der Informationssammlung. Das gilt vor allem, wenn es die Verantwortlichen mit Informationen unterschiedlicher Struktur und aus unterschiedlichen Quellen zu tun haben oder wenn Detailinformationen fehlen beziehungsweise variieren.

Solche Eigenschaften bringen im Bereich der Big-Data-Techniken die NoSQL-Datenbanken mit, die oftmals als Open-Source-Software zur Verfügung stehen, Teil größerer Projekte wie Apache Hadoop sind, aber heute auch vermehrt unter der Haube von Produkten etablierter Hersteller zu finden sind.

Laut Databricks gehört die Zuverlässigkeit aber oft nicht zu den Vorteilen von Data Lakes. Die Herausforderungen bei der Datenzuverlässigkeit würden sich aus fehlgeschlagenen Writes, Schemafehlanpassungen und Dateninkonsistenzen beim Mischen von Batch- und Streaming-Daten sowie der gleichzeitigen Unterstützung mehrerer Writes und Reads ergeben.

Databricks ist nun der Ansicht, dass Delta Lake eine bessere Zuverlässigkeit bieten würde, indem man Transaktionen über Streaming- und Batch-Daten und über mehrere gleichzeitige Schreib- und Leseoperationen hinweg verwaltet. Die Delta Lakes lassen sich wohl einfach in jeden Apache-Spark-Job als Datenquelle integrieren, sodass Unternehmen Datenzuverlässigkeit mit minimalen Änderungen an ihren Datenarchitekturen erhalten würden. Unternehmen müssen offenbar keine Ressourcen mehr für den Aufbau komplexer und fragiler Datenpipelines aufwenden, um Daten über Systeme hinweg zu übertragen. Stattdessen können Entwickler bei vielen ihrer Anwendungen zuverlässig Daten hochladen und abfragen.

Delta Lake unterstützt die meisten der vorhandenen Spark-SQL-DataFrame-Funktionen zum Lesen und Schreiben von Daten. Es bietet auch Spark Structured Streaming als Quelle oder Ziel, jedoch derzeit noch nicht die DStream-API. Jedes Lesen und Schreiben durch Delta Lake bietet offenbar eine ACID-Transaktionsgarantie.

Das Delta Lake Projekt wird fortan auf GitHub verwaltet. Weitere Informationen finden sich in der Ankündigung und auf der Projektseite. (ane)