Big Data: Alle Teile von Delta Lake sind nun Open-Source

Das Delta Lake Projekt ist in Version 2.0 komplett Open Source. Das hat das Entwicklerteam auf dem Data+AI Summit 2022 bekannt gegeben.

Lesezeit: 3 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 5 Beiträge
Morgengrauen - Nebel steigt aus einem See

(Bild: Daniel AJ Sokolov)

Von
  • Frank-Michael Schlede

Das Unternehmen Databricks hat sein Delta-Lake-Projekt schon vor drei Jahren an die Linux Foundation übergeben. Auf der diesjährigen Konferenz Data+AI Summit, die Ende Juni 2022 in San Francisco und virtuell im Netz stattfand, präsentierten die Entwickler und Entwicklerinnen hinter Delta Lake die Version 2.0 der Software. Zudem kündigten sie an, dass sie mit dem aktuellen Release das gesamte Projekt als Open Source anbieten.

In einem umfangreichen Blogbeitrag hebt das Entwicklerteam die Möglichkeiten von Delta Lake hervor. Unternehmen sollen damit Data Lakehouses aufbauen können, die Data Warehousing und maschinelles Lernen direkt auf dem Delta Lake ermöglichen. Die Entwicklung des Projekts in den vergangenen drei Jahren beschreiben die Entwicklerinnen und Entwickler als positiv: So soll nach ihren Aussagen das Projekt aktuell mehr als 190 Mitwirkenden in über 70 Organisationen umfassen, von denen etwa zwei Drittel nicht für Databricks arbeiten. Als Mitwirkender (Contributors) wird dabei gemäß einer Definition der Linux Foundation jeder Mensch bezeichnet, der durch Code-Aktivitäten (Übertragungen/PRs/Änderungen) oder durch die Hilfe beim Finden und Beheben von Fehlern mit dem Projekt verbunden ist.

Ein großer Vorteil von Delta Lake besteht laut Aussagen des Entwicklerteams darin, dass es ein (bereits 2021 eingeführtes) Feature namens Delta Sharing erleichtert, Daten gemeinsam zu nutzen sowie Daten aus anderen Delta-Tabellen zu lesen. Damit wurde ein offenes Protokoll für den Echtzeitaustausch großer Datenmengen eingeführt, das eine sichere gemeinsame Nutzung von Daten über Produktgrenzen hinweg ermöglichen soll. Datenanwender sollen sich nun direkt mit den gemeinsam genutzten Daten über Pandas, Tableau, Presto, Trino oder Dutzende anderer Systeme verbinden können. Voraussetzung ist bei den Tools, dass sie das Protokoll implementieren, ohne proprietäre Systeme – einschließlich Databricks – verwenden zu müssen.

Zudem verfügt die Software über ein reichhaltiges Ökosystem an direkten Konnektoren wie Flink, Presto und Trino, die es ermöglichen, Delta Lake direkt von den meistverwendeten Engines ohne Apache Spark zu lesen und zu beschreiben. Dank der Mitwirkung von Mitarbeitern der Firmen Scridb und Back Market an dem Projekt können Programmierer und Programmiererinnen auch Delta Rust verwenden – eine grundlegende Delta Lake-Bibliothek in der Programmiersprache Rust, die es Python-, Rust- und Ruby-Entwicklern ermöglicht, Delta ohne ein Big Data-Framework zu lesen und zu schreiben.

Mit dem neuen Release 2.0 kündigt das Entwicklerteam an, dass wirklich alle Delta Lake-APIs als Open Source zur Verfügung gestellt werden (Bild Databricks).

Mit dem Release 2.0 geht das Versprechen einher, dass alle Delta Lake-APIs als Open Source zur Verfügung gestellt werden. Das gilt nach Aussagen des Entwicklerteams insbesondere für die Leistungsoptimierungen und Funktionen der Delta Engine wie ZOrder, Change Data Feed, Dynamic Partition Overwrites und Dropped Columns .

(fms)