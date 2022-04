Die im Rahmen des letztjährigen Data + AI Summit erstmals vorgestellten Delta Live Tables sind laut Ankündigung von Databricks ab sofort generell verfügbar. Das auf die Automatisierung von ETL-Pipelines (Extract, Transform, Load) ausgelegte Framework ist als Cloud-Service in die Databricks-Lakehouse-Architektur integriert und soll insbesondere Data Engineers die Arbeit beim Aufbau und der Pflege von Daten-Pipelines für Streaming- und Batch-Prozesse erleichtern.

ETL-Pipelines automatisieren – Datenqualität sichern

Die Delta Live Tables (DTL) verfolgen einen einfachen deklarativen Ansatz, der es erlaubt, Daten wie Code zu behandeln, um auch komplexere Pipelines zu erstellen und eine automatisierte Verwaltung der Infrastruktur in verteilten Umgebungen sicherzustellen. Die in die Databricks-Plattform integrierten Tabellen unterstützen Data Engineers wie auch Datenanalysten beim Erstellen von Anweisungen sowohl für die Datentransformationen als auch für die Datenvalidierungen in ETL-Pipelines. Dabei setzen sie bewährte Best Practices aus dem modernen Software-Engineering um.

DTLs sollen zudem durch Einbinden von Monitoring-Tools und die die neue Funktion Expectations auch zu höherer Datenqualität beitragen und gewährleisten, dass nur saubere und konsistente Daten in die Machine-Learning- und Analyseprozesse einfließen. Über das Automatisieren arbeitsintensiver Schritte, wie sie beim Umwandeln von SQL-Abfragen in produktive ETL-Pipelines anfallen hinaus, versprechen die Delta Live Tables Databricks zufolge auch eine einheitlichere Fehlerbehandlung. Data Engineers definieren die gewünschten Ergebnisse und können im Falle auftretender Fehler oder wenn eine Anpassung der Daten an sich verändernde Geschäftsprozesse notwendig werden sollte, rascher reagieren.

Als integraler Bestandteil der Databricks-Lakehouse-Architektur stehen die Delta Live Tables ab sofort auf den Cloud-Plattformen AWS, Azure und Google zur Verfügung – und lassen sich dort im Rahmen einer Trial-Phase auch kostenlos testen. Weitergehende Informationen zum Funktionsumfang und den Kosten beim produktiven Einsatz der DLTs liefert der Blogbeitrag von Databricks.

(map)