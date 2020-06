Im Rahmen des Spark+AI Summit 2020 gibt Databricks die Übernahme des Open-Source-Projekts Redash bekannt. Das Tool lässt sich mit einer Vielzahl von Datenquellen verbinden, um Abfragen und Analysen zu visualisieren und zu teilen. Über Databricks' neue Delta Engine sollen Anwender zudem schnelleren Zugriff auf sämtliche Informationen in ihren Data Lakes (im Jargon des Anbieters: Delta Lakes) erhalten.

Von der Abfrage zur Visualisierung

Durch die Kombination der Datenabfrage- und -analyseschicht mit dem Dashboarding- und Visualisierungstool will Databricks Data Scientists und Data Analysts in den Unternehmen neue Möglichkeiten bei der Arbeit mit Daten in der Cloud eröffnen. Die Initiative zielt vor allem auf das neue "Lakehouse"-Paradigma ab, das die jeweiligen Vorteile von Data Lakes und Data Warehouses verknüpfen soll, um neue Pattern für Datenqualität, Verarbeitungsgeschwindigkeit und strukturierte Transaktionen (Atomicity, Consistency, Isolation, Durability – ACID) bei der Datenanalyse in der Cloud zu etablieren.

Databricks-CEO und Mitgründer Ali Ghodsi spricht im Zusammenhang mit den Lakehouses von kuratierten Data Lakes, die nicht nur die in vielen Unternehmen noch vorhandenen Datensilos und proprietären Systeme aufbrechen sollen, sondern auch die Basis schaffen, um mit den jeweils aktuellen Daten beliebige Formen der Datenanalyse performant durchführen zu können – von Business Intelligence über Data Science bis zum Machine Learning. Über einen nativen Databricks-Konnektor verschafft Redash Analysten Zugriff auf die Datenquellen und bietet zahlreiche Darstellungsformate für die Visualisierung, die sich unternehmensintern, aber auch externen Nutzern zugänglich machen lässt. Redash unterstützt derzeit offiziell mindestens 35 SQL- und NoSQL-Datenquellen.

Mit der Delta Engine und Redash komplettiert Databricks sein Portfolio (Bild: Databricks)

Als Query Engine soll die neue Delta Engine Abfragen der kuratierten Data Lakes spürbar beschleunigen. Databricks hat die Software dazu komplett neu in C++ verfasst. Nach Einschätzung des verantwortlichen Produktmanagers Clemens Mewald arbeitet die Delta Engine dadurch nicht nur deutlich schneller als viele der in Java geschriebenen Query Engines, sondern sie unterstützt darüber hinaus nun ACID-Transaktionen und profitiert von hardwarenah programmierten Optimierungstools wie SIMD (Single Instruction Multiple Data).

Weitere Informationen zu Redash und der Delta Engine finden sich in der von Databricks im Rahmen des Spark+AI Summit 2020 veröffentlichten Ankündigung. Wer sich noch intensiver mit Redash beschäftigen möchte, sollte einen Blick auf die Homepage des Open-Source-Projekts oder das GitHub-Repo werfen.

(map)