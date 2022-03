Das unter anderem hinter dem Open-Source-Projekt Apache Arrow stehende Unternehmen Dremio kündigt die freie Verfügbarkeit seines Managed Service Dremio Cloud an. Der auf SQL zugeschnittene Datenanalyse- und Business-Intelligence-(BI)-Dienst soll die Vorteile von Data Lakes und Data Warehouses vereinen, ohne dass sich Unternehmen in die Abhängigkeit von Cloud-Data-Warehouse-Betreibern begeben müssten. Als offene Data-Lakehouse-Plattform soll die Dremio Cloud in ihrer Standard-Edition zudem dauerhaft kostenfrei zur Verfügung stehen, wie Dremio-Gründer Tomer Shiran im Rahmen der Ankündigung versichert.

Automatisierte Analytics jenseits der Datensilos

Damit sich Data Scientists wie auch BI-Fachleute in den Unternehmen gezielter auf die Analyse, Auswertung und Visualisierung ihrer Daten im Data Lake fokussieren können, tritt der Dremio-Clouddienst an, die komplexen Aufgaben beim Aufsetzen, Konfigurieren und Verwalten einer Data-Lakehouse-Architektur zu übernehmen. Um die dazu erforderlichen Prozesse weitgehend zu automatisieren und zu vereinfachen, integriert die Plattform unter anderem zwei weitere neue Dienste: Dremio Sonar und Dremio Arctic.

Als Metaspeicher für Apache Iceberg – ein offenes Tabellenformat für Big-Data-Analysen mit SQL – stellt Arctic Data-Engineering-Tools bereit, mit denen sich Datenpipelines und Workflows nach den von der Versionsverwaltung Git bekannten Prinzipien aufsetzen lassen. Aufbauend auf dem Open-Source-Projekt Nessie können Entwicklerinnen und Entwickler dadurch beispielsweise direkt über Sourcecode Kopien von Daten aus Produktionsprozessen erstellen und für die Weiterverarbeitung sowie zur Analyse bereitstellen – ohne dabei unternehmenskritische Arbeitsabläufe zu beeinträchtigen. Für die Datenversionierung stehen unter anderem Git-typische Funktionen wie Branch, Merge und Tags zur Verfügung.

Das Konzept der offen angelegten Data-Lakehouse-Architektur von Dremio. (Bild: dremio.com)

Vertraute BI-Werkzeuge mit SQL nutzen

Über die SQL Engine Dremio Sonar, die auf Apache Arrow aufbaut, lassen sich Abfragen und BI-Dashboards direkt auf den Daten im Data Lake aufsetzen. Bei Bedarf können über externe Konnektoren auch weitere Daten eingebunden werden, die noch nicht in den Data Lake überführt wurden. Sonar stellt dazu die von klassischen Data Warehouses bekannten Funktionen parat, die sich mittels der SQL-Syntax nutzen lassen. Analystinnen und Analysten können den integrierten SQL Runner als IDE für das Erstellen und Ausführen der Abfragen verwenden, und mit dem SQL Profiler in Sonar die Queries überwachen und gegebenenfalls deren Performance justieren.

Lesen Sie auch data2day 2022: Call for Proposals der Konferenz in Karlsruhe gestartet

Weitergehende Informationen zu der nun allgemein verfügbaren, kostenfreien Data-Lakehouse-Plattform finden sich im Blogbeitrag zu Dremio Cloud sowie auf der Website des Projekts.

(map)