Query Engine Photon für alle Lakehouse-Systeme

Die auf SQL und weitere Sprachen ausgelegte Suchmaschine Photon steht nun für Lakehouse-Datensysteme auf den wichtigsten Cloud-Plattformen bereit.

Lesezeit: 2 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen
Elementary,Particles,Series.,Interplay,Of,Abstract,Fractal,Forms,On,The

(Bild: agsandrew/Shutterstock.com)

Von
  • Matthias Parbel

Databricks gibt die allgemeine Verfügbarkeit (GA – General Availability) seiner Query Engine Photon bekannt. Die auf die Databricks-Lakehouse-Architektur ausgelegte Suchmaschine hat laut Ankündigung die im Sommer 2021 gestartete Public-Preview-Phase erfolgreich absolviert. Sie steht ab sofort sämtlichen Nutzerinnen und Nutzern für Abfragen von Data Lakes auf den wichtigsten Cloud-Plattformen für den Produktivbetrieb zur Verfügung.

Die neu entwickelte und zu Apache Spark kompatible Query Engine war ursprünglich vor allem darauf ausgerichtet, typische Data-Warehousing-Abfragen mit SQL auch auf Data Lakes mit hoher Perfomance ausführen zu können. Photon lässt sich inzwischen aber auch mit anderen Sprachen wie Python, Scala, Java and R nutzen und deckt Anwendungsgebiete in Data Engineering, Data Science und der Datenanalytik ab.

Testkunden wie AT&T profitieren laut Anbieter durch Photon von bis zu achtfach schnelleren Abfragen beim Einsatz der Query Engine mit dem Databricks SQL Warehouse. Die damit einhergehenden verkürzten Rechenzeiten schlagen sich zudem in geringeren Kosten nieder: Im Vergleich zu der auf Spark basierenden Databricks Runtime soll die Ersparnis demnach im Durchschnitt bis zu 30 Prozent betragen.

Im Zuge der GA-Freigabe habe Databricks der Query Engine zudem noch ein paar weitere Performance-Tunings mit auf den Weg gegeben. So sollen gegenüber der Preview-Phase beispielsweise Funktionen, die Berechnungen über eine Reihe von Tabellenzeilen für Anwendungsfälle wie Aggregationen, gleitender Durchschnitt oder Datenduplikationen durchführen, etwa doppelt so schnell arbeiten. Auch die Sortierfunktion vectorized sort arbeite in Photon schneller als in Apache Spark – bis um den Faktor 20.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Mehr Informationen zur Query Engine finden sich in der offiziellen Ankündigung im Databricks-Blog. Einen umfassenderen Einblick in Photon liefert darüber hinaus die Aufzeichnung eines Vortrags vom diesjährigen Data+AI Summit.

(map)