Techtiefen: PostgreSQL als Data Warehouse

Diese Techtiefen-Episode legt den Fokus auf die Open-Source-Datenbank PostgreSQL und beleuchtet unter anderem ihre Stärken und Schwächen.

Techtiefen Nico Kreiling, Hans-Jürgen Schönig, Thomas Richter  –  1 Kommentare

PostgreSQL gilt als die fortschrittlichste und mächtigste Open-Source-Datenbank. Dank breiter Unterstützung des SQL-Standards, langjähriger Stabilität und einer großen Community ist sie heute häufig die erste Wahl zur Speicherung tabellarischer Daten. Techtiefen-Autor Nico Kreiling hat sich für diese Episode zwei Experten eingeladen.

Hans-Jürgen Schönig arbeitet seit über 20 Jahren als PostgreSQL-Consultant und beschreibt im Podcast, wo die Stärken der relationalen Datenbank liegen und wie Transaktionssicherheit für DDLs das Handling großer Systeme erleichtert. Zudem erklärt er, wieso man Performance-Bottlenecks nicht in Load-Graphen, sondern in den Abfragen selbst suchen soll, und gibt Tipps, um die Ausführungszeiten jener zu reduzieren.

Anders als analytische Datenbanken oder etwa Apache Parquet (Folge 31) ist PostgreSQL zeilenorientiert. Dank der Option, die Datenbank in vielerlei Hinsicht zu erweitern, bietet sich dennoch die Möglichkeit, sie auch für analytische Workloads wie etwa im Data-Warehouse-Umfeld einzusetzen. Thomas Richter hat hierfür Swarm64 gegründet, ein Start-up, das PostgreSQL um einen Columnstore Index erweitert und mit zusätzlichen Statistiken und Operatoren die Planung und Ausführungszeit von Abfragen reduziert. Thomas gibt im Podcast hierfür Einblicke, wie PostgreSQL Abfragen parallel ausführt, ohne Konsistenzgarantien zu verletzen.

Abschließend vergleicht das Dreiergespann gemeinsam die Performance von PostgreSQL mit kommerziellen Konkurrenzprodukten und Open-Source-Alternativen wie Greenplum.

Links