Apache Software Foundation: Echtzeitanalyse-System Pinot wird Top-Level-Projekt

Seit 2015 ist Pinot Open Source und steigt nun aus dem Apache-Inkubator auf. Die verteilte Infrastruktur für Big-Data-Analysen in Echtzeit stammte von LinkedIn.

Lesezeit: 3 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 5 Beiträge

(Bild: metamorworks/Shutterstock.com)

Von
  • Silke Hahn

Apache Pinot ist nach drei Jahren Inkubatorphase bei der Apache Software Foundation (ASF) zum Top-Level-Projekt aufgestiegen. Die verteilte Infrastruktur zum Analysieren von Big Data zielt laut Projektbeschreibung auf hohen Durchsatz bei geringen Latenzzeiten. Ursprünglich stammt Pinot aus der Feder von LinkedIn-Entwicklern, die es 2013 aus der Taufe gehoben hatten.

Eingangs diente es dem sozialen Netzwerk zum Analysieren von Nutzerdaten und entwickelte sich dort zu einer De-facto-Analyseplattform, um Mitgliedern und Kunden Einblicke zu gewähren. Einerseits kam es offenbar bei Features wie "Wer hat mein Profil angeschaut" und beim Matching von Jobausschreibungen zum Einsatz, andererseits diente es wohl auch der internen Weiterentwicklung der LinkedIn-Software.

2015 übergab LinkedIn das Projekt der Apache Software Foundation zur Weiterentwicklung als Open Source, wo es 2018 den Inkubator betrat und nun laut Mitteilung im Apache-Blog seine Reifeprüfung bestanden hat. Laut Blogeintrag ist Pinot in der Lage, Milliarden von Datensätzen mittels Online Analytical Processing (OLAP) einzulesen, und zwar sowohl online als auch offline. Als Datenquellen kommen neben den Apache-eigenen Projekten Kafka, Spark und Hadoop auch Cloud-Speicher außerhalb des Apache-Spektrums sowie einfache Dateien infrage. An Streaming-Systemen unterstützt Pinot außerdem Confluent Kafka, Amazon Kinesis sowie anpasssbare Eingabeformate. Avro und JSON beispielsweise unterstützt Pinot "Out-of-the-Box".

Die Indizierung läuft bei Pinot nach dem Plug-in-Prinzip: Indizes lassen sich für Texte, Geodaten, JSON-Inhalte und Bereiche ebenso erstellen wie invertierte oder sortierte Indizes und Bloomfilter. Bei den Ansichten sollen Anwenderinnen und Anwender über einen Star-Tree-Index ihre Daten rasch aggregieren können (sogenannte Smart Materialized Views). Die Infrastruktur gilt als hochverfügbar und fehlertolerant, sie lässt sich horizontal skalieren. Zudem unterstützt Pinot mit PrestoDB/Trino von Haus aus Lookup Joins und Full Joins.

Apache Pinot: Verteilte Infrastruktur zur Echtzeitanalyse von Big Data – Quellen, Events und Anwendungsfälle

(Bild: Apache Pinot)

Apache Pinot ist mittlerweile bei einem breiten Spektrum von Unternehmen und Anwendungsfällen im Einsatz. So nutzen laut Blogeintrag neben LinkedIn unter anderem Adbeat, Amazon Eero, Cloud Kitchens, Startree, Uber und Walmart das Analysesystem. Insbesondere Fintech-Unternehmen wie Razorpay und WePay haben offenbar Interesse an dem Tool, aber auch Lieferdienste und Einzelhandelsketten in Use Cases mit großem Datenvolumen.

Mehr Informationen sowie konkrete Use Cases lassen sich der Ankündigung im Blog der Apache Software Foundation entnehmen. Die aktuelle Version von Pinot ist 0.7.1, an Neuerungen hat sie eine Reihe von APIs zum Verwalten von Segmenten und Daten-Upload in Offline-Tabellen eingeführt. Zudem verfügt Pinot in dieser Version über einen JSON-Index, unterstützt Geodaten sowie TLS für Pinot-Verbindungen beim Datenabruf. Wer sich für den technischen Hintergrund von Apache Pinot interessiert, kann auch die Projekt-Website besuchen.

(sih)