LinkedIn gibt die Datenplattform DataHub als Open Source frei

Entwickler können künftig auf eine Open-Source-Variante von LinkedIns DataHub zugreifen, eine interne Implementierung bleibt aber weiterhin bestehen.

Lesezeit: 1 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 2 Beiträge

(Bild: Shutter Ryder/Shutterstock.com)

Von

Das Engineering-Team von LinkedIn hat eine Open-Source-Variante der Datenplattform DataHub vorgestellt. Das Unternehmen setzt das Produkt selbst für das Suchen und Finden von Metadaten ein. Künftig möchte LinkedIn zwei Varianten von DataHub verwalten: die nun verfügbare Open-Source-Version und die intern eingesetzte Plattform. Unterschiede gibt es sowohl in den Features als auch in den angebundenen Projekten, da LinkedIn einige selbstgebaute Produkte einsetzt, die noch nicht Open Source sind.

LinkedIn hatte mit WhereHows bereits im Jahr 2016 ein Werkzeug für die Sammlung von Metadaten vorgestellt. Allerdings hatte das Projekt wohl einige Probleme bei der Skalierung, weshalb LinkedIn es unter dem Namen DataHub im Jahr 2018 komplett neu aufbaute. DataHub verfügt über ein modulares User Interface, in dem Entwickler mit den Metadaten interagieren können. Im Kern können Anwender drei Aufgaben durchführen: suchen, browsen und editieren.

Im Backend setzt DataHub auf die Generalized Metadata Architecture (GMA). Sie setzt verschiedene Storage-Techniken ein, um die häufigsten Query-Anwendungsfälle abzudecken. Darüber hinaus umfasst sie ein verteiltes Modell, mit dem jedes Team seine eigenen Metadatendienste verwalten kann, um die Daten automatisch zu sammeln. Das ist wohl durch eine Standardisierung der Metadatenmodelle möglich.

Im Gegensatz zur internen LinkedIn-Variante kann Open Source DataHub nur mit Datensets und Usern als Datenkonstrukte arbeiten. In puncto Metadatenquellen liegt eine Anbindung an Hive, Kafka und RDBMS vor, auch hier ist die interne Version deutlich vielseitiger. Weitere Unterschiede sind offenbar der Tatsache geschuldet, dass LinkedIn für die Open-Source-Version nicht auf internes Tooling zurückgreifen konnte.

Um DataHub zu starten, müssen Entwickler das Repository klonen und alle Docker-Container mit einem Docker-Compose-Skipt starten. Mittels eines Kommandozeilenwerkzeugs können Anwender dann Beispieldaten in DataHub einspeisen und das Tool danach im Browser nutzen. LinkedIn plant, eine Kubernetes-Variante bereitzustellen, ebenso wie Angebote für die Azure-, AWS- und Google-Cloud.

Weitere Details zu DataHub finden sich in einem Blogbeitrag von LinkedIn. Die Open-Source-Variante liegt in Version 0.3 auf GitHub bereit. (bbo)