Menü
Developer

Big Data: Apache Tajo 0.10 verbessert Anbindungen

Das Data-Warehouse-System für Apache Hadoop bekommt mit dem Update Neuerungen, die die Zusammenarbeit mit der Datenbankschnittstelle der Java-Plattform verbessern und den Einsatz von JSON-Dateien ermöglichen.

vorlesen Drucken Kommentare lesen

Apache Tajo steht in Version 0.10 zum Download bereit. Die Entwickler des Big-Data-Warehousing-Projekts konnten gut 160 Issues für das Release schließen und so unter anderem den Treiber für die Datenbankschnittstelle JDBC (Java Database Connectivity) verbessern. Dadurch soll sich der Einbindungsaufwand des System verringern und sich dem beim Einsatz eines relationalen Datenbankmanagementsystems annähern.

Darüber hinaus soll nun die Zusammenarbeit mit den Datenbanken von Oracle und PostgreSQL sowie Amazon S3 leichter fallen und auch der Einsatz von JSON-Dateien ist wohl möglich. Weitere Neuerungen lassen Nutzer unter anderem direkt auf Tabellen in der nichtrelationalen, verteilt arbeitenden Datenbank HBase zugreifen und umfassen zudem einen Query History Persistency Manager. Eine komplette Liste mit Unterschieden zur Vorgängerversion ist in den Release Notes zu finden.

Tajo wird als SQL-on-Hadoop-Projekt gehandelt. Es kann beispielsweise ETL-Operationen (Extract, Transform, Load) auf Datensets durchführen, die etwa in Hadoops File Storage System gespeichert sind. Nutzer können dann direkt oder über eigene Programme Datenabfragen via SQL durchführen.

Das Projekt wurde im März 2013 in den Incubator der Apache-Stiftung aufgenommen worden und konnte gut ein Jahr später in den Rang eines Top-Level-Projekts aufsteigen. Seine Ursprünge hat das Projekt in Forschungsarbeiten der Korea University. Mittlerweile findet es aber nicht nur dort und beim südkoreanischen Telekommunikationsunternehmen SK Telecom Verwendung, sondern beispielsweise auch beim koreanischen Musik-Streaming-Dienst Melon und in Projekten des Jet Propulsion Lab der NASA. (jul)