Menü
Developer

Neue Hadoop-Distribution: Pivotal HD

Von
vorlesen Drucken Kommentare lesen

Pivotal HD ist der Name einer neuen Hadoop-Distribution die das US-amerikanische Unternehmen EMC Corporation angekündigt hat. Die Besonderheiten des neuen Angebots sollen die Möglichkeit zur Nutzung von SQL-Anfragen und eine vergleichsweise hohe Geschwindigkeit bei der Bearbeitung von Abfragen sein. Im Gegensatz zu anderen Distributionen sind wohl weder Konnektoren, die das mehrmalige Speichern von Daten notwendig machen, im Einsatz noch ist das Verschieben von Daten zwischen Systemen nötig.

In einem Blogpost hat Donald Miner, Solutions Architect bei EMCs Big-Data-Produkt Greenplum, die Kernkomponente HAWQ der Distribution vorgestellt. Sie setzt auf Hadoops Distributed File System (HDFS) auf und nutzt eine eigene von MapReduce getrennte Execution Engine. HAWQ verwaltet eigene Daten die in HDFS gespeichert sind und dient als eine Art SQL Interface Layer. Die Funktionen der so nutzbaren relationalen Datenbank ermöglichen laut Ankündigung wahlweise spalten- oder zeilenweises Speichern von Daten, nahtloses Partitionieren von Tabellen und tabellenweise Spezifikationen der Distribution Keys. SQL92 und SQL99, sowie SQL-2003-OLAP-Erweiterungen werden von HAWQ unterstützt, wobei es auch kompatibel zu PostgreSQL 8.2 sein soll.

Um eine geeignete Ausgabemöglichkeit für SQL-Anfragen zu bestimmen, implementierten die HAWQ-Entwickler einen sogenannten Parallel Query Optimizer und Planner, der die Statistiken der Tabellen auswertet. Außerdem steht die aus der Greenplum-Datenbank bekannte Sammlung von Administrationswerkzeugen zur Verfügung, um das System einfach instandhalten, installieren und nutzen zu können. HAWQ verfügt darüber hinaus über Java und Open Database Connectivity (JDBC, ODBC), wodurch bereits vorhandene Business Intelligence Tools und Anwendungen mit der Datenbank arbeiten können sollen. Die genaue Funktionsweise von HAWQ ist im Blogpost beschrieben.

Pivotal beinhaltet neben HDFS, MapReduce, Pig, Hive und Mahout eigene Tools wie ein Command Center zum Überwachen von HDFS, MapReduce und HAWQ, Erweiterungen zum Nutzen von Hadoop in virtualisierten Umgebungen und ein Untersystem zum Verwalten mehrerer Pivotal Hadoop Cluster. (jul)