Menü

Big Data: Hadoop-Plattform von Hortonworks

vorlesen Drucken Kommentare lesen

Hortonworks, der auf Hadoop und Big-Data-Technik spezialisierte Yahoo-Spin-off, hat seine Hortonworks Data Platform zur Analyse großer Datenmengen vorgestellt. Die Open-Source-Plattform kombinierte eine Reihe von Apache-Projekten aus dem Hadoop-Umfeld.

Die Komponenten der Hortonworks Data Platform

Die High-Level-Sprache Pig erleichtert die Entwicklung von Anwendungen zur Datenanalyse auf der Grundlage von Hadoops MapReduce-Algorithmus; SQL-Layer Hive vereinfacht den Zugriff auf Daten, die in dem verteilten Hadoop-Dateisystems HDFS gespeichert sind. Weitere Komponenten sind die spaltenorientierte NoSQL-Datenbank HBase und der Dienst Zookeeper zur Koordinierung von verteilten Anwendungen sowie die beiden neuen Projekte HCatalog, zuständig für Tabellen- und Speicher-Management, und Ambari, eine Anwendung zum Monitoring und Management von Hadoop-Clustern.

In der komplett Apache-lizenzierten Hortonworks Data Platform, so der Hersteller, seien alle diese Komponenten miteinander integriert und auf Funktionstüchtigkeit getestet. Version 1 auf Grundlage von Hadoop 0.20.205 ist als geschlossene Technology Preview nach Anmeldung verfügbar. Eine öffentliche Testversion will Hortonworks Anfang nächstes Jahr veröffentlichen. Bereits jetzt bietet das Unternehmen Support und Training für Hadoop an.

Apache Hadoop ist ein Framework zur Entwicklung skalierbarer, verteilter Anwendungen zur Analyse großer Datenmengen (Big Data) auf der Grundlage des von Google entwickelten MapReduce-Algorithmus. Daten werden über die Knoten eines Hadoop-Clusters verteilt redundant gespeichert, die Analyseprogramme laufen parallel auf allen Knoten und analysieren die jeweils dort vorgehaltenen Daten. Hintergründe zu Hadoop erfahren Sie in dem Artikel Cloud Computing frei Haus aus c't 4/10. (odi)