Hadoop: Hortonworks stellt HDFS-Alternative Ozone vor

Die verteilte Schlüssel-Werte-Datenbank soll vor allem kleinere Dateien besser verarbeiten können als HDFS.

 –  1 Kommentare
Hortonworks stellt HDFS-Alternative Ozone vor

Der Hadoop-Pionier Hortonworks hat eine Alternative zum Hadoop Distributed File System (HDFS) vorgestellt: Ozone ist ebenso wie das Vorbild auf den Einsatz in Hadoop-Clustern ausgelegt, soll aber gleichermaßen mit großen wie kleineren Dateien umgehen können. Ozone wird als Unterprojekt von Hadoop von der Apache-Hadoop-Community als Open-Source-Projekt entwickelt.

Der bessere Umgang mit kleineren Dateien war wohl der wichtigste Beweggrund für die Entwicklung von Ozone. HDFS ist besonders auf große Dateien ausgelegt, stößt jedoch bei unzähligen kleineren Dateien an seine Grenzen. Einige Abhandlungen haben sich in den vergangenen Jahren mit dem sogenannten Small Files Problem auseinandergesetzt. Eine anschauliche Erklärung lieferte beispielsweise Cloudera bereits vor knapp zehn Jahren.

Im Gegensatz zu HDFS, das eine an POSIX angelehnte Semantik bietet, verhält sich Ozone nach außen so wie ein Object Store. Unter der Haube sitzt mit Hadoop Distributed Data Storage (HDDS) ein relativ neues Unterprojekt von Apache Hadoop.

Die Macher von Ozone nennen im Hortonworks-Blog ein paar grundsätzliche Prinzipien für die Entwicklung des Systems: Es bietet unter anderem strikte Serialisierbarkeit. Bei der Architektur steht Einfachheit vor Skalierbarkeit, um die Fehlersuche zu vereinfachen. Dennoch ist Ozone auf sehr große Datenmengen ausgelegt, um 100 Milliarden Objekte in einem einzelnen Cluster verarbeiten zu können.

Ozone setzt auf eine Schichtenarchitektur und trennt die Namespace-Verwaltung von der Ebene für das Block- und Knoten-Management, damit die Bereiche unabhängig voneinander skalieren können. Außerdem ist es wie HDFS darauf ausgelegt, größere Störungen wie den Stromausfall eines kompletten Clusters ohne Datenverlust oder umständliche Aktionen zur Wiederherstellung der Daten zu überstehen.

Die Entwicklung in der Open-Source-Community gehört ebenso selbstverständlich zu den Prinzipien wie das reibungslose Zusammenspiel mit dem Hadoop-Ökosystem für Anwendungen wie Apache Hive, Apache Spark und traditionelle MapReduce-Jobs. Ozone bringt eine Hadoop-kompatible FileSystem-API (OzoneFS) mit, sodass Entwickler, die auf Spark setzen, es beispielsweise ohne Anpassungen als Dateisystem verwenden können. Schließlich lässt sich Ozone parallel zu HDFS in Hadoop-Clustern betreiben.

Weitere Details lassen sich dem Hortonworks-Blog entnehmen. Derzeit befindet sich Apache Ozone im Alpha-Status. Die Software und Dokumentation finden sich auf der Ozone-Site bei der Apache Software Foundation. Hortonworks hatte erst vor Kurzem einen Unternehmenszusammenschluss mit Cloudera angekündigt, vor dessen Abschluss jedoch noch die Zustimmung der Aktionäre und der US-Regulierungsbehörden stehen. (rme)