Die Apache Software Foundation (ASF) hat Daffodil zum Top-Level-Projekt ernannt. Das am University of Illinois National Center fo Supercomputing Applications (NCSA) entstandene Projekt ist eine Implementierung der Data Format Description Language (DFDL). Es zielt auf den Austausch beliebiger Daten, indem es feste Datenformate in Datenstrukturen wie XML und JSON überträgt. Der Name baut die Brücke zwischen dem ausgesprochenem Akronym DFDL und dem englischen Wort für Narzisse, die als Logo des Projekts dient.

Apache Daffodil zielt auf die Verarbeitung großer Datenmengen in Unternehmen. Die Software soll vor allem beim Übertragen von komplexen und Legacy-Inhalten in XML oder JSON helfen, um die Daten mit Standardtools analysieren und weiterverarbeiten zu können.

Texte, Grafiken und mehr

Die Data Format Description Language ist eine Spezifikation, die beim Open Grid Forum entstanden ist, das sich als offene, globale Plattform für fortgeschrittene verteilte Systeme (Advanced Distributed Computing) versteht. Für DFDL sind einige Schemata auf GitHub verfügbar – darunter vCard, Cobol-Data, EDIFACT und IBM4690-TLOG. Auch die Grafikformate PNG, GIF, JPEG und BMP finden sich in der Liste.

Daffodil ist als Library auf der Java Virtual Machine aufgesetzt und benötigt Java 8. Das Tool lässt sich über die Kommandozeile verwenden. Das Release bringt standardmäßig die Skriptdateien daffodil für Linux und daffodil.bat für Windows im /bin-Verzeichnis mit.

Daneben existieren APIs für Java und für Scala. Daffodil lässt sich zudem direkt in das Datenverarbeitungsframework Apache NiFi sowie XML Calabash, einer Implementierung der XML Pipeline Language, integrieren

Rückblick und Firmen

Das Projekt ist ursprünglich 2009 am NCSA entstanden, das es 2017 an die Apache Software Foundation übergeben hat. Dort musste es zunächst wie alle Apache-Projekte im sogenannten Inkubator seine Reife beweisen, welche die ASF ihm nun mit der Ernennung zum Top-Level-Projekt anerkannt hat. Zu den Firmen, die Daffodil nutzen, gehören DARPA, GE Research, Naval Postgraduate School, Owl Cyber Defense, Perspecta Labs und Raytheon BBN Technologies.

Daffodil ist bereits das fünfte Projekt zur Datenverarbeitung, das in den letzten Wochen die höchsten Weihen bei der Open-Source-Organisation erhalten hat. Im Januar erhielten das Datenanalyse-Werkzeug Superset und die Visualisierungs-Library ECharts den Top-Level-Status, und im Februar folgten die Analysebibliothek DataSketches und das Datenverarbeitungs-Framework Gobblin.

Weitere Details lassen sich der Ankündigung im Apache-Blog entnehmen.

(rme)