Machine Learning: MLflow landet bei der Linux Foundation

Databricks hat die vor zwei Jahren vorgestellte Plattform für das Lebenszyklus-Management von ML-Projekten an die Open-Source-Organisation übergeben.

Lesezeit: 2 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen

(Bild: Machine Learning & Artificial Intelligence / Mike MacKenzie / cc-by-2.0))

Von

Das von den Entwicklern des Cluster-Computing-Frameworks Apache Spark gegründete Softwarehaus Databricks hat MLflow an die Linux Foundation übergeben. Die Non-Profit-Organisation soll als anbieterneutrale Anlaufstelle mit einem Open-Governance-Modell fungieren, um das MLflow-Projekt auszubauen und mehr Community-Beteiligung zu ermöglichen. Die Ankündigung hierzu erfolgte auf dem dieses Jahr online durchgeführten Spark + AI Summit, der diese Woche ausgerichtet wird.

MLflow wird als Plattform für das Lebenszyklus-Management von Machine-Learning-Projekten beschrieben und war vor zwei Jahren auf dem Spark + AI Summit vorgestellt worden. Databricks schuf das Projekt vor dem Hintergrund, dass Machine-Learning-Modelle im Gegensatz zur traditionellen Softwareentwicklung, bei der es vorrangig um Codeversionen geht, auch Versionen von Datensätzen, Modellparametern und Algorithmen berücksichtigen müssen.

Darüber hinaus steht hinter ML-Projekten zumeist ein sehr iterativer Prozess. MLflow soll dafür sorgen, dass dieser Prozess gut zu bewältigen ist, indem es eine Plattform für die Verwaltung des gesamten Entwicklungszyklus von ML von der Datenvorbereitung bis zum Produktionseinsatz bietet, einschließlich der Verfolgung von Experimenten (Versuchsprojekten), der Verpackung von Code in reproduzierbare Abläufe und der gemeinsamen Nutzung und Zusammenarbeit von Modellen.

MLflow kombiniert hiefür die drei Komponenten MLflow Tracking, MLflow Projects und MLflow Models, die sich sowohl lokal im Rechenzentrum als auch in der Cloud nutzen lassen. MLflow Tracking stellt Anwendern eine API sowie eine UI unter anderen für die Protokollierung von Parametern, Codeversionen sowie den Ausgabedateien beim Ausführen von ML-Code zur Verfügung. Somit lassen sich Experimente protokollieren und auswerten – und das mit Python, R, Java oder über eine REST API.

Mit MLflow Projects lässt sich der Code in einem Dateiverzeichnis beziehungsweise Git Repository so verpacken, dass er sich reproduzierbar wiederverwendbar beispielsweise auf neue Plattformen oder an andere Data Scientists übergeben lässt. MLflow Models schließlich dient dazu, den Code für das Deployment aufzubereiten und für die Verarbeitung mit ML-Frameworks wie TensorFlow, Keras oder PyTorch anzupassen.

Das Projekt weist mittlerweile wohl über 200 Mitwirkende auf und wird monatlich anscheinend mehr als zwei Millionen Mal heruntergeladen, mit einer vierfachen jährlichen Wachstumsrate bei den Downloads.

MLflow ist nicht das erste Projekt, das Databricks an die Linux Foundation übergeben hat. So ist Delta Lake, das Open-Source-Projekt zum Verwalten von Data Lakes, schon letztes Jahr im Herbst bei der gemeinnützigen Organisation gelandet. Außerdem hatte der Softwarehersteller die Tage dann die Übernahme des Open-Source-Projekts Redash bekannt gegeben. Das Tool lässt sich mit einer Vielzahl von Datenquellen verbinden, um Abfragen und Analysen zu visualisieren und zu teilen. Über Databricks' neue Delta Engine sollen Anwender zudem schnelleren Zugriff auf sämtliche Informationen in ihren Data Lakes erhalten.

Außerdem hat Databricks auf dem diesjährigen Spark + AI Summit die Version 1.0 von Koalas angekündigt. Hierbei handelt es ich um ein ein übergeordnetes Maschine-Learning-Framework für Spark und Pandas, das die Arbeit mit den beiden Machine-Learning- beziehungsweise Big-Data-Tools stark vereinfachen soll. Die Version 1.0 implementiert nun die am häufigsten verwendeten Pandas-APIs, wobei wohl 80 Prozent aller Pandas-APIs abgedeckt sind. Darüber hinaus unterstützt Koalas Apache Spark 3.0, Python 3.8, Spark-Accessor, neue Hinweise auf Typen und bessere In-Place-Operationen.

(ane)