zurück zum Artikel

Databricks stellt Serverless-Initiative und neue Deep-Learning-Bibliothek vor

Databricks stellt Serverless-Initiative und neue Deep-Learning-Bibliothek vor

Mit den neuen Angeboten will das Unternehmen Einstiegshürden im Umgang mit Big Data und Machine Learning senken und so die Verbreitung der beiden Ansätze vorantreiben.

Auf dem Spark Summit hat das von den Schöpfern des Big-Data-Frameworks gegründete Unternehmen Databricks über den Beginn einer Databricks Serverless [1] genannten Kampagne für Serverless Computing und Spark-Workloads informiert. Ihr Ziel ist es, die Komplexität im Betrieb von Big-Data- und Data-Science-Anwendungen zu reduzieren, die Betriebskosten zu senken und die Verzögerungen bei Abfragen während interaktiver Analysen zu minimieren, ohne dabei aber die Zuverlässigkeit in Mitleidenschaft zu ziehen. Genauer gesagt soll es großen Nutzergruppen ermöglichen, Workloads in einem automatisch verwalteten Ressourcen-Pool laufen zu lassen, ohne dass das System pro Nutzer zu konfigurieren ist.

Erster Schritt der Initiative ist die Freigabe von Serverless Pools – automatisch verwalteten Cloud-Ressourcen-Pools, die Databricks für interaktive Spark-Workloads einrichtet und skaliert. Von Administrationsseite ist wohl lediglich die Angabe der minimalen und maximalen Zahl nutzbarer Instanzen nötig, um sicherzustellen, dass das vorgesehene Budget nicht überschritten wird. Entwickler können derweil ihre Workloads über die Spark-APIs in SQL oder Python anlegen und die Databricks-Plattform kümmert sich um die effiziente Ausführung.

Die Ressourcen werden in Abhängigkeit der wartenden Spark-Tasks zur Verfügung gestellt, wobei das System dafür sorgen soll, dass alle Nutzer die gleiche Zeit auf dem Rechencluster erhalten und nicht die, mit besonders vielen Aufgaben alle anderen verdrängen. Außerdem richtet ein Ressourcen-Manager Sandboxes für Treiberprozesse unterschiedlicher Notebooks ein, damit fehlerhafter Code nicht dafür sorgt, dass der Treiber abstürzt und die Berechnungen anderer Nutzer beeinträchtigt.

Darüber hinaus hat das Unternehmen mit Deep Learning Pipelines [2] eine quelloffene Bibliothek zur Integration von Deep-Learning-Ansätzen in Arbeitsabläufe vorgestellt. Sie nutzt die ML Pipelines von Spark für das Trainieren von Modellen sowie Spark DataFrames und SQL für deren Deployment. Unter anderem stehen derzeit wohl Python-Schnittstellen für Aufgaben wie das Laden von Bildern, das Anwenden angelernter Modelle für Vorhersagen und das Anpassen von Modellen für ähnliche Aufgaben zur Verfügung.

Außerdem kann die Bibliothek wohl mit TensorFlow und Workflows umgehen, die Keras und TensorFlow verbinden. Databricks erhofft sich, mit den Pipelines einen ähnlichen Effekt wie mit Spark zu erzielen und Deep Learning einer breiteren Öffentlichkeit zugänglich zu machen.

Lesen Sie dazu auch auf heise Developer:

(jul [4])


URL dieses Artikels:
http://www.heise.de/-3737651

Links in diesem Artikel:
[1] https://databricks.com/blog/2017/06/07/databricks-serverless-next-generation-resource-management-for-apache-spark.html
[2] https://github.com/databricks/spark-deep-learning
[3] https://www.heise.de/developer/artikel/Machine-Learning-mit-Apache-Spark-2-3657735.html
[4] mailto:jul@heise.de