Machine Learning: Low-Code-Library PyCaret 2.0 automatisiert den ML-Workflow

Die quelloffene ML-Library in der Programmiersprache Python basiert auf einem Low-Code-Konzept und lässt sich am sichersten in einer virtuellen Umgebung nutzen.

Lesezeit: 1 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 1 Beitrag

(Bild: Phonlamai Photo/Shutterstock.com)

Von
  • Silke Hahn

Die quelloffene Machine-Learning-Library PyCaret ist in Version 2.0 erschienen. PyCaret ist ein End-to-End-verschlüsseltes Tool zum Verwalten von ML-Modellen im experimentellen Bereich und basiert auf dem Low-Code-Prinzip.

Nutzern erlaubt das Tool zum Beispiel das automatische Vervollständigen von Code durch Ergänzungsvorschläge gebräuchlicher Codezeilen und bietet darüber hinaus Services von der Vorbereitung der Daten über die Modellauswahl bis zum Deployment. Während des Setups erledigt das Tool offenbar automatisch die üblichen Pre-Processing-Umwandlungen der Daten, mit denen Entwicklerinnen und Entwickler arbeiten möchten.

PyCaret lässt sich laut Ankündigung des PyCaret-Teams für die Vorbereitung von Datensätzen verwenden, zum Beispiel, um Testsätze zu unterteilen und zu samplen, die Daten zu normalisieren oder Cluster zu bilden und Ausreißer automatisch zu entfernen. Nutzer können aus rund 20 Transformations-Optionen wählen, welche Variante das Tool mit ihrem Datensatz durchführen soll.

Mit PyCaret können Nutzer aus rund 20 Optionen wählen, wie das Tool die Datensätze vorbereiten soll

(Bild: towardsdatascience.com, PyCaret-Team)

In überwachten ML-Szenarien kann PyCaret Modelle mit Standard-Hyperparametern für Klassifikation und Regression probetrainieren und die dabei erhaltenen Performance-Metriken vergleichen – dies soll Nutzer offenbar bei der Wahl des am besten geeigneten Modells für ihr jeweiliges Szenario unterstützen, die Funktion heißt compare_model.

Plot Model Code in der ML-Library PyCaret

(Bild: towardsdatascience.com, PyCaret-Team)

Das Tool eignet sich laut Herausgebern auch zum Trainieren von Modellen und zum Feintuning der Hyperparameter. Außerdem umfasst es Features zur Analyse und Interpretation von Daten und erlaubt neuerdings das Logging von Experimenten. Neu hinzugekommen seit Version 1.x sind auch Parameter zum System-Logging und zum Beheben von Unwuchten in den Datensätzen (fix_imbalance und fix_imbalance_method). Der Parameter save erweitert nun das plot_model um die Möglichkeit, Plots als png- oder html-Datei zu speichern: Wenn Nutzer diesen Wert auf "True" setzen, speichert PyCaret den aktuellen Plot im aktiv bearbeiteten Arbeitsverzeichnis ab.

Nutzern stehen verschiedene Visualisierungsmöglichkeiten zur Verfügung. Ausgabebeispiel beim Anwenden der Funktion plot_model von PyCaret

(Bild: towardsdatascience.com, PyCaret-Team)

Um Konflikte mit laufenden Anwendungen und deren Bibliotheken zu vermeiden, empfiehlt das PyCaret-Team, das Tool in einer virtuellen Umgebung zu installieren, worin es nicht auf andere Bibliotheken zugreifen kann. Die Installation für die Entwicklungsumgebung Conda zum Beispiel lässt sich mit folgenden Befehlen ausführen:

# create a conda environment
conda create --name yourenvname python=3.6

# activate environment
conda activate yourenvname

# install pycaret
pip install pycaret==2.0

# create notebook kernel linked with the conda environment python -m
ipykernel install --user --name yourenvname --display-name "display-name"

Wer Azure Notebooks oder Google Colab nutzt, kann die Installation mit dem folgenden Befehl durchführen: !pip install pycaret==2.0. Die Installation mit pip bindet automatisch alle Abhängigkeiten ein.

Detailliertere Anwendungsbeispiele lassen sich dem ankündigenden Blogbeitrag entnehmen. Alle technischen Details finden Interessierte in den Release Notes auf GitHub, wo das Projekt gehostet ist.

(sih)