Machine Learning: Google erweitert BigQuery ML um drei nichtlineare Modelltypen

Boosted Trees für XGBoost, Deep Neural Networks für TensorFlow und AutoML Tables stehen BigQuery-Anwendern ab sofort zur Verfügung.

Lesezeit: 1 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen 1 Beitrag

(Bild: Google Cloud)

Von
  • Matthias Parbel

BigQuery ML war als Standard-SQL-Abfrageschnittstelle für das Data Warehouse BigQuery bisher darauf beschränkt, lineare Modelle für maschinelles Lernen zu erstellen und auszuführen. Nun gibt Google drei nichtlineare Modelltypen offiziell für den Einsatz frei: Boosted Trees für XGBoost, Deep Neural Networks (DNNs) für TensorFlow und AutoML Tables. Die mit BigQuery trainierten Modelle lassen sich nun zudem exportieren, um sie für Online-Vorhersagen auf der Google Cloud AI Platform oder in vergleichbaren Umgebungen zu nutzen.

BigQuery ML habe Google zufolge vor allem Anwendern mit großen Datenbeständen den Einsatz von Machine Learning erleichtert, da sie bei Training der linearen Modelle auf aufwendige ETL-Prozesse (Extract, Transform, Load) verzichten konnten. Nachdem sich in verschiedenen Kaggle-Wettbewerben gezeigt habe, dass auch nichtlineare Modelltypen wie XGBoost und AutoML Tables gut mit strukturierten Daten umgehen könnten, sieht Google die Zeit reif, BigQuery ML auch für diese Typen freizugeben. Darüber hinaus hätten die auf SHAP-Werte (SHapley Additive exPlanations) zurückzuführenden Fortschritte zu besserer Nachvollziehbarkeit von KI-basierten Prognosen aus nichtlinearen ML-Modellen beigetragen.

Mit DNNs der Typen DNNClassifier und DNNRegressor können Data Scientists in TensorFlow nun auch mit BigQuery ML Modelle trainieren und ausführen, ohne sich in die Tiefen des Feature Engineering begeben zu müssen. Erfahrung beim Hyperparameter-Tuning hilft dabei aber, die Performance der Modelle weiter zu optimieren – gegebenenfalls unterstützt durch Dienste wie Google Vizier. Weniger erfahrenen Anwendern empfiehlt sich hingegen der Einstieg mit den weniger komplexen Boosted-Trees-Modellen, die sich mit der verbreiteten Library XGBoost nutzen lassen. Baummodelle können laut Google gut mit nichtlinearen Features umgehen und bieten darüber hinaus leichter nachvollziehbare Entscheidungen als DNNs, da sich die Baumstruktur einsehen lässt.

Sämtliche mit BigQuery ML erstellten Modelle – mit Ausnahme von Zeitreihenmodellen – lassen sich exportieren, um sie mit den gängigen Tools von TensorFlow oder XGBoost weiter zu bearbeiten oder sie für Online-Vorhersagen zu nutzen. Während Boosted-Trees-Modelle sich lediglich im Boosted-Format exportieren lassen, steht für alle anderen Modelle das Format TensorFlow SavedModel zur Verfügung.

Weitergehende Informationen zu den verfügbaren nichtlinearen Modelltypen für BigQuery ML bietet der Blogbeitrag zur Ankündigung. Wer sich eingehender mit den Modellen beschäftigen möchte, findet neben einigen Tutorials auch einen Satz an Notebooks mit verschiedenen Anwendungsbeispielen für Predictive Forecasting.

(map)