David Hipp: Machine Learning als Katalysator für intelligente Datenintegration

Die für moderne Analytics-Anwendungen notwendige, aber aufwendige Datenintegration lässt sich durch Machine Learning vereinfachen.

Lesezeit: 1 Min.
In Pocket speichern
vorlesen Druckansicht Kommentare lesen
Von

In diesem Vortrag von der data2day-Konferenz 2019 beschreibt David Hipp den notwendigen, aber meist auch aufwendigen Weg der Datenintegration, die die Basis für moderne Advanced-Analytics-Anwendung schafft. Die Integration ist von vielen repetitiven Prozessen gekennzeichnet, deren hoher Aufwand sich mittels Machine Learning reduzieren lässt.

Dazu stellt Hipp ein praxiserprobtes Konzept vor, mit dem sich die zeitaufwendige Integration tabellarischer Daten deutlich beschleunigen lässt. Das Herzstück ist ein Python-Paket, das mithilfe eines XGBoost-Modells Tabellenspalten klassifiziert und damit die Grundlage für das eigentliche Schema Matching schafft. Der Vortrag behandelt neben dem analytischen Kern auch technische Aspekte und stellt die im Projekt gesammelten Erfahrungen heraus.

David Hipp: Intelligente Datenintegration – ML als Katalysator zur Wertschöpfung aus Daten

ist Data Scientist und Projektleiter bei der HMS Analytical Software GmbH in Heidelberg. Während seiner Promotion in Mathematik forschte er an Werkzeugen, um die Güte von Wellensimulationen zu bestimmen und engagierte sich in der Wissenschaftskommunikation. Heute automatisiert er Datenintegration mit Hilfe von Machine Learning und entwickelt Advanced-Analytics-Plattformen.

Mehr zu Python auf der enterPy online

Die erste von heise Developer, iX und dpunkt.verlag organisierte virtuelle Konferenz enterPy online am 26. Mai vermittelt einen kompakten Überblick zum Einsatz von Python in Businessanwendungen in den Bereichen Web-Entwicklung, Data Science und DevOps.

(map)