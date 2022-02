Data Wrangling mit pandas Eingefangen Wadim Wormsbecher Data Wrangling, das Aufbereiten von Rohdaten, macht bei Datenanalysen einen Großteil des Aufwands aus. Die Python-Bibliothek pandas bringt dafür effiziente Datenstrukturen und Funktionen mit, die die Arbeit deutlich erleichtern.

iX-tract pandas beschleunigt Berechnungen mittels der unter anderem in C programmierten Bibliothek NumPy um Größenordnungen gegenüber reinem Python.

Als IDE zum Testen bietet sich ein Jupyter-Notebook in Google Colab an.

Beim Aufbereiten von Daten mit pandas sind einige Stolperfallen zu umgehen.

Eine besonders beliebte Bibliothek für die Datenanalyse mit Python ist pandas. Sie bietet einen einfachen und dabei sehr effizienten Weg, Daten zu analysieren und zu verwerten. pandas selbst baut auf NumPy auf, einer Bibliothek, die eine hocheffiziente Arithmetik in Python implementiert. So kann NumPy mit Vektoren und Matrizen rechnen und nicht nur mit einzelnen Zahlen. Dies erlaubt eine gewaltige Steigerung der Recheneffizienz. NumPy führt die Berechnungen nicht in Python aus, sondern in C-Code und umgeht so viele Nachteile von reinem Python.

Jupyter-Notebook als Arbeitsumgebung

In diesem Beispiel kommt als IDE ein Jupyter-Notebook in Google Colab zum Einsatz. Wer lieber lokal arbeitet, sollte beachten, dass sich die pandas-Versionen teilweise stark voneinander unterscheiden. Dieser Artikel arbeitet mit Python 3.7.12 und pandas 1.1.5. Letzteres besitzt diverse Abhängigkeiten und es gilt, darauf zu achten, dass sie mit installiert werden, was in der Regel automatisch klappt.