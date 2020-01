Fast genau zwölf Jahre nach dem Start der Entwicklung von pandas ist nun der erste Release Candidate der Version 1.0 erschienen. Das Release führt Semantic Versioning ein und bringt zahlreiche Änderungen mit. Neben neuen Features wie einem Singleton zur Repräsentation für fehlende Werte und einem Datentyp für Strings, schneidet das Release einige alte Zöpfe ab.

Die Python-Library erschien erstmals im Januar 2008, und die Freie Software befindet sich bereits in zahlreichen Projekten auch ohne 1.x-Release im produktiven Einsatz. pandas 1.0 markiert allerdings einen wesentlichen Wechsel in der Versionierung, die ab sofort auf Semantic Versioning (SemVer) ausgelegt ist. Damit wird es künftig Breaking Changes nur beim Wechsel der Hauptversion geben. Dabei legt Version 1.0 mit den Neuerungen und entfernten Features gleich vor.

Der Wert für fehlende Werte

pandas 1.0 führt einen allgemeinen Wert ein, der das Fehlen eines Werts repräsentiert. Derzeit kennt die Bibliothek unterschiedliche Werte, um fehlende Daten wiederzugeben. Künftig soll pd.NA Werte wie None , np.nan und pd.NaT ersetzen und sich konsistent über unterschiedliche Datentypen verwenden lassen. Derzeit ist pd.NA als experimentell gekennzeichnet und die praktische Umsetzung kann sich noch ändern.

Dasselbe gilt für den neuen Typen StringDtype , der Zeichenketten repräsentiert. Bisher kam in pandas dafür schlicht der object -Datentyp zum Einsatz, was unter anderem im Zusammenspiel mit Arrays problematisch werden kann: Wegen der fehlenden Typprüfung können Entwickler versehentlich object einen Wert zuweisen, der kein String ist, aber ein StringArray kann nur Strings aufnehmen.

Ja, nein oder ungewiss

Auch der neue Datentyp und das neue Array für boolesche Werte BooleanDtype beziehungsweise BooleanArray kennen im Gegensatz zum Datentyp bool fehlende Werte. Zu den weiteren nennenswerten Neuerungen in pandas 1.0 gehört die Methode DataFrame.to_markdown() , die eine Ausgabe im Markdown-Format erzeugt.

Mit dem Release von pandas 1.0 entfernen die Entwickler alle als überholt (deprecated) markierten Features der Library. Das kann zu Inkompatibilitäten führen, die Codeänderungen erfordern. Daher empfehlen die pandas-Macher vor dem Einsatz von Version 1.0, zunächst den Code mit pandas 0.25 auf Warnungen zu testen und entsprechend anzupassen.

Weitere Details zu pandas 1.0.0 lassen sich der Liste der Neuerungen entnehmen. Die Python-Library ist Freie Software und steht unter der 3-Klausel-BSD-Lizenz. Sie bietet Datenstrukturen und Werkzeuge zur Datenanalyse, darunter spezielle Methoden zur Zeitreihenverarbeitung sowie zur Bearbeitung numerischer Tabellen.

Auf Python-Seite setzt pandas 1.0 mindestens Version 3.6.1 der Programmiersprache voraus. Die offizielle Website der Library empfiehlt zur Installation die Verwendung der Anaconda-Distribution. Die Getting-Started-Seite enthält daneben weitere mögliche Installationswege.

