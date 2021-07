JetBrains hat eine neue Schnittstelle für die quelloffene Big-Data-Engine Apache Spark vorgelegt: Das Release gilt als die erste stabile Kotlin-API, die das Technologieunternehmen als "Feature-komplett" bezeichnet, und sie soll laut Releasemeldung mit den wesentlichen Apache-Spark-Schnittstellen zusammenarbeiten.

Sechs Features stehen im Zentrum der Hauptversion, und einige dieser Eigenschaften sind bereits aus der entsprechenden API zu Scala bekannt: Typisiertes Selektieren ( select ) und Sortieren ( sort ), eine Reihe Kolumnen- beziehungsweise Spalten-Funktionen (der Begriff bezieht sich wohl auf eine Gruppe von Funktionen in Scala, die die "columns" von Datensätzen im Blick haben), Wrapper-Funktionen für die KeyValueGroupedDatasets , Unterstützung für die aus Scala bekannten TupleN -Klassen sowie für Datums- und Zeittypen. Zudem unterstützt die erste Major Version der neuen API auch Karten, die als Tuples kodiert sind.

Die typisierte Methode select gibt Datensätze der Tuples aus. Für Entwicklerinnen und Entwickler kann das fallweise praktischer sein als der Rückgriff auf die map -Funktion. Ein Nachteil dabei scheint zu sein, dass man die betreffende Kolumne, aus der die Daten zu beziehen sind, explizit mit ihrem korrekten Namen und Typ ansprechen muss. Das war in der Vergangenheit eine Fehlerquelle, die zu schwer behebbaren Problemen in der Pipeline geführt hatte.

Die neue API (als Erweiterung zur Scala-API betrachtet) kann offenbar das bekannte Problem durch eine typsichere Herangehensweise umgehen, die auf Strings und Casts verzichtet. Dabei spricht die Funktion – offenbar hergeleitet von der Reflection – die korrekte Spalte und den korrekten Typ an. Auch die Sortierfunktion soll eine solche reflektive Syntax erhalten haben, die nach dem gleichen Prinzip funktioniert. In Kotlin-Code sieht das aus wie folgt: