Big-Data-Framework Apache Kafka 2.0 erschienen

Über 40 neue Features sowie zahlreiche Korrekturen und Verbesserungen bekommen Anwender des Message Broker mit dem neuen Major-Release.

 –  21 Kommentare
Big-Data-Framework Apache Kafka 2.0 erschienen

Die Apache Software Foundation hat Version 2.0 von Apache Kafka veröffentlicht. Das Major-Release des auf die Echtzeitverarbeitung großer Datenmengen ausgelegten Message Broker bringt 40 neue, in Kafka Improvement Proposals (KIP) zuvor beschriebene Funktionen. Hinzu kommen noch Korrekturen und Verbesserungen von 246 JIRA-Tickets, darunter auch einige kritische Fehler.

Zu den Neuerungen gehören die Unterstützung für vordefinierte ACLs (Access Control List) und die Vereinfachung der Zugriffssteuerungsverwaltung in großen Deployments. Der Massendatenzugriff auf Themen, Verbrauchergruppen oder Transaktions-IDs mit einem Präfix kann jetzt mithilfe einer einzigen Regel gewährt werden. Die Zugriffssteuerung für das Erstellen sogenannter Topics wurde ebenfalls überarbeitet, um den Zugriff auf bestimmte Topics oder solche mit einem Präfix zu ermöglichen.

Neu ist des Weiteren ein Framework für die Authentifizierung bei Kafka-Brokern mit OAuth2-Bearer-Token. Die SASL/OAUTHBEARER-Implementierung lässt sich nun mit Callbacks für das Abrufen und Überprüfen der Token anpassen. Die Überprüfung des Hostnamens ist jetzt standardmäßig für SSL-Verbindungen aktiviert, um sicherzustellen, dass die standardmäßige SSL-Konfiguration nicht für Man-in-the-Middle-Angriffe anfällig ist.

Das Replikationsprotokoll wurde überarbeitet, sodass sich eine Log-Divergenz zwischen sogenanntem Leader und Follower während eines schnellen Leader-Failovers vermeiden lassen soll. Außerdem wurde auch die Ausfallsicherheit von Brokern verbessert, indem der Speicherbedarf von Down-Conversions von Nachrichten verringert haben. Durch die Verwendung von Message Chunking wurden sowohl die Speicherauslastung als auch die Speicherreferenzzeit reduziert, um OutOfMemory-Fehler in Brokern zu vermeiden.

Das Kafka-Connect-Framework zur Integration mit anderen Systemen enthält eine Reihe von Verbesserungen und Funktionen. So kann man nun steuern, wie Fehler in Konnektoren, Transformationen und Konvertern gehandhabt werden, indem automatische Wiederholungen aktiviert und die Anzahl der tolerierten Fehler kontrolliert wird, bevor der Konnektor gestoppt wird. Außerdem können in den Protokollen mehr Kontextinformationen enthalten sein, um die Diagnose von Problemen zu erleichtern.

Apache Kafka auf der data2day

Schon traditionell ist Kafka auch ein Thema der Big-Data-Konferenz data2day. Bei der diesjährigen Auflage gibt es zum Beispiel den Vortrag "Lambda-Architektur: (IoT)-Analytics-Anwendungsfall Connected Cars auf Hadoop und Kafka". Bis zum 14. August läuft übrigens noch die Frühbucherrabattphase der Konferrenz.

Neu ist schließlich eine Scala Wrapper API für die Kafka Streams DSL, die eine bessere Typinferenz und eine bessere Typensicherheit zur Kompilierzeit bietet. Und Message Header werden jetzt in der Kafka Streams Processor API unterstützt, sodass Benutzer Header hinzufügen und bearbeiten, die aus den Source Topics gelesen werden, sowie an die Sink Topics weiterleiten können.

Das in der Programmiersprache Scala geschriebene Kafka ist bei LinkedIn entstanden und wurde 2012 als Open-Source-Projekt in die Apache Software Foundation eingebracht. Seit 2014 gibt es gezielte Rückendeckung für Kafka, nachdem die Entwickler des Systems LinkedIn verlassen und mit Confluent eine eigene Firma mit Fokus auf einem Geschäftsmodell rund um Kafka aufgemacht hatten. Die Version 1.0 von Kafka war im Herbst des vergangenen Jahres erschienen.

Siehe dazu auf heise Developer:

(ane)