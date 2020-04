Realtime Data Mining mit Apache Kafka und Samza Wackere Goldgräber Peter Hoffmann, Paul Watzlaw Apache Samza ist ein modernes Stream-Processing-Framework, mit dem sich komplexe Daten-Pipelines aufbauen lassen. Data-Mining-Tasks innerhalb der Verarbeitungskette fördern nebenbei manche Entdeckung zutage.

iX-tract Data Mining spürt Zusammenhänge, Trends und Strukturen in großen Datenmengen auf.

Mit Apache Samza lassen sich autonome Tasks implementieren, die Daten in Echtzeit lesen, schreiben und analysieren können.

Samza versteht sich mit Apache Kafka, Microsoft Azure Event Hubs, Amazon Kinesis Streams und Hadoop als Input-Quellen.

Die Assoziationsanalyse ist ein Verfahren zum Auffinden häufig vorkommender Muster, Korrelationen und kausaler Strukturen in Datenbeständen.

Mit dem Aufkommen verteilter Plattformen und dem damit verbundenen Bedarf an Echtzeitverarbeitung großer Datenmengen rollte in den letzten Jahren eine neue Welle von Anwendungen heran. Stream-Processing-Applikationen ermöglichen als Gegenentwurf zum traditionellen Batch-Processing das Verarbeiten von Daten, sobald diese entstehen, also nahezu in Echtzeit.

Eines der bekanntesten Stream-Processing-Systeme ist Kafka. Es wurde ursprünglich von LinkedIn entwickelt und ist seit 2011 als Apache-Projekt öffentlich verfügbar. LinkedIn nutzt Kafka intensiv zum Tracking der Benutzeraktivitäten, für den Nachrichtenaustausch und für das Sammeln von Kennzahlen. Im Oktober 2019 verzeichnete LinkedIn ein Aufkommen von sieben Billionen Kafka-Nachrichten täglich.