Trendanalysen mithilfe von Geodaten

Die Häufung von Nachrichten zu einem Thema an einem Ort ist ein Kriterium bei der Suche nach relevanten Inhalten. Open-Source-Tools helfen bei der Analyse und ermöglichen unter anderem das Erstellen von Heatmaps.

Werkzeuge  –  1 Kommentare
Trendanalysen mithilfe von Geodaten

Pro Tag entstehen weltweit deutlich mehr Nachrichten als ein Mensch lesen kann. Bei der Auswahl relevanter Themen helfen diverse Methoden, die Informationsflut auf ein erträgliches Maß zu reduzieren und aufzubereiten. Herkömmliche oder digital angebotene Tageszeitungen bieten mit vorgefilterten und redaktionell aufbereiteten Nachrichten eine Alternative zur Informationsflut im Internet.

Neben dieser traditionellen Methode der Nachrichtenübersicht finden sich heute mehr und mehr Ansätze, die Algorithmen nutzen und News aus verschiedenen Quellen automatisch in Beziehungen setzen, um sie in aggregierter Form verfügbar zu machen. Im Idealfall erfolgt die Auswahl personalisiert, da jeder andere Interessen hat. Ein bekanntes Beispiel für einen solchen Nachrichtenaggregator ist Google News, der seit 2002 verfügbar ist und auf Basis persönlicher Vorlieben aus hunderten Nachrichtenquellen die mutmaßlich interessantesten Themen identifiziert und dem Leser aggregiert anbietet.

Als Alternative zu algorithmisch selektierten Nachrichten existieren Verfahren, die auf menschlichen Empfehlungen basieren. Zeitweise extrem häufig geteilte Inhalte in sozialen Medien oder die Trends auf Twitter sind Indikatoren für Themen und Artikel, die in der Community populär sind und eine nähere Betrachtung verdienen. Die Effizienz der Vorgehensweise zeigt sich darin, dass sich PR-Abteilungen mit dem Entwurf viraler Kampagnen beschäftigen, die von jener Eigendynamik profitieren und den Konsumenten als Werbebotschafter einspannen.

Dieser Beitrag stellt einen weiteren Ansatz vor, mit dem auf Basis von Artikeltexten und den darin erwähnten Orten automatisch Heatmaps erzeugt werden können, die die Wahrnehmung und das Vorhandensein von Trends zeigen, wie die folgende Abbildung zeigt:

Die aus Kibana erzeugte Heatmap zeigt die Verteilung von Nachrichten (Abb. 1).

Solche Heatmaps lassen sich als Trendbarometer verstehen. Sie zeigen, wo auf der Welt "heiße" Bereiche zu bestimmten Themen sind. Sie spiegeln die mediale Berichterstattung und die Wahrnehmung wieder. Über zeitliche Verläufe lassen sich zudem eindrucksvoll Entwicklungen verfolgen. Ein Trendbarometer zum Thema "Korruption" färbte während der FIFA-Affäre die Schweiz täglich etwas tiefer rot.

Das Beispiel zeigt den Einsatzzweck der visuellen Aufbereitung als Heatmap: Als Hilfsmittel für Personen, die zeitnah einen Überblick über die Wahrnehmung und Berichterstattung zu Themenkomplexen interessiert sind, ist das Verfahren hilfreich beim Finden relevanter Nachrichtenmeldungen.

Als Trend gilt dabei eine räumlich lokalisierte Häufung von Berichterstattungen zu einem Themenkomplex. Dahinter steht folgende Annahme: Wenn innerhalb eines abgegrenzten Zeitraums verstärkt über eine Sache an einem Ort berichtet wird, lohnt sich eine genauere Untersuchung. Es handelt sich somit um einen ortsspezifischen Indikator für die Wahrnehmung beziehungsweise Berichterstattung.

Ausgehend von der Annahme, dass die Medien täglich sehr viele Artikel publizieren, lässt sich bei der Auswertung eine gewisse Unschärfe tolerieren. Die Rahmenbedingung ist signifikant, da die maschinelle Verarbeitung von Texten keine exakte Wissenschaft ist. Dennoch sind die verfügbaren Verfahren genau genug, um automatisch Trends zu erkennen.

Mit aktuellen Heatmaps für die zu beobachtenden Themen hätten beispielsweise Nachrichtenredakteure ein geeignetes Werkzeug, um diejenigen Artikel zu finden, die sie sich genauer ansehen sollten, da die Karte sie als tiefrote Flächen anzeigt. Außerdem können sie auf einen Blick erkennen, ob es momentan überhaupt beachtenswerte Aktivitäten zu einzelnen Themen gibt, und darüber entscheiden, ob sich eine tiefere Recherche lohnt.

Auf Basis dieser Informationen kann auch ein Monitoring von Themenkomplexen erfolgen, um beispielsweise signifikante Entwicklungen zu Fragen wie den folgenden mitzubekommen:

  • Wie verläuft die weltweite Diskussion zum Thema Kernenergie?
  • Wo passiert derzeit etwas zum Thema Geldwäsche?
  • Wie verlief die Wahrnehmung zum Thema Korruption im letzten Jahr?

Um eine Fragestellung algorithmisch anzugehen, lohnt es sich, zunächst den manuellen Lösungsweg zu betrachten. Dabei würde ein Mensch täglich die neu veröffentlichten Artikel lesen, die er per Newsletter erhält, über Feeds abonniert hat oder findet, indem er die Bookmark-Sammlung des Browsers durcharbeitet. Die gefundenen Artikel müsste er anschließend mithilfe einer Geodatenbank um die Koordinaten aller in den Texten erwähnter Orte ergänzen. Anschließend kann er die aufbereiteten Artikel in einem durchsuchbaren System wie einer Datenbank speichern.

Die entstehende Datenbasis lässt sich durch eine Abfrage in den beiden Dimensionen Zeitraum (anhand des Publikationsdatums) und Thema (durch eine Volltextsuche mit relevanten Keywords) einschränken. Durch Aggregieren oder Clustern der Koordinaten aus der Ergebnismenge entsteht ein Datensatz, der als Input für eine geeignete Visualisierungssoftware wie Leaflet dienen kann.