Einführung in das Data Mining mit R und Rattle

Know-how  –  0 Kommentare

Viele Unternehmen sammeln heute Daten, ohne wirklich zu wissen wofür. Data Mining ist eine der Disziplinen, die sich Datenmengen zunutze macht und hilft, Potenziale freizulegen.

Laut Wikipedia versteht man unter dem Begriff Data Mining die systematische Anwendung statistischer Methoden auf eine Datenmenge mit dem Ziel, Wissen zu erlangen und Trends zu erkennen. Die Methoden dieser Disziplin kommen aus der Statistik, dem maschinellen Lernen und der klassischen Mustererkennung und sind teilweise bereits einige Jahrzehnten alt. Data Mining kommt beispielsweise im Handel häufig zum Einsatz, aber im Prinzip kann man die Methoden überall einsetzen, weil sie unabhängig von der Herkunft der Daten sind.

Zu den wichtigsten Analyse-Tools zählt ohne Zweifel R. Es handelt sich dabei um eine freie Umgebung für statistische Berechnungen, die auf Windows, OS X und vielen Unix-Systemen läuft. In ihrem Ökosystem lassen sich eine Menge wissenschaftliche Pakete beziehungsweise Bibliotheken für Data-Mining-Prozesse finden. Einige von ihnen wie Rcmdr (R Commander) oder Rattle (R Data Miner) haben grafische Benutzeroberflächen, was die Einarbeitung in die R-Sprache vereinfacht und die Arbeit mit den Daten erleichtert.

Ein typischer Data-Mining-Prozess sieht folgendermaßen aus:

  1. Frage für die Analyse formulieren
  2. Daten vorbereiten (finden, bereinigen und ins Data-Mining-Tool laden)
  3. Verteilung der Daten analysieren
  4. Variablen auswählen, die das Datenmodell mit den Trainingsdaten bilden
  5. Ergebnisse der Berechnung überprüfen, interpretieren und auf Testdaten anwenden

Beispiel einer Analyse

Über die Statistik im Fußball hat Andreas Heuer in seinem Buch "Der perfekte Tipp" [1] bereits detailliert geschrieben. Seine Ideen sind wissenschaftlich begründet und lassen sich mit einigen Anpassungen und in einem gewissen Rahmen auf andere Sportarten wie Eishockey zur Spielanalyse übertragen.

Eishockey ist eine dynamische Sportart, bei der (spontan behauptet) pro Spiel im Durchschnitt mehr Tore fallen als bei einem Fußballspiel. Ein Anhänger des Sports könnte folglich beispielsweise Interesse daran haben zu versuchen, mit Data Mining eine Vorhersage über die Tormenge zu treffen. Dafür ist allerdings zunächst eine präzisere Fragestellung zu finden, etwa: Ist die Anzahl der Tore im Spiel von der Stärke der Mannschaften abhängig?

Die Mannschaftsstärke wird durch die Anzahl der Tore beziehungsweise der Gegentore bestimmt. Die geeignete Data-Mining-Frage könnte also lauten: Ist die Anzahl der Tore im Spiel von der vor dem Spiel herrschenden Tordifferenz beziehungsweise von der Gegentordifferenz beider Gegner abhängig?

Ist die Frage festgelegt und somit das Ziel der Analyse gesetzt, kann man mit der Datenvorbereitung (siehe Punkt Nr. 2 oben) beginnen. Bei ihr handelt es sich um den wichtigsten Teile des Analyseprozesses, da die Vorbereitung bis zu 80 Prozent der Zeit des gesamten Prozesses in Anspruch nehmen kann. Nach dieser Phase sind die Input-Daten in Analytical Records [2] zusammengefasst, die das Data-Mining-Tool als Format erwartet.

Im Beispiel stellt jede Zeile einen Fall in Form eines Eishockeyspiels. Eine Spalte (Anzahl der Tore während der regulären Spielzeit) enthält den vorherzusagenden Wert und die anderen (Tordifferenz und Gegentordifferenz der Gegner vor dem Spiel) die Eigenschaften des Falls, also die Prädiktoren (s. Abb. 1).

Das Vorbereiten der Daten für die Analyse ist einer der wichtigsten Schritte im Data Mining (Abb. 1).


Ob die Daten der Analytical Records in einer Datenbank liegen oder als Datei auf der Festplatte, ist nicht besonders wichtig. R bevorzugt standardmäßig CSV-Dateien (Comma Separated Values), die sich beispielsweise einfach als Tabellen in OpenOffice erstellen und im Anschluss im CSV-Format für die weitere Verarbeitung exportieren lassen. Anderseits verfügt das Tool über verschiedene Schnittstellen und kann die Daten direkt aus MySQL-, Oracle- oder anderen Datenbanken lesen (s. Abb. 2). Sind sie in Analytical Records zusammengefasst, kann man mit den Data-Mining-Versuchen beginnen.

Analytical Records im View oder als CSV-Datei (Abb. 2)