Data Science: Warenkorbanalyse in 30 Minuten

Einkaufsmuster von Waren zu analysieren und daraus Vorhersagen abzuleiten, ist kein Privileg großer Unternehmen. Mit einfachen Modellierungstechniken zur Warenkorbanalyse können auch Mittelständler wertvolle Erkenntnisse gewinnen, wie diese Einführung in Data Science am Beispiel einer Bäckerei zeigt.

Know-how  –  19 Kommentare

Den Schlagworten Künstliche Intelligenz und Data Science begegnet man in allen Ecken der IT-Branche. Dabei reden viele über Big Data im Großunternehmen und lassen die kleineren Unternehmen außer Acht. Die rasche Weiterentwicklung bei Hardware und Software hat allerdings dafür gesorgt, dass auch kleinere Unternehmen in der Lage sind, sich mit (Massendaten-)Analyse zu beschäftigen und mithilfe der Mathematik und Statistik wertvolle Erkenntnisse aus ihren Daten zu ziehen.

In den meisten Fällen reicht ein leistungsfähiger PC oder ein Notebook aus, damit sogar Kleinstunternehmen wie eine Bäckerei durch Data Science aus ihren Daten wichtige Entscheidungen ableiten können. Einen möglichen Ansatz für die Warenkorbanalyse zeigt der Autor im Folgenden auf.

Einführung in Data Science

Nahezu jedes Unternehmen, das Waren verkauft, verfügt automatisch über die für eine Warenkorbanalyse erforderlichen Daten – egal ob im elektronischen Format oder auf Papier. Da machen auch Bäckereien keine Ausnahme. Für die nachfolgende Einführung kommt der Beispieldatensatz einer Bäckerei aus Edinburgh (Transactions from a bakery) zum Einsatz, der auf dem Kaggle-Portal frei zur Verfügung steht.

Die Idee der Warenkorbanalyse-Modellierungstechnik (engl. Market Basket Analysis) ist es, ein übergreifendes Einkaufsmuster aller angebotenen Artikel zu ermitteln, aus dem sich ableiten lässt, wie gefragt die einzelnen Waren bei den Kunden sind. Dabei geht es auch darum, etwaige Verbindung zwischen gekauften Artikeln zu finden. Wenn beispielsweise ein Kunde Produkt_1 kauft, wie wahrscheinlich ist dann, dass er auch Produkt_2 kauft?

Um solche Zusammenhänge zu ermitteln, soll ein Data-Mining-Verfahren auf Basis des Apriori-Algorithmus zur Analyse der Einkaufsprozesses zum Einsatz kommen. Der Einkaufprozess besteht aus Transaktionen. Jede Transaktion entspricht einem Warenkorb mit den gekauften Produkten (Items). Jeder Warenkorb lässt sich eindeutig anhand des Kassenbons mit Belegnummer beschreiben (siehe Abb. 1).

Kassenbons mit Belegnummer dienen als Ausgangspunkt für die Warenkorbanalyse (Abb. 1)

Theoretische Grundlagen

Die zentralen Kennzahlen für den Apriori-Algorithmus sind: Support, Konfidenz und Lift. Der Support liefert den Wert für den prozentualen Anteil eines Produkts am Verkauf sämtlicher Waren des Unternehmens. Damit spiegelt er die Wahrscheinlichkeit wider, mit der ein Produkt gekauft wird beziehungsweise wie oft ein Item in der Summe aller Transaktionen vorkommt:

Support(Produkt_1) = (Anzahl Transakt. mit dem Produkt_1) / (Gesamte Anzahl der Transakt.)
Support(Produkt_1 und Produkt_2) = (Anzahl Transakt. mit Produkt_1 und Produkt_2) / (Gesamte Anzahl der Transakt)

oder

Die Konfidenz (Produkt_1 -> Produkt_2) beziffert die Wahrscheinlichkeit, mit der ein Kunde zusätzlich Produkt_2 kauft, wenn er bereits Produkt_1 gekauft hat:

Konfidenz(Produkt_1 -> Produkt_2) = Support(Produkt_1 und Produkt_2) / Support(Produkt_1)

oder

Lift, die dritte wichtige Kennzahl des Apriori-Algorithmus, liefert eine Antwort auf die Frage, um wie viel wahrscheinlicher das Produkt_1 den Kauf des Produkts_2 macht:

Lift(Produkt_1 -> Produkt_2) = Support(Produkt_1 und Produkt_2) / (Support(Produkt_1) * Support(Produkt_2))

oder

Ein Lift von 1 beziehungsweise 100 Prozent bedeutet, dass keine erkennbare Verbindung zwischen Produkt_1 und Produkt_2 besteht. Ein Lift größer 1 (über 100 Prozent) bedeutet, dass Kunden Produkt_1 und Produkt_2 häufiger zusammen kaufen. Ein Lift kleiner 1 (weniger als 100 Prozent) zeigt, dass es unwahrscheinlich ist, dass Kunden die beiden Produkte zusammen kaufen.