Clusteranalysen: In der Gruppe stark (SAS Adventskalender 5. Türchen)

0

tuer5_blogDas Christkind ist ausgesprochen zufrieden mit sich und seinen Vorbereitungen. Wir möchten vermuten, dass dem Christkind die Komplexität seiner Aufgabe (trotz zweitausendjähriger Geschichte) erst jetzt so richtig dämmert. Es hat gelernt, assoziativ zu suchen, Kommentare der Kinder zu analysieren und aus allem die richtigen Schlüsse zu ziehen. Heute verfeinert es seine Methode und macht sich daran, seine Fans zu gruppieren, zu clustern, zu segmentieren. Hier geht es zu Türchen 1,2,3,4.

Es stellt sich zunächst einmal solche Fragen: Wie alt sind meine Kinder und wo wohnen sie? Wer will eigentlich was, wer nicht? Wer war besonders lieb, wer nicht? Wer war besonders fies, wer nicht? Wer ist besonders reich, wer nicht? Wer ist ein Flüchtlingskind mit einem Herzenswunsch, wer nicht?

Das Christkind will Gerechtigkeit auf Erden. Es muss also wissen, auf was es bei der Geschenkewahl achten soll. Es weiß: alle gleich betrachten geht nicht. Es weiß auch: Jedes Kind ist individuell. Es ahnt darüber hinaus: Jedes Kind hat eigene Bedürfnisse. Aber wie soll ein Christkind, das auch nur ein Mensch ist, 12 Millionen Kinder einzeln betrachten? Es schlussfolgert himmlisch: Ich muss segmentieren!

Da kommt ihm die Erleuchtung. Peng. Traumgleich kommt ihm die Clusteranalyse in den Sinn. Peng!

Zuallererst stellt das Christkind nämlich fest, dass es nicht genügt, die Kinder nur anhand EINES Merkmals zu gruppieren. Es gibt ja nicht nur groß oder klein, jung oder superjung, schüchtern oder frech, reich oder arm, Flüchtling oder nicht. Mit einem multivariaten Verfahren kann es die Kinder anhand mehrerer Merkmale gruppieren.

Zusätzlich hat das Christkind beschlossen, dass es nicht zu Beginn festlegen möchte, wie diese Segmente aussehen. Also dass es z.B. sagt: Mein Segment 1 beinhaltet alle Mädchen im Alter von 10 – 14 Jahren, die Spaß an Mathe haben. Sondern es möchte, dass sich diese Segmente aus den Informationen, die das Christkind über jedes Kind hat, automatisch heraus entwickeln, ohne dass das Christkind seine Zeit darauf verwenden muss.

Und vor allem sollen die entstehenden Cluster optimal sein: Die Kinder, die sich nach der Analyse in demselben Cluster befinden, sollen sich sehr ähnlich sein, damit das Christkind das Cluster gut charakterisieren kann. Und die Kinder, die sich in unterschiedlichen Clustern befinden, sollen sehr unterschiedlich sein, damit das Christkind gut zwischen den Clustern trennen kann. Woher soll das Christkind wissen, dass seine händische Einteilung gute Ergebnisse liefert?

Eine Clusteranalyse – 1 Kind ist 1 Datensatz

Das Christkind wird nun Herkules und macht dieses: Es bildet Gruppen. So weit so gut. Es betrachtet die Gruppe nun quasi als Lebewesen. Dann vergleicht es Gruppe mit Gruppe und nicht mehr Kind mit  Kind. Wie kommen die Gruppen zustande? Eine Gruppe ist dann definiert, wenn sich seine Mitglieder bspw in 6 Merkmalen ähnlich sind, sich sehr ähnlich sind, sich sehr sehr ähnlich sind. Das macht das Christkind vielleicht 1.000 Mal (bei 12 Millionen Kindern hätte es sehr gut geclustert) und hat am Ende  300 Gruppen.

Wir rekapitulieren: Was unterscheidet sich dann noch voneinander? Das wären die Gruppen untereinander. Nicht das Kind zählt mehr, sondern die Gruppe, in der es ist. Aus dem Kind wird eine Nummer und aus den vielen Kindernummern werden ein paar Cluster!

So kann man sich das vorstellen

Hier unten sehen wir eine Clusteranalyse von Kundendaten. Die Merkmale der Kunden, die in diese Analyse eingeflossen sind, waren wie lange der Kunde schon Kunde ist, wie weit entfernt er zur nächsten Filiale wohnt und wie sein durchschnittlicher Warenkorb ist:

 

G1

Hier wurden aus den Daten und den drei Merkmalen Kundendauer, Kundenwarenkorb und Kundenentfernung drei Cluster erstellt. Die farblichen Linien zeigen an, welche Bereiche aus welchen Merkmalen zu welchem Cluster gehören.

Zum Beispiel sind in dem Cluster 2 mehr die langjährigen Kunden vertreten, die in unserem betrachteten Unternehmen bei ihren einzelnen Einkäufen eher weniger Geld lassen, und die aber im direkten Umkreis der Filialen wohnen.
G2

Im Gegensatz dazu finden sich in Cluster 0 eher die neueren Kunden, die relativ viel einkaufen und die dafür einen weiteren Weg in Kauf nehmen.

G3

Irdische Anwendungsbeispiele

Die Clusteranalyse wird häufig bei Marketingmaßnahmen eingesetzt, um aus dem Gesamtkundenstamm homogene Kundengruppen zu identifizieren. Die Homogenität innerhalb des Clusters ermöglicht auch hier eine präzise Charakterisierung dieser Kundengruppe. Die Heterogenität zwischen den Clustern sorgt ebenso hier für eine gute Trennschärfe. Mit den Ergebnissen einer Clustereinteilung kann anschließend eine passgenaue Marketingmaßnahme durchgeführt werden. Die Erfolgswahrscheinlichkeit einer solchen Maßnahme wird viel besser. Kundenbindung steigt – logisch! Customer Retention Rate auch (siehe erstes Adventstürchen.)

So! Das wäre geschafft: Nachdem das Christkind seine Kinderlein nun schön fein säuberlich in Cluster eingeteilt hat, möchte es natürlich gerne wissen: Wann sind sie zufrieden mit ihrem Geschenk? Muss es eher groß sein, teuer oder von einer bestimmten Marke? Aber das wäre zu viel für das Christkind heute… das sehen wir dann morgen.

Tags Big Data
Share

About Author

Nicole Tschauder

Solutions Architect

Dr. Nicole Tschauder ist bei SAS im Competence Center Analytics tätig. Als Analytics Expert beschäftigt sie sich dort schwerpunktmäßig mit Predictive Analytics im Bereich Manufacturing sowie mit dem Thema „Analytics für Einsteiger“. Sie ist seit ca. 3 Jahren bei SAS. Vor dieser Zeit war sie an Technischen Universitäten als Mathematikerin mit Schwerpunkt Natur- und Ingenieurwissenschaften tätig und hat heute einen Lehrauftrag für Statistik an der Fachhochschule Ludwigshafen.

Leave A Reply

Back to Top