Das Christkind hat nun alle Kinder in homogene Segmente eingeteilt. Warum eigentlich nochmal? Weil es doch sehen wollte, auf was es bei der Geschenkewahl zu achten hat! Es geht heute um die lineare Regression. Und das deshalb ….
…. weil die Kinder auf ihren Wunschzettel nicht schreiben, welches rosa Pferd oder welche Ritterburg genau sie haben wollen. Da muss das Christkind also überlegen, was genau in Frage kommt.
Es wäre also gut zu wissen, was ein Kind glücklich macht. Sollte das Geschenk eher riesig groß sein, ganz mini, sollte es nur teuer sein oder nur total bunt? Puh, gut dass das Christkind nun schon mal Cluster gebildet hat! Und nu?
Gehen wir doch grad nochmal zwei Schritte zurück, bevor wir gleich drei auf einmal nach vorne schreiten! Wir betrachten nochmal alle Kinder gemeinsam. Nehmen wir mal an, dass für ALLE nur der Preis entscheiden wäre. Je teurer, desto besser. Nehmen wir das mal an. Dann würde sich das visuell so darstellen. Wenn man das Glücksgefühl der Kinder auf einer Skala von Null Prozent bis Einhundert Prozent bewerten könnte und dagegen den Preis des Geschenks abträgt, erhielte man dieses Streudiagramm:
Hier sieht man sehr deutlich, dass fast alle Punkte auf einer Geraden liegen. Das heißt, dass sich der Grad der Zufriedenheit unserer Kinder linear aus dem Preis berechnen lässt. Würde Geld die Welt regieren, wäre sie zwar nicht so schön wie sie ist, aber für das Christkind extrem einfach. Aber Gott sei Dank regiert Geld ja nicht die Welt! Die Kinder legen Wert auf andere Dinge wie Farbe, Marke, Image, Größe.
Und nun zur linearen Regression Lineare Regression beschreibt, inwiefern eine oder gleich mehrere Faktoren die Variable Glück beeinflussen. Wie zufrieden macht beispielsweise Geld? Wir suchen bei der linearen Regression also (wie in der obigen Grafik dargestellt) den Zusammenhang zwischen Glück und Geld, Marke, Image, Farbe etc. Und das wendet das Christkind jetzt mal für jedes Cluster an. Los, hopphopp!
Wie es die Menschen machen - Immer den Strich im Visier!
Was wir hier in der Abbildung 1 sehen, ist die Wichtigkeit einer Kundenkarte für die Kundenzufriedenheit. „Full Service“ ist in dieser neutralen Tabelle gleich Kundenkarte. Ist der Balken grün und länger als der senkrechte eingezeichnete Strich, so hat die Variable einen Einfluss. Und es scheint in diesem Fall tatsächlich so zu sein, dass für alle drei Kundencluster die Kundenkarte wichtig ist.
Oder: Schauen wir uns mal die Variablen Beratungsqualität und Verfügbarkeit an
Die Beratungsqualität ist für die Kunden des Cluster 2 wichtig (d.h. für diejenigen Kunden, die schon länger in der Filiale einkaufen und näher zur Filiale wohnen). Für die Kunden in Cluster 0 ist das eher unwichtig (das sind Neukunden, die weiter weg von ihrer Filiale wohnen). Wir erinnern uns an das Balken/Strichverhältnis? Hier ist der Balken blau und übersteigt nicht den senkrechten Strich, also unwichtig. Immer den Strich im Visier! Allerdings scheinen diese Kunden sehr viel Wert (an der rechten Grafik) auf die Verfügbarkeit der Produkte zu legen. Für die sehr treuen Kunden, die auch noch nah bei ihrer Filiale wohnen, scheint das jedoch nicht so wichtig zu sein.
So, jetzt übertrage das doch mal auf deine himmlischen Verhältnisse, Christkind. Hast du das überhaupt verstanden, Christkind? „Ja habe ich. Ich kann mittels linearer Regression entscheiden, bei welchen Kinderclustern ich worauf achten muss. Teuer ist vielleicht doch nicht immer besser!“
Ab morgen kommen die Wunschzettel mit den ganzen Wünschen der Kinder. Für die Zuordnung eines konkreten Gegenstandes zu einem Wunsch hat das Christkind jetzt eine gute Entscheidungsgrundlage, um die Kinder glücklich zu machen. Das Christkind wird ein fideler Analytiker! Es dauert aber noch etwas, bis es ein echter Data Scientist ist. Aber wir sind auf dem besten Wege.
(zu Türchen 1-5 geht es hier)