Erkenntnisse gewinnen: Was verrät uns ein Entscheidungsbaum?

Von Arnaud Cecconi - 17. Juli 2019 | 856 0

Nehmen wir ein Beispiel mit diesem Vorhersagebaum, der auf einer E-Commerce-Website generiert wurde:

Wie kann man es interpretieren?

Rot markiert eine hohe Kaufwahrscheinlichkeit (je dunkler das Rot, desto höher die Wahrscheinlichkeit)

Blau markiert eine niedrige Kaufwahrscheinlichkeit (je dunkler das Blau, desto geringer die Wahrscheinlichkeit)

Der erste Punkt links bildet 100 % der Bevölkerung ab, der erste Knoten ist abhängig von der Variable total_order_amount.

 

Auf der einen Seite haben wir die Kunden, deren gesamtes Einkaufsvolumen (über die gesamte Kaufhistorie hinweg) weniger als 25 € beträgt, und die eine niedrige Kaufwahrscheinlichkeit haben (dunkelblau); auf der anderen Seite die Kunden, deren Einkaufsvolumen über 25 € liegt, und die eine leicht höhere Kaufwahrscheinlichkeit haben (hellblau).

Diejenigen aus der letzten Gruppe, die kürzlich mit einem Element des Sales Funnels interagiert haben, haben eine höhere Kaufwahrscheinlichkeit (hellroter Kreis). Lag diese Interaktion weniger als 28 Tage zurück, steigt die Kaufwahrscheinlichkeit erneut (tiefdunkler roter Kreis).

In der Gruppe derjeniger, deren erster Besuch mehr als 28 Tage her ist, können wir erkennen, dass die, die kürzlich weniger als 22 Seiten aufgerufen haben, eine geringe Kaufwahrscheinlichkeit haben – es sei denn, die Gesamtanzahl aufgerufener Seiten ist niedriger als 55 und sie haben kürzlich mehr als 4 Seiten angeschaut.

Wer allerdings insgesamt mehr als 55 Seiten aufgerufen und in der letzten Zeit weniger als 8 Seiten besucht hat, wird keinen Kaufabschluss tätigen.

Usw., usw. – immer an den Knoten entlang.

Was wir daraus lernen können

  • Die vorhersagbarste Variable ist die Gesamtsumme der Bestellung. Diese muss beim Anlegen von Segmenten mitberücksichtigt werden.
  • Nur kurze Zeit zurückliegende Interaktion mit Elementen des Sales Funnels verändert die Wahrscheinlichkeit immens (nicht verwunderlich, darum ist es auch so wichtig, abgebrochene Warenkörbe zu reaktivieren).
  • Die Anzahl der aufgerufenen Seiten ist ein Indikator für die Kaufwahrscheinlichkeit und hängt vom Datum des letzten Besuchs ab (wir können schlussfolgern, dass es eine Art Formel gibt, mit der sich basierend auf dem Datum des ersten Besuchs, der seither erfolgten Page Views und der Anzahl kürzlich erfolgter Page Views die Kaufintention berechnen lässt).
  • Deshalb ist für jeden roten Knoten am rechten Rand des Entscheidungsbaums ein Segment anzulegen, um alle Besucher mit Kaufintention zu ermitteln. Alternativ kann man auch die Verhältnisse und Abhängigkeiten weiter untersuchen mit dem Ziel, eine neue Score Variable zu bilden, die das Ermitteln von Besuchern mit Kaufintention später erleichtert.
  • Übrige Variablen mit hoher Voraussagekraft sind recent_view_product und recent_view_category. Beide sollten deshalb ebenfalls im Hinterkopf behalten werden.
  • Es lässt sich beobachten, dass die Kaufwahrscheinlichkeit abnimmt, je höher diese Variablen ausfallen. Zweifellos deshalb, weil es sich hierbei um Besucher handelt, die ziellos durch den Shop surfen, ohne zu wissen, was sie wollen. Anders als diejenigen, die nur wenige Produkte und Kategorien anschauen und deshalb vermutlich eine schnellere Kaufentscheidung treffen.