Comprendre les données : que peut-on apprendre d’un arbre de décision ?  

Par Arnaud Cecconi - 17 Juillet 2019 | 238 0

Prenons un exemple avec cet arbre de prédiction généré sur un site de ecommerce :

Comment l’interpréter ?

Le rouge représente une forte probabilité d’achat (plus le rouge est foncé, plus la probabilité est élevée).
Le bleu représente une forte probabilité de non-achat (plus le bleu est foncé, plus la probabilité est élevée).

Le premier point à gauche représente 100 % de la population, une première division se produit avec la variable total_order_amount.

D’un côté, nous avons les personnes dont le total des achats (tout l’historique de leurs achats) ne dépasse pas les 25 €, et qui ont peu de probabilité de faire un achat (bleu foncé) ; de l’autre, les personnes dont le total des achats est supérieur à 25 € et qui sont plus susceptibles de faire un achat (bleu clair).
Parmi cette dernière catégorie, celles qui étaient récemment dans l’entonnoir ont plus de chances de faire un achat (cercle rouge clair) et parmi ces personnes, celles dont la dernière visite remonte à moins de 28 jours sont encore plus susceptibles d’effectuer un achat (cercle rouge très foncé).

Et pour les personnes dont la 1e visite date de plus de 28 jours, nous pouvons voir que celles qui ont consulté moins de 22 pages ont peu de chances d’acheter, sauf si le total des pages vues est inférieur à 55 et si elles ont consulté récemment 4 pages.

Cependant, celles qui ont vu plus de 55 pages et en ont vu moins de 8 récemment ne feront aucun achat

Etc., etc. en suivant les embranchements.

Leçons à retenir

  • La variable la plus prévisible est le montant total de commande – elle doit être prise en compte lorsque vous créez vos segments.
  • Une présence récente dans l’entonnoir d’achat modifie (sans surprise) de manière drastique la probabilité – d’où l’importance de récupérer les paniers abandonnés
  • Le nombre de vues des pages est un indicateur de probabilité d’achat et dépend de la date de la dernière visite (nous pouvons en déduire qu’il existe une sorte de ratio qui détermine si une personne a l’intention d’acheter en fonction de la date de leur première visite, du nombre total de vues de pages après, et du nombre de vues de pages récentes).
    Vous devez donc créer un segment pour chaque embranchement rouge tout à droite de l’écran pour trouver tous les visiteurs avec une intention d’achat (ou approfondir les recherches sur le ratio pour créer une nouvelle variable de score et simplifier les choses par la suite)
  • Les autres variables prévisibles à considérer sont recent_view_product et recent_view_category. Vous pouvez voir que plus les valeurs sont élevées, moins l’achat est probable – sans doute parce que ces visiteurs naviguent sans trop savoir ce qu’ils veulent, à l’inverse de ceux qui regardent juste quelques produits et catégories et sont plus susceptibles d’acheter rapidement