Logo de Keley Consulting
Menu burger à 3 traitsCroix blanche de fermeture du menu
EXPERTISE + LIBERTÉ
= OPINIONS
Filtrer

Le churn pour la startup Koober - E03

© Crédits photos –
Keley & Koober

Épisode 3 : Construction de variables et modèle de prédiction du churn  

Koober est une startup française proposant une application de lecture de livres au format condensé pour être lus ou écoutés en moins de 20 minutes, avec des abonnements annuels ou mensuels. La startup a confié à Keley-Data la mission d’augmenter la durée d’abonnement de ses clients, grâce à la prévention du churn (attrition).

Dans nos deux articles précédents, nous avons identifié deux comportements singuliers qui devaient être écartés pour permettre la prédiction du churn : les désengagés, résiliant, mais continuant à profiter des services sur leur durée d’abonnement, et les dormants, inactifs renouvelant néanmoins leur abonnement chaque mois tacitement. Une fois ces deux catégories de clients identifiées, nous pouvons nous concentrer sur l’objectif de la mission : prédire le churn d’un utilisateur.

Pour cela, toujours sur la base des clients ayant souscrit entre le 1er Octobre 2019 et le 1er  Août 2020, nous avons tout d’abord (1) réalisé une analyse exploratoire des variables potentiellement pertinentes pour notre modèle, à partir des historiques de connexions et de lectures de Koobs ; puis (2) appliqué un algorithme d’apprentissage automatique sur une sélection de variables issues de l’analyse précédente, permettant de prédire le risque de churn d’un utilisateur.

Analyse des connexions

Les études préliminaires sur les fluctuations du nombre de connexions en termes de jours de connexion, de jour du mois, d’heure n’ont pas révélé de comportements particuliers séparant churneurs et abonnés actifs. Pour cette raison, nous considérerons uniquement le nombre de connexions en jour, ou nombre de jours où l’utilisateur s’est connecté. Ce critère peut être décliné en « Nombre de connexions lors de la première semaine », et « Nombre de connexions lors de la dernière semaine (d’abonnement) ». Sur cette base, d’autres indicateurs ont été construits dont en particulier les suivants :

Nom de la variable Définition
Cx1erSemaine/TotalCx Rapport du nombre de connexions lors de la première semaine sur le nombre de connexions total
CxDerniereSemaine/TotalCx Rapport du nombre de connexions lors de la dernière semaine sur le nombre de connexions total
CxDerniereSemaine/Cx1erSemaine Rapport du nombre de connexions lors de la dernière semaine sur le nombre de connexions lors de la première
StabilitéCx Rapport entre l’écart-type du nombre de connexions sur le nombre de connexions moyen
DensitéActivité Rapport du nombre de semaines actives (nombre de connexions > 0) sur le nombre de semaines de la période active (Dernière semaine active – Première semaine active)

La stabilité de connexion (StabilitéCx) constitue un indice de dispersion des connexions par semaine : plus il est faible plus l’utilisateur a un rythme de connexion stable dans le temps. Il apparaît que les actifs peuvent avoir un rythme plus instable que les churneurs. Cela peut s’expliquer par une durée de vie plus longue.

Stabilité des connexions chez les actifs et les churners, Keley pour Koober

La densité d’activité (DensitéActivité) est le taux de semaines actives sur la période d’activité totale. Sur la figure ci-dessous, nous voyons la distribution de cette variable pour les abonnés actifs (1) et les churneurs (0) (en ayant écarté les utilisateurs connectés uniquement leur première semaine). Pour les churneurs, la médiane est supérieure à 75% contre 65% pour les actifs.

Cela signifie que les churneurs ont consommé de façon plus intense durant leur période d’activité.

Densité d'activité des abonnés, Keley pour Koober

Les historiques de connexions sont certes des données importantes pour la prédiction du churn, néanmoins, ils ne nous informent pas sur l’impact des contenus proposés par Koober, c’est-à-dire les koobs.

Analyse des lectures

Parallèlement aux données liées aux connexions, les données concernant les lectures des Koobs peuvent dégager des tendances sur les titres, les catégories ou les parcours, pouvant mener au churn, nous avons construit quelques variables d’intérêt, dont entre autres :

Nom de la variable Définition
nb_koobs Nombre de koobs lus (terminés ou non)
nb_koobs_ParPeriodeActive Moyenne du nombre de koobs lus par semaine, durant la période active (nombre de semaines entre première et dernière connexion)
nb_koobs_ParSemaineActive Moyenne du nombre de koobs lus par semaine, sur les semaines actives (nombre de semaines où l’utilisateur s’est connecté)
nb_categories Nombre de catégories lues (terminées ou non)
category_nom Catégorie lue (terminée ou non). Une variable est créée pour chaque catégorie : si l’utilisateur a lu un koob de cette catégorie, alors category_nom = 1, sinon 0
first_category_nom Première catégorie lue – Une variable est créée pour chaque catégorie : si la première lecture de l’utilisateur est dans cette catégorie, alors first_category_nom = 1, sinon 0
last_category_nom Dernière catégorie lue – Une variable est créée pour chaque catégorie : si la première lecture de l’utilisateur est dans cette catégorie, alors last_category_nom = 1, sinon 0

En observant les distributions des variables, nous constatons peu de différence statistique entre churneurs et actifs pour le nb_koobs_ParPeriodeActive. En revanche, pour le nb_koobs_ParSemaineActive, les utilisateurs actifs ont tendance à lire un peu plus de koobs par semaine que les churneurs, avec une médiane proche de 1 contre 0,6.

Koobs par périodes et par semaines, Keley pour Koober

À noter que nous avons supprimé de ces distributions les utilisateurs s’étant connectés pendant seulement une semaine, car ces derniers ne présentent pas d’intérêt dans le cadre de notre analyse et risque de biaiser le résultat.

Analyse des devices : iOS vs Android

Une dernière variable fournie par Koober a retenu notre attention : l’OS du device de l’utilisateur. Nous distinguons de manière marquée une différence de répartition entre Actifs / Churneurs selon que l’abonné soit sur iOS ou Android, la plateforme web Stripe restant très peu utilisée : le taux de churn chez les utilisateurs d’Android (53.3%) est largement plus élevé que celui des abonnés iOS (40.4%).

Abonnements par plateforme / device, keley pour Koober

Les variables pouvant caractériser le churn étant sélectionnées, nous pouvons désormais démarrer la phase de modélisation pour prédire le churn.

Le sujet vous intéresse ? Découvrez-en plus sur :

Un modèle robuste pour la prédiction du churn  

La base de données a été préalablement nettoyée des utilisateurs type « abonnés dormants » identifiés dans les deux premiers articles. Elle comprend les variables présentées précédemment dans l’article, ainsi que les variables liées à la récence introduites dans l’article consacré aux dormants.

Le dataset est ensuite entré comme données d’entraînement dans un algorithme de Machine Learning, avec « abonnement actif » (0 pour les churneurs, 1 pour les abonnés actifs) comme variable à prédire. Plusieurs algorithmes de Machine Learning ont été testés pour la prédiction, et notre choix s’est porté sur l’algorithme présentant à la fois la meilleure précision, et le meilleur rappel, c’est-à-dire capable de prédire qu’un utilisateur va churner sans trop prédire de “faux churneurs”, ni de “faux abonnés actifs”.

Les résultats obtenus par la méthode ensembliste XGBoost, donnent une exactitude de 91.89 % sur un échantillon test de données. À noter que c’est la première fois que ce modèle atteint ce niveau d’exactitude. Sur ce même échantillon, le modèle donne :

  • Une précision de 89.21 % : la précision représente la proportion des churneurs prédits correctement sur la totalité des profils prédits comme churneurs.
  • Un rappel de 97.67 % : le rappel représente la proportion des churneurs prédits correctement sur la totalité des vrais churneurs.

Nous avons donc construit un modèle extrêmement efficace (robuste) pour prédire le churn :

Réels churneurs Réels actifs
Prédits churneurs 96,41% 10,78%
Prédits actifs 3,59% 89,22%
100% 100%

Si nous nous intéressons à l’importance relative des variables pour la prédiction du modèle, les variables qui ressortent comme ayant le plus d’influence sur la distinction churneur / abonné actif sont :

  • La récence par durée d’abonnement ;
  • La récence absolue ;
  • La stabilité de connexion.

La variable la plus impactante liée au contenu proposé par Koober – le nombre de koobs lus par semaine d’activité – est seulement la 7e variable la plus importante dans la prédiction du churn. Cela indique qu’une prédiction efficace du churn peut se faire uniquement sur les informations de connexions des abonnés.

Impact des variables sur le churn, Keley pour Koober

Bien que l’importance des variables impactant le churn donne à Koober un ensemble d’indicateurs à suivre, il reste à déterminer comment Koober peut agir sur un utilisateur, afin de réduire son aptitude à churner. Pour ceci, il a à sa disposition :

[1] Une fonction analytique permettant d’évaluer la probabilité du churn, avec p(X) la probabilité de churn d’un utilisateur :

avec

X_1 = X_1erSemaineCx : nombre de connexions de la première semaine (en jour)

X_2 = X_StabilitéCx : indice de stabilité du rythme de connexion

X_3 = X_(Récence/DureeAbo): la valeur de la récence sur la durée d’abonnement

X_4 = X_(Cx1erSemaine/TotalCx) : connexions de la première semaine sur le total des connexions

X_5 = X_(CxDernièreSemaine/Cx1erSemaine) : connexions de la dernière semaine sur nombre de connexions de la première semaine

X_6 = X_DensitéActive : nombre de semaines actives sur nombre de semaines de la période active

X_7 = X_((nb_koobs)/SemaineActive) : nombre de Koobs lus par semaine active

X_8 = X_(Plateforme_Android ): 1 si plateforme Android (0 si non)

X_9 = X_(Plateforme_Ios ) : 1 si plateforme iOS (0 si non)

[2] un ensemble de règles caractérisant un potentiel churneur, un abonné non dormant peut être considéré comme potentiel churneur si :

RécenceParDuréeAbo < 0,33 Entre 0,33 et 0,645 > 0,645
Cx1ersemaine/TotalCx > 0,31 < 0,31
Stabilitécx < 0,78 > 0,78
Actifs Actifs Churneurs Churneurs Churneurs

La matrice de confusion associée à ces règles est :

Réels churneurs Réels actifs
Prédits churneurs 84,93% 17,99%
Prédits actifs 15,07% 82,01%
100% 100%

Conclusion

Au cours de ces 3 articles, consacrés à la prédiction du churn chez Koober, nous avons pu construire des variables pertinentes et alimenter des méthodes de machine learning pour créer des modèles pouvant identifier les potentiels dormants, et les potentiels churneurs parmi les clients actifs.

Le cadre de cette étude est très particulier pour les raisons suivantes :

  • Les churneurs gardent leurs droits pendant un mois après la résiliation de leur abonnement,
  • La disponibilité des données sur moins d’un an, ne permet pas l’analyse et l’exploitation de certaines propriétés des séries temporelles, comme la saisonnalité.
  • La situation sanitaire et notamment la période de confinement a certainement modifié le comportement des utilisateurs.

Néanmoins, le processus adopté dans le cadre de ce projet reste valide pour beaucoup de problèmes de churn. Ce processus s’articule autour des étapes suivantes :

  • Établir une analyse exploratoire visant à caractériser l’interaction du client avec le produit.
  • En confrontant les churneurs aux actifs, il s’agit d’identifier les comportements à explorer, de créer les variables qui les décrivent le mieux et de cerner le périmètre du problème.
  • Modéliser et prédire le churn en s’attachant à expliquer les causes du churn.

Le choix du modèle doit tenir compte des caractéristiques des données et du besoin du client. Certains modèles, bien que pertinents du fait de leurs capacités prédictives (modèles ensemblistes ou modèles basés sur l’apprentissage profond) peuvent être insuffisant pour comprendre les caractéristiques du churneur.

Cette série d'articles a été écrite avec la participation de Vincent Talbo, Imane Bouzid, Hatime Araki et les équipes Koober.

Oussama Raboun

Ingénieur en recherche chez Keley Data

Diplômé d’un Doctorat en informatique obtenu à l’Université Paris-Dauphine, d’un Master de recherche Paris-Dauphine et Mines ParisTech et d’un diplôme d’ingénieur en ingénierie mathématique, Oussama a rejoint Keley Data afin de construire de nouveaux modèles d'aide à la décision pour nos clients.

Partager cet article :

Vous avez un projet digital ? Nous pouvons vous aider à définir et concrétiser rapidement votre stratégie.

Contactez-nous
Filtrer

Inscrivez-vous à la newsletter Keley

Recevez tous les mois nos paroles d'experts et l'actualité du digital dans notre newsletter.

Merci ! Votre message a bien été envoyé.
Désolé ! Votre message n'a pu être envoyé.

La collecte des informations demandées est nécessaire au traitement de votre demande par Keley, unique entité habilitée au traitement. Elle vous permettra de recevoir chaque mois la newsletter Keley, mais aussi de recevoir en avant-première des invitations à nos événements et de donner votre avis lors d'enquêtes. Pour tout autre type de contact, votre consentement sera au préalable recueilli. Vous disposez d’un droit d’accès, de rectification, d’opposition et de suppression des données vous concernant. Pour l'exercer, merci de nous en faire la demande par email à  communication@keley-consulting.com.