David Solito analyse 4 ans de données d’audience CIM et nous parle de sa passion pour le data mining

Publié le 20/01/2019

Depuis quelques jours, vous avez certainement vu ces infographies circuler sur Linkedin, diffusées par David Solito, cofondateur et CDO de l’agence VOUS.  Elles ont retenues notre attention parce qu’elles traitent les données d’audiences CIM concernant les plus importants sites web luxembourgeois. Et nous, les audiences média, chez adada, ça nous intéresse beaucoup. Du coup, on est allé poser quelques questions à David.

« Le langage R est largement utilisé par les statisticiens, les data miners et data scientist partout à travers le monde, mais on doit être 3 ou 4 au Luxembourg! »

On vient de découvrir ton blog et ta passion pour le langage R. Peux-tu nous en dire plus?

Je dirais plutôt la passion pour le data mining et ce qui touche de près à la Data Science. Le langage R n’est pas tout jeune, c’est un projet qui est né en 1993. La première version officielle est publiée le 29 avril 2000. Il s’agit d’un langage destiné aux statistiques et aux sciences des données. Il est largement utilisé par les statisticiens, les data miners et data scientist partout à travers le monde, mais on doit être 3 ou 4 au Luxembourg! Il y a une forte communauté très active autour de ce langage. Un nombre impressionnant de «packages», en quelque sorte des add-ons, disponibles dans un périmètre large de domaines: Économétrie, Inférence statistique, Naturel Language Processing, Machine Learning… pour donner une petite idée, Facebook et l’équipe de Yann Le Cun (un des pères du Deep Learning) mettent à disposition en open source un certain nombre de packages  par ex.  Prophet pour Python et R, un algorithme prédictif pour les « times series » soit des valeurs évoluant dans le temps. D’autres framework de deep learning comme PyTorch (développé par FB) et Tensorflow (Google) pour Python se voient adaptés pour R.

« Les données relatives au Luxembourg ne sont pas très nombreuses même si un effort est fait par le gouvernement via le programme Digital Lëtzebuerg et le portail Open Data. »

Du coup, tu as décidé d’analyser les audiences des sites luxembourgeois sur base des données CIM des 5 dernières années ?

Dans ce domaine, l’or noir est la Data. D’ailleurs un certain nombre de «packs» de données très connus des statisticiens sont disponibles pour l’étude du langage R et des statistiques. Les données relatives au Luxembourg ne sont pas très nombreuses même si un effort est fait par le gouvernement en mettant à disposition des données via le programme Digital Lëtzebuerg et le portail Open Data. Malheureusement il n’existe quasi rien de public pour le secteur marcom. Les résultats complets des enquêtes TNS Ilres Plurimedia ou le Ad’Report mené par Espace Pub et Nielsen ne sont pas disponibles au grand public, et si oui comme le CIM, alors via du Web Scraping. Je me suis donc concentré sur le rapport du CIM qui pour une raison que j’ignore n’édite pas de visualisation (graphiques) de leurs mesures.

Personne n’avait fait ce genre d’analyse avant toi?

À ma connaissance, non. Je n’ai pas vu circuler des graphiques cumulant les audiences journalières des principaux sites luxembourgeois. Nous avons bien l’évaluation de la pénétration de ces médias, mais je n’avais pas encore vu de graphique comparant certains médias ensemble dans les catégories définies par le CIM. Si vous allez sur le CIM, vous trouverez les données, mais comme je l’explique dans mon post, certaines valeurs sont triplées voir quadruplées certains jours. Il y aussi des cumuls du mois répertorié comme journaliers, il a donc fallu nettoyer et créer aussi de nouvelles données comme l’identification des jours de la semaine et les pages vues par sessions qui témoignent d’une certaine quantification de l’engagement (attention pas de qualification, l’engagement peut-être positif ou négatif) avec le média.

Tu as découvert des choses intéressantes?

Tout à fait, par exemple les jours avec le plus d’activité par média et l’évolution sur les années. L’absence des Frontaliers, l’explosion de Delano en terme d’évolution de pages vues et la diminution d’audience pour le Tageblatt, Luxweb et Le Jeudi. On peut voir aussi que les applications d’AtHome perdent aussi au profit du site sans doute. Les Heatmaps montrent l’activité sur 2018. Pour RTL, Wort, Delano, on voit clairement le pic pour les résultats des élections en octobre. Ce qui n’est pas le cas pour L’Essentiel. On voit aussi que la zone de chaleur pour Editus, se situe en semaine contrairement à Luxweb, aussi les saisonnalités pour l’immobilier. Point amusant, le carré très foncé montre le down de Luxauto le 18 novembre 2018. Un pixel mort, quoi 🙂
Mais toutes ces mesures n’ont que la valeur qu’on leur donne. Il est difficile d’évaluer la causalité et l’impact business que cela représente pour chacun de ces medias mais nous savons tous que ceux-ci vivent de la publicité (et certains de l’aide de l’état) et donc ont besoin, certes d’une audience qualifiée, mais aussi d’un volume d’impressions pour vendre leurs espaces.

« Depuis quelques années déjà la data est au centre de nos discussions à l’agence. »

Est-ce qu’à terme, l’idée est de « commercialiser » ces analyses aux acteurs du secteur marcom, ou de rajouter une corde à l’arc de l’agence VOUS?

Depuis quelques années déjà la data est au centre de nos discussions à l’agence. L’équipe digitale a renforcé son expertise DBI (Digital Business Intelligence) par des formations certifiantes et beaucoup de pratique. Web Analytics, Social Analytics, Programmatique vorace en data… Nous élevons encore le niveau en y ajoutant maintenant une expertise Data Science. Grâce à cette palette étendue, nous pouvons mieux répondre aux problématiques clients et leur business. Cela se concrétise en Stratégie d’acquisition, d’expérimentation et de distribution des données traitées sous forme d’applications regroupant un certain nombre de KPI déterminants. Par exemple, évaluer le risque d’attrition avec des modèles de Machine Learning custom. À ce propos, je rendrai bientôt disponible une application avec l’ensemble des données CIM pour permettre au secteur de faire ses propres recoupements et comparaison avec une prédiction sur l’année à venir…

« On travaille actuellement sur les données de l’ensemble des campagnes digitales pour en tirer des insights par secteur. »

La prochaine analyse, ce sera quoi?

D’après mon psy, c’est foutu! Plus sérieusement, on travaille actuellement sur les données de l’ensemble des campagnes digitales (cela en fait beaucoup) pour en tirer des insights par secteur (CTR, CPA, CR…) et les partager en interne et à nos clients. Personnellement, je travaille sur un projet pour le secteur automobile au Luxembourg.

Si le sujet vous intéresse, visitez le blog davidsolito.com