Google Attribution, tiers de confiance … ou pas !
Ouvrons le capot du modèle algorithmique de Google Attribution
En mai 2017, à la conférence Google Marketing Next à San Francisco, Google annonçait la sortie de son outil d’attribution : Google Attribution, une version gratuite et dégradée de son outil payant Google Attribution 360. Les dirigeants y ont présenté leur version beta à grands coups de « data driven », de « machine learning » et de « smart solution ».
Pour creuser son sillon dans les outils d’analyse de la performance publicitaire, Google Attribution propose de mesurer la contribution de chaque levier marketing (display, SEO, affiliation) à chaque conversion enregistrée sur un site Web.
Jusqu’ici Google Analytics proposait, par défaut, une allocation au dernier clic indirect et des modèles d’attribution simples. Or, les sources de trafic et leschemins de conversion sont si nombreux qu’attribuer tout le mérite au dernier clic est obsolète tout comme le sont les modèles simplistes. (Pour vous en convaincre, je vous invite à lire mon billet Repenser le marketing de l’attribution).
On pourrait se réjouir que Google aille vers une répartition plus juste des contributions de chaque canal à la conversion, mais est-ce vraiment le cas ?
Google est à la fois juge et partie. La vente de publicité continue à générer l’extrême majorité de ses revenus. Aussi peut-on se poser la question de la pertinence de ses services d’analyse des publicités. Mais non, aucune question n’a été posée. L’argument choc du « Data Driven » des équipes Google a éliminé tout débat sur son fonctionnement.
Je vous propose d’ouvrir le capot.
Google Attribution est dit data driven, soit, mais driven par quelles données ?
A priori, toutes. Officiellement, Google Attribution ne fait pas de discrimination. Il incorpore aussi bien les données issues de ses propres solutions publicitaires (Adwords, Youtube, Display Network et DoubleClick), que celles des autres, hors de l’univers Google.
Mais, dans les faits, Google Attribution ne traite pas les données sur un pied d’égalité. Les données Google sont mises en place sans délai grâce à leur intégration native avec Google Analytics, Adwords, DoubleClick etc. Les données d’impression, de coûts, de comportement post clic sont actualisées automatiquement, plusieurs fois par jour. Pas d’efforts à faire donc, tout sera là et disponible en temps et en heure.
Celles des tiers, en revanche, sont plus fastidieuses à rapatrier. Les données des campagnes dépendent du marquage en place, les données de coûts ou d’impression doivent être importées. Cela demande des efforts d’intégration et une maintenance manuelle coûteuse. Pourtant, connecter des api n’est pas si compliqué. Si Google voulait réellement brancher les données externes aussi proprement que les siennes, il le ferait.
Ajoutons à ceci le fait que Google Attribution ne prend que les cinq derniers canaux exposés. J’ai déjà expliqué dans un post précédent que les canaux Google étaient surreprésentés dans les marketing mix du fait de leur domination dans le Search Marketing (SEO et SEM). Ajoutez à ceci que le Search est plutôt un comportement de bas de funnel – pour le SEO tout au moins – et vous aurez très probablement cinq canaux à forte prédominance Google.
Tout marketeur féru d’Analytics connaît cet adage : « la data absente a toujours tort ».
Résultat : vous avez un prestataire, Google, qui mouline des données «made by Google», très bien présentées sur des tableaux de bords soignés « à la Google » : l’offre est bien packagée et donne une impression de fiabilité. Les résultats d’analyse de Google Attribution sont synthétisés et agrégés dans de beaux rapports que l’on prend tels quels, sans remise en question, ravis que nous sommes d’avoir une explication simple dans tout le chaos de l’advertising digital.
Rajoutez à cela l’effet magique qu’exerce la marque Google sur les esprits – après tout, ne sont-ce pas les meilleurs spécialistes du web ? – et le tour de passe-passe est réussi.
La connexion native à l’univers Google est bel et bien un parti pris.
Je vous invite maintenant à réfléchir avec moi à la méthode d’attribution de Google. Comment marche-t-elle ? Est-elle pertinente ?
Le modèle de la valeur de Shapley de Google Attribution
Petit rappel. L’attribution repose sur un algorithme (le modèle d’attribution) qui décortique les chaînes de conversion pour indiquer l’influence de chacun des leviers dans une chaine de conversion.
L’algorithme « Data Driven » de Google Attribution repose sur un modèle mathématique appelé « valeur de Shapley ». Il est issu des travaux de Lloyd Shapley, un mathématicien américain prix Nobel qui travailla notamment sur la théorie des jeux.
La valeur de Shapley permet de calculer et de proposer une répartition équitable des gains d’une coalition de n joueurs dans un jeu.
Pour faire simple, quand plusieurs joueurs décident de coopérer pour maximiser leurs gains (on parle de coalition), on observe l’apport individuel – ou contribution marginale – de chaque joueur dans la coalition en fonction du moment où il est entré dans le jeu (car la valeur marginale d’un joueur peut être différente selon qu’il soit entré en première position, en seconde etc.).
La valeur de Shapley pour un joueur est la moyenne des contributions marginales qu’il a apportées au sein de la coalition.
Cette théorie a de nombreuses applications en économie. On l’a utilisée pour répartir les coûts de construction des pistes d’atterrissage d’un aéroport entre les différentes compagnies aériennes, pour répartir les coûts des appels téléphoniques longue distance entre des opérateurs téléphoniques. Et maintenant pour une application dans le marketing digital.
Quel que soit le domaine d’application, tous ces calculs reposent sur deux postulats :
(1) la coopération des acteurs
(2) le calcul de la contribution marginale de chaque acteur
Deux postulats non vérifiés pour Google Attribution. Je vous le démontre.
Dans l’hypothèse de Shapley, on suppose qu’un ensemble de joueurs collaborent au sein d’une coalition dans l’objectif de maximiser leurs gains. Pour transposer cela à l’attribution marketing, les joueurs sont les entrées sur un site : pub digitales, liens SEO ou sociaux, accès directs etc
Premier postulat: la coopération
Les travaux de Shapley sont basés sur la théorie des jeux coopératifs, tout ou partie des acteurs d’un ensemble coopèrent pour en retirer un bénéfice en terme de gain ou d’économie.
Les canaux marketing répondent-ils à ce postulat de base ?
C’est assez difficile à croire. Le SEO coopérerait avec l’affiliation ? A la limite, on peut dire que puisqu’ils émanent du même annonceur ils œuvrent, ensemble, vers les objectifs de cet annonceur.
Admettons, donc, que les canaux collaborent. Mais les utilisateurs n’en ont cure. Ils ne décident pas en fonction de tel ou tel canal, mais réagissent à la publicité ou bien tapent les mots clés qu’ils souhaitent. Le marketeur met en place des stratégies pour attirer les utilisateurs sur ses dispositifs digitaux. Mais dans les canaux pull (1) (SEA, SEO, Social Organique), c’est l’utilisateur qui décide, individuellement, de ses actions.
Même si le doute est permis quant aux canaux marketing, les utilisateurs ne coopèrent certainement pas pour maximiser le profit d’un annonceur. Pas de cause commune donc. Un des postulats de base de la valeur de Shapley est remis en cause.
Deuxième postulat: la valeur marginale
La valeur de Shapley d’un joueur est la moyenne de ses contributions marginales au sein d’une coalition. En marketing digital, admettons qu’une coalition soit une chaine de conversion ayant mené à un achat.
Pour déterminer la valeur de Shapley, il faut déjà calculer la valeur marginale d’un élément (le joueur) dans chaque permutation, puis, en faire la moyenne.
Exemple.
Admettons qu’on ait uniquement 2 joueurs A et B et qu’on ait les résultats suivants :
- Joueur A seul = 200 €
- Joueur B seul = 100 €
- Puis 2 permutations :
- A puis B = 250 €
- B puis A = 100 €
La valeur marginale de A dans le coalition A-B est de 0 € (A n’a rien apporté de plus).
La valeur marginale de B dans la coalition A-B est de 50 € (B a apporté 50 € de plus que A tout seul).
La valeur de Shapley de A serait ShA = (200+0)/2 = 100
La valeur de Shapley de B serait ShB = (100+50)/2 = 75
(ndla : petite entorse à Shapley où un joueur est unique, dans le cas du marketing digital, on peut avoir répétition des pubs A-A-B ou A-B-A ou A-A-B-B etc. … c’est facilement visible quand on regarde les données brutes en détail)
Avec 3 joueurs (A, B C), plus de coalitions et de permutations sont possibles :
- Joueur A seul
- Joueur B seul
- Joueur C seul
- Coalition A-B
- A puis B
- B puis A
- (idem pour les coalitions A-C et B-C)
- Coalition A-B-C
- A puis B puis C
- A puis C puis B
- B puis A puis C
Le nombre de coalitions possibles dans un jeu N joueurs est de (2N -1) et dans chaque coalition, il faut calculer toutes les permutations pour déterminer la valeur marginale.
Un rapide calcul donne :
- 5 joueurs = 31 coalitions
- 10 joueurs = 1 023 coalitions
- 20 joueurs = 1 048 575 coalitions
- 50 joueurs = 1 125 899 906 842 619 coalitions
Revenons au marketing digital : avec deux ou trois ou même dix canaux, pas de soucis, en général le trafic des sites est tel qu’on peut tester plein de cas pour déterminer la valeur incrémentale d’une publicité.
Mais, je le répète, un visiteur ne voit pas un canal, il voit une pub. Quand une marque achète sur Adwords des mots clés liés au nom de produits combinés avec le nom de la marque, ou avec le nom de la catégorie du produit, plein de combinaisons sont possibles. Un produit, plein de publicités potentielles. C’est exponentiel. Il y a vite 1 000, 10 000, voire 100 000 mots clés possibles…
Si on regarde le tableau ci-dessus, avec 50 publicités, on a déjà un million de milliards de coalitions possibles, je vous laiss imaginer avec 1 000 publicités.
Quelle est la conséquence de tout ceci ?
- Si une publicité est absente d’une coalition où elle pourrait figurer, sa valeur marginale est nulle ;
- Donc moins une publicité est présente en nombre, plus elle a de chance d’avoir des valeurs marginales nulles ;
- Comme la valeur de Shapley est la moyenne des valeurs marginales de ladite pub, moins la pub est présente, plus sa valeur de Shapley baisse ;
- Le corollaire est vrai, plus un canal est présent dans les coalitions, plus ses valeurs marginales ont de chances d’être positives (vs le canal absent) et plus sa valeur de Shapley montera.
Or, à votre avis, quels sont les canaux digitaux les plus présents dans les marketing mix des annonceurs ?
Google, avec tous ses canaux: SEO, SEA , Google Shopping, Youtube etc.
Il est clair qu’un algorithme d’attribution basé sur Shapley favorisera les canaux les plus actifs et renforcera la perception que les canaux Google sont les plus performants.
Google Attribution est en résonance avec ce que j’avais écrit dans un précédent post sur les effets de l’attribution au last clic indirect de Google Analytics (cf Comment Google Analytics divise par 3 votre trafic direct au profit de vos canaux payants ?). Les résultats sont biaisés parce que le choix de la méthodologie ou de l’algorithme est biaisé dans l’objectif de favoriser les canaux de l’éditeur de la solution.
Tout ceci nous incite à revenir aux bon vieux fondamentaux : un bon marketing d’attribution dépend de la capacité d’un algorithme à analyser et comprendre les intentions des utilisateurs. A cet égard, Google Attribution est aussi en version beta.
(1) En marketing digital, on oppose les canaux push, comme le display ou l’email, qui sollicitent directement le client, aux canaux pull, qui ne se déclenchent que sur action positive de l’utilisateur (une recherche sur un moteur par exemple, ou la lecture de contenus sociaux)