Les statistiques avancées : pourquoi est-ce un sujet si délicat?

Les statistiques avancées sont un sujet délicat depuis un certain temps dans la communauté des sportifs de salon montréalais. En fait, elles le sont particulièrement depuis la transaction Weber-Subban. Comme vous, je lis des tas d'analyses, de commentaires, de reportages sur le hockey et il est clair que les statistiques avancées polarisent les opinions.

L'objet du texte qui suit n'est pas de dire si les statistiques avancées sont l'invention la plus révolutionnaire qui soit ou si, au contraire, elles ne sont qu'une lubie pour certains illuminés. En fait, chaque fois que je lis un tweet où il est question de POD ou de Corsi, je suis toujours interpellé. J'adore les statistiques depuis que je suis très jeune. J'ai même oeuvré quelques temps comme statisticien au sein d'une chaîne de télévision sportive. Compiler des données, les comparer, les analyser et leur trouver un sens, c'est ça la statistique. Et pour certains, c'est une passion. Pour d'autres, c'est la Vérité. Et c'est là que ma réflexion commence.

Lorsqu'on me lance des données statistiques et qu'avec elles, on me dit que ma perception n'est pas la réalité, je me pose des questions. Est-ce que je comprends mal ce qu'on m'explique? Est-ce que je suis berné par la façon dont j'ai toujours regardé le sport que j'aime? Est-ce que je suis naïf? Est-ce que j'ai simplement tort? Aucune de ces réponses?

Alors voici où j'en suis dans ma démarche philosophique. Bien entendu, ça vaut ce que ça vaut et j'espère simplement susciter encore plus de réflexion de votre part et que vous partagerez avec nous vos propres idées sur le sujet.

1- Les données

Pour qu'on puisse avoir des statistiques, il faut absolument qu'une cueillette de données soit effectuée selon une méthode prédéterminée. Ainsi, par exemple, on a établi les règles qui établissent ce qu'est un but, un tir au but, une aide, un arrêt, une mise en échec, etc. Ainsi, il suffit d'observer un match pour compiler les données relatives à ces événements.

Mais déjà, il y a place à l'interprétation sur certains de ces événements, donc sur les données qu'on en retire. Si un but est une évidence assez claire, il n'en est pas nécessairement de même pour un tir au but et encore moins pour une mise en échec. Sachant cela, on peut mettre en doute la validité des données recueillies selon qu'elles le soient par une personne ou une autre, dans un endroit ou un autre. Rien de bien grave, mais ça demeure un élément à considérer.

2- L'analyse et le traitement

L'analyse des données sert à traiter un grand nombre d'informations et à en dégager ce qui est le plus intéressant. On y arrive notamment grâce à des graphiques qui mettent en évidence des relations qu'on arrive difficilement à cerner par une analyse plus directe. En traitant ainsi l'information, on arrive à échapper aux idées préconçues que l'on peut avoir sur notre sujet. C'est d'ailleurs là que les statistiques sont devenues « avancées ».

Auparavant, on additionnait des chiffres et on obtenait des informations sur un sujet que l'on pouvait comparer aux mêmes informations recueillies lors d'un autre événement similaire. Deux matchs de hockey par exemple. Toutefois, le traitement d'un plus grand nombre d'informations recueillies lors des matchs a permis de mettre en lumière des éléments qui échappaient autrefois à l'analyse qu'on appelle « directe ». Les sorties de zone en possession de la rondelle, les mises en jeu en zone défensive, l'identité de l'adversaire, etc.

Les gens qui ont pensé à toutes les données à utiliser et qui ont conçu les logiciels qui en tirent des informations sont des cerveaux de haut niveau. J'ai un très grand respect pour ce qu'ils font. L'information qu'ils ont ajouté aux réflexions des décideurs a apporté suffisamment pour faire en sorte que dorénavant chaque équipe DOIT avoir un spécialiste de ces statistiques. C'est la preuve la plus tangible de la crédibilité qu'il faut accorder aux statistiques avancées. Les écarter du revers de la main n'est pas seulement une erreur, c'est stupide.

3- L'interprétation et la présentation

L'information qu'on retire du traitement des données n'a pas de réelle signification si on ne lui donne pas une interprétation. C'est-à-dire que pour donner une valeur aux données recueillies et traitées, il faut expliquer les corrélations qu'on a observées, il faut en tirer des modèles qu'on pourrait reproduire et qui permettront de prévoir des réactions si les mêmes données recueillies dans les mêmes conditions étaient à nouveau réunies. Ces interprétations permettent de soulever des hypothèses.

Ce sont ces hypothèses qui semblent être complètement éludées du discours tenu par ceux qu'on appelle amicalement les « gourous des statistiques avancées ». En fait, trop souvent on lit les interprétations faites par les experts comme des vérités absolues. Il est là le danger. Pas que les statistiques soient nécessairement fausses ou trompeuses, mais simplement qu'en les présentant de la sorte, les gourous prennent pour acquis qu'il ne peut y exister d'anomalies dans leurs résultats. Et c'est là que leur crédibilité est attaquée. Et c'est aussi là que la guerre commence entre les « Old school » et les scientifiques du sport.

4- La marge d'erreur

Toutes les statistiques sont présentées selon une méthodologie qui a une influence sur la marge d'erreur. Cette marge d'erreur est ce pourcentage de fiabilité des résultats qu'on présente. Ça ne vaut pas seulement pour les sondages soit dit en passant. Les statisticiens ont-ils oublié d'inclure cet aspect dans leurs évaluations? Je ne crois pas. Les vrais scientifiques connaissent très bien cet élément. Mais alors pourquoi n'en parlent-ils pas?

Mes conclusions

Je pense que les statisticiens auraient avantage à se présenter comme des gens qui détiennent des informations nouvelles, dignes d'intérêt, mais perfectibles. Contrairement à ce qu'ils pensent peut-être, ça ne leur enlèverait aucune crédibilité que de dire qu'ils continuent de pousser leurs recherches et qu'ils tentent de rendre leur science la plus exacte possible.

J'ai écrit plus haut pourquoi je vouais un grand intérêt et un grand respect aux statistiques avancées, mais ça ne m'empêche pas de les questionner. Je peux à peine imaginer la quantité phénoménale de boulot qu'un gars comme Andrew Berkshire a dû abattre pour créer ses top 20 des meilleurs joueurs de la LNH aux différentes positions. D'ailleurs, pour ceux qui ne les ont pas lu, on peut les retrouver ici.

Il n'en reste pas moins que l'on peut et que l'on doit questionner le choix des données qu'il a privilégiées ainsi que la pondération qu'il a accordée à chacune pour établir les cotes offensives et défensives des joueurs. Ça ne signifie pas que sa méthode soit erronée, simplement qu'on peut l'améliorer. Et malgré tout, est-ce que ses classements auraient été très différents? Probablement pas, mais est-ce qu'on aurait là une explication pour justifier la 8e position d'un joueur comme Brian Campbell devant des gars comme Duncan Keith, Oliver Ekman-Larsson ou… Shea Weber?

Je prends ces listes, mais j'aurais pu prendre un tas d'autres exemples. J'ai sciemment choisi les conclusions de Berkshire parce que le personnage est controversé, que ses listes ont fait beaucoup jaser et qu'il est un des statisticiens les plus en vu ayant des tribunes sur des médias importants comme Sportsnet et RDS.ca.

Le travail de Berkshire a ceci d'avantageux sur n'importe quelle liste du même genre qu'on a pu voir au fil des ans, elle se base sur des données factuelles et traitées de manière égale par un logiciel. Ainsi, le classement qui en ressort n'est basé sur aucune réputation ou idée préconçue.

Par contre, je n'achète pas l'idée que ce qui nous étonne ne peut pas être une anomalie. Brian Campbell n'est pas parmi le top 10 des meilleurs défenseurs de la LNH. Mais pourquoi se retrouve-t-il là dans ce cas? Je serais porté à vous dire qu'il fait partie de la marge d'erreur. Par contre, le gourou des stats avancées, lui, ira voir son directeur général et lui dira que ce gars-là est assurément un atout à avoir dans son équipe pour gagner la coupe Stanley. Et le plus beau là-dedans, c'est qu'il a peut-être raison. Mais je ne le vois pas ainsi.

Je pense que le problème principal des statistiques avancées au hockey c'est qu'en cherchant à isoler chaque joueur, on perd l'essence du jeu qui est fondamentalement collectif. On oublie d'évaluer la capacité d'adaptation d'un individu à un nouvel environnement. Ainsi, un joueur qui évolue très bien au sein d'un groupe peut devenir insignifiant avec un autre. Pourtant les données peuvent démontrer que ce joueur est celui qui rend les autres meilleurs, mais comment se fait-il qu'il n'y arrive pas ailleurs ou l'inverse? On ne prend pas assez en considération le système dans lequel le joueur évolue ou le rôle qu'on lui demande de jouer.

Par exemple, PK avait des statistiques individuelles, avancées ou non, de très haut niveau que son équipe gagne ou pas. Pourtant, c'est de notoriété publique qu'il faisait à sa tête et ne jouait pas selon les demandes de son entraîneur. Quel impact réel un joueur a-t-il sur les résultats collectifs si ses résultats individuels ne sont jamais affectés par les résultats globaux de son équipe?

Enfin, j'ai appris d'un professeur à l'université que lorsque la personne à qui je m'adresse ne comprend pas ce que je lui dis, ce n'est pas elle qui est trop idiote, mais moi qui ai échoué. Alors, svp, si j'ai mal compris l'essence des statistiques avancées, que quelqu'un se lève et me les rende plus intelligible.

En rafale

– Des nouvelles du party d'Halloween des Canadiens.

#Habs Halloween party, courtesy @AGally94 pic.twitter.com/HejIUrXgGd

— HabsLinks (@HabsLinks) October 30, 2016

– Certains arbitres en beurrent épais.

Les arbitres aiment ça être dramatique! #LOL VOYEZ les 15 secondes de gloire de l'officiel : https://t.co/9FrHal7QyN pic.twitter.com/89kbF6eFQA

— TVA Sports (@TVASports) October 30, 2016

– Est-ce que la faillite de la compagnie mère de Bauer entraînera des pertes d'argent importantes chez certains joueurs?

New from @rwesthead: Will the bankruptcy of Bauer Hockey's parent company end endorsement deals for top NHL stars? https://t.co/oGeAEJsE64 pic.twitter.com/SbeAu1Axu1

— SportsCentre (@SportsCentre) October 30, 2016

– C'est reparti pour les concours entre les joueurs du CH pour renflouer les réseaux sociaux du CH.

.@shawz15er et @RADUL22 visent la victoire dans le Duel.
VOIR -> https://t.co/NeSsMJ1cy9 pic.twitter.com/knz0wm7lLb

— Canadiens Montréal (@CanadiensMTL) October 31, 2016

– La Série mondiale se terminera-t-elle ce soir au Wrigley Field devant les fans de Chicago? Ce serait vraiment cruel.

Will this be the final MLB game of the season? Follow Game 5 of the #WorldSeries here: https://t.co/wvX2Lihlqt @SamsungCanada pic.twitter.com/gBI6czAzR6

— Sportsnet (@Sportsnet) October 31, 2016