- Foot & Maths
Mais comment le CIES prédit-il les résultats de la saison ?
Ça y est, la Ligue 2 a sonné la reprise officielle des compétitions en France ! Après quelques journées de Ligue 1, de Premier League, de Bundesliga, de Liga ou de Serie A, l'Observatoire du football CIES devrait donc encore présenter ses prédictions sur les vainqueurs des différents championnats. Mais comment la structure se débrouille-t-elle pour avoir (souvent) raison, et quels sont les secrets mathématiques cachés derrière tout ça ?
C’était il y a seulement quelques mois, même si cela paraît bien loin dans les esprits des amateurs de football à l’heure où les cinq grands championnats s’apprêtent à repartir pour un nouvel et énième exercice. En janvier 2019, l’Observatoire du football CIES présentait dans sa lettre hebdomadaire ses prédictions pour la deuxième partie de saison. Pour lui, les résultats finaux ne faisaient (quasiment) aucun doute : le Paris Saint-Germain, la Juventus et Barcelone, mais aussi Manchester City et le Bayern Munich (sept et six points derrière Liverpool et le Borussia Dortmund, à l’époque) seraient respectivement sacrés rois de leur pays au mois de mai. Bingo.
Pas une première pour la structure réputée pour ses capacités prédictives, qui avait également vu dans sa boule de cristal numérique que Monaco (alors devant le PSG, mais derrière Nice en janvier 2017) serait couronné et que Lille s’installerait sur le trône en 2011. C’est que l’Observatoire a mis en place un modèle statistique efficace, lui permettant d’établir le nombre de points que devrait obtenir chaque club lors de la seconde partie de la saison. Autrement dit, il sait mathématiquement quelle équipe a sur-performé et qui a sous-performé. Idéal, pour avancer un pronostic loin d’être hasardeux. Cet hiver, l’unité créée par la FIFA devrait donc encore une fois dire si le Bayern va conserver son titre, si l’Olympique lyonnais réussira à se qualifier en Ligue des champions ou si Sheffield United parviendra à se maintenir en Premier League
L’importance du passé… et des maths
L’année dernière, l’Observatoire n’avait pas caché les outils mesurés de sa réussite. À savoir trois familles de deux critères : performances défensives (nombre de buts concédés, nombre de tirs concédés depuis l’intérieur de la surface), performances offensives (nombre de buts inscrits, nombre de tirs déclenchés depuis l’intérieur de la surface), emprise sur le jeu (nombre de passes réussies, nombre de passes réussies dans le camp adverse). Sauf qu’une information a pu être reléguée au second plan : elle rappelle que ces critères sont observés sur la première moitié du championnat, mais aussi (et surtout ?) sur les cinq dernières saisons.
Pas une surprise pour Paul Sada, mathématicien spécialisé dans les algorithmes de prédiction liés au football : « Pour ce genre de prédictions à long terme, on se base généralement davantage sur les saisons précédentes. On compare également les débuts de saison de chaque année. » Aussi à l’aise dans le milieu des chiffres footballistiques que Cristiano Ronaldo devant une cage, l’expert continue : « En fait, on utilise beaucoup de déclinaisons de la loi de Poisson (loi de probabilité qui décrit le comportement du nombre d’événements se produisant dans un intervalle de temps fixé, N.D.L.R.)qui est aussi utilisée pour les présidentielles. En fonction des événements passés, on arrive à prédire ce qu’il va se passer. »
Le cerveau informatique
Alors concrètement, comment ça fonctionne ? D’abord, le moindre petit critère est testé afin de juger son importance manifeste sur le résultat d’un match. Si le nombre de passes réussies de Lionel Messi pour Ousmane Dembélé dans le camp adverse est statistiquement davantage lié à la victoire que le nombre de corners frappés directement par Ivan Rakitić, le critère « nombre de passes réussies de Lionel Messi pour Ousmane Dembélé dans le camp adverse » aura plus d’influence dans l’équation algorithmique créée à la fin… Même si globalement, les critères étudiés et soumis à la loi de Poisson sont un poil moins précis.
« On n’a pas besoin de 36 cerveaux pour choisir les bons critères et leur donner de l’importance, il faut simplement des machines permettant de les tester, reprend Paul Sada, lui-même créateur d’un impressionnant système d’algorithme appelé L’Algo de Paulo et ayant également trouvé les champions 2019 en début d’année. En gros, on prend chaque critère accompagné de toutes leurs données obtenues sur un maximum d’événements passés et on les passe à la moulinette informatique. Tu fais d’abord tourner l’algorithme sur le nombre de tirs, puis sur le nombre de cartons reçus, puis sur l’état de la pelouse… Tu en ajoutes, tu en ressors… Et tu vois quels paramètres ont été les plus importants, puis tu les appliques pour les compétitions à venir. Avec ça, tu peux découvrir en chiffres qu’un tir dans la surface n’a pas la même importance qu’un tir en dehors. On traite donc les données séparément, et on les assemble après. Sans surprise, les critères les plus importants sont très logiquement les buts encaissés et marqués, en différenciant le domicile-extérieur. »
Très chères données
Les données de base de chaque critère, hyper précises et réclamées par de nombreux clubs de foot, sont vendues par des entreprises spécialisées (celles utilisées par l’Observatoire proviennent par exemple de l’InStat) et peuvent mettre des chiffres sur n’importe quoi. Mouvements d’un joueur dans le premier quart d’heure, kilomètres parcourus dans le dernier, tacles subis dans le rond central… Calculer le nombre de fois où Karim Benzema se gratte le crâne ou la fréquence de lever de sourcil de Carlo Ancelotti serait même possible, si cela était demandé. Pas pour rien que l’abonnement à l’offre de ces entreprises peut monter jusqu’à 1500 euros par mois.
Reste que ces données ne semblent pas fructueuses pour les compétitions internationales, sur lesquelles les prédictions se pètent régulièrement les dents. Pour la Coupe du monde 2018, des banques s’étaient prises au jeu, mais quasiment aucun algorithme n’avait réussi à faire de la France le lauréat de la planète. Pas même celui de l’Observatoire, qui avait placé les Tricolores en troisième position derrière l’Espagne et le Brésil. « C’est plutôt compréhensible, pose le mathématicien. Ce sont des tournois à court terme qui n’ont lieu que tous les quatre ans, avec des joueurs qui n’ont pas l’habitude d’évoluer ensemble et des sélections qui ont disputé des matchs de qualifications ou amicaux contre des adversaires souvent bien plus faibles que ceux qu’ils vont rencontrer – malgré l’augmentation du nombre d’équipes au Mondial ou à l’Euro. Sur deux ans, les effectifs changent aussi énormément… Donc les données sont un peu pourries, voire carrément instables. »
Se tromper, c’est être en vie
Un mal pour un bien ? Peut-être bien. « Paradoxalement, c’est cool de se tromper quelques fois. Sinon, ce ne serait pas drôle et ça déshumaniserait le foot !, sourit Paul Sada. De manière plus large, aucune machine ne peut heureusement lutter contre certains critères. Comme ceux que tout le monde ignore et qui affectent l’aspect émotionnel des joueurs, ou qui ne sont pas mesurables. » Effectivement, même en se transformant en petite souris pour tout connaître du vestiaire, difficile d’appliquer un chiffre ou un pourcentage à un algorithme pour poser l’influence d’une embrouille John Terry-Wayne Bridge ou d’une aventure Estelle Denis-Ludovic Giuly.
« Ronaldinho qui appelle ses partenaires du Barça en pleine nuit en leur faisant croire qu’il part au Real Madrid juste avant un Clásico et qui leur demande de ne rien dire, le tout avant de leur dévoiler le mensonge dans le vestiaire juste pour tester et booster la cohésion d’équipe, ça n’a pas de prix, conclut le créateur d’algorithme.Et ça ne s’intègre dans aucune formule mathématique. » Tant que les robots ne sont que d’un côté…
Par Florian Cadu
Propos de PS recueillis par FC