Les sondages privés d'intervalle de confiance
TRIBUNE - Un sondage consiste à prélever un échantillon pour évaluer une population. Les sondages sont utilisés un peu partout. Même le cuisinier goûtant une pâte effectue un sondage dans sa casserole de nouilles. Mais bien entendu, ce sont les sondages d'opinion dont les médias parlent le plus et particulièrement ceux qui intéressent la vie politique.
Ils ont pris une telle importance que la loi française est venue les encadrer. L'article 6 de la loi du 24 avril 2016 fixe les nouvelles conditions des mentions obligatoires lors de leur publication et l'alinéa 7 précise :
« 7° Les marges d'erreur des résultats publiés ou diffusés, le cas échéant par référence à la méthode aléatoire ; »
Figure 1 : Ce sondage affiche une marge possible entre 0,2 et 0,9 %. Nous n'avons pas trouvé le détail du calcul. Il aurait sans doute fallu le leur demander.
Le grand public est maintenant familiarisé avec les nombreuses critiques adressées à ces sondages : publications partisanes (et donc trompeuses), difficulté de tirer des personnes au hasard (ce qui est de plus en plus remplacé par la méthode des quotas), etc... Avec une méfiance particulière vis-à-vis des personnes sondées elles-mêmes qui pourraient mentir pour ne pas avoir à divulguer leur vrai choix. Ainsi, en France, le vote pour le Rassemblement national est largement sous-estimé.
Mais en dehors de ces critiques, il en faudrait une autre, celle du traitement mathématique.
Les résultats des sondages sont expliqués de cette manière :
« Si pour un échantillon (sous-échantillon) de 1 000 personnes, le candidat reçoit 40 % (ou 60 %) d'intentions de vote, l'incertitude est de 3 points pour un niveau de confiance de 95 %. Il y a donc 95 % de chance que son score soit compris entre 37 et 43 % (respectivement 57 % - 63 %) ».
Alors comment établit-on ces marges d'erreurs, cet intervalle d'incertitude dont on parle ?
La procédure n'est bien entendu pas secrète. Il suffit de lire ce qui est écrit sur les documents les décrivant, le plus souvent à l'attention d'étudiants.
Dans ce document, ce sont les commentaires qui peuvent éclairer le lecteur, au moins sur l'existence d'un problème. Les textes comme celui-ci sont imbuvables pour le grand public. Il faut comprendre le jargon : variables aléatoires, lois de probabilités, estimateur, etc. Sans parler des symboles qui, certes, font gagner du temps aux rédacteurs, mais sont autant d'obstacles à la compréhension pour les néophytes.
Tentons de simplifier.
Plaçons-nous entre les deux tours de la dernière élection présidentielle. Interrogeons 1 000 personnes sur leur intention de vote. On va supposer que ces personnes sont bien sélectionnées au hasard, qu'elles acceptent de répondre honnêtement et qu'elles ne s'abstiendront pas. Bref, on va supposer que notre sondage sera aussi fiable que de tirer des boules dans une urne ou des cartes dans un jeu de cartes.
Sur ces 1 000 personnes, 550 répondent voter pour Emmanuel Macron et 450 pour Marine Le Pen. Les sondeurs procèdent comme suit. Ils vont considérer une population générale (l'ensemble des quelque 45 millions d'électeurs en France) et étudier le cas où la proportion de votants pour le président sortant serait celle de l'échantillon, soit 55 % (550/1000). Si l'on tire différents échantillons de cette population, il y a gros à parier qu'ils ne soient pas identiques. C'est ce qu'on appelle les fluctuations d'échantillonnage. Les sondeurs vont toutefois pouvoir calculer la probabilité de tous les échantillons possibles issus de cette population, donc ceux ayant des proportions de 0 % jusqu'à 100 % de personnes qui votent pour Emmanuel Macron. Ils pourront présenter leurs résultats sur un graphique :
Figure 2 : Avec une population ayant 55 % de gens votant pour le président, il n'est pas étonnant de voir que les échantillons les plus probables seront ceux qui auront une proportion similaire et que la probabilité décroit quand on s'éloigne de 55 %.
Figure 3 : Ici, on colorie en rouge les extrêmes, c'est-à-dire les probabilités des échantillons ayant en tout 5 % de chances d'être sélectionnés. Il y a donc 95 % de chances de tirer un échantillon entre 40 % et 70 % (zone bleue) de personnes votant pour Emmanuel Macron dans une population qui en contient exactement 55 %. L'intervalle 40 % - 70 % constitue donc pour nous un intervalle de confiance à 95 %.
D'un point de vue logique, voici ce que nous avons :
Si nous avons une population avec 55% de gens favorables au président sortant (A).
alors nous avons 95% de chances d'avoir un échantillon contenant entre 40% et 70% de gens votant pour lui (B).
que nous résumerons ainsi : A =>(95%) B
Or, les sondeurs se permettent sans la moindre justification de renverser cette proposition logique qui devient :
Si nous avons un échantillon contenant 55% de gens votant pour Emmanuel Macron (B),
alors nous avons 95% de chances d'avoir une population contenant entre 40% et 70% de gens votant pour lui (A).
que nous résumerons ainsi : B => (95%) A
C'est tout simplement faux. Il s'agit d'une erreur de logique basique. Il faudrait que cet enchaînement soit valide :
A =>(95%) B => B =>(95%) A
et il ne l'est pas.
Un article plus complet est disponible en ligne contenant l'examen d'une situation similaire de manière exacte avec le détail des calculs.
Cet article rappelle qu'en matière de probabilités, le calcul est valide dans un seul sens : connaissant une population, je peux calculer les probabilités d'obtenir par tirage aléatoire tel ou tel échantillon. Et pas l'inverse. C'est d'ailleurs ce qui fait que certains mathématiciens ont tenté de "remonter" à la population à partir des données de l'échantillon. Citons l'inférence de Thomas Bayes. Mais en réalité, celui-ci considère une population de populations. Dans notre cas, il envisagerait toutes les populations possibles, donc celles qui contiennent 55% de gens votant pour Emmanuel Macron mais aussi toutes les autres, y compris celles où il y aurait 0% ou 100%. Au final, l'inférence bayesienne consiste toujours à utiliser le calcul probabiliste dans le même sens, pas le sens inverse. En effet, la population réelle étudiée devient alors elle-même un échantillon donc le résultat d'un tirage dans un ensemble de populations. Bien entendu, ce n'est pas le mathématicien ou le sondeur qui a effectué ce tirage-là, c'est la Nature, la Providence ou Dieu ou ce que vous voudrez, mais pas un être humain. À noter que rien ne prouve que cette entité mystérieuse ait effectué son choix "au hasard" ce qui anéantit toute possibilité d'utiliser le modèle mathématique des probabilités.
Ce que nous venons de dire sur l'inférence bayesienne prouve néanmoins que les mathématiciens sont conscients de la difficulté que nous avons pointée. Ils pourraient donc être globalement hors de cause dans cette histoire. Il resterait alors de la seule responsabilité des sondeurs d'avoir commis une aussi grossière erreur. Tout au plus peut-on reprocher aux mathématiciens de ne pas être intervenus. Mais c'est la nature humaine que de dire "Bah, on verra bien".
En cherchant bien, on peut trouver ici et là des éléments qui montrent que certains ont bien vu qu'il y avait un problème sans toutefois le cerner avec la clarté nécessaire. C'est le cas dans les commentaires de l'article cité ci-dessus.
On y note aussi la bonhomie du second commentateur qui se contente de conclure ainsi :
« Mais c’est un abus de langage que tout le monde fait... et c’est sous-entendu dans la présentation des résultats d’un sondage. Difficile de changer les habitudes ! »
Cette nonchalance, qui frise le fatalisme, est un trait humain général qui touche tout le monde. Dans un tout autre domaine, une commune de moins de 7 000 habitants, le maire a dépensé plusieurs millions d'euros d'argent public pour tenter de construire un écoquartier sur un terrain pollué, situé tout l'hiver à l'ombre des collines voisines, possiblement inondable avec un risque d'affaissement minier qui pointait à l'horizon, à côté d'une voie ferrée et d'une route départementale dans une vallée peu profonde, mais encaissée où le bruit résonne fort et est parfois baignée d'odeurs nauséabondes. Malgré cette liste de problèmes et pendant des années, tout le monde l'a laissé faire : électeurs et contribuables, mais aussi institutions comme la préfecture du département ou celle de la région. Et l'opposition a eu toutes les peines du monde à se faire entendre. Ce maire est d'ailleurs toujours en place et n'a absolument pas renoncé à son projet.
Figure 4 : La commune est parfaitement dégagée ce 4 septembre 2022. En revanche, le site prévu pour l'écoquartier est situé exactement sous le nuage.
Cette mollesse ambiante n'est pas la seule explication plausible de cette situation de fait. Il en existe d'autres. Si le raisonnement des sondeurs est faux, le résultat pourrait quand même être voisin de la vérité. Calculez la surface d'un rectangle en multipliant la longueur d'un côté par lui-même et parfois, le résultat tombera juste ou s'approchera du résultat juste (cas où le rectangle est, ou s'approche, d'un carré). De plus, gardez à l'esprit que l'on parle de probabilités. Donc quand le résultat est faux, il suffit de l'imputer au risque pris (les 5% au-dehors de l'intervalle de confiance).
Dans le cas qui nous occupe, s'il y a équiprobabilité des populations possibles (donc celles votant avec 0% pour Emmanuel Macron, celles votant à 10%, 55%, etc...), alors les résultats des sondeurs sont très proches des calculs que pourrait réaliser Thomas Bayes par exemple. L'étude citée ci-dessus détaille précisément cette hypothèse. On y voit qu'il faut aussi que la proportion la plus probable ne soit pas près des bords. Or dans notre cas, c'est bien le cas, car 55% est bien éloigné de 0% et 100%.
Mais pour être valide d'un point de vue scientifique, les sondeurs devraient préciser que le résultat qu'ils présentent n'est valable que dans le cadre des hypothèses qui ont été faites.
Ils ne le font pas. Et on peut se douter de ce qui arriverait parmi leurs lecteurs, tout comme parmi leurs commanditaires s'ils leur disaient qu'ils sont partis de l'hypothèse où les chances de n'avoir aucun votant pour Emmanuel Macron dans la population entière sont égales à celles ayant 50%, 70% ou même 100%. Ils s'entendraient sans doute répondre que cette hypothèse est totalement contraire à la réalité... ce qui est d'ailleurs évident.
Ce qui l'est moins, très souvent, c'est de trouver la méthodologie suivie. Comme ici.
Et dans le cas spécial des élections présidentielles 2022, la loi du 29 mars 2021 prévoit pourtant que la mention de ces marges est obligatoire pour toute publication, mais aussi toute diffusion d'un sondage.
Ces cachotteries ne prouvent pas que ces erreurs sont commises en pleine connaissance de cause. Mais elles ne sont pas non plus de nature à écarter cette hypothèse.
Il faut noter que ce que nous décrivons n'est pas une simple erreur. C'est une véritable impasse. En effet, quiconque a un peu conscience de ce que représente une proposition logique se rend vite compte qu'il est impossible de tirer la moindre conclusion sur une population à partir de la seule information sur un échantillon, sinon celle qu'elle contenait cet échantillon. Par exemple, si vous tirez trois cartes d'un jeu inconnu de 100 cartes et que vous obtenez deux rois de trèfle et un as de carreau, vous ne pourrez absolument rien déduire de cette seule information sur les autres cartes du jeu, même en termes de probabilités. Il est donc impossible de calculer le moindre intervalle de confiance chiffré. Sauf à le faire dans le cadre d'une hypothèse sur la probabilité que la Nature ait tirée telle ou telle configuration parmi toutes les populations théoriques qui existaient. On l'a vu, l'équiprobabilité est à écarter. Et les autres hypothèses reviennent à décider, avant de faire le sondage, que la proportion de votants pour Emmanuel Macron est, par exemple, plutôt de 50%. Mais dans le cadre de cette hypothèse, le sondage ne sert plus à rien sinon à ajuster un peu. Ainsi, on pourrait être amené à conclure qu'après avoir fait l'hypothèse que les sympathisants pour Emmanuel Macron sont aux alentours de 50%, cette proportion serait à recentrer plus près de 55%. Tout cela n'aurait plus alors aucune valeur scientifique. Quant à la confiance accordée aux sondages par le grand public, cette explication la réduirait à néant si ce n'est pas déjà fait.
Ce qui pourrait prêter à sourire dans cette histoire, c'est que la loi impose donc de publier des marges d'erreur qui sont incalculables. Comment alors en vouloir aux instituts de sondages qui sont si frileux à les publier ?
Les sondages ont une utilité certaine : celle d'orienter le vote des citoyens qui veulent être du côté du vainqueur ou ne se dérangeront même pas aux urnes pensant que leur candidat a déjà perdu. Cette utilité fait que la pratique des sondages ne disparaîtra pas du seul fait de ce que nous avons écrit ici. En revanche, la tendance actuelle risque de s'accentuer et il est donc très possible que ne seront publiés à l'avenir que les données obtenues sur l'échantillon sans la moindre conclusion sur la population. Du genre : "55% des personnes interrogées disent voter pour Emmanuel Macron". Ce qui n'est entaché d'aucune incertitude si on fait crédit à l'honnêteté des sondeurs. Et dans ce cas, l'intervalle de confiance, c'est fini.
À LIRE AUSSI
L'article vous a plu ? Il a mobilisé notre rédaction qui ne vit que de vos dons.
L'information a un coût, d'autant plus que la concurrence des rédactions subventionnées impose un surcroît de rigueur et de professionnalisme.
Avec votre soutien, France-Soir continuera à proposer ses articles gratuitement car nous pensons que tout le monde doit avoir accès à une information libre et indépendante pour se forger sa propre opinion.
Vous êtes la condition sine qua non à notre existence, soutenez-nous pour que France-Soir demeure le média français qui fait s’exprimer les plus légitimes.
Si vous le pouvez, soutenez-nous mensuellement, à partir de seulement 1€. Votre impact en faveur d’une presse libre n’en sera que plus fort. Merci.