L'incertitude des sondages
Bon, finalement les stat’ ça commence à dater pour moi et surtout c’est un peu lourdingue à rédiger alors je renonce à détailler ici comment on se sert de ce genre de trucs et je vous donne juste quelques exemples chiffrés que j’ai calculés pour illustration.
Parmi les nombreuses critiques qu’on peut faire aux sondeurs et aux commentateurs médiatiques à propos de leur déluge d’inepties, figure en bonne place l’absence systématique de la confiance statistique (ne parlons même pas de la confiance intellectuelle... hum) que l’on peut accorder aux chiffres dont ils nous abreuvent - et pour cause, elle rendrait l’essentiel de leur bavardage caduc !
La théorie statistique nous apprend (en admettant qu’elle ait encore un sens malgré la méthode des quotas, les correctifs secrets e tutti quanti - on ne va pas faire la liste, ça vous démoraliserait) que les pourcentages obtenus à partir d’un échantillon sont inclus avec une certaine probabilité dans un intervalle (dit de confiance), dont l’extension dépend notamment de l’effectif de l’échantillon sondé.
Cela fait donc deux sources d’incertitude :
- l’intervalle autour de la valeur obtenue,
- et la probabilité que la valeur réelle n’appartienne même pas à cet intervalle.
Par exemple, pour un échantillon de 1000 individus, l’intervalle de confiance à 95% (qui a donc 5% de chances de ne pas contenir la valeur réelle - c’est la probabilité classiquement utilisée) s’étend sur environ 3,1% de part et d’autre de la valeur “mesurée”. Disons en gros que pour 95% de probabilité, l’extension de l’intervalle varie comme l’inverse de la racine carrée de l’effectif de l’échantillon : pour 700 sondés on passe à 3,7% et pour 10000 sondés on arrive à 1% (mais c’est plus cher à faire!).
En fait, ça c’était un truc à la louche (ils appellent ça la “majoration à un quart”, c’est un plafond si j’ai bien compris) : la formule de base implique également la valeur du pourcentage obtenu, il faut encore multiplier par la racine carrée de son produit avec son complément à un (lequel produit maximise à 0,25 : voilà l'explication du "quart"). L’intervalle est donc un peu moins étendu pour les petites valeurs (hors UMPS quoi, vu la forme délirante des autres candidats). Par exemple, pour un résultat de 10% d’intentions de vote obtenu avec un échantillon de 800 individus, l’intervalle de confiance à 95% s’étend sur 2,1% d’amplitude de chaque côté donc il y a 95% de chances pour que la valeur réelle soit comprise entre 7,9% et 12,1% (et quand même une probabilité de 5% pour qu’elle se promène n’importe où ailleurs).
Cerise sur le gâteau (ils sont terribles les matheux, dommage que notre système éducatif en plein naufrage ne produise quasiment plus de gens capables de maîtriser ça), on peut moduler la confiance de l’intervalle grâce à des trucs de ouf comme le tableau magique que j’ai mis en lien au début du billet : pour reprendre l’exemple ci-dessus, si on veut passer à 99% de probabilité de contenir la valeur réelle dans l’intervalle, celui-ci passe à environ 2,7% d’extension (soit de 7,3% à 12,7%). Avec 700 sondés (il y en a qui osent vendre et publier ça) on arrive même à environ 2,9% d’amplitude soit de 7,1% à 12,9%... On n’est pas loin du simple au double, ça relativise hein !
Alors quand les journaleux glosent sur des différences de 3% entre des candidats ou des évolutions de 2% pour un candidat entre deux sondages (dans le temps ou entre deux “instituts”), pensez plutôt à la météo ou aux courses pour le repas du soir !