Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Publicité
ataraxosphere
12 février 2010

L'incertitude des sondages

Bon, finalement les stat’ ça commence à dater pour moi et surtout c’est un peu lourdingue à rédiger alors je renonce à détailler ici comment on se sert de ce genre de trucs et je vous donne juste quelques exemples chiffrés que j’ai calculés pour illustration.
Parmi les nombreuses critiques qu’on peut faire aux sondeurs et aux commentateurs médiatiques à propos de leur déluge d’inepties, figure en bonne place l’absence systématique de la confiance statistique (ne parlons même pas de la confiance intellectuelle... hum) que l’on peut accorder aux chiffres dont ils nous abreuvent - et pour cause, elle rendrait l’essentiel de leur bavardage caduc !
La théorie statistique nous apprend (en admettant qu’elle ait encore un sens malgré la méthode des quotas, les correctifs secrets e tutti quanti - on ne va pas faire la liste, ça vous démoraliserait) que les pourcentages obtenus à partir d’un échantillon sont inclus avec une certaine probabilité dans un intervalle (dit de confiance), dont l’extension dépend notamment de l’effectif de l’échantillon sondé.
Cela fait donc deux sources d’incertitude :
- l’intervalle autour de la valeur obtenue,
- et la probabilité que la valeur réelle n’appartienne même pas à cet intervalle.
Par exemple, pour un échantillon de 1000 individus, l’intervalle de confiance à 95% (qui a donc 5% de chances de ne pas contenir la valeur réelle - c’est la probabilité classiquement utilisée) s’étend sur environ 3,1% de part et d’autre de la valeur “mesurée”. Disons en gros que pour 95% de probabilité, l’extension de l’intervalle varie comme l’inverse de la racine carrée de l’effectif de l’échantillon : pour 700 sondés on passe à 3,7% et pour 10000 sondés on arrive à 1% (mais c’est plus cher à faire!).
En fait, ça c’était un truc à la louche (ils appellent ça la “majoration à un quart”, c’est un plafond si j’ai bien compris) : la formule de base implique également la valeur du pourcentage obtenu, il faut encore multiplier par la racine carrée de son produit avec son complément à un (lequel produit maximise à 0,25 : voilà l'explication du "quart"). L’intervalle est donc un peu moins étendu pour les petites valeurs (hors UMPS quoi, vu la forme délirante des autres candidats). Par exemple, pour un résultat de 10% d’intentions de vote obtenu avec un échantillon de 800 individus, l’intervalle de confiance à 95% s’étend sur 2,1% d’amplitude de chaque côté donc il y a 95% de chances pour que la valeur réelle soit comprise entre 7,9% et 12,1% (et quand même une probabilité de 5% pour qu’elle se promène n’importe où ailleurs).
Cerise sur le gâteau (ils sont terribles les matheux, dommage que notre système éducatif en plein naufrage ne produise quasiment plus de gens capables de maîtriser ça), on peut moduler la confiance de l’intervalle grâce à des trucs de ouf comme le tableau magique que j’ai mis en lien au début du billet : pour reprendre l’exemple ci-dessus, si on veut passer à 99% de probabilité de contenir la valeur réelle dans l’intervalle, celui-ci passe à environ 2,7% d’extension (soit de 7,3% à 12,7%). Avec 700 sondés (il y en a qui osent vendre et publier ça) on arrive même à environ 2,9% d’amplitude soit de 7,1% à 12,9%... On n’est pas loin du simple au double, ça relativise hein !
Alors quand les journaleux glosent sur des différences de 3% entre des candidats ou des évolutions de 2% pour un candidat entre deux sondages (dans le temps ou entre deux “instituts”), pensez plutôt à la météo ou aux courses pour le repas du soir !

Publicité
Commentaires
F
http://observatoire-des-sondages.org/Elections-regionales-contradiction.html
F
Vous êtes têtus ! Dans un certain intervalle, les chiffres (et les tendances, et les commentaires) n'ont AUCUN sens. Le seul sondage fiable, c'est celui des urnes ! (et encore, ya le problème des abstentionnistes, des biais de campagne et d'exposition médiatique, etc)
A
Nous en connaissons tous les imperfections, mais il est très difficile de s'en passer et c'est le seul indicateur de tendance que l'on puisse avoir. A condition d'être prudent et d'éviter les sondages volontairement falsifiés, ils restent l'élément le plus fiable dont nous disposons.
N
Merci d'avoir rappelé ces fondamentaux, je n'ai pas tout suivi mais j'ai à peu près compris le principe.<br /> Pour ma part, je retiens des sondages un ordre de grandeur et surtout une tendance. <br /> Par exemple lorsque plusieurs sondages indiquent une baisse des intentions de vote pour les candidats du MoDem, je les crois et je m'en inquiète.<br /> Par contre les sondages téléphoniques sur 700 personnes sur tout et n'importe quoi, c'est du vent médiatique, aucun intérêt !
F
Pour les curieux : vous pouvez obtenir l’extension de l’intervalle de confiance avec la formule suivante. <br /> <br /> e = k x sqrt(p(1-p)/n)<br /> <br /> p : pourcentage obtenu <br /> e : extension de l’intervalle dans un seul sens autour de p (l’intervalle ira donc de p-e à p+e) <br /> n : effectif de l’échantillon <br /> sqrt : racine carrée <br /> k : nombre magique qu’on peut trouver grâce aux tableaux des matheux (pour 95% de confiance il vaut environ 1,96 et pour 99% de confiance il vaut environ 2,58)
Publicité
Derniers commentaires
Publicité