Dans notre édition du jeudi 26 février, nous publions une réaction d’un anonyme, docteur supposé ou revendiqué, qui réagissait au sondage réalisé par le sieur Bemahoun Honko Roger Judicaël sur la présidentielle de 2015, qui plaçait, faut-il le rappeler, Zéphirin Diabré en tête. Par le droit de réponse ci-dessous, le statisticien-économiste, Bemahooun, regrette que l’auteur de cette opinion n’ait pas eu le courage de donner son nom aux lecteurs pour que le débat soit plus riche et vivant. Lisez !
Dans la parution n°5803 du 26 février 2014 de votre canard, nous avons lu, dans la rubrique Baromètre, un article intitulé «Sondage sur la présidentielle 2015 : des résultats statistiquement fallacieux et trompeurs », où nous sommes nommément cités. Nous venons par la présente, en guise de droit de réponse, apporter un éclairage à vos lecteurs.
Avant de répondre aux critiques qui ont été formulées, nous tenons à faire quelques remarques. Nous déplorons, et certainement la communauté scientifique avec, que des observations techniques de ce niveau s’effectuent à visage masqué (Article publié sous le couvert de l’anonymat), alors que toutes les citations de l’article sont référencées. Le bénéfice du doute de sincérité nous amène à émettre deux hypothèses auxquelles nous n’avons pas de raison de ne pas croire :
-Hypothèse 1 : L’auteur de cet article n’a pas d’intérêts particuliers qu’il défend :
-L’objectivité de son raisonnement l’emporte sur la subjectivité ;
- Hypothèse 2 : L’auteur de cet article sait de quoi il parle : il a une bonne maîtrise de la conduite et de la pratique des enquêtes d’opinions.
Nous sommes, de ce fait, disposés à poursuivre ce débat à condition que l’auteur décline, pour une éventuelle prochaine réaction, son identité. Oui ! Nous trouvons qu’il serait plus élégant et intellectuellement plus correct que des écrits de telles envergures soient nommément signés de son auteur. A ce que nous avons lu, nous avons la faiblesse de penser qu’un intellectuel de ce niveau, bardé de diplômes très respectables (Diplômé en Analyse Politique et Economique, Docteur en Economie Mathématique et Econométrie), se mette à mener un débat aussi technique en avançant cagoulé. Mais en attendant, venons-en aux arguments « techniques » développés par notre docteur cagoulé.
De la taille de l’échantillon.
Selon l’auteur de l’article, « la taille d’échantillon minimale (N) à retenir dans un sondage, pour l’obtention de résultats significatifs, s’obtient par la formule : N=e*p*(1-p)/m2 avec t : le niveau de confiance (la valeur type du niveau de confiance de 95% est de 1,96 et 2,576 pour 99%) ; p : la probabilité de réalisation de l’événement (on fixe généralement p à 0,5) ; m : la marge d’erreur. » Nous passons sous silence les erreurs qui se sont glissées dans cette formule. Cette assertion appelle également à quelques commentaires :
Premièrement, il n’y a pas une formule exclusive qui permet de déterminer de façon magique la taille d’un échantillon dans un sondage. Cette formule s’applique UNIQUEMENT dans le cadre d’un sondage aléatoire simple (SAS). En plus, la taille de l’échantillon est aussi bien fonction de la méthode choisie que du budget disponible pour le sondage. Le budget, en particulier, est une contrainte forte dans l’élaboration d’un plan de sondage. Il peut, à lui tout seul, déterminer la taille de l’échantillon (TIRAL Sidi, Mon plan de sondage en 9 questions, p. 32), et même de la méthodologie. Par exemple, pour le sondage stratifié qui est la variante probabiliste de la méthode de quotas que nous avons utilisée, cette formule ne s’applique pas que dans le tirage des individus d’une strate. D’autres considérations techniques, dont nous épargnons les lecteurs ,rentrent en ligne de compte dans la détermination de la taille de l’échantillon.
Leçon 1 : Il n’ y a pas de formule unique de détermination de la taille de l’échantillon ; le SAS s’applique à la dernière étape d’un plan complexe.
2.Deuxièmement, il faudra préciser que cette formule s’applique lorsque c’est une proportion qui est estimée (par exemple les intentions de vote d’un candidat X) dans le cadre d’un SAS. Cette formule n’est pas applicable lorsqu’il s’agit, par exemple, d’estimer le salaire moyen dans une population de salariés donnée.
Leçon 2 : Cette formule s’applique dans l’estimation d’une proportion.
3.Troisièmement, regardons la simulation faite par l’auteur sur la taille de l’échantillon. Comme indiqué en leçon 2, pour l’appliquer exactement à notre situation, la formule sur laquelle les simulations se basent, il aurait fallu que nous options pour un SAS au lieu d’une méthode des quotas, ensuite qu’on ait recours au score antérieur de tous les candidats, et qu’on regarde les candidats dont les résultats sont le plus proche de 50% (variance élevée). Ainsi, on aurait pu couvrir les autres, puisque leur échantillon serait plus petit.
Nonobstant la remarque précédente, essayons de suivre sa simulation. Partons notamment de ce qu’il affirme : « l’élection présidentielle de 2015 dans notre cher pays, le Burkina Faso, s’annonce vraiment serrée et indécise ». Si les élections s’annoncent serrées, cela veut dire qu’aucun candidat ne peut obtenir 50% des voix (sinon il serait élu au premier tour et on ne peut pas dire dans ce cas qu’il y a un réel coude-à-coude). Par conséquent, la proportion p ne peut pas être fixée à 0,5 (50%) et il faudra la fixer à une valeur inférieure à 50%. Supposons que le plus grand score attendu est de 30%. En appliquant la bonne formule ci-citée, nous obtenons une taille d’échantillon de 323 personnes, au risque de 5% et 5% de marge d’erreurs. Nous obtenons une réduction de 62 personnes (de 385 à 323 individus) qui n’est somme toute pas négligeable.
Leçon 3 : Notre docteur doit revoir ses simulations .
4.Quatrièmement, l’auteur insiste sur l’importance de la taille de la population-mère sur la détermination de la taille de l’échantillon. Nous savons qu’il n’ignore pas que lorsqu’on travaille sur une population infinie (en général supérieure ou égale à 100 000, confère tableau ci-dessous), la taille de la population n’a pas un effet sur la détermination de la taille d’échantillon. Si c’était le cas contraire, dans sa formule nous aurions vu son expression. Nous rappelons que cette formule est obtenue après négligence de la taille de la population lorsque celle-ci devient infinie. Par exemple, notre sondage a révélé que 97,3% des « ouagavillois » ne souhaitent pas voir François COMPAORE jouer un rôle dans les mois et années à venir. Pour déterminer la taille de l’échantillon qu’il faudra pour un prochain sondage de type SAS qui a pour objectif principal d’examiner la même question, 41 personnes sont SIMPLEMENT suffisantes, quoique Ouagadougou compte plus de deux millions d’habitants (au risque de 5% et 5% de marge d’erreurs en appliquant votre formule). Faites le rapport !
S’il est admis que comparaison n’est pas raison, il nous semble utile de prendre des exemples d’institutions en principe plus crédibles et expérimentées pour vous permettre de fixer les idées. Afrobaromètre, qui effectue des sondages d’opinions sur des questions politiques, a réalisé en décembre 2014 au Nigéria un sondage sur les intentions de vote avec une taille d’échantillon de 2400 personnes (http://www.afrobarometer.org/files/documents/dispatches/ab_r6_dispatchno11.pdf). Pourtant, le Nigeria c’est au bas mot 177 millions d’habitants, soit 10 fois la population du Burkina (http://fr.wikipedia.org/wiki/D%C3%A9mographie_du_Nigeria). Le plus vieil institut de sondage français IFOP a réalisé, en septembre 2014, un sondage sur les intentions de vote des français, sur un échantillon de 994 personnes en âge de voter (http://www.ifop.com/?option=com_publication&type=poll&id=2755). La population française âgée de plus de 20 ans est estimée en janvier 2015 à environ 50 millions de personnes. (http://www.insee.fr/fr/themes/detail.asp?ref_id=bilan-demo®_id=0&page=donnees-detaillees/bilan-demo/pop_age2b.htm). Appréciez vous-même les ordres de grandeurs.
Leçon 3 : Lorsqu’un événement (phénomène) est presque sûr, enquêter dix, cent, mille personnes donnera quasiment le même résultat.
Leçon 3 bis : Pour une population infinie (supérieure ou égale à 100 000), la taille de celle-ci n’a pas un effet dans la détermination de la taille de l’échantillon dans un SAS;
Taille de l’échantillon nécessaire pour estimer P avec une marge d’erreure de 0,05 et un
taux de confiance de 95 %, à l’aide d’un SAS, lorsque P=0,5
Taille de la population
Taille de l’échantillon nécessaire
50 44
100 80
500 222
1000 286
5000 370
10 000 385
100 000 398
1 000 000 400
10 000 000 400
Source : Statistique Canada, Méthodes et pratiques d’enquête, p 170.
Pour terminer ce chapitre sur la taille de l’échantillon, vous semblez convaincu qu’à elle seule, elle donnerait des résultats fiables. Il fait bien de rappeler les estimations faites aux Etats-Unis en 1936 par Literary Digest sur un échantillon de 2 500 000. Malgré la taille de l’échantillon, ce magazine a produit des résultats que la réalité des urnes a démenti. Dans le même temps, l’Institut George Gallup avec 50 000 personnes (http://fr.wikipedia.org/wiki/George_Gallup) a donné des résultats qui se sont révélés exacts. Pourquoi ? Parce que le biais de sélection dont il évoquait dans le choix des enquêtés a fait son effet chez Literary Digest ! C’est justement ce biais de sélection qu’il faut redouter au niveau des sondages empiriques, et donc pour la méthode des quotas (qui est une méthode empirique).
Leçon 4 : Dans un sondage, même avec un petit nombre, on peut produire des résultats fiables pour peu qu’on n’introduise pas d’autres biais comme le biais de sélection des individus.
A propos des résultats dits fallacieux.
Dans l’article, il aboutit à la conclusion que les résultats de notre sondage sont erronés et attire notre attention sur la nécessité d’éviter les «sondages mal élaborés et produisant des résultats fallacieux ». Devons-nous comprendre que l’argumentaire est bâti uniquement sur la taille d’échantillon et le fait que nous avons occulté la région de l’Est, du Centre-Sud et bien d’autres régions? Si oui, nous rafraîchissons la mémoire de l’auteur en lui rappelant que les résultats d’un sondage réalisé selon la méthode des quotas ne sont valables UNIQUEMENT que dans l’échantillon d’étude. En d’autres termes, ils ne peuvent en AUCUN CAS être généralisés à la population d’étude. Et cette limite s’applique à toute PERSONNE qui optera pour des méthodes non probabilistes dans le choix de l’échantillon. C’est juste dire que même si nous convenons que la prise en compte d’autres localités peut changer les tendances des résultats, il n’en demeure pas moins que les résultats ne doivent s’interpréter que dans leur contexte. Ces résultats ne peuvent être présentés comme achevés ou définitifs : c’est un sondage ! Nous aurions souhaité que vous fassiez cette notification comme nous l’avions toujours fait avant de vous arcbouter sur la taille et les zones d’études.
Leçon 5 : Les résultats d’un sondage par quotas, même réalisé dans toutes les régions du Burkina Faso, ne peuvent être généralisés à toute la population d’étude.
En guise de conclusion, nous tenions à vous remercier d’avoir engagé le débat sur une question si importante. Cela nous a permis de renforcer davantage nos connaissances sur les questions de sondages, mais aussi nous a donné l’occasion de mieux expliquer aux lecteurs notre méthodologie dans l’espoir de dissiper leurs appréhensions justifiées sur la taille de notre échantillon d’étude. Nous avons opté pour la méthode des quotas ; le biais de cette méthode de sondage ne dépend pas de la taille de l’échantillon (voir Pascal ARDILLY « les techniques de sondage », page 206). Cette méthode a deux exigences majeures:
- Faire en sorte que la structure de l’échantillon soit EXACTEMENT la structure de la population pour les variables de quota ;
- Prendre en compte toutes les principales variables explicatives du comportement qu’on veut mesurer.
Par ailleurs c’est une méthode adaptée pour les petits échantillons (inférieurs ou égales à 1000 en pratique).
Cela dit, nous souhaitons que les débats s’orientent vers une amélioration de notre méthode de sondage pour une meilleure compréhension du comportement politique des Burkinabè, ce qui est l’intérêt in fine de cet exercice.
BEMAHOUN Honko Roger Judicaël,
Statisticien-économiste/Chercheur en science politique
honkoroger@gmail.com
(+226) 70 09 12 45