J’écoutais ce matin une émission à la radio sur les récentes élections présidentielles en Iran 11 L’invité d’Inter « Ahmandinejad : président réélu mais contesté », avec Sepideh Farkhondeh, le 5 août 2009. . J’entends une intervenante dire que la fraude a été prouvée statistiquement. Intrigué par cette affirmation, je ne tarde pas à trouver la référence à un article du Washington Post daté du 20 juin et intitulé :
The Devil is in the Digits.
Le diable est dans les chiffres…
Diable ? !
L’article est signé par Bernd Beber et Alexandra Scacco, doctorants en sciences politiques à l’Université de Columbia à New York 12On nous informe d’ailleurs qu’ils seront professeurs assistants à New York University cet automne..
La méthode employée est astucieuse. Les auteurs consultent les résultats officiels des élections, pour chacune des 29 provinces iraniennes et pour chacun des quatre candidats. Par exemple, dans la province de Hormozgan, Moussavi a obtenu 241 988 voix. Ils ne retiennent de ces résultats que le chiffre des unités, 8 sur cet exemple. Evidemment, les 116 chiffres obtenus, compris entre 0 et 9, n’ont pas grand chose à voir avec le résultat de l’élection. Les auteurs affirment (avec raison) que si les élections avaient été justes, ces 116 chiffres seraient aléatoires. Mais ils affirment également que les 116 chiffres constatés ne sont pas répartis aléatoirement. Ils en concluent que ces chiffres ont été fabriqués, en rappelant que lorsqu’on demande à quelqu’un de choisir un chiffre, il ne le choisit en fait presque jamais au hasard (nous avons paraît-il une tendance à choisir souvent le chiffre 7). Admettons la méthode, et cherchons à comprendre pourquoi les auteurs pensent que la distribution des 116 chiffres est suspecte.
Voici (une traduction de) ce qu’ils écrivent 13« The numbers look suspicious. We find too many 7s and not enough 5s in the last digit. We expect each digit (0, 1, 2, and so on) to appear at the end of 10 percent of the vote counts. But in Iran’s provincial results, the digit 7 appears 17 percent of the time, and only 4 percent of the results end in the number 5. Two such departures from the average — a spike of 17 percent or more in one digit and a drop to 4 percent or less in another — are extremely unlikely. Fewer than four in a hundred non-fraudulent elections would produce such numbers. »:
« Ces chiffres paraissent suspects. Nous trouvons trop de 7 et pas assez de 5. On espère trouver chaque chiffre (0,1,2 etc.) dans 10 % des cas. Mais dans les provinces d’Iran, le chiffre 7 apparaît dans 17 % des cas et on a seulement 4 % pour le chiffre 5. Deux tels écarts à la moyenne — un pic supérieur à 17 % et un creux de moins de 4 % — sont extrêmement peu probables. Moins de 4 % d’élections non frauduleuses produiraient de tels résultats. »
Que penser de cela ? Que ce n’est pas sérieux tout simplement. La probabilité de trouver un 7 par exemple est bien sûr 1/10. Si l’on considère 116 nombres entiers pris au hasard, on devrait effectivement trouver qu’environ 10 % d’entre eux se terminent par 7. On peut même déterminer un « intervalle de confiance » dans lequel on peut affirmer que le pourcentage constaté se situe avec une probabilité d’erreur de 5 % : le calcul montre qu’il s’agit de l’intervalle compris entre 6,5 % et 15,5 % 14 Pour quelques détails sur ces calculs, on pourra lire avec profit cet article.. Le 17 % constaté n’est pas dans cet intervalle de confiance : voilà l’argument des auteurs. Mais ils ont choisi le chiffre 7 a posteriori et ils ont pris celui qui allait dans leur sens ! S’il y a 95 % de chances pour qu’un pourcentage soit compris entre 6,5 % et 15,5 %, alors la probabilité pour que dix tentatives successives et indépendantes 15A strictement parler les dix pourcentages ne sont pas indépendants puisque leur somme vaut 100% mais un argument modifié donnerait le même genre de résultat. donnent un résultat dans cet intervalle est de 0,95 à la puissance 10, c’est-à-dire à peu près 0,6. On peut donc dire qu’il y a 40 % de chances pour qu’au moins l’un des dix chiffres mène à un pourcentage « suspect » en dehors de cet intervalle de confiance. Ici ce sont les pourcentages de 5 et de 7 qui sortent de l’intervalle, voilà tout. Les auteurs ignorent, ou feignent d’ignorer, qu’il existe des méthodes statistiques qui permettent de comparer des « distributions » plutôt que des nombres. La plus célèbre s’appelle le test du \(\chi^2\) qui permet de déterminer si une distribution de nombres est « suspecte » par rapport à une distribution théorique. Dans le cas présent, le test en question ne détecte rien de particulièrement suspect.
Lisons la « conclusion » de l’article 16« The probability that a fair election would produce […] the suspicious deviations in last-digit frequencies described earlier is less than .005. In other words, a bet that the numbers are clean is a one in two-hundred long shot. » 17Sur le site du département de sciences politiques de l’université de New York, on trouve une brève annonçant que « The probability that Iran’s presidential election was fair is less than .005. Read how our newest assistant professors, Bernd Beber and Alex Scacco, come to this fascinating conclusion in their June 20th Washington Post article. » :
« La probabilité qu’une élection juste puisse produire […] la déviation suspecte sur le dernier chiffre que nous avons décrite est inférieure à 5 pour 1000. En d’autres termes, un pari que les résultats [des élections] sont honnêtes serait de 1 contre 200. »
Bien sûr, je ne suis pas le premier à protester contre les méthodes de cet article ! Voyez par exemple ce blog dans lequel le calcul du18« Is a chi-square test the most appropriate statistic for this type of data ? Yes. » \(\chi^2\) est bien expliqué. Il est intéressant de lire la réponse de l’un des auteurs (Bernd Beber) à ces critiques (qu’on trouve sur sa page internet). Il écrit :
« Le test du \(\chi^2\) est-il plus adapté pour ce type de données ? Oui ! »
Ainsi, il reconnaît son erreur… Mais il continue 19« But is this test the most appropriate one for a general audience ? Only if there isn’t a more transparent alternative that captures the same intuition and gives the same substantive result. In our view, the test statistic we report is precisely such an alternative. »:
« Mais ce test est-il le plus adapté pour le pour le public général ? Ce serait le cas s’il n’y avait pas d’alternative plus transparente qui contienne la même intuition et qui donne le même résultat en substance. Notre opinion est que le test statistique que nous avons proposé est précisément une telle alternative. »
La science devrait donc être modifiée lorsqu’il s’agit du « public général »…
Ce n’est évidemment pas la première fois — ni la dernière — qu’on fait dire à des statistiques ce qu’elles ne peuvent pas dire. En 1904, les trois célèbres mathématiciens Appell, Darboux et Poincaré sont consultés à propos de l’usage de la théorie des probabilités dans l’affaire Dreyfus. Les « arguments » de Bertillon concernant le document appelé « bordereau » sont-ils justifiés ?
L’article de Laurent Rollet « Autour de l’affaire Dreyfus – Henri Poincaré et l’action politique » sur cet épisode de l’histoire des rapports entre mathématiciens et politique est très intéressant.
Le rapport (de 100 pages !) écrit par nos trois mathématiciens est d’une précision incroyable. En voici la conclusion :
En résumé, tous ces systèmes sont absolument dépourvus de toute valeur scientifique :
1° Parce que l’application du calcul des probabilités à ces matières n’est pas légitime ;
2° Parce que la reconstitution du bordereau est fausse ;
3° Parce que les règles du calcul des probabilités n’ont pas été correctement appliquées.
En un mot, parce que les auteurs ont raisonné mal sur des documents faux.
Signé : Poincaré, Darboux, Appell
Aujourd’hui, plus de cent ans plus tard, le point 1° de cette conclusion est très certainement discutable 20et on sait que Dreyfus était innocent !… Mais l’exemple du Washington Post montre qu’il arrive encore en 2009 de raisonner mal sur le calcul de probabilités !
Le diable se cache dans les chiffres…
19h47
J’ai beaucoup aimé ce billet, qui rappelle, je pense, le devoir critique que nous avons tous vis à vis de la masse d’information que l’on nous assène au quotidien.Ici, ce sont des méthodes mathématiques qui sont critiquées, et on ne peut qu’apprécier la précision et la légitimité des objections que cela autorise ! Malheureusement, en général, je trouve que lire la presse et décider ou non d’y croire, relève plus d’un acte de foi que d’une délibération raisonnable. Enfin, heureusement, quand ça touche au grands sujets de notre temps, comme les fluctuations du pouls de notre cher président, ou les dernières vacances de la famille Obama, la précision des chroniques et les nombreux documents à l’appui ne peuvent que nous convaincre que tout cela est parfaitement transparent !
Mais pour revenir à l’article du Washington Post, il y est aussi question de l’occurence de paires de chiffres consécutifs à la fin des données.Vous n’en faites pas mention dans le billet. Est-ce parce que les arguments quant à l’apparition de telles paires dans des suites de nombres données par des hommes, ne vous paraîssent pas très pertinents ?
Merci encore pour ce billet très intéressant !
17h07
Merci pour votre retour.
Pour ce qui est des deux chiffres consécutifs, je dois avouer que je n’ai pas du tout regardé cela.
Il est vrai que si on continue à chercher toutes sortes de tests : dernier chiffre, second chiffre, premier chiffre, paires de chiffes consécutifs, il est bien probable qu’on va finir par trouver quelque chose qui cloche !
Voyez ma réponse au commentaire suivant.
23h59
Aurait-il été possible d’utiliser le premier chiffre (au lieu du dernier) et de comparer les résultats à la loi de Benford ?
17h04
Cela a été fait !
D’abord un mot sur cette loi de Benford selon laquelle les premiers chiffres d’une série aléatoire de nombres ne sont pas équidistribués : le chiffre 1 par exemple apparaît dans 30 % des cas… Cette « loi » méritera probablement un article dans Images des Maths un de ces jours ! Une chose est importante cependant : pour pouvoir l’appliquer, il faut que les nombres considérés s’étalent sur un grand nombre d’ordres de grandeurs, ce qui ne me semble pas vraiment le cas ici ! Affirmer « a priori » que la loi de Benford devrait être satisfaite pour une élection juste me semble pour le moins discutable… Alors déduire du fait qu’elle n’est pas satisfaite la « conséquence » qu’il y a eu fraude me semble un peu rapide….
En tous les cas, je vous recommande deux prépublications récentes (en n’oubliant jamais qu’une pré-publication signifie précisément que le contenu n’a pas été avalisé par une revue scientifique, et que même si elle était publiée dans une revue respectable, ce ne serait pas pour autant la preuve que son contenu est correct :-))
Boudewijn F. Roukema, « Benford’s Law Anomalies in the 2009 Iranian Presidential Elections ». Ceci pour l’analyse du premier chiffre.
Walter R. Mebane, Note on the presidential election in Iran, June 2009 pour le second chiffre.
Je n’ai pas trouvé d’article analysant le troisième chiffre…
Je vous laisse vous faire votre opinion vous même : science ou numérologie ?