Coïncidences
Piste verte Le 20 janvier 2011 Voir les commentaires (2)
Il est facile d’être étonné par des faits qui font penser qu’il vient de se passer quelque chose d’extraordinaire, par des coïncidences que l’on pense totalement improbables. Parfois des renversements d’intuition (surnommés paradoxes) montrent qu’il faut se méfier du bon sens, notamment quand on touche à la justice.
Deux exemples
Quelqu’un annonce froidement à son assistance qu’il tient pour certain que deux d’entre eux sont nés le même jour, ou que leurs parents se sont mariés le même jour etc.
Cela n’a rien d’extraordinaire : la probabilité pour que ce soit vrai dépend du nombre de personnes, mais à partir de 23, elle est déjà de 50% et si on s’adresse à 50 personnes, il n’y a plus que 3% de chances de se tromper !
Dans le même ordre d’idées, un médium annonce pour les trois années à venir 169 dates pour lesquelles il y aura des séismes de magnitude supérieure à 6,5. On constate après coup que, sur les 196 séismes qui se sont effectivement produits, 33 avaient été prédits par le médium.
Or la probabilité d’avoir 33 succès de la sorte n’est que de 7,1%. Pourtant il n’y a là rien d’extraordinaire. Pourquoi ?
Explications
Même si les événements décrits sont rares quand on les envisage individuellement ou, pour mieux dire, si ce sont des éventualités isolées, il en va différemment si on répète l’expérience ou si on leur donne plusieurs fois l’occasion de se réaliser.
La clef est de considérer le nombre de fois où un événement rare se produira si on attend assez longtemps. Si tous les jours on a une chance sur 10 de rater sa correspondance, on se dit qu’au bout du mois, on l’aura ratée environ deux fois (en prenant les transports environ 20 jours par mois). C’est grossier mais c’est un bon estimateur de ce qui est normalement rare par opposition à ce qui est vraiment très exceptionnel.
En ce qui concerne les dates, deux jours de l’année pris au hasard coïncident une fois sur 366. Si on se donne une liste de 50 jours, combien de fois peut-on réaliser notre expérience qui, elle, ne nécessite que de comparer deux jours entre eux ? En d’autres termes combien de couples de dates peut-on former à partir d’une liste de 50 dates ? La réponse est bien plus grande que l’on imagine au premier abord : on peut former 1225 couples de jours à partir de cette liste de 50 ... et 1225 est plus que trois fois plus grand que 366 !
Faisons le calcul complètement, en considérant les années bissextiles.
- Avec deux personnes dans l’assemblée, on a $366\times366$ dates possibles pour la liste des deux anniversaires. Parmi ces dates, $366\times365$ ne correspondent pas à une date de coïncidence, alors que les 366 restantes, oui.
- Avec trois personnes, la liste des dates possibles est de $366\times366\times366$, les dates sans coïncidences sont au nombre de $366\times365\times364$, puisque la première date peut se révéler être quelconque, la suivante différente de la première et la dernière différente des deux premières.
- Avec $50$ personnes, le même raisonnement conduit à un dénombrement de $366^{50}$ listes possibles et à $366\times365\times\cdots\times(366-50+1)$ listes sans coïncidences.
Si on admet que toutes les listes ont même chance de se produire (ce qui n’est pas tout à fait raisonnable), on obtient, en faisant le rapport du nombre de cas défavorables sur le nombre de cas possibles, une chance de
\[\frac{366}{366}\times\frac{365}{366}\times\cdots\times\frac{366-50+1}{366}\]
de se tromper. Ainsi on vérifie qu’avec 50 personnes cette chance est d’environ 2,96%, soit une chance de succès supérieure à 97%.
Pour 23 personnes, on trouve une chance de se tromper légèrement inférieure à 50%.
Quant au médium, la probabilité qu’il y ait entre 20 et 40 succès est environ 98% ! Or le médium n’avait pas annoncé exactement 33 succès …
En fait c’est s’il avait obtenu plus de 40 prédictions correctes ou moins de 20 que cela aurait été surprenant. À bien y réfléchir, si le médium n’avait eu aucun succès, alors là, oui, il aurait fallu s’émerveiller !
Quelques conséquences - Les tests ADN
Le test ADN le plus répandu consiste en l’analyse de micro-sites. Ces régions de l’ADN sont situées dans des parties non codantes, qui varient beaucoup d’un individu à l’autre (on parle de polymorphisme). La forme de chaque micro-site est commune à environ 5 à 20% de la population. Mais la carte complète formée par l’analyse de 11 à 16 micro-sites testés est presque unique, une sorte de « code barre génétique » à ceci près qu’il n’est pas garanti que deux personnes aient forcément des codes barres génétiques différents.
Et c’est là qu’il faut être prudent : tester n’est pas identifier ! Partant de deux échantillons, un test positif donne une probabilité qu’ils proviennent de la même personne. Un test négatif permet d’avoir la certitude que ce n’est pas le cas.
On aboutit ainsi à une sorte de paradoxe assez impressionnant : plus on augmente la taille du fichier, plus on est sûr qu’il contiendra des doublons ! Ce qui veut dire que, même si on arrive à un test très fiable (disons une chance sur quelques millions d’avoir le même profil qu’une autre personne), en fichant tout le monde (en fait quelques dizaines milliers suffisent) on est sûr d’avoir des doublons.
En matière de justice, le test ADN est avant tout une confirmation (ou une infirmation) d’une enquête déjà menée, et non un moyen de trouver des coupables. Ficher tout le monde, outre les problèmes éthiques que cela pose, serait avant tout une porte ouverte à l’arbitraire et à l’injustice.
Tests ADN et sophisme du procureur
Dans une affaire criminelle, on récolte une partie de l’ADN. Une partie seulement car il arrive qu’on ne puisse pas clairement identifier tous les micro-sites formant le code barre génétique du suspect. La fréquence d’un tel morceau d’ADN est, disons, environ de 1/10 000.
Doit-on en déduire qu’on n’a qu’une chance sur 10 000 de se tromper en accusant un suspect ayant ce profil ?
NON !
Si le FNAEG comporte 20 000 entrées, il y a 86% de chances d’y trouver au moins deux fois ce profil ! Soit nettement plus d’une chance sur deux d’avoir affaire à un innocent !
Cette confusion est fréquente [1]. Ainsi, en novembre 1999, au Royaume-Uni, Sally Clark [2] est accusée d’avoir tué ses deux enfants, Christopher âgé de 11 semaines en décembre 1996 et Harry âgé de 8 semaines en janvier 1998.
Faute de preuves, l’expert auprès du tribunal, le Professeur Meadow, utilise l’argument fallacieux suivant :
« La probabilité que les deux nourrissons soient morts d’une Mort Subite du Nourrisson est très très faible, 1 chance sur 73 millions. C’est comme si un outsider coté à 80 contre 1 gagnait 4 années de suite le grand prix National »
Le Professeur Meadow laisse ainsi penser que la probabilité qu’une Mort Subite du Nourrisson frappe deux fois la même famille représente également la probabilité d’innocence de Sally Clark. C’est complètement erroné.
Pour évaluer cette probabilité d’innocence, il faut chercher le nombre de fois qu’un événement rarissime se produit dans une population très restreinte (celle de ceux qui ont subi deux décès) et non le nombre de fois qu’il se produit au sein de la population totale.
Il est difficile de calculer précisément cette probabilité. Un calcul utilisant le fait qu’au Royaume Uni on peut dénombrer par an environ 30 infanticides et 650000 naissances, on obtient que la probabilité pour que Sally Clark soit innocente est supérieure à 2/3 ! [3]
Mais de toute façon, quel qu’ait été le résultat : aucune conclusion ne serait pour cela légitime. Joue-t-on son innocence sur un coup de dés ? Auguste Comte a même avancé que l’application du calcul des probabilités aux sciences morales est le scandale des mathématiques, parce que Laplace et Condorcet , qui calculaient bien, eux, sont arrivés à des résultats dénués de sens commun ! [4]
Théorème du dictateur
La phrase d’Auguste Compte fait notamment référence au paradoxe de Condorcet, sur la difficulté d’un vote sur trois choix. Paradoxe généralisé par Arrow, connu sous le nom de théorème du dictateur. On peut en avoir une idée en pensant au jeu « Pierre, feuille, ciseaux » : aucun ne bat les deux autres car chacun bat l’un et se fait battre par l’autre. Comment choisir dans une telle situation ?
C’est pour éviter ce genre de situations que l’on fait surtout des votes sur seulement deux possibilités. Et il faut alors se rendre compte que le choix de la question est décisif : c’est l’acte politique crucial.
En quelque sorte la question contient en elle-même une partie de la réponse : en écartant d’autres possibilités, en se restreignant à une alternative à deux branches, une grande partie de la décision a déjà été prise. Si on a le choix entre un aéroport à tel endroit ou pas d’aéroport, peut-on encore proposer un aéroport dans un autre endroit ? Si on propose une union européenne autour de la monnaie ou pas d’union européenne, peut-on proposer une union européenne sur d’autres bases ? Eh bien, non ! Il faut alors savoir quoi voter (ou ne pas voter) pour avoir une chance de faire aboutir un projet différent ... tout en sachant qu’en légitimant tel ou tel projet, on hypothèque grandement la possibilité d’en promouvoir un autre, même en arguant que le choix était trop restreint lors du vote.
Face à un tel choix, les citoyen-ne-s se doivent de réfléchir non pas seulement à la question posée, mais aussi aux autres choix qu’ils auraient pu estimer possibles. Et quand, comme lors des élections à deux tours, c’est eux-mêmes qui déterminent qui sera au second tour et donc quelle sera la question posée, il leur faut aussi bien réfléchir aux enjeux. Même si on peut aussi se dire qu’un premier tour permet de donner un signal aux deux candidat(e)s restant(e)s au second tour.
Quant aux analystes, on ne peut que leur recommander la prudence quand ils déduisent du résultat d’un vote la réponse à une autre question ... Comme par exemple assimiler un vote contre une action de politique extérieure à une sanction suite à une politique intérieure impopulaire. C’est souvent bien plus compliqué que ça.
La rédaction d’Images des maths, ainsi que l’auteur, remercient pour leur relecture attentive,
les relecteurs dont le pseudonyme est le suivant : Olivier,
Caocoa, Serma, Jérôme Buzzi et Massy Soedirman. L’auteur remercie également Patrick Popescu-Pampu pour ses remarques pertinentes, ses suggestions et ses questions.
Notes
[1] Le statisticien Peter Donnelly a donné une conférence sur ce sujet. Elle est en anglais, mais est sous-titrée en français : http://www.ted.com/talks/peter_donn....
[2] Pour plus d’information, consulter par exemple les sites, en anglais, http://www.sallyclark.org.uk/ et http://en.wikipedia.org/wiki/Sally_Clark
[3] Sally Clark a été condamnée à perpétuité en 1999, puis libérée en 2003 après deux appels. Elle est morte d’alcoolisme à 42 ans, en 2007, sans jamais s’être remise de cette histoire.
[4] Cité par Henri Poincaré dans une lettre à Paul Painlevé, lors de l’affaire Dreyfuss.
[5] C’est-à-dire l’histogramme associé : sur une droite graduée de 0 à $n$, on place des rectangles adjacents, de base identique et de hauteur $n\choose k$, au niveau de la graduation $k$. Voici l’histogramme pour $n=18$.
[6] Les calculs de Ray Hill encadrent cette probabilité entre 82% et 90%, autrement dit ils montrent que le taux de doubles morts subites par rapport au taux de doubles infanticides est compris entre 1 et 2 pour le premier contre 9 pour le second.
Partager cet article
Pour citer cet article :
François Sauvageot — «Coïncidences» — Images des Mathématiques, CNRS, 2011
Laisser un commentaire
Actualités des maths
-
20 avril 2018Un amateur fait une percée sur un problème de plus de soixante ans
-
19 avril 2018Colonies Mat’les vacances (23/7-3/8) & Mat’les étoiles (16/7-27/7)
-
19 avril 2018Mathématiques du ciel (Lyon, 25/4)
-
14 avril 2018Stage « maths clown » (Bretagne, 8-9/7)
-
6 avril 2018Le logarithme né paie rien (Paris, 12/4)
-
5 avril 2018Fourier aujourd’hui (Paris, 7/4)
Commentaire sur l'article
Coïncidences
le 24 janvier 2011 à 21:53, par Jacques Lafontaine
Coïncidences
le 28 janvier 2011 à 18:50, par Jérôme Germoni