20 janvier 2011

2 commentaires — commenter cet article

Coïncidences

François Sauvageot

Mathématicien. Enseignant, chercheur et acteur de science populaire. (page web)

Il est facile d’être étonné par des faits qui font penser qu’il vient de se passer quelque chose d’extraordinaire, par des coïncidences que l’on pense totalement improbables. Parfois des renversements d’intuition (surnommés paradoxes) montrent qu’il faut se méfier du bon sens, notamment quand on touche à la justice.

Deux exemples

Quelqu’un annonce froidement à son assistance qu’il tient pour certain que deux d’entre eux sont nés le même jour, ou que leurs parents se sont mariés le même jour etc.
Cela n’a rien d’extraordinaire : la probabilité pour que ce soit vrai dépend du nombre de personnes, mais à partir de 23, elle est déjà de 50% et si on s’adresse à 50 personnes, il n’y a plus que 3% de chances de se tromper !

Dans le même ordre d’idées, un médium annonce pour les trois années à venir 169 dates pour lesquelles il y aura des séismes de magnitude supérieure à 6,5. On constate après coup que, sur les 196 séismes qui se sont effectivement produits, 33 avaient été prédits par le médium.
Or la probabilité d’avoir 33 succès de la sorte n’est que de 7,1%. Pourtant il n’y a là rien d’extraordinaire. Pourquoi ?

Explications

Même si les événements décrits sont rares quand on les envisage individuellement ou, pour mieux dire, si ce sont des éventualités isolées, il en va différemment si on répète l’expérience ou si on leur donne plusieurs fois l’occasion de se réaliser.

La clef est de considérer le nombre de fois où un événement rare se produira si on attend assez longtemps. Si tous les jours on a une chance sur 10 de rater sa correspondance, on se dit qu’au bout du mois, on l’aura ratée environ deux fois (en prenant les transports environ 20 jours par mois). C’est grossier mais c’est un bon estimateur de ce qui est normalement rare par opposition à ce qui est vraiment très exceptionnel.

En ce qui concerne les dates, deux jours de l’année pris au hasard coïncident une fois sur 366. Si on se donne une liste de 50 jours, combien de fois peut-on réaliser notre expérience qui, elle, ne nécessite que de comparer deux jours entre eux ? En d’autres termes combien de couples de dates peut-on former à partir d’une liste de 50 dates ? La réponse est bien plus grande que l’on imagine au premier abord : on peut former 1225 couples de jours à partir de cette liste de 50 ... et 1225 est plus que trois fois plus grand que 366 !

Faisons le calcul complètement, en considérant les années bissextiles.

  • Avec deux personnes dans l’assemblée, on a $366\times366$ dates possibles pour la liste des deux anniversaires. Parmi ces dates, $366\times365$ ne correspondent pas à une date de coïncidence, alors que les 366 restantes, oui.
  • Avec trois personnes, la liste des dates possibles est de $366\times366\times366$, les dates sans coïncidences sont au nombre de $366\times365\times364$, puisque la première date peut se révéler être quelconque, la suivante différente de la première et la dernière différente des deux premières.
  • Avec $50$ personnes, le même raisonnement conduit à un dénombrement de $366^{50}$ listes possibles et à $366\times365\times\cdots\times(366-50+1)$ listes sans coïncidences.

Si on admet que toutes les listes ont même chance de se produire (ce qui n’est pas tout à fait raisonnable), on obtient, en faisant le rapport du nombre de cas défavorables sur le nombre de cas possibles, une chance de
\[\frac{366}{366}\times\frac{365}{366}\times\cdots\times\frac{366-50+1}{366}\]
de se tromper. Ainsi on vérifie qu’avec 50 personnes cette chance est d’environ 2,96%, soit une chance de succès supérieure à 97%.
Pour 23 personnes, on trouve une chance de se tromper légèrement inférieure à 50%.

Quant au médium, la probabilité qu’il y ait entre 20 et 40 succès est environ 98% ! Or le médium n’avait pas annoncé exactement 33 succès …
En fait c’est s’il avait obtenu plus de 40 prédictions correctes ou moins de 20 que cela aurait été surprenant. À bien y réfléchir, si le médium n’avait eu aucun succès, alors là, oui, il aurait fallu s’émerveiller !

Quelques conséquences - Les tests ADN

Le test ADN le plus répandu consiste en l’analyse de micro-sites. Ces régions de l’ADN sont situées dans des parties non codantes, qui varient beaucoup d’un individu à l’autre (on parle de polymorphisme). La forme de chaque micro-site est commune à environ 5 à 20% de la population. Mais la carte complète formée par l’analyse de 11 à 16 micro-sites testés est presque unique, une sorte de « code barre génétique » à ceci près qu’il n’est pas garanti que deux personnes aient forcément des codes barres génétiques différents.

Et c’est là qu’il faut être prudent : tester n’est pas identifier ! Partant de deux échantillons, un test positif donne une probabilité qu’ils proviennent de la même personne. Un test négatif permet d’avoir la certitude que ce n’est pas le cas.

On aboutit ainsi à une sorte de paradoxe assez impressionnant : plus on augmente la taille du fichier, plus on est sûr qu’il contiendra des doublons ! Ce qui veut dire que, même si on arrive à un test très fiable (disons une chance sur quelques millions d’avoir le même profil qu’une autre personne), en fichant tout le monde (en fait quelques dizaines milliers suffisent) on est sûr d’avoir des doublons.

En matière de justice, le test ADN est avant tout une confirmation (ou une infirmation) d’une enquête déjà menée, et non un moyen de trouver des coupables. Ficher tout le monde, outre les problèmes éthiques que cela pose, serait avant tout une porte ouverte à l’arbitraire et à l’injustice.

Tests ADN et sophisme du procureur

Dans une affaire criminelle, on récolte une partie de l’ADN. Une partie seulement car il arrive qu’on ne puisse pas clairement identifier tous les micro-sites formant le code barre génétique du suspect. La fréquence d’un tel morceau d’ADN est, disons, environ de 1/10 000.

Doit-on en déduire qu’on n’a qu’une chance sur 10 000 de se tromper en accusant un suspect ayant ce profil ?

NON !

Si le FNAEG comporte 20 000 entrées, il y a 86% de chances d’y trouver au moins deux fois ce profil ! Soit nettement plus d’une chance sur deux d’avoir affaire à un innocent !

Cette confusion est fréquente [1]. Ainsi, en novembre 1999, au Royaume-Uni, Sally Clark [2] est accusée d’avoir tué ses deux enfants, Christopher âgé de 11 semaines en décembre 1996 et Harry âgé de 8 semaines en janvier 1998.
Faute de preuves, l’expert auprès du tribunal, le Professeur Meadow, utilise l’argument fallacieux suivant :

« La probabilité que les deux nourrissons soient morts d’une Mort Subite du Nourrisson est très très faible, 1 chance sur 73 millions. C’est comme si un outsider coté à 80 contre 1 gagnait 4 années de suite le grand prix National »

Le Professeur Meadow laisse ainsi penser que la probabilité qu’une Mort Subite du Nourrisson frappe deux fois la même famille représente également la probabilité d’innocence de Sally Clark. C’est complètement erroné.

Pour évaluer cette probabilité d’innocence, il faut chercher le nombre de fois qu’un événement rarissime se produit dans une population très restreinte (celle de ceux qui ont subi deux décès) et non le nombre de fois qu’il se produit au sein de la population totale.

Il est difficile de calculer précisément cette probabilité. Un calcul utilisant le fait qu’au Royaume Uni on peut dénombrer par an environ 30 infanticides et 650000 naissances, on obtient que la probabilité pour que Sally Clark soit innocente est supérieure à 2/3 ! [3]

Mais de toute façon, quel qu’ait été le résultat : aucune conclusion ne serait pour cela légitime. Joue-t-on son innocence sur un coup de dés ? Auguste Comte a même avancé que l’application du calcul des probabilités aux sciences morales est le scandale des mathématiques, parce que Laplace et Condorcet , qui calculaient bien, eux, sont arrivés à des résultats dénués de sens commun ! [4]

Théorème du dictateur

La phrase d’Auguste Compte fait notamment référence au paradoxe de Condorcet, sur la difficulté d’un vote sur trois choix. Paradoxe généralisé par Arrow, connu sous le nom de théorème du dictateur. On peut en avoir une idée en pensant au jeu « Pierre, feuille, ciseaux » : aucun ne bat les deux autres car chacun bat l’un et se fait battre par l’autre. Comment choisir dans une telle situation ?

C’est pour éviter ce genre de situations que l’on fait surtout des votes sur seulement deux possibilités. Et il faut alors se rendre compte que le choix de la question est décisif : c’est l’acte politique crucial.
En quelque sorte la question contient en elle-même une partie de la réponse : en écartant d’autres possibilités, en se restreignant à une alternative à deux branches, une grande partie de la décision a déjà été prise. Si on a le choix entre un aéroport à tel endroit ou pas d’aéroport, peut-on encore proposer un aéroport dans un autre endroit ? Si on propose une union européenne autour de la monnaie ou pas d’union européenne, peut-on proposer une union européenne sur d’autres bases ? Eh bien, non ! Il faut alors savoir quoi voter (ou ne pas voter) pour avoir une chance de faire aboutir un projet différent ... tout en sachant qu’en légitimant tel ou tel projet, on hypothèque grandement la possibilité d’en promouvoir un autre, même en arguant que le choix était trop restreint lors du vote.

Face à un tel choix, les citoyen-ne-s se doivent de réfléchir non pas seulement à la question posée, mais aussi aux autres choix qu’ils auraient pu estimer possibles. Et quand, comme lors des élections à deux tours, c’est eux-mêmes qui déterminent qui sera au second tour et donc quelle sera la question posée, il leur faut aussi bien réfléchir aux enjeux. Même si on peut aussi se dire qu’un premier tour permet de donner un signal aux deux candidat(e)s restant(e)s au second tour.

Quant aux analystes, on ne peut que leur recommander la prudence quand ils déduisent du résultat d’un vote la réponse à une autre question ... Comme par exemple assimiler un vote contre une action de politique extérieure à une sanction suite à une politique intérieure impopulaire. C’est souvent bien plus compliqué que ça.

Pour en savoir plus ...

Quelques critiques des modèles

On a supposé que toutes les dates ou tous les évènements étaient équiprobables. Si on pense que ce n’est pas le cas, alors en fait les probabilités de coïncidence se renforcent. Par exemple si on a des jumeaux, ou si tout le monde naissait en août ... tout ceci a pour effet de restreindre les listes possibles et donc d’augmenter la chance d’avoir des doublons.

Triangle de Pascal

Dans les considérations sur les événements annoncés à l’avance, on étudie le nombre de cas favorables en répétant une expérience plusieurs fois. On a besoin pour cela de compter le nombre de façons possibles de choisir un nombre fixé de dates parmi une grande liste. Par exemple avec une liste de 169 dates, combien y a-t-il de choix possibles pour en extraire 33 ? Ce nombre est très élevé ! On l’appelle nombre de combinaisons. Les nombres de combinaisons apparaissent dans le triangle de Pascal et dans la formule du binôme de Newton. Quand on dessine la forme du triangle de Pascal pour $n$ grand [5], on trouve une courbe en cloche et c’est pourquoi on peut approximer un nombre de combinaisons par une exponentielle.

Plus précisément, on a l’estimation suivante :
\[exp\left(-\frac{t^2}{m-t+1}\right)\leq \frac{{2m\choose m-t}}{{2m\choose m}} \leq exp\left(-\frac{t^2}{m+t}\right)\;.\]
Une conséquence est, par exemple, que les 107 termes médians de la millième ligne contribuent à eux seuls à 99% du total des 1001 termes de la ligne.

Paradoxe des anniversaires et tests ADN

Si on note $P(k)$ la probabilité que toutes les personnes d’une liste de $k$ personnes soient nées un jour différent, on peut la comparer elle aussi à une exponentielle. En fait on peut démontrer grâce à la concavité du logarithme, qu’on a (sous hypothèse d’équiprobabilité) :
\[exp\left(-\frac{k(k-1)}{2(366-k+1)}\right)\leq P(k)\leq exp\left(-\frac{k(k-1)}{2\times366}\right)\;.\]
Si on s’intéressait également à l’heure de naissance, il faudrait remplacer $366$ par $366\times24=8784$ dans les formules.
Si on prend par exemple 1600 personnes, il y a plus de 90% de chances que deux personnes soient nées le même jour, la même heure et la même minute !
Évidemment, encore faudrait-il connaitre sa minute de naissance précisément !

Sophisme du procureur

Nous prenons deux hypothèses : (A) les enfants de Sally Clark sont morts par accident, (M) Sally Clark les a tués et nous négligeons les autres possibilités. Pour évaluer la probabilité d’innocence (I) de Sally Clark, il faut évaluer la chance qu’il y ait un double décès inexpliqué (A) sachant qu’il y a un double décès (D). On écrit $P(A|D)$ la probabilité de l’événement (A) sachant que l’événement (D) a eu lieu et on utilise la formule des probabilités conditionnelles :
\[P(A|D)=\frac{P(A)P(D|A)}{P(A)P(D|A)+P(M)P(D|M)}=\frac{P(A)}{P(A)+P(M)}=\frac1{1+\frac{P(M)}{P(A)}}\;.\]
En prenant 1/1300 comme probabilité pour une Mort Subite du Nourrisson, on peut penser que P(A) est supérieur à 10 fois (1/1300)*(1/1300), soit P(A)
supérieur à 1/169000. Le facteur 10 représente le risque accru d’avoir une seconde mort subite du nourrisson sachant qu’il y en a déjà eu une. Le statisticien Ray Hill conduit des calculs montrant que le facteur 10 est un compromis entre des estimations donnant un facteur de risque accru compris entre 5 et 22.

Avec 30 infanticides par an et 650000 naissances par an, on peut penser que P(M) est inférieur à 1/20 fois 30/650 000, soit P(M) inférieur à 3/1300 000. Ce facteur 1/20 est très empirique. Il dit que si un meurtre a été commis, un second est plus probable, nettement plus probable que s’il n’y en avait pas eu avant. Si on ne le mettait pas, il faudrait calculer 30/650 000 au carré, autrement dit il faudrait multiplier 30/650 000 par lui-même, à savoir un nombre à peu près égal à 1/20 000. On considère ici que le sur-risque d’infanticide est au plus de 1000. Ray Hill l’estime à 176, ce qui est déjà énorme.

On obtient : [6]
\[P(A|D)\ge\frac1{1+0,39}\simeq72\%\ge2/3\;.\]
La probabilité pour que Sally Clark soit innocente est donc, avec nos hypothèses de travail, supérieure à 2/3. [7]

P.S. :

La rédaction d’Images des maths, ainsi que l’auteur, remercient pour leur relecture attentive,
les relecteurs dont le pseudonyme est le suivant : Olivier,
Caocoa, Serma, Jérôme Buzzi et Massy Soedirman. L’auteur remercie également Patrick Popescu-Pampu pour ses remarques pertinentes, ses suggestions et ses questions.

Notes

[1Le statisticien Peter Donnelly a donné une conférence sur ce sujet. Elle est en anglais, mais est sous-titrée en français : http://www.ted.com/talks/peter_donn....

[2Pour plus d’information, consulter par exemple les sites, en anglais, http://www.sallyclark.org.uk/ et http://en.wikipedia.org/wiki/Sally_Clark

[3Sally Clark a été condamnée à perpétuité en 1999, puis libérée en 2003 après deux appels. Elle est morte d’alcoolisme à 42 ans, en 2007, sans jamais s’être remise de cette histoire.

[4Cité par Henri Poincaré dans une lettre à Paul Painlevé, lors de l’affaire Dreyfuss.

[5C’est-à-dire l’histogramme associé : sur une droite graduée de 0 à $n$, on place des rectangles adjacents, de base identique et de hauteur $n\choose k$, au niveau de la graduation $k$. Voici l’histogramme pour $n=18$.

[6Les calculs de Ray Hill encadrent cette probabilité entre 82% et 90%, autrement dit ils montrent que le taux de doubles morts subites par rapport au taux de doubles infanticides est compris entre 1 et 2 pour le premier contre 9 pour le second.

[7Pour des calculs détaillés, en anglais, voir l’article de Ray Hill paru en 2004 dans Pediatric and Perinatal Epidemiology, vol. 18, pp. 320–326..

Crédits images

Image à la une — L’illustration est une propriété de l’auteur.

Affiliation de l'auteur

François Sauvageot : Lycée Georges Clemenceau - Académie de Nantes

Commentaires sur l'article

Pour citer cet article : François Sauvageot, « Coïncidences »Images des Mathématiques, CNRS, 2011.

En ligne, URL : http://images.math.cnrs.fr/Coincidences.html

Si vous avez aimé cet article, voici quelques suggestions automatiques qui pourraient vous intéresser :