Le paradoxe des anniversaires

Piste bleue Le 22 novembre 2022  - Ecrit par  Alice Cleynen, Hoel Queffelec Voir les commentaires
Lire l'article en  

Dans une classe d’école, l’expérience montre qu’il y a très souvent deux enfants fêtant leur anniversaire le même jour. Surprenant ? Ce paradoxe se retrouve dans d’autres situations, comme nous avons pu le constater en allant faire nos courses. Un article basé sur des faits réels.

Jeunes parents parfois débordés, nous nous sommes récemment convertis aux courses en drive. Le drive, c’est ce système qui consiste à faire ses courses sur internet puis à les récupérer sur le parking du supermarché. À notre arrivée, on sonne, on annonce les quatre derniers chiffres de notre numéro de commande dans l’interphone, et un employé nous apporte nos sacs de courses.
Mais lors de notre dernière commande, ce ne sont pas nos courses que l’employé nous a apportées ! Les quatre derniers chiffres sont pourtant corrects... mais pas les précédents. Il y a eu confusion entre deux commandes dont les numéros finissaient par les mêmes quatre derniers chiffres.

  • Oh, ça arrive tous les jours, nous dit l’employé.
  • Ah bon ? Mais vous avez combien de commandes par jour ?
  • Environ 150.

Notre sang de mathématicien·ne·s ne fait qu’un tour ! Voilà un splendide paradoxe des anniversaires !

En effet, en conservant les quatre derniers chiffres du numéro de commande, le magasin se réserve 10 000 possibilités : de 0000 à 9999. Comment se fait-il qu’avec seulement 150 commandes par jour, ça ne suffise pas à éviter les doublons ? C’est l’une de ces situations où l’intuition nous égare souvent, et qu’on appelle généralement « paradoxe » (paradoxe des anniversaires, paradoxe de l’autobus,...).

Reprenons tranquillement. Nous avons donc 10 000 choix possibles pour les quatre derniers chiffres entre 0000 et 9999. 150 clientes et clients se voient attribuer, chaque jour, un tel numéro (on parle de tirage avec remise : le même numéro peut être attribué plusieurs fois). Nous voulons connaître la probabilité que deux personnes au moins se voient attribuer le même numéro.

Nous allons déterminer cette probabilité en calculant le nombre $N$ de manières qu’il y a d’étiqueter l’ensemble des commandes du jour, et en déterminant, parmi toutes ces $N$ possibilités, le nombre $d$ de fois où la même étiquette apparaît sur (au moins) deux commandes différentes. En considérant que tous les numéros entre 0000 et 9999 ont la même probabilité d’être attribués, la probabilité que nous cherchons est alors : $p=\frac{d}{N}$.

Le nombre $N$ est assez simple à déterminer. Prenons nos 150 clientes ou clients du jour un par un. Pour chacune ou chacun , il y a 10 000 possibilités. Répétées 150 fois, cela nous donne en tout 10 000 fois 10 000 fois 10 000 fois ..., c’est-à-dire que $N=10 000^{150}$.

Pour trouver $d$ par contre, le calcul est délicat à mener de front : il est possible que seuls deux shoppers aient le même numéro, ou que deux paires de deux client(e)s aient le même numéro mais que ces numéros diffèrent, ou qu’il y ait des triplés de numéros identiques... On s’y perd.

En revanche, la situation complémentaire se comprend mieux : on peut chercher à connaître le nombre $d'$ de configurations où tous les numéros attribués sont bien différents. Il sera alors facile de remonter au problème initial : soit tous les numéros sont différents, soit il y en a au moins deux identiques, et donc $d+d'=N$. Puisqu’on a déjà trouvé $N$, si on connaît $d'$, on pourra déterminer $d=N-d'$.

Reste donc à calculer $d'$. Pour ce faire, ordonnons nos 150 clientes et clients du jour. Le premier se voit attribuer l’un des nombres entre 0000 et 9999 : il y a 10 000 choix possibles. Pour le second par contre, il n’y a plus que 9999 choix, puisqu’on ne veut pas réattribuer le numéro du premier. La troisième cliente aura, de même, 9998 choix possibles, et ainsi de suite jusqu’au 150ème client qui aura l’un des 9851 numéros restant. Le nombre total de configurations est alors :
\[d'=10000\cdot 9999\cdot 9998 \cdots 9851\]

Nous y sommes presque ! Rappelons-nous que nous cherchons la probabilité $p$, et que :
\[p=\frac{d}{N}=\frac{N-d'}{N}=1-\frac{d'}{N}\]
En faisant le calcul explicitement (c’est trop compliqué pour être fait à la main, mais ça se fait sans problème avec un ordinateur), nous obtenons :
\[p=0,6747...\]
En d’autres termes, il y a chaque jour $67.47$% de chances d’avoir au moins deux clients avec le même numéro ! L’employé du supermarché a un peu exagéré en disant que ça arrivait tous les jours, mais pas tant que ça puisque ça arrive plus d’un jour sur deux.

On tombe ici sur cette situation contre-intuitive qui fait écho au paradoxe des anniversaires : le nombre de numéros disponibles étant bien plus grand que le nombre de clients, on a l’impression que le fait que deux clients se voient attribuer le même numéro devrait être un évènement rare. L’analyse plus fine montre exactement le contraire.

Il ne sera pas dit que nous sommes des donneurs de leçons qui ne proposons aucune solution : calculons maintenant le nombre de chiffres qu’il faudrait conserver pour que la probabilité que deux clients se voient attribuer le même numéro soit inférieure à, par exemple, 5%.

Si on garde $5$ chiffres, il suffit de reprendre les calculs en remplaçant $10^4=10000$ par $10^5=100000$. On est surpris de voir que même avec $5$ chiffres, il reste encore $10,58$% de risques d’avoir un doublon ! À $6$ chiffres (c’est-à-dire un million de possibilités tout de même), ce risque tombe à seulement $1,11$%.

Post-scriptum :

Revenons sur la version classique du paradoxe des anniversaires, et prenons une classe typique de trente élèves. Pour chacun d’entre eux, il y a 365 choix possibles comme date d’anniversaire. En reprenant les calculs de l’article, on trouve qu’il y a 70% de chances que deux élèves partagent la même date d’anniversaire !

Dans ces situations, l’intuition nous égare en nous faisant penser qu’en multipliant ensemble des nombres très proches de $1$, le résultat final sera proche de $1$. En effet, on peut réécrire le calcul de la probabilité $p$ effectué plus haut comme suit :
\[p=1-\frac{d'}{N}=1-\frac{10000}{10000}\cdot \frac{9999}{10 000}\cdots \frac{9851}{10000}\]
Chacun des termes $\frac{9xxx}{10000}$ est très proche de $1$, et on pourrait penser que le calcul qu’on fait se ramène à $p=1-1=0$, c’est-à-dire une probabilité proche de zéro qu’il y ait un doublon. Mais ce n’est justement pas le cas ! Et même, plus on rajoute de termes et plus vite on va s’éloigner de $1$. C’est ainsi qu’avec 50 clients de moins, c’est à dire $100$ clients par jour il y aurait tout de même $39.1$% de risques d’avoir des doublons, tandis qu’avec $50$ clients de plus, c’est à dire $200$ clients, cette probabilité ne serait « que » montée à $86.5$% !

Nous remercions Aurélien Alvarez et Pierre-Antoine Guihéneuf pour leurs conseils et leur soutien, Clément Caubel et Gilles Damamme pour la relecture, et Marine Depery pour l’illustration. Nous sommes tous les deux financés par une bourse Marie Sklodowska-Curie de la Commission Européenne (projets LIMORD et ABCD).

Article édité par Pierre-Antoine Guihéneuf

Partager cet article

Pour citer cet article :

Hoel Queffelec, Alice Cleynen — «Le paradoxe des anniversaires» — Images des Mathématiques, CNRS, 2022

Commentaire sur l'article

Laisser un commentaire

Forum sur abonnement

Pour participer à ce forum, vous devez vous enregistrer au préalable. Merci d’indiquer ci-dessous l’identifiant personnel qui vous a été fourni. Si vous n’êtes pas enregistré, vous devez vous inscrire.

Connexions’inscriremot de passe oublié ?