[Rediffusion d’un billet publié en 2009]
Quel est le début de ce nombre ?
L’étrange loi de Benford
Piste bleue Le 5 novembre 2022 Voir les commentaires (5)
Saviez-vous que près de la moitié des nombres rencontrés dans la vie quotidienne commencent soit par un 1, soit par un 2, alors que moins d’un sur vingt commence par un 9 ?
Piste verte ou bleue : un domaine skiable pour lire ou relire cet été... Rediffusion d’un article publié le 26 décembre 2009.
Les nombres que l’on rencontre dans la vie quotidienne obéissent à une loi assez inattendue.
Amusons-nous en effet à les classer suivant leur premier chiffre significatif : celui-ci est compris entre 1 et 9, ce n’est jamais 0 et on ne tient compte ni du signe ni de la place de la virgule.
Ainsi, le premier chiffre significatif des nombres 0,025, 23,7 et -26 est 2 dans tous les cas.
Comparons alors les effectifs trouvés pour chaque premier chiffre possible.
Si on considère suffisamment de nombres, d’origines variées, une tendance surprenante se manifeste : on rencontre beaucoup plus de nombres commençant par 1, 2 ou 3, que par 7, 8 ou 9.
Le premier à mettre en évidence ce phénomène, qu’il décrit en 1881 [1], est l’astronome et mathématicien Simon Newcomb.
Ce dernier s’était étonné que les tables de logarithmes se déchiraient plus vite au niveau des premières pages que des dernières.
Le logarithme est une fonction mathématique grâce à laquelle on peut transformer les multiplications et les divisions (opérations très compliquées sans calculatrice !) en additions et soustractions. On imagine donc aisément l’usage intensif fait de ces tables par les scientifiques de l’époque.
L’explication avancée par Newcomb est que les tables de logarithmes étaient plus abimées au début qu’à la fin parce que leurs utilisateurs rencontraient plus souvent des nombres commençant par 1 ou 2 que par 8 ou 9.
Il propose alors la formule suivante dans laquelle la fréquence [2]
d’apparition de chacun des premiers chiffres possibles est justement décrite
à l’aide de la fonction logarithme (en base 10) :
pour $i\in \{1, \dots , 9\}$, le premier chiffre significatif est $i$ avec probabilité
\[
P(i) = \log_{10} \left( \frac{i+1}{i} \right).
\]
Voici les valeurs numériques approximatives données par la formule : les
chiffres 1 et 2 totalisent presque la moitié des effectifs !
- Fréquence d’apparition de chacun des premiers chiffres significatifs possibles d’après la loi de Benford.
Le physicien Frank Benford fit la même découverte 57 ans plus tard et publia lui aussi un article [3] sur le sujet, dans lequel il propose la même formule, obtenue de manière empirique.
L’article de Benford ayant eu plus de retentissement, cette formule porte
désormais le nom de loi de Benford.
La loi de Benford est-elle vraiment vérifiée ?
Il est clair que de nombreuses données empiriques ne suivent pas du tout la loi de Benford :
si l’on s’intéresse par exemple à la taille d’une population adulte, mesurée en centimètres, la plupart des nombres auront un premier chiffre significatif égal à 1. Au contraire, si on mesure ces tailles en pieds, il y a peu de chance de trouver des nombres commençant par 1.
En son temps, Benford avait testé sa loi sur un nombre considérable d’observations - « aussi large que le temps et l’énergie humainement disponible le permettent » - d’origines diverses : il avait collecté plus de 20 000 nombres provenant aussi bien de résultats de Base-Ball que de relevés d’hydrologie.
Dans son article, la moitié des listes considérées s’écartent significativement de la loi prévue. Mais lorsqu’il cumule toutes les données relevées, la ressemblance devient frappante.
Aujourd’hui, l’informatique permet de tester très rapidement la loi de Benford sur des ensembles de données beaucoup plus gros. Comme le suggère l’économiste américain Mark Nigrini (voir aussi à la fin de l’article) sur son site internet, il est assez facile de lister et trier les tailles des fichiers présents sur le disque dur d’un ordinateur.
Voici à gauche le résultat obtenu.
Les chiffres 1 et 4 apparaissent nettement plus souvent que ne
le prévoit la loi de Benford. Une observation plus précise des tailles des fichiers relevées montre que $16\,384$ et $4\,096$ (respectivement $2^{14}$ et $2^{12}$) sont obtenus plusieurs milliers de fois chacun. Il s’agit en fait des tailles que le système réserve automatiquement pour les répertoires.
Si on ne tient pas compte des répertoires, la distribution obtenue se rapproche étonnamment bien de la loi de Benford !
Est-ce étonnant ?
Il est clair que l’on peut écrire autant de nombres commençant par 1 que par 9 (ou par n’importe quel autre chiffre) : il suffit pour cela de prendre le nombre et de changer son premier chiffre !
On s’attend donc à ce que le hasard ne privilégie aucune des 9 situations possibles, et à ce que chaque chiffre entre 1 et 9 apparaisse en première place avec une fréquence 1/9...
L’attente d’une telle fréquence sur le premier chiffre d’un nombre est le résultat d’une illusion bien connue des psychologues, appelée biais d’équiprobabilité [4].
Il s’agit d’une tendance humaine à considérer que le « vrai » hasard implique nécessairement l’uniformité.
Mais nous avons souvent une mauvaise perception du hasard, et il semble ici que ce soit le cas.
Puisque l’on a des raisons de penser que la loi de Benford est bien vraie,
on peut se demander pourquoi c’est elle qui apparaît naturellement lorsqu’on regarde énormément de nombres d’origines diverses.
Pourquoi alors plus de 1 que de 9 ?
La loi de Benford a suscité depuis sa découverte un grand nombre de publications chez les scientifiques.
Le site Benford Online Bibliography en recense une quantité impressionnante.
Parmi ceux-ci, les articles de mathématiques cherchent essentiellement à répondre à deux questions :
- Quelles conditions générales peuvent expliquer l’apparition de la loi de Benford ?
- Pourquoi la plupart des données empiriques vérifient-elles approximativement cette loi ?
Le problème principal pour démontrer mathématiquement la loi de Benford est de définir rigoureusement ce que signifie « les nombres rencontrés dans la vie quotidienne ».
Une première idée qui vient à l’esprit est de ne regarder pour débuter que les nombres entiers. Est-il possible de définir la proportion de ceux commençant par 1 ?
- Proportion des entiers pairs compris entre 1 et M.
Par exemple, tout le monde est d’accord pour dire que la moitié des entiers sont pairs.
Une façon de définir rigoureusement la proportion des nombres pairs parmi tous les entiers est la suivante :
on regarde la proportion des nombres pairs plus petits qu’une certaine valeur maximum, pour des valeurs maximums de plus en plus grandes.
- Entre 1 et 10, il y a 5 nombres pairs, ce qui donne une proportion 5/10 = 1/2. En fait, la proportion des nombres pairs jusqu’à un maximum pair est toujours 1/2.
- Entre 1 et 11, il y a aussi 5 nombres pairs, donc la proportion des nombres pairs jusqu’à 11 est 5/11 = 1/2 -1/22. De manière générale, si la valeur maximum $M$ est impaire, alors la proportion est égale à $1/2 - 1/2M$.
La proportion des entiers pairs compris entre 1 et $M$ ne change presque pas lorsque $M$ devient grand. On peut donc dire que la proportion cherchée est bien égale à 1/2, c’est-à-dire que la moitié des entiers sont pairs.
- Proportion des entiers compris entre 1 et M commençant par 1.
- Attention, sur l’axe horizontal, il s’agit d’une échelle logarithmique : on utilise la même distance pour représenter les entiers entre 1 et 10, entre 10 et 100, entre 100 et 1000.
Malheureusement, on ne peut pas définir de la même façon la proportion des nombres entiers commençant par 1.
En effet, regardons la proportion $R(M)$ des entiers, entre $1$ et $M$, commençant par 1 :
- L’entier 1 commençant par 1, on obtient $R(1)=1$.
- Puisqu’aucun nombre entre 2 et 9 ne débute par 1, la proportion va décroître jusqu’à atteindre $R(9)=1/9$ ;
- Puis, les nombres de 10 à 19 commençant tous par 1, la proportion croît jusqu’à $M=19$ (on trouve alors $R(19)=11/19$).
- Entre 20 et 99, aucun nombre ne commence par 1, donc le ratio décroît à nouveau jusqu’à $M=99$ (et $R(99)=11/99=1/9$).
- Il croît à nouveau jusqu’à $M=199$ (et $R(199)=111/199$), etc.
Même lorsque le maximum $M$ devient très grand, la proportion ne cesse d’osciller entre $1/9$ et $5/9$.
La morale est la suivante : il y a autant de nombres débutant par 1 que par 9 entre 1 et 999 ou entre 1 et 9999 ; mais ce n’est pas vrai entre 1 et 19, entre 1 et 31. En fait, c’est faux dès que le maximum n’est pas de la forme $10^n-1$.
- La courbe violette est la moyenne des valeurs $R$ données par la courbe rouge.
La bleue est obtenue de la même façon à partir de la violette, et la jaune à partir de la bleue.
À chaque fois que l’on fait la moyenne de la courbe précédente, on oscille un peu moins.
Puisqu’il est impossible de définir la proportion des entiers débutant par 1, la mathématicienne B.J. Flehinger [5] a proposé de définir une proportion généralisée obtenue en itérant le
procédé :
notons que $R(M)$ était la moyenne des nombres commençant par 1 entre 1 et $M$.
Flehinger s’intéresse alors la moyenne des $R(M)$
\[
\frac{R(1)+R(2)+\dots + R(M)}{M},
\]
puis à la moyenne des moyennes obtenues, etc.
Elle a alors prouvé que l’amplitude des oscillations diminuait à chaque étape et que si l’on fait suffisamment de « moyennes de moyennes », on retrouve bien la probabilité attendue d’avoir un nombre commençant par 1,
à savoir environ 30,1% (voir [6] pour une formulation précise).
Et si on s’intéresse à tous les nombres ?
Voici deux explications mathématiques - en fait, très liées - de la loi de Benford pour tous les nombres (pas forcément entiers) parmi les différentes imaginées par des mathématiciens.
Les lois mathématiques ne doivent pas avoir de frontière !
Supposons qu’il existe effectivement une loi mathématique qui régit les nombres rencontrés dans la vie quotidienne.
La moindre des choses est que cette loi soit la même partout dans le monde !
On s’attend donc à ce qu’elle soit identique dans les pays où les distances sont exprimées dans le système métrique et dans les pays se servant des mesures anglo-saxonnes. Ce doit être la même dans les pays de la zone euro et dans les pays utilisant le yen, le dollar ou la livre sterling.
Autrement dit, cette loi ne doit pas dépendre des unités dans lesquelles sont exprimées les grandeurs.
On peut montrer que cette propriété d’invariance par changement d’unité caractérise la loi de Benford [7].
Interprétation probabiliste
Comme le notait Benford lui-même, plus les nombres collectés sont d’origines variées, plus la fréquence du premier chiffre significatif est proche de la loi prédite.
Essayons alors de construire un modèle qui reflète cette idée.
Imaginons que chaque donnée collectée a été tirée au sort entre 0 et un certain maximum, mais que la valeur du maximum dépend de l’origine de la donnée.
Si on savait comment choisir la loi suivie par les maxima, on pourrait en déduire la loi suivie par le premier chiffre des données elles-mêmes.
Mais puisqu’on ne sait a priori pas comment choisir la loi des maxima, il semble qu’on ait seulement repoussé le problème !
D’un autre côté, les maxima sont eux aussi des nombres d’origines diverses rencontrés dans la vie quotidienne...
On s’attend donc à ce que leur premier chiffre significatif soit régi par la même loi que le premier chiffre significatif des données de départ.
On obtient ainsi une autre caractérisation : si le premier chiffre significatif des données et de leur maxima suivent la même loi, cette loi est nécessairement la loi de Benford ! [8]
En fait je triche un peu ici : il faut considérer pour les deux précédentes explications une formulation plus générale de la loi de Benford, qui ne décrit pas seulement la distribution du premier chiffre significatif, mais aussi celle du second, du troisième, et de tous les suivants.
Comme nous sortirions de la piste bleue, j’y reviendrai un peu plus tard
Et tout ça, à quoi ça sert ?
Comme beaucoup de découvertes mathématiques, la loi de Benford est longtemps restée une curiosité sans application pratique, jusque dans les années 1990 où l’économiste américain Mark Nigrini suggéra l’utilisation de tests basés sur la loi de Benford pour la détection de données falsifiées.
Nigrini a montré qu’un examen attentif des nombres apparaissant dans la comptabilité d’une société peut permettre à un expert comptable de repérer d’éventuelles fraudes.
En effet, l’expérience montre que des données authentiques doivent suivre la
loi de Benford. En revanche, celui qui invente des nombres a tendance à
surestimer l’apparition de 5 et 6. En pratique, on utilise des tests plus fins faisant intervenir la distribution des deux premiers chiffres significatifs.
Ces tests ont permis de débusquer des falsifications dans les comptabilités
de sept sociétés basées à New-York et ont depuis été utilisés dans des domaines variés.
Moralité : que l’on se place du côté des gendarmes ou des voleurs, on gagne à enrichir ses connaissances en maths !
Notes
[1] S. Newcomb. Note on the frequency of use of the different digits in natural numbers. Amer. J. Math., 4:39—40, 1881.
[2] Si on additionne les valeurs pour les chiffres de 1 à 9, on trouve bien grâce à la propriété magique de la fonction logarithme,
\[
\log_{10} \left( \frac{2}{1} \right) \ +\ \cdots \ +\ \log_{10} \left( \frac{10}{9} \right)
\ =\ \log_{10} \left( \frac{2}{1}\times \frac{3}{2} \times\dots\times\frac{10}{9}\right)
\ =\ \log_{10}10 \ =\ 1. \]
[3] F. Benford The law of anomalous numbers. Proc. Amer. Phil. Soc., 78:551—572, 1938.
[4] Lecoutre M.-P. (1992) Cognitive models and problem spaces in « purely » random situations. Educational Studies in Mathematics, 23, 557-568.
[5] B.J. Flehinger. On the probability that a random integer has initial digit $a$. Amer. Math. Monthly, 73:1056—1061, 1966.
[6] Dans son article, Flehinger définit une densité généralisée obtenue en itérant le processus de moyenne : $R_1(M)$ est la proportion des entiers pairs entre 1 et $M$
\[
R_1(M) := \frac{1}{M} \sum_{k=1}^M 1_{\{k\text{ commence par } 1\}},
\]
où $1_{\{k\text{ commence par } 1\}}$ est égal à 1 si l’entier $k$ commence par 1 et est égal à 0 sinon.
Pour $t>1$, on pose
\[
R_t(M) = \frac{1}{M} \sum_{k=1}^M R_{t-1}(k).
\]
Flehinger montre alors que l’amplitude des oscillations des fonctions
$R_t(M)$ diminue et que le processus converge dans le sens suivant :
\[
\lim_t \liminf_M R_t(M) = \lim_t \limsup_M R_t(M) = \log_{10} 2.
\]
Ce résultat reste vrai pour les autres premiers chiffres significatifs possibles.
Une démonstration du résultat de Flehinger se trouve dans un livre de Knuth (The Art of Computer Programming, Vol. 2. Addison-Wesley Publishing Company, 1981).
[7] R.S. Pinkham. On the distribution of first significant digits. Ann. Math. Statist., 32:1223—1230, 1961.
[8] É. Janvresse et T. de la Rue. From Uniform Distributions to Benford’s Law. Journal of Applied Probability 41 p.1203-1210, 2004.
[9] T. Hill. The significant-digit phenomenon. Amer. Math. Monthly, 102:322—327, 1995.
Partager cet article
Pour citer cet article :
Élise Janvresse — «Quel est le début de ce nombre ?» — Images des Mathématiques, CNRS, 2022
Laisser un commentaire
Dossiers
Actualités des maths
-
5 mars 2023Maths en scène : Printemps des mathématiques (3-31 mars)
-
6 février 2023Journées nationales de l’APMEP, appel à ateliers (9/4)
-
20 janvier 2023Le vote électronique - les défis du secret et de la transparence (Nancy, 26/1)
-
17 novembre 2022Du café aux mathématiques : conférence de Hugo Duminil-Copin (Nancy et streaming, 24/11)
-
16 septembre 2022Modélisation et simulation numérique d’instruments de musique (Nancy & streaming, 22/9)
-
11 mai 2022Printemps des cimetières
Commentaire sur l'article
Quel est le début de ce nombre ?
le 28 décembre 2009 à 05:54, par pi.erdeux
Quel est le début de ce nombre ?
le 29 décembre 2009 à 17:37, par heid
Quel est le début de ce nombre ?
le 24 janvier 2010 à 00:37, par Zenol
Quel est le début de ce nombre ?
le 25 janvier 2010 à 17:42, par Elise Janvresse
Quel est le début de ce nombre ?
le 7 novembre 2022 à 12:04, par Maï Huong Pham-Sauvageot