La courbe en cloche

Piste noire Le 1er juillet 2009  - Ecrit par  Jean-Pierre Kahane Voir les commentaires (2)

On peut aussi lire une version « piste verte » et version « piste bleue » de cet article.

Introduction

La courbe en cloche ou courbe de Gauss est l’une des courbes mathématiques les plus célèbres. On la voit apparaître dans un grand nombre de situations concrètes — en statistiques et en probabilités — et on lui fait souvent dire tout et n’importe quoi.

Son équation peut effrayer au premier abord :

\[\begin{equation}y = \frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}x^2}. \label{equation_1}\end{equation}\]

Elle présente une bosse. Elle est symétrique par rapport à l’axe $Oy$. A droite, elle descend à partir de son sommet, elle s’infléchit aux trois cinquièmes de sa hauteur, et poursuit sa descente en approchant l’axe $Ox$ au point d’en être visuellement indiscernable. Pour $x=10$ par exemple, la valeur est incroyablement petite, de l’ordre de $5.10^{-22}$.

C’est une très belle courbe, très lisse, très régulière. Elle partage ces caractères avec ses avatars, les courbes en cloche, d’équations
\[\begin{equation} y = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-m}{\sigma}\right)^2} \label{equation_2} \end{equation}\]
qu’on obtient en changeant d’origine (une translation $(x \mapsto x-m)$) ou par changement d’échelle
(une dilatation $(x\rightarrow\sigma x$ et $y \mapsto {y}/{\sigma}$).
Les aires délimitées par ces courbes et l’axe des $x$ sont toutes les mêmes.
Les coefficients ont été choisis pour que cette aire vaille $1$. En formule, cela signifie que

\[\begin{equation}\int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}x^2} \ dx = 1.\label{equation_3}\end{equation}\]

Lorsque $\sigma$ est petit, la cloche est très pointue. Regardez le changement de forme quand la constante $\sigma$ varie.

Les probablistes interprètent $y$ comme une densité de probabilité.
Ainsi $\ref{equation_1}$ définit la « loi de Gauss normalisée » ou « loi normale », et $\ref{equation_2}$ la « loi de Gauss de moyenne $m$ et d’écart-type $\sigma$ ».

Etudions une certaine quantité numérique aléatoire $X$ (on parle de variable aléatoire), par exemple la taille d’un individu pris au hasard dans la population française. Supposons que la probabilité pour que la valeur de $X$ appartienne à un certain intervalle $[a,b]$ soit donnée par la formule :

\[\begin{equation}Prob(X \in [a,b]) = \int_a^b \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-m}{\sigma}\right)^2} \,dx. \label{equation_4}\end{equation}\]

On dit alors que $X$ est une « variable normale » ou « gaussienne d’espérance $E(X)=m$ et de variance $E (X-m)^2 = \sigma^2$ ».

Espérance et écart type

Comme son nom l’indique, l’espérance $E(X)$ d’une variable aléatoire $X$ est la meilleure estimation qu’on puisse faire de $X$ si on n’a pas d’information supplémentaire. On l’appelle aussi parfois la moyenne (d’où la notation précédente $m$) car lorsqu’on tire au hasard un grand nombre d’échantillons de $X$ et qu’on calcule la moyenne des résultats, cette moyenne s’approchera presque sûrement de $E(X)$ quand le nombre d’échantillons tend vers l’infini (c’est une version de la loi des grands nombres). Notez qu’en probabilités et en statistiques, on peut définir d’autres nombres du même genre, mais différents en général, comme par exemple la médiane : il s’agit d’une valeur telle qu’il y a autant de chances que $X$ lui soit supérieur qu’inférieur. Il se trouve que dans le cas d’une variable gaussienne, la moyenne et la médiane coïncident : cela résulte de la symétrie mentionnée plus haut : l’aire sous la courbe est $0,5$ de chaque côté de l’axe $Oy$. Pour d’autres situations statistiques, la situation peut être différente. Par exemple, le salaire moyen et le salaire médian ne sont pas les mêmes puisqu’un tout petit nombre de très hauts salaires « poussent la moyenne vers le haut ».

L’écart type $\sigma$ mesure la dispersion autour de la moyenne. Pour le définir, on pourrait prendre la moyenne de l’écart à la moyenne $E(X-E(X))$ mais cela n’aurait aucun intérêt puisque cette moyenne est nulle ! Si on y pense, c’est même la définition de la moyenne... Alors, on préfère prendre la moyenne des carrés des écarts à la moyenne, car un carré est toujours positif. Cette moyenne $E((X-E(X))^2)$ s’appelle la variance. Si $X$ s’exprime par exemple en mètres, la variance s’exprimera en mètres carrés, si bien qu’on est amené à considérer la racine carrée de la variance : c’est par définition l’écart type, noté traditionnellement $\sigma$.

Bien sûr, une bonne partie de l’aire située sous la courbe en cloche se répartit dans un petit intervalle autour de la moyenne. Une règle pratique est la suivante :

La probabilité pour que la variable gaussienne $X$ ne s’écarte pas plus que de deux écarts types de la moyenne est de l’ordre de 95 %.

En formules :

\[ \int_{m-2 \sigma}^{m+2 \sigma} \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-m}{\sigma}\right)^2} \,dx \simeq 0,95.\label {5} \]

Les arithméticiens et les analystes ont une inclinaison particulière pour la fonction

\[ y = e^{-\pi x^2} \label {6}\]

et certains (moi par exemple) sont tentés de définir la courbe en cloche par $\ref{equation_6}$ plutôt que par $\ref{equation_1}$. En tous cas, on passe aisément de l’une à l’autre, graphiquement ou par écriture.

Une vraie cloche est représentée par une surface plutôt que par une courbe. Par exemple en coordonnées euclidiennes $x_1, x_2, y$

\[\begin{equation}y = \frac {1}{2\pi}e^{-\frac{1}{2} (x_1^2+x_2^2)} \label{equation_7}\end{equation}\]

est l’équation d’une cloche bidimensionnelle, dont la cloche unidimensionnelle $\ref{equation_1}$ est la section méridienne. Bien sûr, on peut également faire des translations et des dilations sur les coordonnées si bien que la surface peut être plus ou moins pointue, ou plus ou moins étalée, comme sur la figure ci-dessous.

Ce type de cloche est utile pour décrire une variable aléatoire qui prend des valeurs qui ne sont pas des nombres réels, mais des couples de deux nombres réels. On pourrait par exemple être tenté de représenter dans une population la répartition simultanée des tailles et des poids des individus.

Le volume délimité par une cloche bidimensionnelle et le plan $y=0$ est facile à calculer, et c’est la méthode la plus rapide pour établir $\ref{equation_3}$.

On peut poursuivre : en coordonnées euclidiennes avec $d$ dimensions $x_1,x_2, ..., x_d, y$,

\[\begin{equation}y = (2\pi)^{-\frac{d}{2}}e^{-\frac{1}{2}(x_1^2 + x_2^2 +...+x_d^2)} \label{equation_8}\end{equation}\]

est l’équation d’une cloche $d$-dimensionnelle, qui enveloppe avec l’hyperplan $y = 0$ un volume unité. Mais, contrairement à l’image uni ou bi-dimensionnelle, le volume au dessus de la boule $x_1^2+x_2^2+...+x_d^2 \leq R^2$, $R$ fixé, est très petit quand $d$ est très grand.
C’est au dessus de couronnes de la forme $(1-\varepsilon)d\leq x_1^2 + x_2^2 +...+ x_d^2 < (1+\varepsilon)d$ que le volume (ou la probabilité) est concentré. Pour s’en convaincre, il faut une solide intuition de la géométrie en grande dimension, ou alors savoir calculer des intégrales multiples (ou les deux) !

L’étude attentive de cette cloche est une clé pour comprendre le comportement d’une famille de variables aléatoires normales indépendantes, parce que $\ref{equation_8}$ donne la densité de leur distribution.

L’une des propriétés fondamentales des variables normales est la suivante. Si $X_1,X_2, ...,X_n$ sont $n$ variables normales indépendantes, leur somme $S=X_1+X_2+...+X_n$ est encore une variable normale. Comme pour toute somme, l’espérance de $S$ est la somme des espérances, et comme pour toute somme de variables indépendantes, la variance de $S$ est la somme des variances. Voici un cas particulier :

Si $X_1,X_2, ..., X_n$ sont $n$ variables normales de moyenne $m$ et d’écart-type $\sigma$, la moyenne $(X_1+X_2+...+X_n)/n$ suit également une loi normale de même moyenne $n$ et d’écart-type $\sigma / \sqrt{n}$.

Le théorème central

Historiquement, avec de Moivre (1728) et Laplace (1786), c’est la distribution binomiale qui a conduit à la courbe en cloche. La distribution binomiale $B(p,n)$ ($0 \le p \le 1, n$ entier $\ge 0$) donne la probabilité de choisir $k$ objets parmi $n$, lorsqu’on opère au hasard en sélectionnant les objets indépendamment les uns des autres, chacun ayant la probabilité $p$ d’être sélectionné et la probabilité $q = 1-p$ de ne pas l’être. On parle aussi de distribution de Bernoulli.

En clair, il s’agit d’un jeu de pile ou face dans lequel les deux faces ne se présentent pas nécessairement avec la même probabilité ($p$ pour pile et $q=1-p$ pour face). On jette la pièce $n$ fois et on compte le nombre de fois où on « tombe sur pile ». La probabilité de trouver $k$ fois pile est

\[\begin{equation}\begin{pmatrix} {n} \\ {k} \end{pmatrix}p^k \ q^{n-k} .\label{equation_9}\end{equation}\]

On reconnaît les coefficients du binôme de Newton $(p+q)^n$. Si on représente la distribution $B(p,n)$ en portant $k$ en abscisse et $\ref{equation_9}$ en ordonnée, on voit un diagramme en cloche dont la forme ressemble de plus en plus à une cloche gaussienne de moyenne $m=np$ et de variance $\sigma^2 = npq$. Les figures sont très faciles à faire et très éloquentes quand $p=q=\frac {1}{2}$.
Regardez ce petit film : il montre successivement les diagrammes en bâtons de \[ 2^{-n}\begin{pmatrix} {n} \\ {k} \end{pmatrix}\]
pour $n=1, 2, 3, ...$.

De façon précise, si $X_n$ est une variable aléatoire de distribution $B(p,n)$, $p $ fixé, $n$ tendant vers l’infini, on a pour tout intervalle réel $I$

\[\begin{equation}\lim_{n \to \infty} P(\frac{X_n-np}{\sqrt{npq}} \in I) = \int_I\frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} dx. \label{equation_10}\end{equation}\]

On notera que $np$ est l’espérance de $X_n$ si bien que $X_n-np$ est d’espérance nulle. L’écart-type est $\sqrt{npq}$ et le quotient $(X_n-np)/ \sqrt{npq}$ est donc normalisé : son espérance est $0$ et son écart-type $1$.

C’est là un théorème central de passage à la limite en probabilités (« der zentrale Grenzwertsatz des Wahrscheinlichkeitsrechnung » ; et cette expression de Pólya (1930) est devenue bizarrement en anglais « Zentral Limit Theorem » et en français, Théorème limite central, ou central limite, ou de la limite centrale, (Wikipédia s’en amuse)).

Sous une forme voisine de $\ref{equation_10}$, ce théorème central a été établi par de Moivre à l’aide de la formule de Stirling (qui donne une estimation de la factorielle de $n$ pour $n$ grand, et donc des coefficients binomiaux), puis par Laplace en utilisant les fonctions génératrices, ou transformées de Laplace. La méthode la plus puissante est la transformation de Fourier, systématiquement employée par Paul Lévy pour l’étude des sommes de variables aléatoires indépendantes à partir de 1922.

La formule $\ref{equation_10}$ peut être généralisée. Si $Y_1, Y_2,...,Y_j,...$ sont des variables aléatoires indépendantes identiquement distribuées, dont l’espérance est $m$ et l’écart-type $\sigma$ ($\sigma\ge 0$), les sommes $X_n = Y_1+Y_2+...+Y_n $ vérifient

\[ \lim_{n \to \infty} P (\frac{X_n-nm}{\sigma \sqrt{n}}\in I) = \int_I \frac{1}{\sqrt{2\pi} }e^{-\frac{x^2}{2}} dx. \label {11}\]

C’est le théorème central dans la version de Lindeberg (1922). La formule $\ref{equation_10}$ correspond au cas où les $Y_j$ sont des variables de Bernoulli d’espérance $p$.

Sous sa forme la plus générale, le théorème central dit que, sous certaines conditions, une somme de variables aléatoires indépendantes, convenablement normalisée, tend vers la loi normale. C’est pour cette raison qu’on la rencontre un peu partout. Dès qu’un phénomène est la superposition d’un grand nombre de causes aléatoires indépendantes, une cloche se présente ! Mais il faut insister sur le fait que ce n’est pas n’importe quelle cloche qui se présente : il s’agit de la cloche donnée par les équations précises que nous venons de discuter. Et cela, indépendamment de la nature des multiples causes aléatoires, qui peuvent tout à fait suivre une autre loi de probabilité, comme par exemple une loi de Bernoulli. Il s’agit de l’un des exemples les plus frappants de phénomènes d’universalité en mathématiques : en ajoutant un grand nombre d’aléas dont on ne sait rien, la distribution limite de la somme est une courbe de Gauss. Comme l’écrit Paul Lévy : « des erreurs indépendantes les unes de autres, très nombreuses et très petites, ont une somme qui obéit à la loi de Gauss » (notes aux Comptes rendus de 27 mars 1922).

Regardez cette simulation de la planche de Galton : une bille tombe et elle est soumise à des chocs aléatoires. Lorsqu’on lance un grand nombre de billes, la distribution des billes sur la base s’approche d’une cloche...

Ce théorème est essentiel dans la théorie des erreurs et c’est d’ailleurs ce qui intéressait Gauss au premier chef. Si je mesure la longueur d’une table un grand nombre de fois avec mon décimètre, la répartition des résultats aura tendance à se faire sur une cloche de Gauss, et 95% des résultats seront dans un intervalle de deux écarts types autour de la moyenne. Cet intervalle de confiance de deux écarts types est ce que les physiciens appellent « l’incertitude de la mesure ».

Comme toujours, l’universalité est relative !
La réflexion profonde de Paul Lévy autour des hypothèses précises du théorème central limite a abouti à mettre en évidence d’autres formes d’universalité pour les sommes d’aleas indépendants, les lois de Lévy, qui interviennent aussi, de façon plus cachée, dans beaucoup de phénomènes naturels suffisamment dispersés (leurs variances sont infinies). Le théorème central, sous forme générale, n’est pas un énoncé ; c’est un programme.

Une récréation proposée par Laplace : les garçons et les filles

Je voudrais revenir à la formule $\ref{equation_10}$ pour montrer comment elle s’applique, en dehors de la théorie des erreurs.

Le premier exemple est de grand intérêt historique et méthodologique. Il est exposé par Laplace dans son introduction à la Théorie analytique des probabilités.

Il constate que pour $43$ naissances, il y a $22$ garçons et $21$ filles.

Accordons-nous le plaisir de lire Laplace :

Mais dans la commune de Carcelle le Grignon, en Bourgogne, la situation est inversée et il y a plus de naissances de filles que de garçons. Est-ce une anomalie ?

Le calcul de Laplace revient à ceci. Le nombre de garçons est une variable de Bernoulli avec $p=0,5116$, un peu comme si on tirait à pile ou face (il parle de « croix ou pile ») avec une pièce un peu favorable au pile (c’est-à-dire aux garçons)...

L’échantillon correspond à $n = 2009$, la moyenne de la variable de Bernoulli est $np = 1028$ et son écart-type est $\sqrt{pqn} = 22,9$ ; la valeur observée, $983$, est à la distance $45$ de $1028$. On se trouve donc à deux écarts-types en dessous de la moyenne. Nous l’avons déjà dit : se trouver à plus de deux écarts types de la moyenne est un événement qui se produit $5$ fois sur $100$. Il n’est pas étonnant que parmi plusieurs centaines de villes étudiées, un tel écart à la moyenne se présente de temps à autre, et pourquoi pas à Carcelle le Grignon ?

Continuons la lecture. A Paris, la situation semble différente...

Dans le cas de Paris, $n = 770 \ 941$, $np = 394\ 435$, $\sqrt{pqn} = 439$ ; la valeur observée, $393\ 386$, est à la distance $1049$ de $np$ c’est-à-dire $2,39 \sqrt{pqn}$. Sur la courbe en cloche, on est à $2,39$ écarts types de la valeur moyenne. Lorsqu’on calcule la probabilité d’être à une distance supérieure à $2,39$ écarts types, on trouve $0,0168$. Un événement trois fois moins probable que le précédent. Surtout, il ne s’agit pas de constater une telle anomalie dans un quelconque village de France (il y en a beaucoup) mais à Paris, qui est une ville unique ! Il est donc raisonnable de « s’autoriser la recherche » de la cause de l’anomalie....

Avant la lettre, Laplace pratique un test d’hypothèse, une méthode statistique classique aujourd’hui.

Quelle est la cause proposée par Laplace ?

On trouve sur internet des tables numériques qui permettent de calculer la probabilité de s’éloigner de plus de $x$ écarts types de la moyenne. Pour les « branchés », on peut même acheter pour 0,79 € un petit logiciel qu’on peut télécharger sur son IPhone, pour un usage à tout moment de la journée !

Une récréation inventée

Le second exemple est une histoire inventée, mettant en scène un mathématicien des années 1900 et son boulanger, qui lui livre tous les jours un pain qui pèse en principe deux livres. Tous les jours le mathématicien enregistre devant témoins le poids du pain livré. Après une année, il intente procès à son boulanger pour production frauduleuse, et gagne le procès : le poids moyen du pain livré est $980 $g., avec un écart-type de $20 $g...

Si l’écart-type constaté par le mathématicien est de $20 $ g, et s’il a fait $365$ observations, l’intervalle de confiance sur son estimation de la moyenne est divisé par la racine carrée de $365$, c’est-à-dire par environ $19$. On peut donc dire qu’avec une probabilité de 95 %, la moyenne des poids des pains fabriqués par le boulanger est comprise entre
$980$ plus ou moins $2 \times (20 /19)$ autrement dit entre $978$ g et $982$ g. On peut donc être presque sûr que le boulanger est un escroc et que ses pains ne font pas $1$ kg en moyenne, comme il le prétend. En fait on peut même estimer la probabilité que le boulanger ne soit pas un escroc à $10^{-22}$ : quasiment impossible ! L’histoire est inventée car on ne sait pas si un tribunal prendrait en compte ce genre de considérations !

L’année suivante, le boulanger ne lui livre que des pains pesant plus d’un kilogramme. Le mathématicien intente procès pour production frauduleuse et gagne encore : l’enregistrement montre une distribution des poids des pains livrés suivant la queue à partir de $1000$ de la gaussienne précédente, centrée en $980$ et d’écart-type $20$ (la zone bleue sur la figure suivante). Donc le boulanger n’a pas modifié sa production. Simplement, il pesait le pain avant de le livrer au mathématicien procédurier et si ce choix pesait moins d’un kilogramme, il en choisissait un autre jusqu’à ce qu’il trouve un pain auquel le mathématicien n’aurait rien à reprocher. Malins ces mathématiciens ;-)

JPEG - 178.2 ko

Une expérience

Le troisième exemple est une expérience que j’ai faite à quelques reprises au cours des années 1970, et qu’il pourrait être intéressant de refaire aujourd’hui. On s’adresse à un public assez instruit et de bonne volonté en demandant à chacun, suivant un signal régulier (à peu près un signal toutes les secondes), d’écrire $P$ ou $F$ comme s’il jouait à pile ou face. Puis on recense pour chacun le nombre $P$, ce qui donne un diagramme en cloche centré sur la moitié du nombre de signaux émis. Puis on recense le nombre de changements, $PF$ ou $FP$ ; cela donne encore un diagramme en cloche, mais son centre est nettement décalé. En regardant les cloches de plus près, elles sont plus resserées que les cloches correspondant à un choix au hasard. L’interprétation est aisée : nous sommes guidés par la mémoire, qui enregistre à notre insu l’écart entre les nombres de $P$ et de $F$ déja écrits. L’expérience nécessite au moins 60 personnes et au moins 36 signaux.

Un paragraphe réservé aux adeptes du ski hors piste

Hors piste : Transformée de Fourier

Venons-en à la transformée de Fourier.

En probabilités, la fonction caractéristique d’une variable aléatoire réelle $X$ est définie comme la fonction $u \mapsto E(e^{iuX}) $, c’est-à-dire comme la transformée de Fourier de sa distribution :
\[\begin{equation}\chi_X(u)=E(e^{iuX}) =\int e^{iux} d\mu(x)\label{equation_12} \end{equation}\]
où $\mu$ désigne la distribution de $X$.

Pour la variable normale, on a

\[\begin{equation}\chi(u) = \int e^{iux} \frac{1}{\sqrt{2n}} e^{-\frac{1}{2} x^2} dx = e^{-\frac{1}{2}u^2}\label{equation_13}\end{equation}\]

C’est la propriété fondamentale : la transformée de Fourier d’une gaussienne est une gaussienne.

La fonction caractéristique d’une somme de variables aléatoires indépendantes est le produit de leurs fonctions caractéristiques. C’est donc un bon outil pour démontrer le théorème central. Regardons comment il fonctionne dans un cas simple, celui de variables aléatoires $Y_j$ prenant les valeurs $+1$ et $-1$ avec probabilité $\frac{1}{2}$ ; écrivons comme précédemment $X_n = y_1 + Y_2 + ... + Y_n.$ Alors

\[ \chi_{X_n/\sqrt{n}}(u)= (\chi_{Y/\sqrt{n}})^n (u)= (\cos\frac{u}{\sqrt{n}})^n\]

et

\[\begin{equation}\lim \chi_{X_n/\sqrt{n}}(u)=e^{-\frac{1}{2} u^2} \label{equation_14} \end{equation}\]

uniformément sur tout intervalle borné, comme on peut se convaincre avec un développement limité. De là résulte aisément $\ref{equation_11}$, et le cas général se traite comme ce cas particulier.

Marc Yor m’a signalé une élégante caractérisation de la distribution normale, due à Charles Stein (1972), à savoir

\[\begin{equation}\int f'(x)\ d\mu(x) = \int x f(x) \ d\mu(x)\label{equation_15}\end{equation}\]

pour toute fonction $f \in C^{1}(\mathbb{R})$. D’abord on vérifie $\ref{equation_15}$ lorsque
$d \mu (x) = \frac{1}{\sqrt{2\pi}} e^{- \frac{1}{2} x^2}$ par une intégration par parties. Ensuite on choisit $f(x) = e ^{iux} $ et $\ref{equation_15}$ donne $ \chi'(u) = - u \chi(u),$ soit $X(u) = e^{-\frac{1}{2}u^2}$.

Quand on veut faire jouer un rôle symétrique à une fonction $f$ intégrable et à sa transformée de Fourier $\widehat f$ (du moins quand elle est également intégrable), il est commode de prendre pour définition

\[\begin{equation}\widehat f(u) = \int f(u) e^{-2\pi iux}dx.\label{equation_16}\end{equation}\]

Avec cette définition, si $\gamma (x) = e^{-\pi x^2}$, on a $\widehat \gamma (u) = e^{-\pi u^2} $ : la fonction de la courbe en cloche est sa propre transformée de Fourier. On la rencontre partout en analyse et en arithmétique. Voici quelques exemples.

L’un des principes de l’analyse de Fourier est que, dans un couple de transformées de Fourier, non identiquement nulles, on ne peut pas imposer aux deux fonctions de tendre rapidement vers $0$ à l’infini. La relation entre $\varphi(x) $ et $\psi(u)$ telle que $f(x) = O(\varphi(x)) (x\rightarrow \infty)$ et $\widehat f (u) = O (\psi(u))$ $(u\rightarrow\infty)$ soit permis et $f(x) = o(\varphi (x) )$ et $\widehat f (u) = o(\psi(u)) $ interdit est un sujet proposé par Gelfand et Chilov, et développé par Katznelson et Mandelbrojt (1963). Le cas typique est $\varphi = \psi = \gamma$, la fonction de Gauss, et ce qui en dérive par changement de variables.

Une illustration de ce principe est constituée par l’inégalité de Heisenberg, qui est l’une des clés de la mécanique quantique sous la forme $ \Delta x . \Delta p \ge \hbar$, et qui s’écrit

\[\begin{equation}\int_{- \infty} ^ \infty x^2 |f(x)|^2\ dx . \int_{- \infty} ^ \infty u^2 |\widehat f (u) |^2 du \ge \frac{1}{8\pi^2}\label{equation_17}\end{equation}\]

lorsque $f$ est normalisée, c’est-à-dire lorsque

\[ \int_{- \infty} ^ \infty |f(x)|^2\ dx=1. \]

De nouveau, $f = \widehat f = \gamma$ est un cas limite, où l’égalité a lieu.

Une cloche en théorie des nombres ?

Qu’y a-t-il de moins aléatoire que les nombres entiers $1,2,3,4, ...$ ? Et pourtant, les nombres premiers semblent bien avoir un comportement aléatoire. Voici un exemple de théorème, démontré par Erdös et Kac, qui montre encore une fois l’apparition d’une cloche de Gauss dans un endroit pour le moins surprenant. Pour chaque entier naturel $n$, notons $P(n)$ le nombre de nombres premiers distincts qui divisent $n$. Par exemple, $1024$ est égal à $2^{10}$ et n’est divisible que par le nombre premier $2$ et on a donc $P(1024)=1$. Par contre $30$ est divisible par les nombres premiers $2,3,5$ et $P(30)=3$. Le théorème affirme que la distribution de $P(n)$ lorsqu’on se limite aux entiers inférieurs à une certaine valeur $N$ tend vers une loi normale de moyenne $\log \log N$ et d’écart type $\sqrt{\log \log N}$ lorsque $N$ tend vers l’infini.

En formule, la proportion des d’entiers $n$ compris entre $1$ et $N$ tels que $a\leq (P(n)- \log \log N)/\sqrt{\log \log N} \leq b $ tend vers

\[\int_a^b \frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}x^2}\, dx\]

quand $N$ tend vers l’infini.

Cela signifie par exemple que si on prend un nombre très grand, disons de l’ordre de $1 000 000 000$, il faut s’attendre à ce qu’il soit divisible par 3 nombres premiers. Mais l’énoncé est bien plus précis que cela bien sûr.

Hors piste : L’équation fonctionnelle de la fonction $\zeta(s) $ de Riemann.

Rappelons que la fonction $\zeta$ de Riemann est définie par

\[ \zeta(s)= \sum_{1}^{\infty} \frac{1}{n^s}. \]

Riemann a montré que cette fonction joue un rôle crucial dans la théorie des nombres premiers. Il n’est pas difficile de montrer que la formule précédente converge lorsque le nombre réel $s>1$. L’un des premiers résultats consiste à établir qu’on peut définir la fonction $\zeta$ dans tout le plan complexe (quitte à admettre quelques pôles), et pour cela, Riemann établit une « équation fonctionnelle » qui relie $\zeta (s)$ et $\zeta (1-s)$.

Elle s’obtient facilement à partir des couples $f(x) = \frac{1}{a} \gamma (\frac {x}{a})$, $\widehat f (u) = \gamma (au) $ et de la formule de Poisson, écrite sous la forme

\[\begin{equation}\int _0^\infty f (x)\ d (Ex-x) = \int _0 ^\infty \widehat f(u)\ d (Eu-u),\label{equation_18} \end{equation}\]

où $Eu$ désigne la partie entière de $u$.
Le lecteur ne se laissera pas impressionner par $d(Eu−u)$ qui ne désigne rien d’autre que la mesure uniforme sur les entiers $\geq 1$, moins la mesure de Lebesgue sur la demi droite positive.
Intégrons les deux membres par rapport à $a^{-s} d a$ sur $\mathbb{R} ^+$, avec $ 0< s < 1$ (l’intégration formelle est justifiée par une intégration par parties et l’utilisation du théorème de Fubini pour des fonctions positives).

On note $\Gamma$ la fonction Gamma et $\gamma$ la fonction de Gauss $e^{-\pi x^2}$.

Comme

\[\begin{equation}\int_0^{\infty} \frac{1}{a} \gamma(\frac{x}{a})\ \frac{da}{a^s}=x^{-s}\int_0^{\infty} t^{s-1} \gamma(t)\ dt = x^{-s} \frac{1}{2}\ \pi^{-s/2}\ \Gamma(\frac{s}{2}) \label{equation_19}\end{equation}\]

\[ \int_0^{\infty} \widehat{\gamma}(au)\ \frac{da}{a^s}= u^{s-1}\frac{1}{2}\ \pi^{-\frac{1-s}{2}}\ \Gamma(\frac{1-s}{2}) \]

on obtient
\[ \pi^{-s/2}\ \Gamma(\frac{s}{2})\int_0^{\infty} x^{-s}\ d(Ex-x)=\pi^{-\frac{1-s}{2}}\ \Gamma(\frac{1-s}{2})\int_0^{\infty} u^{s-1}\ d(Eu-u) \]

c’est-à-dire

\[\begin{equation}\pi^{-s/2} \ \Gamma (\frac{s}{2})\ \zeta(s)= \pi^{-\frac{1-s}{2}}\ \Gamma(\frac{1-s}{2})\ \zeta(1-s). \label{equation_20}\end{equation}\]

L’équation fonctionnelle $\ref{equation_20}$ est donc démontrée pour $0

En passant, les formules $\ref{equation_19}$ donnent la transformée de Fourier de $x^{-s}$ ($0

La thèse de Tate (1950) contient d’autres applications de la fonction de Gauss et de la formule de Poisson à la théorie des nombres, et elle a inspiré beaucoup de travaux ultérieurs.

Fourier et la chaleur

Peu de temps après Laplace, Fourier avait introduit la fonction de Gauss, sous la forme

\[\begin{equation}v (x, t) = \frac{1}{\sqrt t} e^{-\frac{x^2}{2t}}\label{equation_21}\end{equation}\]

comme solution de l’équation de la chaleur

\[\begin{equation}\frac{\partial v}{\partial t} = \frac{1}{2} \frac {\partial ^2v}{\partial x^2}.\label{equation_22}\end{equation}\]

On imagine une droite qui conduit la chaleur et $v (x, t)$ représente la température au temps $t>0$ du point d’abscisse $x$ . Le membre de gauche de l’équation de la chaleur indique la variation de la température par rapport au temps en un certain point fixé. Le membre de droite est la moitié de la dérivée seconde de la température par rapport à la coordonnée d’espace $x$.
Si par exemple, la température à un certain moment présente un maximum en $x$, la chaleur va fuir du point $x$ pour aller réchauffer ses voisins plus froids et la température va baisser au point $x$. Au contraire, si elle présente un minimum, ce sont les voisins de $x$ qui vont apporter leur chaleur et réchauffer $x$. On comprend donc que si ${\partial ^2v}/{\partial x^2}>0$, la température augmente en $x$. L’équation de la chaleur exprime cela de manière quantitative.

Notez que lorsque $t$ tend vers l’infini, la cloche s’aplatit ce qui correspond au fait que la chaleur se diffuse sur la droite.

Le couple $\ref{equation_21}$, $\ref{equation_22}$ est fondamental dans tous les problèmes de diffusion, et une nouvelle interprétation de $\ref{equation_21}$ est donné par le mouvement brownien [1] : c’est, à un facteur multiplicatif près, la distribution spatiale du mouvement brownien unidimensionnel au temps $t$. Ici, il s’agit de modéliser une particule erratique qui se déplace sur une droite de manière aléatoire. D’une certaine façon, les chocs moléculaires associés à la chaleur se font de manière aléatoire au niveau microscopique et ils sont responsables de la diffusion thermique.

La théorie du mouvement brownien lui-même fait le lien entre l’équation de la chaleur et la loi de Gauss.

Ce survol est bien incomplet. On pourra consulter un excellent article de Bernard Bru, très agréable à lire, qui donne en particulier tous les éclaircissements souhaitables sur le qualificatif « gaussien » attribué à la courbe en cloche.

Ce survol permet néanmoins de rendre compte d’un passage du Discours préliminaire à la Théorie analytique de la chaleur, de Fourier, (1822), dont j’ai souvent cité la première phrase, mais dont la dernière, comme me l’a fait remarquer le géologue américain T. Narasimhan, concerne évidemment la fonction de Gauss, et particulièrement les formules $\ref{equation_1}$, $\ref{equation_10}$ et $\ref{equation_21}$.
Ce sera la conclusion de cet article.

"L’étude approfondie de la nature est la source la plus féconde des découvertes mathématiques. Non seulement cette étude, en offrant aux recherches un but déterminé, a l’avantage d’exclure les questions vagues et les calculs sans issue ; elle est encore un moyen de former l’analyse elle-même, et d’en découvrir les éléments qu’il nous importe le plus de connaître, et que cette science doit toujours conserver, ces éléments fondamentaux sont ceux qui se reproduisent dans tous les effets naturels.

On voit, par exemple, qu’une même expression, dont les géomètres avaient considéré les propriétés abstraites, et qui sous ce rapport appartient à l’analyse générale, représente aussi le mouvement de la lumière dans l’atmosphère, qu’elle détermine les lois de la diffusion de la chaleur dans la matière solide, et qu’elle entre dans toutes les questions principales de la théorie des probabilités."


La forme primitive de cet article s’est considérablement enrichie grâce à l’aide de la rédaction de Images des Mathématiques et à la suite de commentaires de lecteurs. Merci en particulier à Jos Leys pour les figures et les animations.


Références

B.Bru, La courbe de Gauss ou le théorème de Bernoulli raconté aux enfants. Mathématiques et sciences humaines n°173, 3 (2006), 5-23.

E. Brian et M. Jaisson, Le sexisme de la première heure : hasard et sociologie, Cours et travaux (Paris), ISSN 1629-54544, 2007 (étude sur le sex-ratio).

J. Fourier, Théorie analytique de la chaleur, 1822.

W.Feller, An introduction to probability Theory and its applications (1ère édition 1950 ; 3ème édition 1967, Wiley).

I.M. Gelfand, G.E.Šilov, Fonctions généralisées, Editions Mir, Moscou 1958.


Y Katznelson et S Mandelbrojt
, Quelques classes de fonctions entières et le problème de Gelfand et Šilov. CRAS Paris 256 (1963) 1652-1655.

P.S. Laplace, Théorie analytique des probabilités, introduction (aussi, Essai philosophique sur les probabilités).

P.S. Laplace, Ecole normale de l’an III, Leçons de mathématiques, ed. J. Dhombres, Dunod 1992 (pp.125-140, particulièrement p.129 et la bibliographie p.604).

E. Lesigne, Pile ou Face, une introduction aux théorèmes limites du calcul des Probabilités, Ellipse 2001.

Partager cet article

Pour citer cet article :

Jean-Pierre Kahane — «La courbe en cloche» — Images des Mathématiques, CNRS, 2009

Commentaire sur l'article

  • La vulgarisation : un art haut en couleurs

    le 5 juillet 2009 à 11:29, par Olivier Leguay

    « La courbe en cloche » m’a inspiré pour l’écriture d’un billet traitant de la Vulgarisation sur mon blog « Inclassables Mathématiques ».

    Je tiens à vous adresser toutes mes félicitations pour cet article « 3 en 1 » ainsi qu’à toutes les personnes qui rédigent des billets réguliers ou non sur ce site que je parcours sans relâche depuis sa création.

    Répondre à ce message
  • La courbe en cloche

    le 27 septembre à 10:57, par Maxime Haura

    Bonjour,

    merci pour cet article, et notamment toute la section sur les travaux de Laplace.
    J’essaierai d’adapter cela pour travailler dessus avec les étudiants.

    Par contre, dans le pb du boulanger, il y a des formulations inadaptées.
    Il n’est pas correct de dire que la moyenne des pains est comprise dans un intervalle avec telle proba. En stat, on écrit plutôt que l’on peut rejeter une hypothèse sur la moyenne, mais pas lui attribuer une loi de probabilité. Même chose avec la « probabilité que le boulanger soit un truand est très grande ». On rejettera plutôt l’hypothèse qu’il ne soit pas un truand (avec un p-facteur très petit).

    Il est certes difficile de parler précisément dans un article de vulgarisation, mais il faut mieux éviter les formulations qui peuvent induire des contresens.

    Répondre à ce message

Laisser un commentaire

Forum sur abonnement

Pour participer à ce forum, vous devez vous enregistrer au préalable. Merci d’indiquer ci-dessous l’identifiant personnel qui vous a été fourni. Si vous n’êtes pas enregistré, vous devez vous inscrire.

Connexions’inscriremot de passe oublié ?

registros

Cet article fait partie du dossier «Mathématiques de la planète Terre (2013)» voir le dossier

Suivre IDM