Photo: Yarkiepedia
L’histoire des probabilités connaît une date charnière : en 1933, parution des Grundbegriffe des Wahrscheirlichkeitsrechnung (Fondements de la Théorie des Probabilités) d’Andreï Kolmogorov. Cet ouvrage magnifique est une révolution scientifique et culturelle.
Avant 1933, comment pensait-on le hasard ? Pour faire court, deux visions n’ont cessé de cohabiter.
Premièrement, faute de mieux, on appelle hasard l’ensemble des phénomènes qu’on ne sait pas prévenir et qu’il est inutile d’étudier parce que la volonté des dieux est de les imposer à la condition humaine. Il est intéressant de rapprocher Sophocle et Bernanos. Dans Œdipe Roi, Jocaste s’écrie
« Que pourrait craindre un homme ? La destinée le mène, rien ne lui est prévisible. Le mieux est vivre au hasard, comme on peut » (La Pléïade p. 685),
tandis que Sœur Constance, dans le Dialogue des Carmélites, s’interroge
« Oh ! J’ai beau être jeune, je sais bien déjà qu’heurs et malheurs ont plutôt l’air tirés au sort que logiquement répartis ! Mais, ce que nous appelons hasard, c’est peut-être la logique de Dieu ? » (La Pléïade p. 1613).
La seconde vision du hasard est à la fois rationaliste et empreinte d’empirisme. Inspirés par l’étude des jeux de hasard ou par l’observation de phénomènes physiques apparemment désordonnés, de nombreux scientifiques énoncent des lois qui en décrivent des propriétés immuables. Ainsi, quelle que soit la pièce de monnaie, quelle que soit la manière de la jeter « au hasard », le nombre moyen d’apparitions d’une des faces tend vers une limite (1/2 si la pièce est fabriquée de manière homogène) quand le nombre de lancers tend vers l’infini. C’est la fameuse loi des Grands Nombres établie en premier par J. Bernoulli. Une autre propriété, bien plus complète, découverte par de Moivre et Laplace, est le Théorème Limite Central : j’y reviendrai dans un prochain billet. 3Sur le Théorème Limite Centrale, on peut voir également La courbe en cloche sur ce site.
Tous ces travaux sont remarquables et ont ouvert des voies nouvelles. Cependant le cadre conceptuel satisfaisant continuait de manquer. Les notions de hasard et d’indépendance des causes restaient à formaliser, si bien que de nombreux paradoxes apparaissaient. Un exemple élémentaire : le paradoxe de Bertrand. Il a fallu l’émergence de la théorie de l’intégration abstraite (les travaux de Borel et Lebesgue) et de la théorie des ensembles, il a fallu surtout le génie de Kolmogorov pour combiner ces outils et définir le bon cadre formel.
Que veut dire « le bon cadre ? » En gros, il s’agissait de définir les briques de base pour déduire rigoureusement la loi des Grands Nombres et le Théorème Limite Central, pour être en mesure de modéliser les jeux de hasard, les phénomènes désordonnés, les fluides turbulents, etc. – en résumé, pour résoudre en partie le sixième problème de Hilbert 4Au sujet des problèmes de Hilbert, on peut lire cet article..
L’idée géniale de Kolmogorov consiste à mettre au cœur du calcul des probabilités un objet nouveau : une mesure de probabilité. Ce changement de point de vue est radical. On ne s’intéresse pas aux causes de l’expérience. Elles sont génériquement représentées par un élément indéterminé ω d’un ensemble Ω qui, selon les besoins du calcul, sera totalement indéterminé lui aussi, ou bien sera un gros espace fonctionnel (par exemple, l’espace des fonctions continues). On munit cet ensemble d’une tribu, c’est-à-dire d’une famille de sous-ensembles stable pour certaines opérations ensemblistes (passage au complémentaire, union dénombrable, intersection dénombrable). La tribu en question est chargée de contenir tous les évènements intéressants relatifs à l’expérience considérée, par exemple « la température moyenne de la journée sera supérieure à 20 degrés pendant vingt jours de suite d’ici la fin de l’année ».
Notez bien que, jusqu’à présent, il n’est pas question de modélisation : encore une fois, l’ensemble des causes et la tribu des évènements intéressants sont abstraits, gros, voire indéfinis. Ce qui définit la modélisation probabiliste, c’est le choix d’une mesure de probabilité sur la tribu des évènements intéressants. Formellement, il s’agit d’une application qui, à chaque évènement de la tribu, associe un nombre entre 0 et 1 ; cette application doit vérifier les seules propriétés suivantes : à l’ensemble vide est associée la valeur 0 ; à l’ensemble Ω est associée la valeur 1 ; à la réunion dénombrable d’évènements deux à deux d’intersection vide, est associée la somme des valeurs associées à chaque évènement individuel. Toute la modélisation probabiliste est là : dans le choix particulier d’une mesure de probabilité sous laquelle on effectuera tous les calculs relatifs à l’expérience. D’un point de vue technique, ces calculs porteront toujours sur des intégrales de fonctions de ω par rapport à la mesure de probabilité choisie.
Ayant ainsi fixé le cadre axiomatique, Kolmogorov définit rigoureusement les notions d’indépendance d’évènements, d’espérance, et d’espérance conditionnelle. L’indépendance d’évènements est ici une notion mathématique ; elle ne reflète pas nécessairement le concept de café du Commerce « 2 évènements sont indépendants si leurs causes n’ont rien à voir ». La bonne formulation est : « 2 évènements sont indépendants (pour la mesure de la probabilité choisie) si la mesure de probabilité (celle-là !) de leur intersection est égale au produit de leurs mesures de probabilité ». On voit que l’indépendance est un choix du modélisateur : deux évènements peuvent être indépendants pour une mesure de probabilité et dépendants pour une autre. Exemple élémentaire : une expérience a quatre résultats possibles, A, B, C ou D ; on choisit comme modèle probabiliste l’ensemble Ω à quatre éléments A, B, C, D qu’on munit de la tribu égale à l’ensemble de ses parties. Pour des raisons qui nous appartiennent, on décide que la mesure de référence est celle qui associe 1/4 à A, B, C et D. Pour cette mesure de probabilité là, l’évènement « A ou B se produit » et l’évènement « A ou C se produit » sont de mesure de probabilité égale à 1/2 et sont indépendants. Par contre, si on avait associé les valeurs respectives 1/2, 1/6, 1/6,1/6 à A, B, C, D, les deux évènements précédents ne seraient plus indépendants.
L’extraordinaire vertu de la simplissime définition d’indépendance ci-dessus est qu’elle permet à Kolmogorov de démontrer rigoureusement la loi des Grands Nombres sous des hypothèses minimales.
Mais les Grundbegriffe vont bien au-delà de la loi des Grands Nombres. Elles fondent tous les développements théoriques, applicatifs et numériques ultérieurs par plusieurs sections révolutionnaires sans lesquels, de fait, la théorie des probabilités ne serait qu’un appendice sans saveur et sans utilité à la théorie de l’intégration abstraite :
- Le chapitre qui introduit et analyse le concept d’espérance conditionnelle à partir du théorème de Radon -Nikodym ;
- Le chapitre consacré aux mesures de probabilité sur les espaces fonctionnels de dimension infinie ;
- Les sections consacrées à la convergence en probabilité de variables aléatoires.
Il me faudra plusieurs autres billets pour commenter chacune de ces contributions majeures. Je termine celui-ci en revenant à Jocaste et Sœur Constance.
Depuis Kolmogorov, « vivre au hasard » n’a aucun sens. Jocaste devrait préciser quelle mesure de probabilité elle choisit pour tirer ses décisions au hasard : par exemple, on peut jouer à pile ou face, ou construire une mesure de probabilité qui prend en compte les décisions passées (il s’agit alors de mesure de probabilité conditionnelle, et une décision sera mathématiquement identifiable à une espérance conditionnelle au sens de Kolmogorov).
Quant au fait que le hasard est « la logique de Dieu » comme se le demande Sœur Constance, ce n’est ni exclu, ni confirmé par l’approche de Kolmogorov : si Dieu existe, Il a effectivement pu inclure des mesures de probabilités dans la mécanique du monde et faire en sorte que des systèmes naturels fonctionnent en tirant au hasard selon ces mesures de probabilité – là. Néanmoins, même dans le cas contraire, la théorie des probabilités issue des Grundbegriffe reste utile pour étudier le monde : en effet, une mesure de probabilités est un outil mathématique qui n’a pas pour but d’expliquer une expérience, mais de la décrire et de décrire au mieux ses effets. Ainsi, le jeu de Pile ou Face produit des suites de P et F qui ont les propriétés déduites de la Loi des Grands Nombres pour les suites d’évènements indépendants. Et c’est ce qui importe au spécialiste de la théorie des probabilités : impossible de savoir si Dieu existe et s’Il joue aux dés ; par contre, on sait, rationnellement et rigoureusement depuis Kolmogorov, démontrer des théorèmes qui décrivent bien les caractéristiques observées de certains phénomènes complexes.