Qu’est-ce que l’estimation non-paramétrique ?

Piste noire Le 5 juillet 2019  - Ecrit par  Gaëlle Chagny Voir les commentaires

La manifestation du hasard est décrite mathématiquement par des lois de probabilités. En statistique, la loi régissant le phénomène que l’on observe est inconnue, et on cherche à retrouver des caractéristiques de cette loi à partir des observations effectuées : c’est le problème général de l’estimation. On peut s’intéresser, par exemple, au poids des bébés à la naissance, ou à la taille des pétales d’iris...

JPEG - 12 ko
JPEG - 10 ko

Paramétrique vs non-paramétrique

Dans le cadre de la statistique paramétrique, on suppose que la loi recherchée a une forme particulière (par exemple une loi normale). Il suffit d’en estimer quelques paramètres (moyenne, variance...) pour la décrire complètement.

JPEG - 66.7 ko
On a pesé 1100 bébés à la naissance. La forme de l’histogramme obtenu suggère un ajustement par une loi normale (courbe rose), dont on estime la moyenne $\mu$ et l’écart-type $\sigma$ (respectivement par $\hat\mu$ et $\hat \sigma$).

Si l’on n’a pas d’a priori sur la forme de la loi inconnue, on doit alors estimer des fonctions, et non plus des paramètres. C’est l’objet de la
statistique non-paramétrique, qui nécessite moins de
connaissances préalables de la loi. En contrepartie, il faut plus de données pour obtenir une précision d’estimation équivalente à celle du cadre paramétrique.

JPEG - 69.7 ko
La forme de l’histogramme des longueurs de pétales de 150 iris ne correspond pas à une loi connue : un estimateur non-paramétrique est plus approprié. La courbe rose représente un estimateur à noyau.

Estimation à noyau de la densité

Dans un histogramme, on regroupe les observations en classes dont on représente la fréquence. L’histogramme s’interprète comme une fonction, constante sur chacune des classes, qui estime la densité de la loi. Mais cette fonction est discontinue.

L’estimation à noyau consiste à remplacer les barres de l’histogramme par des bosses, typiquement des courbes en cloche, centrées sur chacune des observations [1]. L’estimateur est formé par la somme (ou plutôt la moyenne) des courbes en cloche. Contrairement à l’histogramme, toutes les observations n’ont pas le même poids : celles qui sont proches du point en lequel on fait le calcul ont un poids plus important que les autres. On obtient cette fois une fonction continue.

Compromis biais-variance

Toute la difficulté du problème réside dans le choix de la largeur des cloches, que l’on appelle la fenêtre : des cloches trop étroites entraînent une trop grande variabilité, tandis que des cloches trop larges induisent un trop mauvais ajustement.

La largeur optimale, appelée oracle, est inaccessible : elle dépend de la loi (inconnue) des observations. La sélection de modèle propose des méthodes de calibration permettant une adaptation à chaque jeu de données. La pertinence des méthodes est justifiée par un résultat mathématique, les inégalités oracles. Il s’agit de prouver que la fenêtre choisie par une méthode de sélection, à partir des observations, permet d’obtenir un estimateur qui imite l’oracle : il fait presque aussi bien que lui, pour un certain critère de qualité, appelé le risque [2].

Le cas de l’estimation d’une fonction de régression

Jusqu’à présent, la statistique non-paramétrique a été présentée au travers de l’estimation d’une loi de probabilité (via sa densité), exemple auquel elle n’est pas réduite !

Une autre question classique est celle de l’étude de la liaison fonctionnelle entre 2 grandeurs $X$ et $Y$ : cela peut être le lien entre le temps de chute d’une bille et sa vitesse en fin de chute (comme dans cet article), le lien entre la circonférence d’un tronc d’eucalyptus et sa hauteur, le lien entre la concentration de l’air en ozone et la température, ...

Dans ces problèmes, dits de régression, on cherche la meilleure façon d’expliquer $Y$ avec $X$, c’est-à-dire la « meilleure » fonction permettant d’écrire $Y$ en fonction de $X$. L’aléatoire a bien son rôle à jouer ici : dans les exemples précédents, la grandeur $Y$ ne s’écrit pas de manière exacte comme fonction de $X$, mais seulement à un bruit près (une erreur de mesure, une incertitude sur la précision,...).

On dispose généralement de couples $(X,Y)$, que l’on représente par un nuage de points, pour construire la fonction. Sa connaissance permet de faire par exemple de la prédiction : observant une nouvelle valeur pour $X$, on pourra prédire le $Y$ associé. La manière dont s’agencent les couples de points observés $(X,Y)$ dans le nuage donne des indications sur la forme sous laquelle on cherche la fonction : dans le cas des eucalyptus, une fonction affine (représentée par une droite) semble adaptée pour lier la circonférence des arbres à leur hauteur. On parle d’ajustement linéaire : il suffit alors d’estimer la pente et l’ordonnée à l’origine de la droite pour la connaitre entièrement, on est donc dans un cadre paramétrique.

PNG - 158.4 ko
On peut chercher à estimer la hauteur d’un eucalyptus à partir de la mesure de sa circonférence à 1,30 mètre du sol. On dispose des couples (circonférence, hauteur) pour environ 1400 arbres. Un ajustement linéaire, en bleu, permet ici une reconstruction acceptable du lien entre les 2 mesures.

Dans le cas de la concentration d’ozone, que l’on cherche à expliquer par la température, une liaison affine est insuffisante. On peut chercher alors une fonction quelconque, dont la forme n’est pas connue ni fixée au départ. C’est un cadre non-paramétrique. La méthode d’estimation à noyaux s’adapte à ce problème, l’estimateur résultant porte le nom de ses inventeurs, Nadaraya et Watson. On doit encore une fois, pour le définir, faire un compromis entre la qualité de l’ajustement et l’instabilité de l’estimation obtenue (à l’extrême, une fonction passant par tous les points du nuage ne relève plus de l’estimation : c’est de l’interpolation !).

PNG - 77.1 ko
On cherche à modéliser la concentration en ozone en fonction de la température maximale journalière, à partir de 154 relevés. La forme du nuage de points suggère qu’un ajustement linéaire (en turquoise) n’est pas le plus adapté. Un estimateur non-paramétrique (de Nadaraya-Watson, courbe rose) donne ici un résultat plus fin.

En conclusion

Cet article se cantonne à présenter de façon très générale la notion d’estimation non-paramétrique en statistique, au travers des exemples de l’estimation d’une densité et de l’estimation d’une fonction de régression, ce à quoi la statistique non-paramétrique n’est bien sûr pas réduite. Le lecteur intéressé par plus de détails mathématiques pourra se référer à l’un des ouvrages spécialisés dédiés au sujet : la monographie de A.B. Tsybakov [3] ou celle de F. Comte [4] pour ce qui concerne l’estimation non-paramétrique, et le livre de L. Wasserman [5] pour une vue plus générale du non-paramétrique en statistique.

Post-scriptum :

Textes et illustrations adaptés des posters en ligne présentant les domaines de recherches du Laboratoire de mathématiques Raphaël Salem. Le poster original est consultable ici.

L’auteure remercie Jean-Pierre Delmas et Gérard Grancher pour leurs relectures attentives et leurs suggestions de correction, ainsi que Frédéric Le Roux pour ses nombreux conseils et ses relances pour mener à bien la rédaction de cet article.

Article édité par Frédéric Le Roux

Notes

[1La page Wikipédia consacrée à l’estimation à noyau donne de premiers éléments mathématiques sur la méthode. Pour plus de détails, on peut se référer à l’un des cours destinés à des étudiants de master et disponibles en ligne (celui de C. Matias, ou celui d’A. Dalalyan par exemple).

[2L’introduction de la thèse de Philippe Rigollet comporte un historique et une présentation détaillée de la notion d’inégalité oracle. Pour des précisions mathématiques sur les bases de la sélection de modèles, et sur la démonstration de ces inégalités, qui repose sur un outil probabiliste, la concentration de la mesure, on pourra également se référer à la monographie suivante : P. Massart. Concentration inequalities and model selection, volume 1896 des Lecture Notes in Mathematics. Springer, 2007.

[3A.B. Tsybakov, Introduction to nonparametric estimation. Springer Series in Statistics. Springer, 2009

[4F. Comte, Estimation non-paramétrique. Spartacus IDH, 2015.

[5L. Wasserman, All of nonparametric statistics. Springer Texts in Statistics. Springer, 2006.

Partager cet article

Pour citer cet article :

Gaëlle Chagny — «Qu’est-ce que l’estimation non-paramétrique ?» — Images des Mathématiques, CNRS, 2019

Commentaire sur l'article

Laisser un commentaire

Forum sur abonnement

Pour participer à ce forum, vous devez vous enregistrer au préalable. Merci d’indiquer ci-dessous l’identifiant personnel qui vous a été fourni. Si vous n’êtes pas enregistré, vous devez vous inscrire.

Connexions’inscriremot de passe oublié ?