Intervalle de confiance : pourquoi tant de défiance ?

22 avril 2014  - Ecrit par  Jean-Pierre Raoult Voir les commentaires (17)

Le billet mis en ligne sur Images des Mathématiques par Pierre Arnoux et moi-même, le 1er octobre 2013, sous le titre Pourquoi enseigner les probabilités et la statistique dans les cours de mathématiques, puis le billet lui répondant mis en ligne par Pierre Colmez le 4 octobre, intitulé Mathématiques post-modernes, ont provoqué un certain nombre de commentaires de lecteurs. La critique faite par Pierre Colmez de la présence dans le nouveau programme des classes terminales des lycées français (filières S et ES) de la notion d’intervalle de confiance (dans le cas d’une proportion inconnue) ainsi que sa mise en cause de la présentation qui en est donnée dans ces programmes, ont amplement nourri ces échanges ; des enseignants de lycée, en particulier, ont écrit pour faire état de leur difficulté à enseigner, voire à comprendre, cette notion. Quoique je regrette un peu la concentration sur ce thème des réactions consécutives à notre billet, je n’en fus pas très étonné, ayant eu, depuis la parution des projets pour ces programmes, au printemps 2011, de nombreuses occasions d’enregistrer le trouble des professeurs sur ce thème.

Un paradoxe de cette situation est que l’intervalle de confiance (IC) est, de toutes les notions existantes de statistique inférentielle, celle qui est le plus couramment mise à contribution devant le grand public, avec les fameuses « fourchettes » des procédures de sondages ou de prévisions (électorales en particulier). A cet égard ce choix de l’IC comme aboutissement du programme de probabilités et statistique dans les lycées me paraît bien préférable au choix antérieur qui conduisait au test d’adéquation à une loi équirépartie, moins aisé à mettre en situation dans les classes et reposant en fait sur des mathématiques plus compliquées.

La défiance des enseignants vis-à-vis de l’intervalle de confiance repose à mon avis sur des obstacles à la fois épistémologiques, sémantiques et calculatoires. Ceux-ci me paraissent tous assez aisément surmontables, en s’appuyant sur des exemples élémentaires classiques du type sondage ou contrôle industriel de qualité. De plus en plus le matériel mis à la disposition des enseignants (documents ressources du ministère [1], manuels …) apporte maintenant en général les clarifications nécessaires ; mais nombre d’enseignants ont besoin d’accompagnement pour entrer dans une logique qui ne leur est pas familière.

Nous allons passer en revue ces trois types d’obstacles, en y ajoutant une pincée de pratique, et même de déontologie statistique, dont je regrette qu’elle soit absente des programmes. Dans cette démarche, il nous arrivera de nous écarter de la lettre des programmes, en particulier pour mettre en évidence la dualité entre les notions d’intervalle de fluctuation (IF) et d’intervalle de confiance (IC), dualité qui, à notre avis, éclaire les seconds. Mais ces derniers ne figurent actuellement que dans des programmes de terminale et de ce fait leur présentation en classe est restreinte à l’usage de la version des intervalles de fluctuation qui est présentée à ce niveau (IF dit « asymptotique ») ; en revanche dans cet article nous évoquerons les IC également en liaison avec les versions d’IF introduites en seconde et première.

L’obstacle épistémologique tient au besoin de bien mettre en évidence le modèle général dans lequel l’intervalle de confiance prend son sens.

Au sortir de cours de calcul des probabilités dans lesquels on considérait UNE loi de probabilité modélisant une situation donnée, et pour laquelle on avait mis en place la notion d’intervalle de fluctuation (IF), l’élève doit bien comprendre que l’on a à considérer maintenant un modèle comportant toute une famille de lois de probabilités susceptibles de régir le phénomène considéré. A la modélisation d’une ignorance déjà traitée en calcul des probabilités, celle sur le résultat d’une expérience avant que celle-ci ait été effectuée (par exemple la couleur d’une boule qu’on va tirer dans une urne de boules de deux couleurs, de composition connue), s’en rajoute donc une seconde sur la loi à adopter pour ce phénomène (la composition de l’urne). Ce saut épistémologique dans la nature de l’ignorance à prendre en compte est bien sûr présent dans tous les textes rédigés à l’intention des enseignants. Il m’apparaît qu’il serait souvent bon de l’introduire avec plus de solennité [2].
Considérons ainsi les prévisions un soir d’élection ; pour être dans le cadre du programme de terminale nous nous limiterons à un vote tel un référendum, à deux expressions possibles, OUI ou NON (un second tour d’élection présidentielle en France est une situation analogue). Il existe une population, physiquement bien constituée, qui est celle de tous les bulletins comportant un suffrage exprimé et la proportion de ceux portant le vote OUI est, au moment de la clôture du scrutin, un nombre $p$ à la signification physique indiscutable, mais à ce moment-là inconnu de nous. En première approximation (les techniques effectives de recueil sont un peu plus sophistiquées), le matériel sur lequel opèrent les prévisionnistes est un échantillon de $n$ bulletins, considérés comme résultant de $n$ tirages indépendants dans cette population. Si on note $F$ la variable aléatoire « fréquence de bulletins OUI dans l’échantillon », $nF$ suit donc une loi binomiale de paramètres $n$ et $p$. On a le même modèle en contrôle de qualité : une production de pièces bonnes ou mauvaises est supposée de qualité stable durant un certain temps, au cours duquel la probabilité pour chaque pièce produite d’être bonne est $p$, inconnu ; le contrôleur extrait indépendamment, pour les observer, $n$ pièces. Si la signification concrète de $p$ varie selon ces deux exemples, il a à chaque fois le statut de « paramètre du modèle », selon la terminologie courante en statistique inférentielle, qui conduit à le mettre en indice au $P$ qui signifie « probabilité » : d’où la notation $P_p$.

Une caractéristique pratique de toutes ces situations expérimentales, qui est quasiment toujours omise dans les cours, est que n’est en fait jamais totale l’ignorance sur la valeur inconnue de $p$. Autrement dit il n’est pas réaliste de modéliser en donnant comme ensemble de valeurs possibles de $p$ l’intervalle $\lbrack 0 , 1 \rbrack$ tout entier. Les « experts » (politologues, industriels …) sont toujours capables de fournir des valeurs $p_{-}$ et $p_{+}$, vérifiant $0 < p_{-} < p_{+} < 1 $, telles qu’il soit certain que $p$ n’est pas en dehors de l’intervalle $\lbrack p_{-} , p_{+} \rbrack$, qui apparaît donc comme l’ensemble des valeurs de $p$ à retenir dans la modélisation ; on le notera $D$ (pour « domaine de définition ») dans la suite. Cette remarque n’a pas pour seul but d’être réaliste ; nous verrons qu’elle permet aussi de gérer un obstacle calculatoire qui gêne souvent dans l’enseignement.

L’obstacle sémantique est double.

D’une part on s’exprime parfois (en particulier dans des sujets d’examen) avec un article défini (Calculez l’intervalle de confiance au niveau de confiance 0,95) alors que, la définition faisant intervenir une inégalité, il n’y a pas unicité de l’objet ; évidemment il y a à chaque niveau d’étude un non-dit, à savoir qu’il est demandé de fournir la variété d’IC alors introduite en classe (avec en général un niveau de confiance fixé à 0,95) ; mais ce non-dit se raffine quand on avance en niveau scolaire.

D’autre part, et encore plus générateur de trouble, est le fait que la propriété caractérisant un IC, relativement au paramètre $p$, au niveau de confiance $1- \alpha$ est souvent exprimée par une phrase du genre : La probabilité que $p$ appartienne à cet intervalle est supérieure ou égale à $1- \alpha$. La syntaxe de cette phrase induit dans la tentation de penser que $p$ est aléatoire, ce qui n’est pas le cas dans le modèle considéré [3] . Il est bien préférable, quoique de sens identique, de dire (ce qui est bien le cas dans le libellé du programme) :

La probabilité que cet intervalle aléatoire contienne $p$ est supérieure ou égale $1- \alpha$,

ou même, si on veut insister sur le modèle dans lequel on se place :

Quel que soit $p$ appartenant à $D$, la probabilité, si $p$ est la valeur du paramètre, que cet intervalle aléatoire contienne $p$ est supérieure ou égale à $1- \alpha$,

phrase qui, formellement, peut s’écrire, si on note respectivement $C_{-}$ et $C_{+}$ les variables aléatoires extrémités de l’IC (ici fonctions de la fréquence observée $f$) :
\[\forall p \in D\;\;P_p\lbrack C_{-} \leq p \leq C_{+} \rbrack \geq 1 - \alpha.\]

Les obstacles calculatoires apparaissent dans la mise en œuvre de la dualité entre intervalle de fluctuation (IF) et intervalle de confiance (IC) [4].

On note tout d’abord la présence de définitions formellement différentes de l’IF selon les programmes : il y en a d’explicites, en commentaires ou en notes, dans les programmes de seconde et de terminale (S, ES et spécialité en L). Ceci constitue une source de trouble pour certains enseignants mais ce trouble peut être levé s’ils comprennent qu’il n’y a pas unicité de cet objet mais que, pour une loi de probabilité donnée, sur $\Bbb R$ ou un intervalle de $\Bbb R$, est intervalle de fluctuation au seuil $1 - \alpha$ tout intervalle dont la probabilité est supérieure ou égale à $1 - \alpha$ [5] .

Formellement, avec cette définition, $\lbrack 0 , 1 \rbrack$ est un IF pour n’importe quelle valeur de $\alpha$ mais il est clair que, pour fournir une information pertinente sur $P$, un intervalle de fluctuation n’a d’intérêt que s’il n’est « pas trop gros » ; cependant les IF compatibles avec un $\alpha$ donné sont d’autant plus proches de $\lbrack 0 , 1 \rbrack$ que $\alpha$ est plus petit. On cherchera donc à trouver (et enseigner), sous certaines contraintes techniques (ou pédagogiques), variables selon les circonstances, des intervalles de fluctuation aussi courts que possible, éventuellement calculés de manière approchée.

Voici quelques exemples de contraintes possibles usuelles, déclinées ici dans le cadre du programme : loi de la fréquence observée dans un échantillon de taille $n$ tiré dans une population où on considère un caractère à deux modalités dont l’une est de proportion $p$ ; les IF sont alors des sous-intervalles de $\lbrack 0 , 1 \rbrack$ dépendant de $p$ et seront donc notés $I(p)$.

  • 1. Se limiter à quelques (voire une) valeur de $\alpha$ (en particulier $\alpha = 0,05$).
  • 2. Chercher à rendre le calcul aussi simple que possible (par exemple en faisant en sorte que l’intervalle ne dépende de $p$ que par la position de son centre mais pas par sa longueur).
  • 3. Mettre des conditions sur $n$ et sur $p$ en dehors desquelles l’intervalle proposé $I(p)$ est susceptible de ne pas satisfaire la condition imposée $P_p(I(p)) \geq 1 - \alpha$ ; la condition sur $p$ peut intégrer celle évoquée plus haut selon laquelle, pour des raisons de modélisation, $p$ doit être pris dans un sous-intervalle $D$ de $ \rbrack 0 , 1 \lbrack $.
  • 4. Utiliser un intervalle symétrique autour de $p$ (espérance mathématique de la loi de la fréquence).
  • 5. Imposer que, si on note $I(p) = \lbrack A_{-}(p) , A_{+}(p) \rbrack$, alors $P_p (\lbrack 0 , A_{-} (p) \lbrack) \leq \frac{\alpha}{2}$ et $P_p (\rbrack A_{+}(p) , 1 \rbrack) \leq \frac{\alpha}{2}$.
  • 6. Imposer (ce qui semble « de bon sens ») que les fonctions $ A_{-}$ et $ A_{+}$ définies au point 5 ci-dessus soient croissantes.

Par commodité d’usage, la condition 3 peut parfois n’être satisfaite qu’approximativement, $P_p(I(p))$ pouvant, pour certains couples $(n,p)$ satisfaisant cette condition, être « un peu » inférieur à $1 - \alpha$, cette « défaillance » étant jugée par les praticiens non gênante pour leurs applications.

Les conditions 4 à 6 portent sur les IF dits bilatéraux, auxquels se limite le programme. On pratique aussi des intervalles unilatéraux, qui seraient ici de la forme $\lbrack 0 , A(p) \rbrack$ ou $\lbrack A (p) , 1 \rbrack$ [6].
La condition 6, satisfaite dans tous les cas de choix d’IF pratiqués, permet de visualiser graphiquement la dualité entre IF et IC. Dans le carré $ \lbrack 0 , 1 \rbrack ^2 $ (ou plus précisément le rectangle $D \times \lbrack 0 , 1 \rbrack $) les fonctions $ A_{-}$ et $ A_{+}$ dessinent un « fuseau » comme il apparaît dans la figure ci-dessous où, pour $1 - \alpha = 0,95$, sont superposés les graphes des extrémités des IF pour les valeurs suivantes de $n$ : 30, 50, 100, 200, 300, 500, 1000.

Soit $K$ l’ensemble des couples $(p,f)$ tels que $ A_{-}(p) \leq f \leq A_{+}(p)$ : un IF $I(p)$ se lit en coupant ce fuseau par la verticale d’abscisse $p$. Et il résulte de la définition même des intervalles de confiance que l’on obtient une famille d’IC, $J(f)$, en coupant ce fuseau par des horizontales, par la suite d’équivalences :
\[ f \in I(p) \Leftrightarrow (p,f) \in K \Leftrightarrow p \in J(f). \]

En d’autres termes, si $ A_{-}$ et $ A_{+}$ sont continues et strictement croissantes, sauf éventuellement sur les intervalles où elles prennent les valeurs 0 (ce qui peut être le cas pour $ A_{-}$ pour $p$ proche de 0) ou 1 (ce qui peut être le cas pour $ A_{+}$ pour $p$ proche de 1), les fonctions extrémités inférieure et supérieure des IC, notées ci-dessus $C_{-}$ et $C_{+}$, sont définies sur $\rbrack 0 , 1 \lbrack$ comme les fonctions réciproques [7] respectivement des fonctions $ A_{+}$ et $ A_{-}$.

Cette condition analytique technique de stricte croissance et continuité n’est pas satisfaite dans le cas des IF tels qu’ils sont définis en classe de première (voir détails ci-dessous) car alors leurs extrémités appartiennent à l’ensemble dans lequel les fréquences prennent effectivement leurs valeurs, c’est à dire l’ensemble des multiples de $\frac{1}{n}$ entre 0 et 1 ; alors les fonctions croissantes $ A_{+}$ et $ A_{-}$ ne sont ni strictement croissantes ni continues mais ont des paliers. Comme il n’est raisonnable de n’effectuer ces études que pour $n$ assez grand (la condition classique $n \geq 25$ est à cet égard minimale), il est naturel de « lisser » les fonctions $ A_{-}$ et $ A_{+}$ en fonctions strictement croissantes et continues. C’est cette solution (dont nous verrons qu’elle peut avoir des justifications asymptotiques) qui était utilisée pour les représentations graphiques dites abaques, telles la figure ci-dessus, qui ont longtemps été l’outil de base des statisticiens (ou utilisateurs de statistique) devant calculer des IC.

Nous passons maintenant en revue les choix d’IF proposés dans les programmes actuels des lycées en France avec, que ceux-ci soient au programme ou non, les IC qui leur sont associés, ainsi que des précautions de calcul qu’ils imposent.

En seconde sont proposés les IF $ \lbrack \sup (0 , p - \frac{1}{\sqrt{n}}), \inf (1, p + \frac{1}{\sqrt{n}}) \rbrack $ [8], qui satisfont toutes les contraintes 1 (pour $\alpha = 0,05$) à 6 citées ci-dessus (oh combien pour la contrainte 2 !), la contrainte 3 prenant la forme $n \geq 25$, $np \geq 5$ et $n(1-p) \geq 5$ [9], ces deux dernières inégalités étant affaiblies dans le programme en $0,2 \leq p \leq 0,8$. Il n’est pas possible d’en donner une justification aux élèves à ce stade, puisqu’il s’agit d’un élargissement des IF présentés en terminale (voir ci-dessous), fondé sur les inégalités $p(1-p) \leq \frac{1}{4}$ et $(1,96)^2 < 4$ ; cet élargissement est donc d’autant plus dommageable, en termes de précision de l’intervalle, que $p$ est plus loin de $ \frac{1}{2}$.

Remarquons, quoique ce ne soit pas au programme de seconde (mais les documents d’accompagnement de terminale y reviennent), que des IC s’en déduisent élémentairement par l’équivalence
\[ p - \frac{1}{\sqrt{n}} \leq f \leq p + \frac{1}{\sqrt{n}} \Leftrightarrow f - \frac{1}{\sqrt{n}} \leq p \leq f + \frac{1}{\sqrt{n}}. \]
Mais une difficulté surgit car les IF utilisés pour déterminer les IC ne sont proposés que sous une condition faisant intervenir $p$, à savoir $\frac{5}{n} \leq p \leq 1 - \frac{5}{n} $ ; or maintenant $p$ est inconnu. C’est là que l’on voit qu’il est utile que l’intervalle de définition de $p$, soit $D$, introduit dans la modélisation de la situation étudiée, soit contenu dans l’intervalle $\lbrack \frac {5}{n} , 1 -\frac {5}{n} \rbrack$, ce qui est d’autant mieux réalisé que $n$ est plus grand.

En première on propose des IF fondés sur la « vraie » loi de la fréquence et donc sur la loi binomiale. La contrainte privilégiée est ici la contrainte 5, portant séparément sur les majorations, par $\frac{\alpha}{2} = 0,025$, des probabilités des deux intervalles dont l’union est le complémentaire de l’IC. La contrainte 4 (symétrie autour de $p$) n’est pas satisfaite et la contrainte 2 (simplicité) repose sur la fourniture d’un algorithme de calcul des extrémités de l’IF. La contrainte 3 (conditions sur $n$ et $p$) n’a pas lieu d’être puisqu’on dispose ici d’un calcul exact (encore que les programmes de calcul des loi binomiales sur ordinateur incorporent des approximations, mais « indolores » car très précises). Dans la pratique, comme on l’a dit plus haut, l’obtention des IC associés s’effectue à partir des lissages continus des extrémités des IF évoqués ci-dessus à propos des abaques ; mais dans ce cadre l’IC n’est pas au programme des lycées !

Enfin, en terminale, on introduit les IF fondés sur la convergence des lois binomiales vers la loi normale quand la taille de l’échantillon, $n$, tend vers l’infini et donc sur les approximations que cela autorise ; or cette convergence est d’autant plus rapide que $p$ est plus proche de $\frac{1}{2}$ ; en fait les démonstrations classiques, à l’aide de la formule de Stirling, du théorème de la limite centrale font intervenir $np(1-p)$ ; plus cette valeur est élevée, plus rapide est la convergence. Il n’est donc pas étonnant que la qualité de l’approximation soit présentée avec des conditions type « assez grand » portant à la fois sur $n$, $np$ et $n(1-p)$, les bornes fournies traduisant les exigences sur cette qualité ; traditionnellement ce sont respectivement 25, 5 et 5, mais dans certains contextes on pourrait être plus exigeant.

C’est le calcul sur la loi normale qui fournit alors, pour $\alpha = 0,05$ [10], l’IF dit « asymptotique », $ \lbrack A_{-}(p) , A_{+}(p) \rbrack $, avec $ A_{-}(p) = \sup (0, p - 1,96 \frac{ \sqrt{p(1-p)}}{\sqrt{n}})$ et $ A_{-}(p) = \inf (1, p + 1,96 \frac{ \sqrt{p(1-p)}}{\sqrt{n}}) $ (fonctions qui ont présidé à la confection de la figure ci-dessus) [11]. Il satisfait aux conditions 2 (il reste de calcul assez simple), 3 (en reprenant la forme la plus courante, qui nécessite à nouveau les mises en garde figurant dans la note 11), 4, 6 et, surtout, 5 : c’est celle qui préside à sa fabrication, en arrivant, grâce à la stricte croissance et la continuité de la fonction de répartition de la loi normale, à rendre exactes à $\frac{\alpha}{2} = 0,025$, dans le cadre de l’approximation gaussienne utilisée, les probabilités des deux intervalles dont l’union est le complémentaire de l’IF.

On réalise donc alors au mieux le souhait de rendre l’IF aussi court que possible compte tenu des contraintes imposées. Et les IF vus en seconde apparaissent bien, comme on l’a déjà indiqué, comme des grossissements de ceux-ci, ce qui permet de comprendre pourquoi on donnait déjà alors les conditions de validité, sur $n$, $np$ et $n(1-p)$, utilisées pour des formules plus précises.

Dans la ligne de ce qui a été dit en note numéro 10 pour les IF donnés en classe de seconde, on remarque que la détérioration de l’approximation gaussienne quand $p$ est proche de 0 et de 1 se traduit ici aussi par la nécessité de faire figurer (ce qui est sous-entendu dans les formules écrites dans les programmes ou manuels), les $\sup(0,.)$ et $\inf(.,1)$ dans les définitions de $A_{-}(p)$ et $A_{+}(p)$. Si on pose $p_0 = \frac{1}{1 + \frac{n}{{1,96}^2}}$, c’est sur l’intervalle $\lbrack 0, p_0 \rbrack $ que $A_{-}$ prend la valeur 0 et c’est sur l’intervalle $\lbrack p_0, 1 \rbrack $ qu’elle est continue et croît strictement de 0 à 1 ; de même c’est sur l’intervalle $\lbrack 1 - p_0 , 1 \rbrack $ que $A_{+}$ prend la valeur 1 et c’est sur l’intervalle $ \lbrack 0, 1-p_0 \rbrack $ qu’elle est continue et croît strictement de 0 à 1.

Pour fabriquer la famille des IC, $\lbrack C_{-}(f) , C_{+}(f) \rbrack $, associée à cette famille d’IF, il suffirait alors théoriquement d’introduire les fonctions $C_{-}$ et $C_{+}$, sur $\lbrack 0 , 1 \rbrack $ comme respectivement les fonctions réciproques de $A_{+}$ et $A_{-}$, (avec les conventions $C_{-}(1) = 1 -p_0$ et $C_{+}(0) = p_0$) ; ils seraient « aussi courts que possible » compte tenu du niveau de confiance 0,95 [12].
Mais cette approche purement mathématique néglige le fait que les IF utilisés sont asymptotiques, c’est-à-dire fondés sur des approximations qui ne sont valides que (en reprenant la forme la plus courante) pour $n \geq 25$ et $\frac{5}{n} \leq p \leq 1 - \frac{5}{n}$. Or $p$ est par essence inconnu ; c’est alors qu’il est utile de se rappeler que le modèle utilisé supposait que $p$ appartienne à un intervalle de définition $ D = \lbrack d_{-}, d_{+} \rbrack $ déterminé par des considérations empiriques (« dialogue » avec l’utilisateur de l’étude statistique, par exemple, pour revenir aux cas présentés ci-dessus, le politologue ou le contrôleur industriel), avec $ d_{-} > 0$ et $ d_{+} < 1$ ; il est donc « honnête » de ne fournir d’intervalle de confiance que si $n$ est assez grand pour que $D \subset \lbrack \frac{5}{n} , 1 - \frac{5}{n} \rbrack$, et cet intervalle est alors $\lbrack C_{-} , C_{+} \rbrack \cap D$.

Cette manière de « refuser », en considérant le modèle, de calculer un IC si les conditions de validité ne sont pas satisfaites, est à notre avis bien plus conforme à la déontologie du statisticien que celle qui consiste à poser comme condition de validité, comme il est en général « pédagogiquement » recommandé, $n \geq 25$, $nf \geq 5$ et $n(1-f) \geq 5$. Ceci revient en effet à effectuer un « transfert » sur $f$ des conditions, portant sur $p$, pesant sur le calcul des IF ; un autre défaut de cette pratique, proposée dans certains manuels, est qu’elle fait sans le dire usage de l’estimation ponctuelle de $p$ par $f$, dont le principe même est en dehors du programme et dont la théorie et la pratique sont au moins aussi délicates que celle des IC [13].

Reste une dernière étape technique pour obtenir les IC donnés dans le programme : inverser les fonctions $A_{+}$ et $A_{-}$, restreintes respectivement aux intervalles $\lbrack 0 , 1- p_0\rbrack $ et $\lbrack p_0, 1 \rbrack $ ; il s’agit de résoudre des équations du second degré, admettant chacune, dans $\lbrack 0, 1 \rbrack$, une unique racine. Les nombres $ f - 1,96 \frac{ \sqrt{f(1-f)}}{\sqrt{n}}$ et $ f +1,96 \frac{ \sqrt{f(1-f)}}{\sqrt{n}}$ sont des approximations de ces racines, d‘ordre 1 en $\frac{\sqrt{f(1-f)}}{\sqrt{n}}$. Et, à ce stade, on peut revenir une fois de plus sur le contexte épuré vu en seconde et comprendre pourquoi des IC de la forme $ p - \frac{1}{\sqrt{n}} \leq f \leq p + \frac{1}{\sqrt{n}}$ sont des grossissements de ceux, $ f - 1,96 \frac{ \sqrt{f(1-f)}}{\sqrt{n}}, f +1,96 \frac{ \sqrt{f(1-f)}}{\sqrt{n}}$, qu’on vient de fabriquer ; ils sont donc valides sous les mêmes conditions, mais moins précis.

Ces dernières considérations de technique de calcul, si elles sont à la portée des enseignants, dépassent certes le niveau des élèves de terminale. Faudrait-il pour autant renoncer à leur enseigner les intervalles de confiance ?

Je ne le pense pas, car, outre l’intérêt pratique des IC, il me semble important que, à ce niveau, les élèves prennent conscience que l’emploi des mathématiques repose largement sur des approximations et que ces approximations peuvent avoir deux types de justifications : usage, « à distance finie », d’un résultat asymptotique et simplification dans un calcul. Que la justification de ces calculs approchés ne puisse pas être entièrement fournie à leur niveau n’est pas grave ; la démarche scientifique suppose une certaine part de confiance à l’égard des résultats obtenus par ceux qui nous ont précédés. L’important est de savoir qu’il existe des règles de vérification de la validité de ces approximations aux degrés de précision couramment exigés et d’être capable de vérifier si celles-ci sont satisfaites. A ce titre l’enseignement des intervalles de fluctuation et des intervalles de confiance fournit une occasion intéressante de mise en place de considérations plus générales d’application des mathématiques, et en particulier, au fil de la progression des outils de la seconde à la terminale, de la tension qui existe toujours entre la volonté de précision (ici la faible longueur des intervalles de confiance) et le coût en termes de calculs de cette précision.

Post-scriptum :

Je remercie Philippe Dutarte, Inspecteur d’Académie – Inspecteur Pédagogique Régional (académie de Créteil) pour sa lecture critique d’une version préliminaire de ce billet, dont la forme finale lui doit beaucoup.

Article édité par Paul Vigneaux

Notes

[1Accessibles via : Eduscol

[2Ceci est peut-être encore plus vrai pour l’initiation au test d’hypothèse figurant aussi dans le programme. On lit en général à ce sujet des phrases du type : « On fait l’hypothèse que la proportion inconnue vaut $p_{0}$ ». J’ai vu des enseignants, à qui on avait expliqué qu’un modèle est la traduction mathématique d’hypothèses faites sur une fraction du réel, fournissant ainsi un cadre de travail pour l’analyse de ce réel, être fort troublés par le fait qu’on mette en cause une telle hypothèse. La langue anglaise est ici plus riche, qui dispose des mots « assumption » et « hypothesis », le premier plus fort que le second. Dans la situation de l’urne évoquée ici, « assumption » porte sur le fait que la probabilité de tirer une boule d’une couleur donnée est égale à la proportion, inconnue, de boules de cette couleur dans l’urne, et que, si on procède à des tirages avec remise, les résultats successifs sont indépendants. « Hypothesis » désignerait par exemple l’affirmation que les boules de chacune des deux couleurs sont en nombres égaux, affirmation que l’on soumettrait au feu de l’observation d’un échantillon tiré dans l’urne. Je pense que des précautions de langage peuvent être utiles ; pour ma part, quand je présente les justifications d’un modèle, j’aime bien dire « On admet que … » ; et quand j’énonce une hypothèse à tester, je préfère dire « On avance l’hypothèse que … », ou « On propose l’hypothèse que … », plutôt que « On fait l’hypothèse que … », qui laisse moins de place au doute.

[3C’est autour de ce risque de malentendu que se sont largement déroulés les échanges sur Images des Mathématiques évoqués au début de ce billet.

[4Des critiques ont été exprimées contre l’introduction de l’expression « intervalle de fluctuation », qui n’est usitée que dans le cadre scolaire, au contraire de « intervalle de confiance » qui relève du vocabulaire usuel de la statistique. Pour ma part je considère qu’avoir bien nommé cette notion a un avantage pédagogique certain. Quoique la notion d’IF soit en soi de nature probabiliste (et non statistique), elle ne prend vraiment son sens qu’en tant qu’outil de statistique inférentielle ; elle sert alors aussi bien pour la notion de test statistique (à laquelle les élèves sont initiés sous la terminologie « prise de décision », mais que nous laissons en dehors du champ de cet article) que pour celles d’intervalle de confiance ou de demi-droite de confiance, cette dernière également non traitée ici.

[5Cette absence d’unicité est bien mise en évidence dans le document de ressources en Probabilités et Statistique pour la classe de terminale en page 19 (début de la section IV intitulée « Intervalle de fluctuation ») ; on y trouve des considérations sur les contraintes pour le choix de l’IF analogues à celles que nous présentons ici.

[6En note 4, on évoquait d’autres applications statistiques des IF que celles aux IC (implicitement bilatéraux) étudiés ici. Ainsi, étant fixée une valeur $p_0$ du paramètre, les IF bilatéraux servent pour tester des hypothèses du type $p=p_0$ et les IF unilatéraux servent pour tester des hypothèses du type $p \geq p_0$ ou du type $p \leq p_0$, très utiles en fiabilité industrielle. Les IF unilatéraux servent aussi pour fabriquer des demi-droites de confiance.

[7Notion dont il est fort regrettable qu’elle ne figure plus explicitement au programme des classes terminales, même scientifiques.

[8On lit en général, dans les programmes ou manuels, $\lbrack p - \frac{1}{\sqrt{n}} , p + \frac{1}{\sqrt{n}} \rbrack$, intervalle qui sort de $\lbrack 0, 1 \rbrack$ si $p < \frac{1}{\sqrt{n}}$ ou si $ p> 1 - \frac{1}{\sqrt{n}}$, circonstances qui peuvent être, pour $n$ assez grand, évitées si $p \in D$.

[9Contraintes faiblement « défaillantes » pour certains couples $(n,p)$, au sens de la mise en garde qui suit immédiatement la liste des six conditions ci-dessus ; observer s’il en est ainsi, et avec quelle ampleur, est un exercice assez élémentaire sur tableur ; une telle possibilité peut s’obtenir en adaptant le fichier Excel présenté dans le document ressources de terminale (voir note 11 ci-dessous) ou en utilisant un exercice (n°52) fourni dans le manuel Math’x de Terminale ; on trouve ainsi, par exemple, que pour $n=201$ et $p = 0,45$, la probabilité de l’intervalle $\lbrack p - \frac{1}{\sqrt{n}} , p + \frac{1}{\sqrt{n}} \rbrack$ est 0,948, donc légèrement inférieure à 0,95.

[10Auquel est associé $1,96$ comme fractile (autrement dit quantile) d’ordre $1 - \frac{\alpha}{2} = 0,975$ de la loi normale centrée réduite.

[11Le calcul exact de la probabilité de cet intervalle, à l’aide de la loi binomiale de paramètres $n$ et $p$ est possible avec le fichier Excel fourni dans le document ressource de Terminale, dénommé
exploration_intervalle_de_fluctuation_asymptotique.xls

[12La généralisation à tout niveau de confiance $1 - \alpha$ est évidente, en remplaçant dans les formules $1,96$ par le fractile d’ordre $1 - \frac{\alpha}{2}$ de la loi normale centrée réduite.

[13Un autre cas où le statisticien se doit d’affirmer qu’il n’est pas en mesure de fournir un IC est celui où $\lbrack C_{-}(f), C_{+}(f) \rbrack \cap D = \emptyset $, ce qui ne peut se produire que si $p$ est « très proche » de 0, avec des probabilités en fait faibles si $p \in D $.

Partager cet article

Pour citer cet article :

Jean-Pierre Raoult — «Intervalle de confiance : pourquoi tant de défiance ?» — Images des Mathématiques, CNRS, 2014

Commentaire sur l'article

  • Intervalle de confiance : pourquoi tant de défiance ?

    le 22 avril 2014 à 11:30, par Marc Monticelli

    Bonjour,

    voici une expérience numérique interactive sur les intervalles de confiance : http://experiences.math.cnrs.fr/Intervalles-de-confiance.html
    Cordialement

    Répondre à ce message
    • Intervalle de confiance : pourquoi tant de défiance ?

      le 23 avril 2014 à 12:13, par Pierre Colmez

      Pour répondre au titre, appeler intervalle un objet de dimension 2 (comme illustré par la figure ci-dessus) n’aide pas vraiment à la compréhension. Dans un autre registre, j’ai été amusé de trouver dans cet article un écho de la discussion consécutive à mon billet.

      Répondre à ce message
    • Intervalle de confiance : pourquoi tant de défiance ?

      le 24 avril 2014 à 08:46, par Jean-Pierre Raoult

      Je remercie vivement Marc Monticelli d’avoir indiqué cet outil dont l’usage complète utilement la lecture de mon billet.

      Répondre à ce message
  • Intervalle de confiance : pourquoi tant de défiance ?

    le 24 avril 2014 à 10:59, par SVPFB

    Je tiens à signaler quelques coquilles.

    Coquille n°1.

    Les contraintes de validité sur f données dans l’article sont celles de l’intervalle en √f√(1-f)/√n (appelons le Ifn), pas de l’intervalle en 1/√n (appelons le Jfn).

    En effet, l’approximation de √f√(1-f)/√n par 1/√n est une surapproximation grossière pour f « petit ». Du coup, même si l’intervalle Jfn a été déduit de Inf, l’intervalle Jfn est valide même dans des cas où Ifn ne l’est pas.

    En fait, la condition n≥25 est suffisante (et même pas nécessaire) pour que Jfn soit valide. En particulier, même si f=0 ou f=1, Jfn est valide.

    Le problème de « déontologie du statisticien » cité dans l’article ne s’applique donc pas à l’intervalle Jnf (le seul au programme de TS).


    Coquille n°2.

    En outre, l’article dit, au sujet de ces conditions : « Ceci revient en effet à effectuer un « transfert » sur f des conditions, portant sur p, pesant sur le calcul des IF ».
    Ceci supposerait que les contraintes sur f auraient été obtenues en remplaçant simplement p par f, permettez-moi d’en douter fortement.
    On peut calculer l’intervalle de confiance sur la loi binomiale, sans faire d’approximation. On voit alors que quand f satisfait certaines conditions, alors l’intervalle peut être approché avec le √f√(1-f)/√n. Cette approximation est valide même si p ne satisfait pas les conditions de validité, puisqu’elle découlent d’une formule de faisant intervenir que f et pas p.

    Coquille n°3.

    L’article dit :

    se traduit ici aussi par la nécessité de faire figurer (...), les sup(0,.) et inf(.,1)

    Ce n’est pas nécessaire, mais utile.
    En effet, rien ne s’oppose à ce qu’un intervalle de confiance ou un intervalle de fluctuation contienne des valeurs impossibles (en dehors de [0 ;1]). Il est possible (et utile pour avoir un intervalle plus petit) d’intersecter l’intervalle de confiance ou l’intervalle de fluctuation avec l’intervalle [0 ;1], mais ce n’est pas logiquement nécessaire.

    Répondre à ce message
    • Intervalle de confiance : pourquoi tant de défiance ?

      le 8 mai 2014 à 16:45, par Jean-Pierre Raoult

      Je réponds ici aux réflexions , intitulées « signalement de coquilles », dans le commentaire du 24 avril signé SVPFB.

      1. il est vrai que l’intervalle de fluctuation « grossier » enseigné en classe de seconde est un gros élargissement de celui enseigné en terminale et donc les conditions classiques portant sur n et p et restreignant son usage seront moins souvent « défaillantes » pour le premier que pour le second. Mais l’exemple numérique donné en note de bas de page numéro 11 avait justement pour objet de montrer que même dans ce cas « grossier » il peut se produire que la probabilité de l’intervalle fourni soit strictement inférieure à 0,95 (mais pas de beaucoup !).

      2. Il est certes en principe possible d’effectuer un autre « trajet » pour justifier l’intervalle de confiance asymptotique que celui consistant à inverser les formules de l’intervalle de fluctuation asymptotique ; mais je m’en suis tenu, dans tout mon texte, à une ligne directrice, qui consiste, à chaque niveau, à associer les IC aux IF, ceci impliquant des « garde-fous » qui sont d’ailleurs parfaitement raisonnables ; et c’est ce mode opératoire qui préside à l’usage des abaques « lissés » couramment utilisés tels que ceux présentés dans le billet. La démarche proposée par l’auteur du commentaire s’explicite ainsi : à partir d’une réalisation f de F (où nF suit la loi binomiale de pramètres n et p), l’intervalle de confiance sur p au niveau de confiance 0,95 est [p1,p2], tel que, si p=p1) > 0,025 et, si p < p2, alors P(F<=p2) > 0,025 ; ce mode opératoire peut faire l’objet d’une mise en œuvre algorithmique et on procède ainsi dans le cas de petits échantillons ou si on sait a priori que p est « proche de 0 » ou « proche de 1 » : mais le procédé est lourd et sa complexité analytique se prête mal au traitement algorithmique préconisé par SVPFB.

      3. Il me paraît souhaitable de définir l’intervalle de fluctuation (resp. de confiance) comme contenu dans le domaine dans lequel f (resp p) prend ses valeurs, c’est à dire le segment d’extrémités 0 et 1 ; mais je suis d’accord que c’est une question de convention.

      Répondre à ce message
  • Intervalle de confiance : pourquoi tant de défiance ?

    le 28 avril 2014 à 16:53, par Claudine Schwartz

    Si on est en cours de mathématiques,et qu’on tire mentalement ou par simulation numérique des boules rouges ou blanches dans une urne, et si on connait la proportion p de boules blanches,(ici appelé vraie valeur de la probabilité de tirer une boule rouge), alors on est capable de calculer une plage fixe (un intervalle de fluctuation propre à l’urne) où la fréquence f de boules rouges a une forte probabilité de se trouver. A partir de là, on peut aussi construire des plages aléatoires, appelées intervalles de confiance, qui ont de fortes chances « d’attraper p » lorsqu’on réitère les tirages. C’est ce qui est dit dans l’article de JP Raoult.

    Mais quand on est en dehors du cours de maths, en dehors d’une problématique directe de sondages, que fait-on ? On est amené à assimiler l’expérience aléatoire du moment au tirage dans une urne imaginaire ; bon, mais alors parler de vraie valeur de la proportion de boules rouges dans une urne qui elle est tout a fait imaginaire est certes poétique mais quelque peu déroutant. De plus, dire qu’on aurait un fort pourcentage de chances d’attraper cette valeur si on refaisait un grand nombre de fois l’expérience est aussi osé car précisément, on cherche à produire un énoncé à la suite d’une seule série d’expériences. Bref, les statisticiens du 20ème siècle ont fait la vie dure aux collègues de physique, de biologie, de SES : le monde d’Alice aux pays des merveilles qui est celui de nombreux ouvrages pédagogiques de statistique est difficile à confronter à des questions de biologie et à des données expérimentales ! Les enseignants de ces disciplines seraient sans doute plus à l’aise en disant qu’un intervalle de confiance est un ensemble de valeurs admissibles du paramètre du modèle qu’on cherche à mettre en place. Le terme admissible relève d’un consensus : le modèle est admissible si pour ce modèle, la fréquence est là où on l’attend, ie dans l’intervalle de fluctuation choisi à l’avance. On indique ainsi clairement qu’on tisse ensemble résultats mathématiques et consensus sociaux. J’ai détaillé ces propos sybillins ici (http://publications-sfds.math.cnrs.fr/index.php/StatEns/article/view/125/115), dans un numéro de la revue de la SFDS (société française de statistique) qui se proposait d’ouvrir à certains débats.

    J’ai été présidente du groupe de travail chargé d’introduire vers les années 2000 de l’aléatoire à partir de la classe de seconde. Les nouveautés introduites n’avaient pas vocation à être scellées dans la pierre sous la forme donnée à cette époque et les programmes étaient bien sûr destinés à évoluer. Aujourd’hui, je constate qu’il y a vraiment problème : les débats sont peu ou prou toujours les mêmes. Depuis bientôt 15 ans ! Je n’ai bien sûr pas de solution toute faite, mais après avoir visité pas mal de classes, écouté les enseignants, je pense qu’on fait fausse route et que la statistique devrait être prise en charge par ceux qui ont à la fois les questions et la production de données. C’est-à-dire la physique (incertitude des mesures), la biologie, les SES. En mathématiques, on ferait des probabilités, de l’expérimentation numérique, (un peu de processus, on essaye de faire comprendre le théorème central limite). Evidemment, on va parler de l’incontournable interdisciplinarité. Est-ce que cela change les termes du débat ?

    Répondre à ce message
    • Intervalle de confiance : pourquoi tant de défiance ?

      le 30 avril 2014 à 08:49, par Pierre Colmez

      Je ne peux que souscrire à la conclusion du message de Claudine Schwartz.

      Répondre à ce message
    • Intervalle de confiance : pourquoi tant de défiance ?

      le 8 juin 2014 à 15:15, par Jean-Pierre Raoult

      Une réponse à ces commentaire de Claudine Schwartz et Pierre Colmez, ainsi qu’à quelques autres, figure dans le billet mis en ligne le 3 juin 2014, titré « Intervalle de confiance, le débat continue » :
      http://images.math.cnrs.fr/Intervalles-de-confiance-le-debat.html

      Répondre à ce message
  • Intervalle de confiance : pourquoi tant de défiance ?

    le 1er mai 2014 à 10:55, par jerome

    Bonjour,

    Ce qui me gêne beaucoup dans cet article comme celui-ci http://images.math.cnrs.fr/Pourquoi-enseigner-les.html, c’est que beaucoup de personnes ne semblent pas se rendre compte que ce qui est exposé dans ces articles passent très largement au dessus de la tête de la plupart des élèves. Quels sens donner aux mots « approximation », « converger », « limite », etc à des élèves de terminale à qui on a retiré tout le bagage nécessaire pour comprendre les choses. Les stats-probas sont un peu pour moi la poursuite de ce qui a été fait en physique. La physique a été très largement détruite dans les programmes de lycée. La physique est en quelque sorte devenue une simple étude de texte scientifique. On doit tout y dériver à base de l’énergie si bien qu’on y raconte n’importe quoi ou des choses vraiment fausses. Je suis agrégé en Maths, mais j’ai une thèse en physique et je suis horrifié de ce qui est désormais enseigné au lycée en physique tout comme de nombreux collègues de physique. Il faut désormais juste savoir trouver la bonne ligne dans un texte pour répondre à telle question.

    On est en train de faire la même chose en maths. Je ne vais pas revenir sur l’absurdité des programmes de maths au lycée : introduction de la fonction exponentielle comme unique solution d’une équation différentielle alors qu’elles ne sont plus au programme (même y’=ay avec a constant), exit l’intégration par partie, exit la définition d’une limite, interdiction de parler de factorielle, on calcule un coefficient binomial à la calculatrice comme pour faire croire qu’elle est indispensable (ou on fait compter le nombre de branches dans un arbre).... Il suffit de parcourir les discussions de nombreux profs de maths sur les forums pour remarquer à quels points ils sont catastrophés de ces programmes qui encore une fois sont jetés du plus haut étage du ministère sans aucune discussion avec ceux qui sont sur le terrain.

    Je ne suis vraiment pas un adorateur des maths hyper rigoureuses, très loin de là, puisque j’ai une formation de base purement physicienne. Mais nous sommes en train de nous égarer totalement et l’effet sur les élèves est désastreux -surtout sur les plus faibles- contrairement à l’effet souhaité. Plus on coupe dans le programme de maths, plus on allège, plus on rend complétement farfelu les choses en introduisant des notions qui font très jolies sur le papier (mais dont les élèves n’y comprennent rien car ils retiendront une simple recette), plus on met en difficulté les élèves les plus fragiles. Cela ne va pas avoir d’effets dans les grands établissements, mais chez moi, en Rep+, ça se paye comptant.

    Je serai très heureux de faire des stats-probas au lycée (même si je suis actuellement en collège Rep+) mais sincèrement, il suffit d’aller dans une classe de lycée pour voir l’état de la catastrophe en maths (et c’est encore pire en physique ! Combien d’étudiants s’orientent en physique en fac et rebroussent chemin en étant incapable de comprendre un mot de ce qui est fait ? Il y a toujours la solution de transformer la physique en pure étude de texte scientifique en licence comme ça le problème sera masqué).

    Il est temps de se remettre en question, et de cesser de croire que l’introduction de tel truc va totalement révolutionner l’enseignement et que tout les problèmes vont se régler.

    Les élèves qui payent le prix de ces expérimentations sont les plus faibles. Dans les grand établissements on intégrera toujours les prépas puis les grandes écoles et l’écart se sera encore un peu plus creusé avec les plus faibles.

    Je rajoute enfin que de plus en plus de collègues, que ce soit en Maths ou en physique commencent à exprimer haut et fort leur agacement face à un corps d’inspection qui semble totalement incapable d’entendre ceux qui sont sur le terrain.

    Au lieu d’aller introduire des intervalles de confiance dans un programme qui se résument en pratique pour 95% des élèves à utiliser la bonne touche de la calculatrice sans rien y comprendre, il aurait peut-être fallu entendre avant les revendications des professeurs en postes.

    Cordialement.

    Répondre à ce message
    • Intervalle de confiance : pourquoi tant de défiance ?

      le 8 juin 2014 à 11:12, par Jean-Pierre Raoult

      Une réponse à ce commentaire, ainsi qu’à quelques autres, figure dans le billet mis en ligne le 3 juin 2014, titré « Intervalle de confiance, le débat continue » :
      http://images.math.cnrs.fr/Intervalles-de-confiance-le-debat.html

      Répondre à ce message
  • Intervalle de confiance : pourquoi tant de défiance ?

    le 3 mai 2014 à 20:18, par Karen Brandin

    Je ne pense pas que l’on puisse décemment affirmer que la notion d’intervalle de confiance éclaire, voire motive, le cours de probabilités de TS. C’est peut-être une question d’éducation de l’oeil ou d’éducation tout court, peut-être que l’on en a une approche trop primaire, trop artificielle et je suis d’ailleurs sensible à cette volonté de Jean-Pierre Raoult de convaincre mais je reste sceptique d’autant que le temps consacré à cette partie marginale du programme est très limité (la première S ayant été vidée de toute substance ou presque, la terminale fait office de « fourre-tout » si bien que le temps presse).

    Cela se réduit à une ou deux photocopies extraites du manuel en général
    avec les sacro-sainte instructions respectant les modèles les plus répandus de calculatrices et un exemple « si le temps le permet. »

    Il faut savoir que la plupart des élèves auront d’ailleurs un programme qui leur permettra d’entrer les paramètres et d’obtenir directement la valeur des bornes de l’intervalle au seuil 95%

    « la tension qui existe toujours entre la volonté de précision (ici la faible longueur des intervalles de confiance) et le coût en termes de calculs de cette précision.
     »

    Lorsque je lis cette phrase, je pense assister à un cours de micro ou macro-économie mais pas un cours de maths ; les frontières sont poreuses mais elles existent et il faut qu’elles existent parce qu’un peu de tout, c’est beaucoup de rien. Là encore, il y a un temps pour tout : un temps pour donner une intuition, une philosophie et un temps pour comprendre, s’approprier les objets, les structures.

    Le cours de maths n’a pas vocation à édicter des règles de décision au risque 5%.

    Le retour des lois continues en revanche peut donner une seconde vie au cours d’intégration qui n’a pas toujours bonne presse, trop « abstrait paraît-il » ; hachurer inlassablement l’aire entre deux courbes ou l’aire « sous la courbe » comme on le lit souvent laissent un grand nombre d’élèves indifférents ; si cette surface est associée à une probabilité, si c’est l’occasion d’exprimer une aire en fonction d’une autre, cela peut être plus stimulant, peut-être plus parlant tout simplement.

    Forcément si l’exercice, c’est aller dans « menu », sélectionner « normalFrép », entrer les paramètres et appuyer sur « EXE », c’est d’un intérêt limité et en toute franchise, de mon côté, ça ne m’intéresse pas du tout.

    Ensuite, qui d’autre que le nouveau programme justement, a gravement compromis cette correspondance entre les disciplines scientifiques ou du moins entre les maths et la physique en éliminant d’abord en première S la notion de barycentre (l’isobarycentre d’un solide, c’est pourtant je crois le point d’application des forces en mécanique) qui est fondamentale et rend presque innaccessible celle d’ensembles de points qui posent ensuite tant de problèmes de compréhension en terminale lors du chapitre sur les nombres complexes puis en terminale S, rien de moins que les équations
    différentielles ?

    Les élèves se retrouvent du coup contraints en physique de mémoriser des équations horaires parachutées de nulle part et le bilan, c ’est qu’ils sont dégoûtés des deux matières en en ayant en plus (et c’est plus grave) une idée complètement fausse, convaincus que tout est basé sur la mémoire.

    Comment se souvenir de tout ? c’est la question à 1000 euros ...
    Et comme on ne peut pas, on met tout dans la calculatrice jusqu’à des exercices, des rédactions-type.

    Le formulaire « papier », c’est ringard bien sûr, pas écologique en plus mais ce serait plus équitable et plus profitable aussi parce que même en fac d’éco-gestion, en L1 par exemple à Bordeaux, la calculatrice est interdite lors de l’ épreuve de maths (qui est d’ailleurs distincte de l’épreuve de micro-économie et de l’épreuve de statistiques) donc les matrices 3x3, on les inverse à la main !

    Comme diraient les jeunes, « c’est abusé ».

    Les TS sont en maths et en physique des consommateurs en fin de chaîne mais ils en sont ce que nous faisons d’eux ; on teste au plus leur docilité, leur capacité à utiliser des modèles ; quelle est donc la section où on les pense ces modèles ? , je sais pas si elle existe encore mais l’un dans l’autre, j’aurais tendance à pencher pour la section technologique, trop peu connue, « STL » qui apparaît comme la plus cohérente sur bien des points.

    Bien sûr, les notions sont plus éfleurées que réellement traitées (je pense aux équations diffrentielles du second ordre) et elle n’a pas le prestige -usurpé- de la section scientifique mais on a le sentiment enfin d’une unité réconfortante même si elle est à consolider.

    Bref l’avenir est sombre. On espère toujours un éclair dans la nuit d’où qu’il vienne ... mais il faut vraiment qu’il vienne ...

    Répondre à ce message
    • Intervalle de confiance : pourquoi tant de défiance ?

      le 9 juin 2014 à 08:45, par Jean-Pierre Raoult

      Une réponse à ce commentaires de Karen Brandin, ainsi qu’à quelques autres, figure dans le billet mis en ligne le 3 juin 2014, titré « Intervalle de confiance, le débat continue » :
      http://images.math.cnrs.fr/Intervalles-de-confiance-le-debat.html

      Répondre à ce message
  • Intervalle de confiance : pourquoi tant de défiance ?

    le 5 mai 2014 à 20:58, par christophec

    Je copie-colle un commentaire que j’ai mis en fait à la suite d’un article de Pierre Colmez qui m’a dit être d’accord et suggéré de le reporter ici, où semble-t-il, il apparaitra plus apporter une contradiction au présent article (je me contente de le copier-coller étant assez pressé).

    [Pour essayer de faire simple, il me semble qu’on pourrait aussi poser la question de la manière suivante :

    ce n’est pas « faut-il enseigner les statistiques au lycée ? »(1)
    Mais « peut-on enseigner les statistiques au lycée ? »(2)

    En précisant bien que quand on essaie de faire quelque chose d’impossible ou de trop difficile, ce n’est pas « au pire rien n’est gagné », mais « ça peut coûter très cher »

    J’ai l’impression que beaucoup de gens souhaitent très sincèrement témoigner que la réponse à la question (2) est « non » (et qu’ils ajoutent « le simple fait d’avoir essayé est désastreux »)

    Dans la confusion entre les questions (1) et (2), il n’est pas impossible qu’on ait aussi des débuts de réponses aux questions suggérées dans les échanges de commentaires qui précédent « qui décide ? », « qui a autorité ? », etc... En effet, quand on commence à voir des personnes (ayant un pouvoir) répondre « oui » à des questions du genre « oui, il faut » ou « oui, il faudrait » au plus grand mépris de la réponse à la question « est-il possible de..? », c’est le début du « y a qu’à » politique déconnecté de l’analyse technique.

    La folie qui a tenté d’introduire un semblant d’enseignement de fausses stats dans le secondaire ne procéderait-elle pas, avant tout, un peu de ce « y a qu’à » ?

    Personnellement, si on me forçait à répondre à la question « serait-il bien d’enseigner la ’science statistique’ au lycée ? (SOUS L’HYPOTHÈSE QUE CE SOIT POSSIBLE) » je serais bien malhonnête si je répondais « non ».

    Et je suis particulièrement agacé de voir que c’est toujours cette question qu’on essaie de refiler comme titre aux différents débats. Je suis tout à fait « pour » qu’il n’y ait plus de faim dans le monde et tout à fait contre une loi, votée à l’assemblée nationale qui interdirait « la faim dans le monde » (j’aurais l’impression que nos élus sont devenus débiles).

    De la même manière, je suis tout à fait pour que nos concitoyens deviennent compétents en statistique et tout à fait contre un « y a qu’à » législatif ordonnant aux profs du secondaire, et aux inspecteurs qui les commandent disant « rendez nos élèves de lycée compétents en statistiques ».

    A mon sens, cette façon de fonctionner d’une démocratie et de son système éducatif est le principal problème.

    L’impossibilité d’enseigner la statistique (dont les preuves des théorèmes relèvent du recul d’un haut niveau bac +5, et la compréhension des énoncés d’un formalisme extrêmement pointilleux) à un chiard de 15ans en 2014 est anecdotique au regard de ce problème plus en amont]

    J’en profite aussi pour citer Karen Brandin, dont je viens de saisir une réplique qui m’a semblé extrêmement pertinente (je la mets en gras et l’entoure un peu de son contexte) :

    « Lorsque je lis cette phrase, je pense assister à un cours de micro ou macro-économie mais pas un cours de maths ; les frontières sont poreuses mais elles existent et il faut qu’elles existent parce qu’un peu de tout, c’est beaucoup de rien. Là encore, il y a un temps pour tout : un temps pour donner une intuition, une philosophie et un temps pour comprendre, s’approprier les objets, les structures.
    Le cours de maths n’a pas vocation à édicter des règles de décision au risque 5% »
    .

    Répondre à ce message
    • Intervalle de confiance : pourquoi tant de défiance ?

      le 9 juin 2014 à 08:44, par Jean-Pierre Raoult

      Une réponse à ce commentaire signé « Christophec », ainsi qu’à quelques autres, figure dans le billet mis en ligne le 3 juin 2014, titré « Intervalle de confiance, le débat continue » :
      http://images.math.cnrs.fr/Intervalles-de-confiance-le-debat.html

      Répondre à ce message
  • Intervalle de confiance : pourquoi tant de défiance ?

    le 6 juin 2014 à 10:28, par Erwan Saint Loubert Bié

    Bonjour,

    Les remarques postées, quoique parfois contradictoires, semblent toutes dignes d’intérêt. Plus je lis, moins j’ai de réponses nettes aux questions posées...

    La dernière remarque de christophec, qu’il emprunte à Karen Brandin me semble quand même appeler une réflexion. Que je sache, le cours de maths n’édicte pas de règles de décision à 5 % : il a vocation, simplement (ou au contraire très ambitieusement), à exposer comment de telles règles sont établies et quel « crédit » on peut leur accorder.
    A ce titre, c’est une autre une question qui me semble aussi se poser : est-il raisonnable d’envisager un programme de lycée sans rien enseigner des statistiques, compte-tenu de leur omniprésence (et parfois omnipotence) dans la vie moderne ?

    Répondre à ce message
  • Intervalle de confiance : pourquoi tant de défiance ?

    le 8 juin 2014 à 13:23, par Jean-Pierre Raoult

    Je suis bien sûr tout à fait d’accord vous, Erwan Saint-Loubert Bié, sur le « statut » des règles de décision dans le programme et sur le besoin d’enseigner la statistique au lycée dans l’environnement sociétal qui est le nôtre désormais, ce qui suppose de donner aux enseignants des billes qui commencent heureusement à se multiplier ; c’est par exemple le sens de mon billet récent sur « Images des maths », mis en ligne le 28 avril 2014 et titré « Mathématiques et instruction civique : mesurer pour progresser vers l’égalité des chances » :

    http://images.math.cnrs.fr/Mathematiques-et-instruction.html

    Le problème, dans les débats sur cet enseignement actuellement en France (et dont ce qui se déroule ici sur « Images des maths » n’est qu’une petite partie) c’est que nul ne conteste cette nécessité mais que certains doutent que le cours de mathématiques soit la meilleure place pour cela et préfèreraient que ce soient les enseignants des disciplines utilisatrices (essentiellement biologie et SHS) qui s’en chargent. Cette opinion est le fait à la fois de professeurs de mathématiques qui se sentent trop mal armés pour cet enseignement et de certains spécialistes de statistique qui pensent qu’en cours de mathématiques on ne peut donner qu’une version « décalée » et amoindrie de ce qu’est la pratique réelle de la statistique (c’est ici le cas ici du commentaire de Claudine Schwartz). Je suis d’une opinion contraire ; je rappelle que la question s’était posée il y a vingt ans au sein du conseil national des programmes de l’époque (dès sa mise en en place par Lionel Jospin, ministre de l’éducation nationale) et que le grand économiste Edmond Malinvaud y avait plaidé pour la place de la statistique au sein des mathématiques, avançant en particulier que là seulement on peut présenter de manière unificatrice les principes de cette discipline.

    C’est pourquoi dans ce que j’ai écrit pour « Images des maths » je me suis essentiellement attaché à m’efforcer de montrer aux enseignants de mathématiques en quoi l’enseignement de la statistique relève aussi, en soi, de leur matière et peut être bien lié à d’autres parties du cours de mathématiques qu’il met en retour en valeur (même si certaines insuffisances des programmes actuels ne facilitent pas toujours cette liaison). C’était déjà l’objet du billet que j’ai cosigné avec Pierre Arnoux, mis en ligne le 1er octobre 2013, intitulé « Pourquoi enseigner les probabilités et la statistique dans les cours de mathématiques :

    http://images.math.cnrs.fr/Pourquoi-enseigner-les.html

    Et vous trouverez des réponses aux commentaires qui ont ici précédé le vôtre et qui alimentent cette discussion en lisant mon billet suivant, mis en ligne le 3 juin 2014, intitulé « Intervalle de confiance, le débat continue » :

    http://images.math.cnrs.fr/Intervalles-de-confiance-le-debat.html

    Répondre à ce message
  • Intervalle de confiance : pourquoi tant de défiance ?

    le 17 mars 2015 à 22:22, par Bernard Guennebaud

    J’avais publié il y a plus d’un an un article intitulé « L’intervalle de confiance, cet inconnu ! »

    http://questionvaccins.canalblog.com/archives/2014/01/22/29012325.html

    J’ai pensé qu’il pouvait être utile de le faire connaitre sur ce site. Il est le fruit de 20 ans d’enseignement à des étudiants en sciences de la vie, de 1984 à 2004, de cette notion délicate qu’est l’intervalle de confiance...A cette expérience j’y ai ajouté plus récemment celle de son utilisation par les épidémiologistes dans les études dites cas-témoins et l’édifiante promenade sur internet ...

    Répondre à ce message

Laisser un commentaire

Forum sur abonnement

Pour participer à ce forum, vous devez vous enregistrer au préalable. Merci d’indiquer ci-dessous l’identifiant personnel qui vous a été fourni. Si vous n’êtes pas enregistré, vous devez vous inscrire.

Connexions’inscriremot de passe oublié ?

Suivre IDM