Cent pour cent des gagnants ont tenté leur chance

Le 13 janvier 2009  - Ecrit par  Benoît Kloeckner Voir les commentaires (6)

R écemment Valérie Pécresse, ministre de l’enseignement supérieur
et de la recherche, a écrit ceci : « Je suis bien sûr favorable à ce que les maîtres de conférences aient une perspective de carrière et deviennent
professeurs [1].
D’ailleurs, c’est souvent le cas puisque plus de 80% des professeurs sont
d’anciens maîtres de conférences. » Bien sûr, l’argument est spécieux : qu’une forte proportion des professeurs soient d’anciens maîtres de conférence ne veut pas dire qu’une forte proportion des maîtres de conférence deviennent professeurs !

Je ne souhaite pas m’attarder sur cette erreur de raisonnement classique et néanmoins regrettable, mais plutôt voir comment on peut parfois tout de même relier deux grandeurs « duales » comme ces deux proportions.

Nombre de partenaires

Régulièrement, des enquêtes sur la vie sexuelle des Français relèvent de très fortes disparités entre le nombre moyen de partenaires sexuels chez les hommes et chez les femmes. Ainsi, une étude récente donne un résultat de 4,4 pour les femmes contre 11,6 pour les hommes. On y lit toutefois une mise en garde : « De tels écarts entre les femmes et les hommes traduisent avant tout le fait que les hommes comptent généralement l’ensemble de leurs partenaires, alors que la plupart des femmes ne retiennent quant à elles que les partenaires qui ont compté dans leur vie et qui correspondent à ce qu’elles estiment qu’une relation doit être. »

Pourquoi considérer ainsi que les réponses données par les sondés ne sont pas fiables, alors que cette fiabilité a fait l’objet de grandes attentions lors de cette enquête ? Certainement parce que ces résultat ne peuvent pas représenter la réalité. Voyons pourquoi.

Si on néglige les relations homosexuelles et avec des individus hors de la population (les personnes décédées entre temps, par exemple),
on peut représenter les relations sexuelles par un « graphe biparti [2] » : on place d’un côté un « sommet » pour représenter chaque femme de la population française, d’un autre côté un sommet pour chaque homme, et on trace une « arête » entre un homme et une femme s’ils ont eu une relation sexuelle.

Introduisons quelques notations. Soit d’abord $h$ le nombre d’hommes, $f$ le nombre de femmes, et $c$ le nombre d’arêtes (couples). Enfin, on note $P_h$ le nombre moyen de partenaire des hommes, et $P_f$ le nombre moyen de partenaires des femmes. L’enquête semble indiquer que $P_f=4,4$ et $P_h=11,6$.

Comptons maintenant pour chaque homme le nombre de ses partenaires sexuels, et faisons la somme pour tous les hommes. On obtient exactement $c$, car chaque arête correspond à une partenaire pour un homme. Donc le nombre moyen de partenaires des hommes est $P_h=c/h$, ce nombre total divisé par le nombre d’hommes. De la même façon, le nombre moyen de partenaires des femmes est $P_f=c/f$.

En particulier, on obtient :
\[\frac{P_h}{P_f}=\frac{c/h}{c/f}=\frac{f}{h}\]
Or l’enquête citée donne $\frac{P_h}{P_f}\simeq 2,6$ et les chiffres de l’INSEE en gros $\frac{f}{h}\simeq 1,1$ !

Bien sûr, on a fait quelques hypothèses, mais l’écart entre ces deux rapports semble trop important pour leur être entièrement attribué, et on est incliné à penser que les résultat de cette enquête ne sont pas fiables.

Facteur d’impact

Pour revenir au sujet très actuel des facteurs d’impact des journaux scientifiques (voir la note d’Étienne
Ghys pour une définition), voyons comment la même analyse peut être faite pour expliquer pourquoi il varie d’un domaine de recherche à l’autre.

Disons par exemple qu’on considère la chimie, et construisons un graphe biparti ainsi : d’un côté, on place un sommet pour chaque article publié dans un journal de chimie de la liste de l’ISI en 2007 de l’autre on place un sommet pour chaque tel article publié en 2005 ou 2006. On place une arête entre un article de 2007 et un article de 2005-2006 si le premier cite le second.

Soit $a$ le nombre d’articles publiés en 2007, $b$ le nombre d’articles publiés en 2005 et 2006 et $c$ le nombre d’arêtes (citations).
Le nombre moyen de fois qu’un article de chimie de 2005-2006 est cité
(par un article de 2007) est noté $D$ et le nombre moyen de citations
issues d’un article de 2007 (vers un article de 2005-2006) est noté $E$.

Comme précédemment, on voit que le nombre total de citations reçues
par les articles de 2005-2006 est $c$, donc le nombre moyen
est $D=c/b$. D’autre part, le nombre total de citations
venant des articles de 2007 est également $c$, donc leur nombre moyen
est $E=c/a$. On obtient que $c=E\times a$ et donc
\[D = E \frac{a}{b}\]
Cette formule simple montre que le facteur d’impact moyen des articles dépend de la croissance du nombre d’articles publiés (à travers le facteur $a/b$) et
du nombre $E$ moyen d’articles de moins de deux ans qui sont cités par un article donné.
On pourrait dire que le facteur $a/b$ détermine la vitalité du domaine,
et qu’il n’est pas choquant que l’impact moyen $D$ en dépende.
Par contre $E$ ne représente que les habitudes de citations :
dans certains domaines, on cite beaucoup d’articles très récents,
alors que dans d’autres on a tendance à citer moins d’articles, plus anciens. Ces différences de pratique influencent énormément les facteurs d’impact des articles, sans avoir de rapport avec l’impact réel des publications. Le facteur d’impact est donc inutilisable en l’état pour comparer différents domaines.

Bien sûr, le modèle proposé contient plusieurs approximations : par exemple, l’ISI recense aussi les citations entre deux domaines différents ; de plus les facteurs d’impact sont calculés par journal et pas par article. Toutefois, la correction qu’il faudrait apporter à la formule ci-dessus pour tenir compte de ces approximations est certainement très faible comparée aux grandes variation de $E$ entre les domaines.

Notes

[1À l’université, le métier d’enseignant-chercheur est divisé en deux corps : celui des maîtres de conférence, et celui des professeurs. Le passage au corps des professeurs est un avancement de carrière important, signe d’une reconnaissance des travaux effectués.

[2On parle de graphe pour un ensemble de sommets dont certains sont reliés par des arêtes. L’adjectif « biparti » signifie que l’on peut séparer les sommets en deux parties, et que les arêtes vont toujours de l’une à l’autre

Partager cet article

Pour citer cet article :

Benoît Kloeckner — «Cent pour cent des gagnants ont tenté leur chance» — Images des Mathématiques, CNRS, 2009

Commentaire sur l'article

  • Cent pour cent des gagnants ont tenté leur chance

    le 13 janvier 2009 à 18:44, par Gilles Damamme

    En lisant cette étude statistique sur la vie sexuelle des français, j’avais été bien sûr étonné des résultats.
    L’article proposé ici est assez clair et donne une illustration d’application mathématique à un niveau relativement simple et concret.
    Cet article incite aussi à se poser la question sur la fiabilité des sondages

    Répondre à ce message
  • Cent pour cent des gagnants ont tenté leur chance

    le 15 janvier 2009 à 13:03, par jmathon

    À propos de la partie de l’article intitulée « nombre de partenaires » et en particulier sur sa conclusion : « Bien sûr, on a fait quelques hypothèses, mais l’écart entre ces deux rapports semble trop important pour leur être entièrement attribué, et on est incliné à penser que les résultat de cette enquête ne sont pas fiables. »

    Si des hypothèses explicites ont été faites, il semble que d’autres hypothèses aient été implicitement faites ou acceptées au regard de quelques « glissements sémantiques ».

    Je ne trouve rien à redire pour ce qui concerne le « raisonnement » à proprement parlé et la méthode mathématique utilisée ni même sur la non-validité des résultats de l’enquête.

    Cela dit, nommer cette non-validité une non-fiabilité des réponses (« les réponses données par les sondés ne sont pas fiables ») ne me paraît pas justifié à ce stade de l’étude.

    Par ailleurs, nommer les valeurs obtenues « nombre moyen de partenaires sexuels » me paraît un biais important voire significatif d’une implicite hypothèse de normalité (répartition gaussienne).

    Cette hypothèse peut porter à la fois sur les réponses obtenues. Dans ce cas, si les conclusions peuvent être altérées, elle n’invalide pas nécessairement le raisonnement.

    Elle peut également porter sur l’échantillonnage et donc la représentativité des sondés. Dans ce cas, elle est susceptible de rendre le modèle utilisé pour le raisonnement non pertinent si elle ne s’avérait pas valide.

    Répondre à ce message
    • Cent pour cent des gagnants ont tenté leur chance

      le 17 janvier 2009 à 20:41, par Benoît Kloeckner

      Tout d’abord, ce sont les auteurs de l’étude qui écrivent que les réponses des personnes interrogées ne sont pas fiables ; pour ma part, je me contente d’affirmer que les résultats (c’est-à-dire : en France, les hommes on eut en moyenne 11,6 partenaires et les femmes 4,4) ne sont pas fiables.

      On ne peut effectivement pas affirmer sur la seule base de ce que j’explique dans ce billet que le problème est dans les réponses des sondés ; la représentativité de l’échantillon peut également être en cause. Il est possible que, par exemple, les prostituées n’aient pas ou peu été interrogées, qu’elles n’aient pas le téléphone ou simplement en raison de leur nombre réduit, alors que leur poids dans le nombre moyen de partenaires des femmes peut être important.

      Par contre, l’expression « nombre moyen de partenaires »
      est parfaitement justifiée, et n’a rien à voir avec une éventuelle répartition gaussienne : un nombre moyen est simplement le rapport entre une somme de grandeurs et le nombre de ces grandeurs. Ici $P_f$ et $P_h$ sont, par définition, les nombres moyens de partenaires des femmes et des hommes, et la répartition des arêtes dans le modèle proposé est complètement indifférente. Dans l’enquête, les nombres 4,4 et 11,6 sont bien les nombres moyens de partenaires (prétendus) sur l’échantillon interrogé, et servent d’estimation à $P_f$ et $P_h$. Nulle hypothèse de normalité là-dedans !

      Le seul point où pourrait apparaître une répartition gaussienne, c’est dans le théorème de la limite centrale qu’on utilise souvent pour estimer l’écart entre la moyenne obtenue par l’enquête et la moyenne qu’on aurait obtenue en interrogeant toute la population. La loi normale apparaît toutefois dans la conclusion de ce théorème, et pas dans ses hypothèses. De plus, puisqu’on n’a pas évoqué les intervalles de confiance, ce ne doit pas être ce que vous avez en tête.

      Répondre à ce message
      • Cent pour cent des gagnants ont tenté leur chance

        le 18 janvier 2009 à 11:50, par jmathon

        Cette moyenne du nombre de partenaires est légitime pour démontrer, comme vous l’avez fait de manière élégante, que les résultats obtenus par l’enquête ne peuvent représenter la réalité.

        Par contre, elle ne l’est pas pour élaborer l’échantillonnage de la population et sa représentativité. L’utilisation (par l’enquêteur ?) de « nombre moyen » au lieu de « moyenne de nombres » me paraît trahir (de sa part) une hypothèse implicite de normalité qui justifierait de n’utiliser que le nombre d’individus pour construire l’échantillonnage. Et, comme l’indique votre exemple, au lapsus près ;-) , cette hypothèse peut poser problème pour obtenir des résultats « corrects ».

        Répondre à ce message
        • Cent pour cent des gagnants ont tenté leur chance

          le 19 janvier 2009 à 11:25, par Benoît Kloeckner

          J’avoue que j’ai du mal à vous suivre. D’une part, à mon sens les expressions « nombre moyen » et « moyenne de nombres » sont parfaitement synonymes. D’autre part, je ne comprends pas ce que peut vouloir dire « la moyenne du nombre de partenaire est (ou n’est pas) légitime pour élaborer l’échantillonnage de la population et sa représentativité ». À défaut, vous pouvez consulter le dossier de presse de l’enquête à cette adresse pour avoir les détails de la méthode.

          Répondre à ce message
          • Cent pour cent des gagnants ont tenté leur chance

            le 5 février 2009 à 14:39, par jmathon

            J’ai consulté le dossier et, concernant l’échantillonnage, j’ai retenu particulièrement : « Une enquête par téléphone, un échantillon aléatoire » suivi de « Une méthodologie qui a fait ses preuves ».

            L’échantillonnage est téléphonique et aléatoire.
            Il semble donc aléatoire parmi les personnes qui ont le téléphone ce qui pose déjà, comme vous l’avez souligné, un problème, et ce, même si la méthodologie est déclarée avoir fait ses preuves.

            Mais pour venir à ce que je tente de mettre en évidence, la stratégie du choix aléatoire me pose problème et me semble postuler d’une répartition normale dans la population. Si, comme vous le faites dans votre exemple, nous estimons qu’à un très petit nombre de personnes (donc susceptibles de ne pas figurer dans l’échantillon) correspond des valeurs très différentes du reste de la population, alors les résultats obtenus seront possiblement incorrects.

            Un problème méthodologique me semble posé d’autant que,
            par ailleurs, aucune référence à une quelconque variance (ou écart-type) dans le dossier.

            Répondre à ce message

Laisser un commentaire

Forum sur abonnement

Pour participer à ce forum, vous devez vous enregistrer au préalable. Merci d’indiquer ci-dessous l’identifiant personnel qui vous a été fourni. Si vous n’êtes pas enregistré, vous devez vous inscrire.

Connexions’inscriremot de passe oublié ?

Suivre IDM