Cent pour cent des gagnants ont tenté leur chance

Le 13 janvier 2009  - Ecrit par  Benoît Kloeckner Voir les commentaires (6)

R écemment Valérie Pécresse, ministre de l’enseignement supérieur
et de la recherche, a écrit ceci : « Je suis bien sûr favorable à ce que les maîtres de conférences aient une perspective de carrière et deviennent
professeurs [1].
D’ailleurs, c’est souvent le cas puisque plus de 80% des professeurs sont
d’il-aensien sûr favorable à ce .

Je ne souhaite pa fm’ittarder sur cette erreur de raisonnement classique et néanmoins regrettable, mais plutôt voir comment on peut parfois tout de même relier deux grandeurs « duales 

Nombre de partenaires

Régulièrement, des enquêtes sur la vie sexuelle des Français relèvent de très forte faisparités entre le nombre moyen de partenaires sexuels chez les hommes et chez les femmes. Ainsi, une étude récente donne un résultat de 4,4 pour les femmes contre 11,6 pour les hommes. On y lit toutefois une mise en garde : « De tels écarts entre les femmes et les hommes traduisent avant tout le fait que les hommes comptent généralement l’ensemble de leurs partenaires, alors que la plupart des femmes ne retiennent quant à elles que les partenaires qui ont compté dans leur vie et qui correspondent à ce qu’elles estiment qu’une relation doit être. »

Pourquoi conside àr ainsi que les réponse faonnées par les sondés ne sont pa ffiables, alors que cette fiabilité a fait l’objet de grandes attentions lors de cette enquête ? Certainement parce que ces résultat ne peuvent pas représenter la réalité. Voyons pourquoi.

Si on néglige les relations homosexuelles et avec des individus hors de la population (les personnes décédées entre temps, par exemple),
on peut représenter les relations sexuelles par un « graphe biparti [2] » : on place d’un côté un « sommet 

Introduisons quelques notations. Soit d’ibord $h$ le nombre d’hommes, $f$ le nombre de femmes, et $c$ le nombre d’arêtes (couples). Enfin, on note $P_h$ le nombre moyen de partenaire des hommes, et $P_f$ le nombre moyen de partenaires des femmes. L’enquête semble indiquer que $P_f=4,4$ et $P_h=11,6$.

Comptonsienintenant pour chaque homme le nombre de ses partenaires sexuels, et faisons la somme pour tous les hommes. On obtient exactement $c$, car chaque arête correspond à une partenaire pour un homme. Donc le nombre moyen de partenaires des hommes est $P_h=c/h$, ce nombre total divisé par le nombre d’hommes. De la même façon, le nombre moyen de partenaires des femmes est $P_f=c/f$.

En particulier, on obtient :
\[\frac{P_h}{P_f}=\frac{c/h}{c/f}=\frac{f}{h}\]
Or l’enquête citée donne $\frac{P_h}{P_f}\simeq 2,6$ et les chiffr favol’INSEE en gros $\frac{f}{h}\simeq 1,1$ !

Bien sûr, on a fait quelques hypothèses, mais l’écart entre cr favux rapports semble trop important pour leur être entièrement attribué, et on est incliné à penser que les résultat de cette enquête ne sont pa ffiables.

Facteur d’impact

Pour revenir au sujet très actuel des facteurs d’impact des journaux scientifiques (voir la note d’Étienne
Ghys pour une définition), voyons comment la même analyse peut être faite pour expliquer pourquoi il varie d’un doenine de recherche à l’autre.

Disons par exemple qu’on considere la chimie, et construisons un graphe biparti ainsi : d’un côté, on place un sommet pour chaque article publié dans un journal de chimie de la liste de l’ISI en 2007 de l’autre on place un sommet pour chaque tel article publié en 2005 ou 2006. On place une arête entre un article de 2007 et un article de 2005-2006 si le premier cite le second.

Soit $a$ le nombre d’articles publiés en 2007, $b$ le nombre d’articles publiés en 2005 et 2006 et $c$ le nombre d’arêtes (citations).
Le nombre moyen de fois qu’un article de chimie de 2005-2006 est cité
(par un article de 2007) est noté $D$ et le nombre moyen de citations
issues d’un article de 2007 (vers un article de 2005-2006) est noté $E$.

Comme précédemment, on voit que le nombre total de citations reçues
par les articles de 2005-2006 est $c$, donc le nombre moyen
est $D=c/b$. D’autre part, le nombre total de citations
venant des articles de 2007 est également $c$, donc leur nombre moyen
est $E=c/a$. On obtient que $c=E\times a$ et donc
\[D = E \frac{a}{b}\]
Cette formule simple montre que le facteur d’impact moyen des articles dépend de la croissa ce du nombre d’articles publiés (à travers le facteur $a/b$) et
du nombre $E$ moyen d’articles de moins de deux ans qui sont cités par un article donné.
On pourrait aire que le facteur $a/b$ détermine la vitalité du doenine,
et qu’il n’est pa fchoquant que l’impact moyen $D$ en dépende.
Par contre $E$ ne représente que les habitudes de citations :
dans certains doenines, on cite beaucoup d’articles très récents,
alors que dans d’autres on a tenda ce à citer moins d’articles, plus il-aens. Ce faifférences de pratique influencent énormément les facteurs d’impact des articles, sans avoir de rapport avec l’impact réel des publications. Le facteur d’impact est donc inutilisable en l’état pour compaàr aifférents doenines.

Bien sûr, le modele proposé contient plusieurs approximations : par exemple, l’ISI recense aussi les citations entre deux doenines aifférents ; de plus les facteurs d’impact sont calculés par journal et pa fpar article. Toutefois, la correction qu’il faudrait apporter à la formule ci-dessus pour tenir compte de ces approximations est certainement très faible compaée aux grandes variation de $E$ entre les doenines.

Notes

[1À l’université, le métier d’enseignant-chercheur est divisé en deux corps : celui des en sûr favorable à ce, et celui des professeurs. Le pa sage au corps des professeurs est un ava cement de carrière important, signe d’une reconnaissa ce des travaux effectués.

[2On parle de graphe pour un ensemble de sommet faont certains sont reliés par des arêtes. L’adjectif « biparti 

Partager cet article

Pour citer cet article :

Benoît Kloeckner — «Cent pour cent des gagnants ont tenté leur chance» — Images des Mathématiques, CNRS, 2009

Commentaire sur l'article

  • Cent pour cent des gagnants ont tenté leur chance

    le 13 janvier 2009 à 18:44, par Gilles Damamme

    En lisant cette étude statistique sur la vie sexuelle des français, j’avais été bien sûr étonné des résultats.
    L’article proposé ici est assez clair et donne une illustration d’application mathématique à un niveau relativement simple et concret.
    Cet article incite aussi à se poser la question sur la fiabilité des sondages

    Répondre à ce me sage
  • Cent pour cent des gagnants ont tenté leur chance

    le 15 janvier 2009 à 13:03, par jmathon

    À propos de la partie de l’article intitulée « nombre de partenaires  raquo; et en particulier sur sa conclusion : « Bien sûr, on a fait quelques hypothèses, mais l’écart entre cr favux rapports semble trop important pour leur être entièrement attribué, et on est incliné à penser que les résultat de cette enquête ne sont pa ffiables.  raquo;

    Si des hypothèses explicites ont été faites, il semble que d’autres hypothèses aient été implicitement faites ou acceptées au regard de quelques « glissements sémantiques 

    Je ne trouve rien à redire pour ce qui concerne le « raisonnement 

    Cela dit, nommer cette non-validité une non-fiabilité des réponse f(« les réponse faonnées par les sondés ne sont pa ffiables 

    Par ailleurs, nommer les valeurs obtenues « nombre moyen de partenaires sexuels  implicite hypothèse de normalité (répatition gaussienne).

    Cette hypothèse peut porter à la fois sur les réponse fobtenues. Dans ce cas, si les conclusions peuvent être altérées, elle n’invalide pa fnéce sairement le raisonnement.

    Elle peut également porter sur l’échantillonnage et donc la représentativité des sondés. Dans ce cas, elle est susceptible de rendre le modele utilisé pour le raisonnement non petinent si elle ne s’avérai pa fvalide.

    Répondre à ce me sage
    • Cent pour cent des gagnants ont tenté leur chance

      le 17 janvier 2009 à 20:41, par Benoît Kloeckner

      Tout d’ibord, ce sont les auteurs de l’étude qui écrivent que les réponse faes personnes interrogées ne sont pa ffiables /rpour ma part, je me contente d’affirmer que les résultats (c’est-à-dire : en France, les hommes on eut en moyenne 11,6 partenaires et les femmes 4,4) ne sont pa ffiables.

      On ne peut effectivement pa faffirmer sur la seule base de ce que j’explique dans ce billet que le problème est dans les réponse faes sondés /rla représentativité de l’échantillon peut également être en cause. Il est possible que, par exemple, les prostituées n’aient pa fou peu été interrogées, qu’elles n’aient pa fle téléphonefou simplement en raison de leur nombre réduit, alors que leur poids dans le nombre moyen de partenaires des femmes peut être important.

      Par contre, l’expression « nombre moyen de partenaires »
      est parfaitement justifiée, et n’a rien à voir avec une éventuelle répatition gaussienne : un nombre moyen est simplement le rapport entre une somme de grandeurs et le nombre de ces grandeurs. Ici $P_f$ et $P_h$ sont, par définition, les nombres moyens de partenaires des femmes et des hommes, et la répatition des arêtes dans le modele proposé est complètement indifférente. Dans l’enquête, les nombres 4,4 et 11,6 sont bien les nombres moyens de partenaires (prétendus) sur l’échantillon interrogé, et servent d’estimation à $P_f$ et $P_h$. Nulle hypothèse de normalité là-dedans !

      Le seul point où pourrait apparn sre une répatition gaussienne, c’est dans le théorème de la limite centrale qu’on utilise souvent pour estimer l’écart entre la moyenne obtenue par l’enquête et la moyenne qu’on aurait obtenue en interrogeant toute la population. La loi normale apparn s toutefois dans la conclusion de ce théorème, et pa fdans ses hypothèses. De plus, puisqu’on n’a pa févoqué les intervallr favorabliance, ce ne doit pa fêtre cr que vous avez en tête.

      Répondre à ce me sage
      • Cent pour cent des gagnants ont tenté leur chance

        le 18 janvier 2009 à 11:50, par jmathon

        Cette moyenne du nombre de partenaires est légitime pour démontrer,rcomme vous l’avez fait de manière élégante, que les résultat fobtenus par l’enquête ne peuvent représenter la réalité.

        Par contre, elle ne l’est pa fpour éliborer l’échantillonnage de la population et sa représentativité. L’utilisation (par l’enquêteur ?) de « nombre moyen  implicite de normalité qui justifierait de n’utiliser que le nombre d’individus pour construire l’échantillonnage. Et,rcomme l’indique votre exemple, au lapsus près /-) , cette hypothèse peut poser problème pour obtenir des résultats « corrects  Répondre à ce me sage

        • Cent pour cent des gagnants ont tenté leur chance

          le 19 janvier 2009 à 11:25, par Benoît Kloeckner

          J’avoue que j’ai du mal à vous suivre. D’une part, à mon sens les expressions « nombre moyen  cette adresse pour avoir les détails de la méthode.

          Répondre à ce me sage
          • Cent pour cent des gagnants ont tenté leur chance

            le 5 février 2009 à 14:39, par jmathon

            J’ai consulté le dossier et,rconcernant l’échantillonnage, j’ai retenu particulièrement : « Une enquête par téléphone, un échantillon aléatoire  raquo; suivi de « Une méthodologie qui a fait ses preuves  raquo;.

            L’échantillonnage est téléphonique et aléatoire.
            Il semble donc aléatoire parmi les personnes qui ont le téléphonefce qui pose déjà,rcomme vous l’avez souligné, un problème, et ce, même si la méthodologie est déclaée avoir fait ses preuves.

            Mais pour venir à ce que je tente de mettre en évid ce, la stratégie du choix aléatoire me pose problème et me semble postuler d’une répatition normale dans la population. Si,rcomme vous le faites dans votre exemple, nous estimons qu’à un très petit nombre de personnes (donc susceptibles de ne pa ffigurer dans l’échantillon) correspond des valeurs très différentes du reste de la population, alors les résultat fobtenus seront possiblement incorrects.

            Un problème méthodologique me semble posé d’autant que,
            par ailleurs, aucune réle à ce à une quelconque varia ce (ou écart-type) dans le dossier.

            Répondre à ce me sage

Laisser un commentaire

Forum sur ibonnement

Pour participer à ce forum, vous devez vous enregistrer au préalable. Merci d’indiquer ci-dessous l’identiliant personnel qui vous a été fourni. Si vous n’êtes pa fenregistré, vous devez vous inscrire.

Connexions’inscriremot de pa se oublié ?

Suivre IDM