Citations et partitions

Piste bleue Le 10 novembre 2015  - Ecrit par  Serge Cantat Voir les commentaires

On discute ici de partitions aléatoires, de citations d’articles mathématiques, et d’indices chers à certains évaluateurs.

Partitions

Lorsqu’on dispose d’un paquet de vingt billes que l’on désire séparer
en paquets plus petits, de nombreux choix s’offrent à nous.
On peut constituer un paquet de $12$ et un de $8$ ; ou alors
deux de $8$ et un de $4$ ; ou deux paquets à $1$ bille, un à $2$ billes, un à $3$,
deux à $4$ et un à $5$. Ces trois façons de faire correspondent aux trois
partitions suivantes de l’entier $20$ :
\[ 20= 12+8, \]
\[ 20= 8+8+4, \]
\[ 20= 5+4+4+3+2+1+1. \]
En tout, il y a $627$ possibilités : on dit que l’entier $20$ peut-être découpé en $627$
partitions distinctes.

Représentation géométrique et carré de Durfee

Les partitions d’un entier peuvent être représentées géométriquement en utilisant ce qu’on appelle les diagrammes de Young.

Un diagramme de Young

Ce diagramme correspond à la partition de l’entier 15 sous la forme 15=8+4+1+1+1.

À chaque partition va correspondre un empilement de petits carrés (de côté $1$ centimètre, pour fixer les idées) ; ces carrés seront
appelés carreaux du diagramme. Considérons par exemple la partition $15=8+4+1+1+1$ de l’entier $15$ en $8$, $4$ et trois fois $1$.
Sa représentation géométrique est tracée sur la figure ci-dessus : on a placé une première ligne horizontale de $8$ carreaux puis, juste en dessous, une deuxième ligne de $4$ carreaux, sous laquelle on a finalement collé trois lignes chacune formée d’un unique carreau. Le même procédé est appliqué pour construire le diagramme de Young d’une partition quelconque : à chaque entier de la partition correspond une ligne, avec répétition si l’entier apparaît plusieurs fois ; les lignes sont toutes alignées à gauche et sont ordonnées suivant leur longueur, la plus longue en haut, la plus courte en bas.

Le carré de Durfee d’une partition est le plus grand carré qui peut être tracé dans son diagramme de Young en partant du coin en haut à gauche. Notons $h$ la longueur des côtés du carré de Durfee : le carré comporte alors $h\times h$ carreaux.
Le nombre total de carreaux de la partition est donc toujours supérieur ou égal au carré $h\times h$ de $h$. Dans l’exemple précédent, le carré de Durfee de la partition
\[ 15=8+4+1+1+1 \]
comporte $4$ carreaux ; son côté est égal à $2$ et il chevauche donc exactement deux lignes et deux colonnes. Pour la partition de l’entier $20$
en $5+4+4+3+2+1+1$, la longueur $h$ est égale à $3$, et le carré de Durfee comporte $9$ carreaux.

Le diagramme des citations

Considérons maintenant la liste des publications d’un mathématicien, que nous appellerons Matthieu. Chacun des articles que Matthieu a publié est cité par d’autres
collègues (il se peut que certains articles n’aient jamais été cités et ceux-là seront passés sous silence) ; il est probable que les articles les plus cités soient ceux qui sont le plus utiles à la communauté mathématique : on ordonne donc les articles par nombre de citations, les premiers étant les plus cités ; l’ensemble de toutes les citations de l’œuvre
de Matthieu se trouve alors partitionné suivant chaque article. Il est donc possible d’associer à Matthieu, et à chaque mathématicien :

  • Un nombre total de citations qui sera noté $Citations(Matthieu)$ ;
  • Une partition de ce nombre correspondant à l’agencement des citations article par article ;
  • Le diagramme de Young de cette partition, les premières lignes du diagramme correspondant ainsi aux articles les plus cités.

Le diagramme suivant correspondrait à un mathématicien ayant rédigé $15$ articles ; les premiers sont cités $15$, $12$, $7$ et $4$ fois, puis viennent trois articles cités $3$ fois, cinq cités $2$ fois, et trois cités $1$ fois. Les articles
qui ne sont pas cités ne sont pas répertoriés ; ils comptent pour du beurre, comme s’ils n’avaient jamais été écrits.

Diagramme des citations de Matthieu.

Il y a plusieurs questions pertinentes qu’il faut garder en tête lorsqu’on trace le diagramme des citations d’un chercheur (voir ici, par exemple). La plus importante est sans doute : pourquoi diable tracer un tel diagramme ? Puis viennent naturellement les questions du type : d’où viennent les données utilisées pour calculer le diagramme, et comment le diagramme dépend-il de la source choisie pour collecter ces données ? Comment le diagramme varie-t-il d’une année à l’autre, d’une discipline à l’autre ? Il arrive parfois que des gens listent les citations d’un chercheur sans avoir réponse à aucune des questions précédentes.

L’indice de Hirsch

L’indice de Hirsch d’un mathématicien — ou d’un chercheur, quelle que soit sa discipline scientifique — est la taille du carré de Durfee de son diagramme de citations, la taille étant la longueur $h$ du côté du carré. L’indice de Hirsch est également appelé h-index [1]. Par exemple, avec ses $15$ articles et ses $60$ citations, Matthieu a un indice de Hirsch égal à $4$. Un autre chercheur avec $5$ articles cités $5$ fois aurait seulement $25$ citations, mais son indice serait plus grand, égal à $5$.

Si l’indice de Hirsch est égal à $h$, le diagramme contient au moins $h\times h$ carreaux ; nous avons déjà vu cette propriété en définissant le carré de Durfee. Ainsi, la relation
\[ Hirsch \times Hirsch \leq Citations \]
est toujours satisfaite, avec égalité si et seulement si chaque article est cité le même nombre de fois (en ce cas le diagramme est un carré). Plus précisément, l’égalité correspond au cas où il y a $n$ articles cités au moins une fois, chacun ayant exactement $n$ citations, car on ne prend pas en compte les articles cités $0$ fois.

Les avocats de l’indice de Hirsch affirment que l’on obtient un classement raisonnable des mathématiciens (ou des physiciens, des biologistes, des géographes, etc) en les ordonnant suivant leur indice de Hirsch ; plus gros l’indice, meilleur le chercheur... Il ne s’agit pas ici de justifier l’usage d’une mesure unique pour distinguer des individus ; on part du principe qu’un indicateur sera utile et pratique, et l’on cherche le plus pertinent...

L’argument généralement avancé peut être déployé de la manière suivante :

  • il est préférable d’utiliser l’indice de Hirsch plutôt que le nombre total de citations ;
  • en effet, l’indice de Hirsch donne plus de poids aux articles qui ont eu un impact important (ceux cités de nombreuses fois, situés en haut du diagramme) ; il faut donc que le chercheur ait contribué à la science de manière significative, et à plusieurs reprises, pour avoir un grand indice de Hirsch ;
  • le nombre total de citations, lui, ne décrit que l’énergie totale déployée pour publier, sans distinguer la pertinence des travaux.

Diagrammes typiques

Nous avons vu ci-dessus que le nombre total de citations est toujours supérieur ou égal au carré de l’indice de Hirsch. Autrement dit, la longueur de Durfee d’un diagramme de Young est toujours majorée par la racine carrée de l’entier partitionné.

En fait, pour une partition « typique », il faut s’attendre à ce que la longueur du carré de Durfee soit à peu près égale à la moitié de la racine carrée de l’entier ; mais pour expliquer ce résultat, il nous faut expliquer ce que l’on entend par partition typique.

Considérons un entier noté $N$ ; c’est l’entier qui va être découpé en parties (par la suite, ce sera donc le nombre total de citations). Les partitions de $N$ forment un ensemble fini, et l’on peut démontrer que la proportion des partitions pour lesquelles
\[ 0.53\times \sqrt{N} \leq Longueur \; de \; Durfee \leq 0,55\times \sqrt{N} \]
s’approche de cent pour cent lorsque $N$ devient grand [2]. Ainsi, parmi toutes les partitions de $N$, au moins quatre-vingt dix neuf pour cent d’entre-elles satisfont cette relation pourvu que $N$ soit grand. Autrement dit, au plus un pour cent des partitions ont une longueur de Durfee qui est plus petite que $0,53 \times \sqrt{N}$ ou plus grande que $ 0,55\times \sqrt{N}$. On peut donc garder en tête qu’une partition de $N$ prise au hasard vérifie
\[ Longueur \; de \; Durfee \simeq 0.54 \times \sqrt{N} \]

Diagrammes typiques : un résultat plus précis

En fait, un théorème beaucoup plus précis est valable ; c’est ce que nous allons voir dans ce paragraphe un peu plus ardu, où l’on commence sans doute à quitter la piste bleue pour des pentes plus raides.

Dans le plan euclidien, considérons la courbe $W$ d’équation
\[ \exp(-\frac{\pi}{\sqrt{6}}x)+\exp(-\frac{\pi}{\sqrt{6}}y)=1, \]
où $x$ et $y$ sont l’abscisse et l’ordonnée et $exp(\cdot)$ désigne la fonction exponentielle ; un point est situé sur la courbe $W$ si et seulement si ses coordonnées satisfont à cette équation. Cette courbe est entièrement contenue dans le quart de plan formé des points dont les coordonnées sont positives.

La figure ci-dessus, à gauche, est une représentation graphique de cette courbe $W$. Sur la figure de droite, $W$ a subi une rotation d’un quart de tour dans le sens horaire. Nous noterons $V$ cette seconde courbe

Maintenant, prenez un diagramme de Young pour une partition de l’entier $N$ et appliquez une homothétie de rapport $\sqrt{N}$. Ceci a pour effet de réduire la taille du diagramme sans l’écraser complètement ; en effet, l’aire recouverte par le diagramme initial est égale à $N$ (ou plutôt, à $N$ fois l’aire d’un carreau, que l’on suppose égale à $1$ pour simplifier), si bien que l’aire totale recouverte par le diagramme rétréci est égale à $1$.

Contour d’une partition typique

Le bord du diagramme de Young, pour une partition prise au hasard parmi les partitions d’un entier, a de fortes chances de ressembler à la courbe V.

Venez ensuite placer le diagramme de Young ainsi rétréci du facteur $\sqrt{N}$ le long
des axes de coordonnées, le coin supérieur gauche à l’origine $(0,0)$ et les deux
côtés du diagramme le long des axes. Le théorème stipule que le bord du diagramme de Young suit précisément la courbe $V$ avec une grande probabilité. Pour être plus précis, disons qu’une partition suit la loi de Vershik à $1$ micron près si le bord de son diagramme de Young (rétréci) est à distance inférieure à $1$ micron de la courbe $V$. Alors, pour $N$ grand, la proportion des partitions qui suivent la loi de Vershik à un micron près est presque égale à $1$.

Ainsi, lorsqu’on choisit une partition au hasard, son bord ressemble très probablement à la courbe $V$. Ceci permet en particulier de prédire la taille du carré de Durfee d’une partition typique (voir la note 4).

Diagrammes typiques : un autre point de vue

(nous recommandons de sauter ce paragraphe en première lecture)

Dans les deux paragraphes précédents, nous avons considéré l’ensemble de toutes les partitions d’un entier $N$ en partant du principe que chaque partition avait la même
probabilité d’apparaître. Dans ce modèle, les propriétés typiques sont celles vérifiées par une proportion de partitions qui s’approche de $1$ quand $N$ croit.

D’autres points de vue peuvent être adoptés. Nous allons maintenant décrire un processus pour construire petit à petit des partitions de plus en plus grandes. Il s’agit d’un processus itératif aléatoire qui nous fournira une seconde notion de « partition typique ».

Expliquons le procédé de base en partant du diagramme associé à la partition $1=1$, constituée d’un unique carreau.
Deux carreaux peuvent être ajoutés à ce diagramme pour le faire croître en un nouveau diagramme de Young : soit on crée une seconde ligne de longueur $1$,
soit on allonge la première ligne pour obtenir deux carreaux ; ces deux choix correspondent aux partitions $2=1+1$ et $2=2$. On peut aussi effectuer simultanément ces modifications pour obtenir $3=2+1$.

Partons maintenant d’un diagramme de Young quelconque. On commence par lister les places possibles en lesquelles un nouveau carreau peut être ajouté pour obtenir un nouveau diagramme de Young (un diagramme avec une case de plus). On peut ainsi ajouter un carreau au bout de la première ligne ou en bas de la première colonne ; ceci mis à part, on ne peut ajouter un carreau qu’au bout d’une ligne qui est plus courte que la ligne précédente. Par exemple, pour le diagramme des partitions de Matthieu, il n’y a que $8$ places possibles.

Le processus d’accroissement est alors le suivant : pour chacune des cases disponibles, on tire une pièce à pile ou face. Si la pièce tombe sur face, on ajoute un carreau à l’emplacement correspondant, sinon on laisse la case vide ; ce tirage étant effectué pour chacun des emplacements disponibles, l’accroissement ajoute souvent plusieurs carreaux [3].
La figure suivante montre une partition de départ (en vert), ses parents possibles (en jaunes) et ses enfants possibles (en bleus).

Cet algorithme fournit un processus de croissance aléatoire : partant de la partition $1=1$, il produit successivement des partitions de plus en plus grandes par répétition du procédé décrit ci-dessus. Nous obtenons ainsi une seconde notion de « propriété typique » pour des partitions : c’est une propriété qui est satisfaite par la plupart des partitions produites par cet algorithme, lorsque l’algorithme est appliqué un grand nombre de fois.

Il se trouve que, dans ce modèle aléatoire, le profil typique du diagramme de Young est un quart de cercle ; autrement dit, ce n’est plus la courbe $V$ qui décrit le profil le plus probable, mais un quart de cercle tangent aux axes de coordonnées. Ce résultat a été démontré par Jockursh, Propp et Shor au milieu des années 1990.
Il entraine que la taille du carré de Durfee est approximativement égale à $0,63 \sqrt{N}$ ; dans ce modèle, une partition aléatoire a donc un diagramme un peu plus épais que dans le premier modèle [4].

Retenons que, quel que soit le modèle envisagé, une partition typique aura une longueur de Durfee de l’ordre de $c\sqrt{N}$ où $c$ est un nombre réel de l’ordre de $0,54$ (premier modèle) ou $0,63$ (deuxième modèle).

Et les mathématiciens, alors ?

Il se trouve que les diagrammes de Young des citations des mathématiciens ont un comportement « typique » (suivant le premier modèle décrit ci-dessus).
Plus précisément, leur indice de Hirsch est très bien approché par
$0,54 \sqrt{Citations}$ ; le processus des citations mathématiques n’est pas le fruit d’un hasard total mais, si on l’observe sous l’angle de l’indice de Hirsch, il semble mimer le premier modèle aléatoire décrit ci-dessus. Pour les publications en sciences physiques, il apparaît que l’indice de Hirsch est mieux approché par $0,6 \sqrt{Citations}$ [5].

Il y a bien sûr des écarts à cette règle, notamment pour ceux qui ont très peu d’articles (par exemple les chercheurs en début de carrière), ou ceux qui ont écrit des livres très cités. Ce résultat a été obtenu empiriquement par l’analyse d’un échantillon de listes de publications et de citations entreprise par Alexander Yong [6].

Une façon de répéter cette affirmation est de dire que le nombre $0,54$ est une caractéristique de la société des mathématiciens et que, connaissant ce nombre, indice de Hirsch et nombre total de citations deviennent deux informations redondantes. En effet les deux sont liés par la loi $Hirsch\simeq 0,54 \times \sqrt{Citations}$.

En pratique, l’indice de Hirsch n’apporte donc rien de plus dans l’évaluation des chercheurs que le nombre brut de citations ; par contre, le rapport $Citations/Hirsch^2$, pris en moyenne sur l’ensemble des mathématiciens, donne une photographie intrigante de cette communauté : on n’obtient pas exactement le même rapport pour les physiciens, et sans doute pas pour les biologistes ou les philosophes, il diffère légèrement suivant les sous-disciplines mathématiques, etc. Je ne sais pas bien comment l’interpréter, ni même comment le calculer proprement... Et je ne sais donc pas à quoi cela peut servir : aux amateurs d’indicateurs de plancher !

Post-scriptum :

Un grand merci aux re-lecteurs de cet article, notamment à Frédéric Millet, et à Patrick Popescu-Pampu.

Ce texte a été écrit à la suite de l’article publié par Alexander Yong dans les Notices de l’American Mathematical Society.

Je recommande aussi le petit livre « Integer Partitions » de G.A. Andrews et K. Eriksson, publié en 2004 par Cambridge University Press, comme introduction (en anglais) à l’étude mathématique des partitions d’un entier.

Article édité par Patrick Popescu-Pampu

Notes

[1J. E. Hirsch, physicien américain, a écrit un article en 2005 popularisant l’indice de Hirsch, qu’il notait lui même h-index. Voir ici son texte.

[2Ce résultat est démontré dans l’article de E. R. Canfield, S. Corteel et C. D. Savage, intitulé « Durfee polynomials » (Elect. J. Comb. 5 (1998)). Ici, $0,54$ est une approximation pour $\sqrt{6} \log(2)/\pi$. On peut le déduire facilement de résultats antérieurs qui sont présentés dans le texte de A. Vershik intitulé « Asymptotic Combinatorics and Algebraic Analysis » (Congrès International de Mathématiques de 1994, à Zürich).

[3Par exemple, prenez le diagramme de $15=8+4+1+1+1$. Il y a $4$ emplacements de modifications possibles, au bout des rangées numéro $1$, $2$, et $3$, et en-dessous de la dernière ligne. Si le tirage est (face, face, pile, face), vous obtenez la partition $18=9+5+1+1+1+1$.

[4Pour obtenir la valeur $0,63$, on peut procéder comme suit. L’aire de la zone entre le carré et le cercle correspond au nombre $N$ partitionné. Notons $R$ le rayon du cercle. Cette aire est égale à $R^2-\pi R^2/4$. La diagonale du carré de Durfee est $\sqrt{2}R-R$, et la longueur de Durfee est donc $R(\sqrt{2}-1)/\sqrt{2}$. On élimine alors $R$ de ces relations en utilisant $N\simeq (4-\pi)R^2/4$ et le facteur $0,63$ est une approximation de $ (2-\sqrt{2})/\sqrt{4-\pi}$.

[5La communauté des sciences physiques est plus hétérogène que celle des mathématiciens, et il faudrait préciser cela.

[6On peut voir ici l’article.

Partager cet article

Pour citer cet article :

Serge Cantat — «Citations et partitions» — Images des Mathématiques, CNRS, 2015

Commentaire sur l'article

Laisser un commentaire

Forum sur abonnement

Pour participer à ce forum, vous devez vous enregistrer au préalable. Merci d’indiquer ci-dessous l’identifiant personnel qui vous a été fourni. Si vous n’êtes pas enregistré, vous devez vous inscrire.

Connexions’inscriremot de passe oublié ?

Suivre IDM