Concentration et indice de Gini
« Répartition inégale des richesses vous dites ? »
Piste noire Le 15 mars 2022 Voir les commentaires
« Qu’en est-il de la répartition des richesses ? » La réponse est sans surprise : « Très peu ont beaucoup et beaucoup ont vraiment très peu ! » C’est malheureusement ce qui se passe dans tous les pays du monde. La notion de concentration et celle d’indice de Gini donnent une idée (même avec quelques insuffisances) de cette répartition inégale. Ce sont ces éléments que nous exposons dans cet article.
Je regardais une émission télé où un éminent
professeur parlait d’économie. C’était clair et passionnant, et je ne pouvais qu’apprécier.
Seulement, trois ou quatre fois durant une de ses prises de parole,
il prononça le mot « Ledjini » (je l’écris tel que je l’ai entendu). Avalé rapidement et englouti
dans des phrases comme « ...Ledjini est... »,
...« mais en fait Ledjini doit être... », je pensai d’abord à un anglicisme mais sans en saisir un quelconque sens.
Il a fallu un petit bout de temps pour que ça fasse tilt dans ma mémoire et que je pusse réaliser qu’il parlait
de l’indice de Gini : un paramètre utilisé en statistiques pour avoir
une idée, par exemple, de la concentration de la richesse
entre « très peu de mains ».
(Un chapitre d’un cours de Statistique descriptive que j’ai eu le plaisir de dispenser aux étudiants d’AES (Administration Économique et Sociale) et
ceux en Histoire quand j’étais
enseignant à l’Université de Lille III.) C’est d’ailleurs la seule définition que j’ai donnée de cet indice aux proches qui regardaient
l’émission avec moi ce jour-là, ils n’avaient pas envie d’en savoir plus.Mais même avant et après cet épisode, il m’est arrivé d’avoir des conversations avec des personnes qui se posaient des questions là-dessus.
C’est ce qui m’a amené à écrire ce texte sur ce sujet.
Il intéressera probablement des lecteurs. Et par la manière délibérément scolaire dont je l’ai rédigé et présenté,
il pourrait même, j’espère, servir de support pédagogique à des enseignants.
Avant d’aborder le thème proprement dit de la concentration, nous exposons quelques ingrédients dont nous aurons besoin à cet effet.
Nous nous limitons à ce qui est nécessaire et essentiel.
Les premières définitions en statistique descriptive
1.1. Une étude statistique porte sur une population constituée d’individus. Par exemple celle d’un pays, les élèves
d’un lycée, une population de micro-organismes... Toute propriété de cette population est appelée caractère.
Celui-ci peut être qualitatif (couleur, sexe...) ou quantitatif (revenu mensuel ou annuel...), dénommé ainsi parce qu’on le mesure
en lui affectant des valeurs, qu’on peut additionner, multiplier par des nombres...
\[\text{Tout caractère que nous considérerons dans ce texte sera quantitatif.}\]
Souvent le nombre d’individus de la population sur laquelle on entreprend l’étude d’un caractère est très grand, ce qui complique la tâche.
Pour pallier cette difficulté, on se restreint à une partie $\Omega $ qu’on appelle échantillon. On le prélève au hasard pour être suffisamment représentatif, c’est-à-dire censé donner des résultats très proches de ceux qu’on aurait eus si on avait pris
en compte l’ensemble de la population.
Le nombre $N$ d’individus de $\Omega $ est appelé taille ou effectif total de l’échantillon.
1.2. L’étude débute alors par la saisie de la correspondance $X$ qui à chaque individu de l’échantillon
$\Omega $ associe la valeur de son caractère.
Les valeurs prises par $X$ sont notées $x_1,\cdots ,x_k$ et supposées toutes distinctes.
Pour chaque indice $i=1,\cdots ,k$, le nombre $n_i$ d’individus dont le caractère vaut $x_i$ est appelé effectif de $x_i$, et
le quotient $f_i={{n_i}\over N}$ est sa fréquence. On a bien évidemment
$n_1+\cdots +n_k=N$ et $f_1+\cdots +f_k=1.$
Une série statistique est donc la donnée des valeurs $x_1,\cdots ,x_k$ et de leurs effectifs respectifs $n_1,\cdots ,n_k$
(et si on veut, les fréquences associées $f_1,\cdots ,f_k$). Généralement, on la
présente sous la forme d’un tableau :
Voici un exemple concret.
Sur un échantillon de $282$ ménages choisis au hasard, on a relevé le nombre $X$ d’enfants par ménage (tableau ci-dessous).
Quelquefois la nature du problème oblige à prendre un échantillon $\Omega $ de grande taille ; ce qui peut rajouter encore de la difficulté à l’étude de $X$.
On répartit alors ses valeurs en classes $[a_0,a_1[, \cdots ,\cdots ,[a_{k-1},a_k[$
recouvrant l’ensemble $\{ x_1,\cdots ,x_k\} $. On obtient ainsi
une série classée. L’effectif $n_i$ de la classe $[a_{i-1},a_i[$ (pour $i=1,\cdots ,k$) est le nombre d’individus de l’échantillon ayant leur caractère $x\in \{ x_1,\cdots ,x_k\} $ tel que $ a_{i-1} \leq x < a_i $ ; sa fréquence est $f_i={{n_i}\over N}$.
On la présente aussi sous forme de tableau :
La différence $e_i=a_i-a_{i-1}$ est l’étendue de la classe $[a_{i-1},a_i[$ et $x_i={{a_{i-1}+ a_i}\over 2}$ est son centre.
Généralement on suppose que dans chaque classe les valeurs sont distribuées uniformément : dans la mesure du possible, elles ne sont pas trop éloignées les unes des autres.
On peut alors se permettre de remplacer la série classée par la série des centres $x_i$ affectés des effectifs $n_i$.
C’est une manière de procéder pour calculer certains de ses paramètres. Le premier d’entre eux est la :
1.3. Moyenne de $X$. On appelle ainsi la valeur $\overline X$ donnée par la formule :
\[\overline X={1\over N}\left( n_1x_1+\cdots +n_kx_x\right) =f_1x_1+\cdots +f_kx_x.\]
Les étudiants connaissent bien ce paramètre : si les valeurs $x_1,\cdots ,x_k$ sont les notes sur $20$ obtenues par un étudiant à $k$ examens
de coefficients respectifs $n_1,\cdots ,n_k$, sa note moyenne est $\overline X$ (comprise entre $0$ et $20$).
Pour un exemple numérique explicite, prenons celui du nombre d’enfants par ménage que nous avons donné précédemment. Le nombre moyen d’enfants
que donne l’échantillon considéré est :
\[\overline X={{52.0+80.1+60.2+24.3+18.4+16.5+14.6+12.7+6.8}\over {282}}\simeq 2,27 \text{ enfants.}\]
1.4. Les propriétés qui suivent sont immédiates à établir :
(i) Si la variable $X$ est constante égale à $c$ alors $\overline X=c$.
(ii) Pour tout nombre réel $\lambda $, on a $\overline{\lambda X}=\lambda \overline X$.
(iii) Pour toute constante réelle $c$, on a $\overline{X+c}=\overline X+c$.
La moyenne est un bon paramètre mais il ne donne qu’une idée globale de la distribution du caractère, et reste insuffisant si on veut plus.
Regardons l’exemple qui suit.
Deux étudiants $X$ et $Y$ passent des examens en trois matières différentes de même importance. Leurs notes sont donc
prises en compte avec les mêmes coefficients
qu’on peut prendre égaux à $1$. Elles donnent deux séries $X=\{ (17,1),(11,1),(5,1)\}$ et $Y=\{ (11,1),(10,1),(12,1)\}$ de moyennes
$\overline X=11$ et $\overline Y=11$.
Ces deux étudiants seront donc jugés ayant le même niveau si on ne tient compte que de la moyenne des notes. Toutefois, les membres d’un jury s’accorderaient
à dire que le deuxième est régulier dans son travail contrairement au premier qui ne l’est pas. Ceci s’explique par le fait que les notes
du premier sont trop dispersées autour de la moyenne. Pour mesurer cela, on introduit d’autres paramètres comme la :
1.5. Variance de $X$. On appelle ainsi la valeur moyenne de la série $(X-\overline X)^2$, i.e. la
quantité donnée par la formule :
\[Var(X)= f_1\left( x_1-\overline X\right)^2+\cdots +f_k\left( x_k-\overline X\right)^2.\]
Mais pour avoir la même unité de mesure que le caractère $X$, on prend la racine carrée $\sigma (X)=\sqrt{Var(X)}$ qu’on appelle
écart-type de $X$.
Comme $f_i>0$ pour tout $i=1,\cdots, k$, on a $\sigma (X)=0$ si, et seulement si, la variable $X$ est constante égale à sa moyenne.
Calculons l’écart-type de chacune des séries $X$ et $Y$ représentant les notes des deux étudiants dans l’exemple donné précédemment. On a :
$X-\overline X=\{ 6,0,-6\} $ et $Y-\overline Y=\{ 0,-1,1\} $. D’où $\sigma (X)=2\sqrt{6}\simeq 4,89$ et $\sigma (Y)=\sqrt{2\over 3}\simeq 0,27$.
On voit donc que plus la série est dispersée autour de la moyenne plus son écart-type est grand.
On vérifie facilement que, pour $c,\lambda \in {\Bbb R}$, on a $\sigma (\lambda X+c)=\vert \lambda \vert \sigma (X)$.
La moyenne et l’écart-type sont des paramètres respectivement de position et de dispersion. Certes, ils donnent des renseignements sur
une série statistique mais ils ne permettent pas de dégager une idée
de la répartition inégale du caractère considéré, par exemple si celui-ci représente une richesse.
D’autres notions sont plus « répondantes » à cet effet, en premier lieu celle de :
2. Concentration
On se donne une série statistique $\{ (x_1,n_1),\cdots ,(x_k,n_k)\} $ qui
mesure un caractère $X$ représentant une certaine richesse dont on veut étudier la répartition et observer si, plus ou moins, elle se « concentre ».
Remarquons d’abord que si la série est constante, toutes ses valeurs sont égales à sa moyenne $\overline X$ et
la répartition de la richesse est équitable. Il y a donc absence de concentration. Ce n’est pas ce qui se passe dans la réalité.
Et comme l’étude que nous entreprenons ne se veut pas uniquement théorique mais proche aussi de situations concrètes, nous ferons dans toute la suite :
L’hypothèse $({\cal H})$
La série $\{ (x_1,n_1),\cdots ,(x_k,n_k)\} $ est telle que $ 0 \leq x_1 < \cdots < x_k $ avec $k\geq 2$
et tous les effectifs $n_1,\cdots ,n_k$ sont non nuls. (La question d’une juste répartition
de la richesse n’est donc pas « sans intérêt » dans ce cas-là.)
Comme on l’a déjà mentionné, si l’échantillon $\Omega $ sur lequel on travaille est très grand,
on le partitionne en classes $[a_0,a_1[,\cdots ,[a_{k-1},a_k[$ ayant des effectifs respectifs $n_1,\cdots ,n_k$.
Pour $i=1,\cdots ,k$, on notera $x_i={{a_{i-1}+a_i}\over 2}$ le centre de la classe
$[a_{i-1},a_i[$. On récupère ainsi une série à valeurs isolées $\{ (x_1,n_1),\cdots ,(x_k,n_k)\} $ qu’on supposera
satisfaire à l’hypothèse $({\cal H})$.
2.1. On appelle caractère de la valeur $x_i$ le nombre $c_i=n_ix_i$.
On appelle caractère cumulé de $x_i$, et on note $C_i$, la somme du caractère de celle-ci et de ceux de toutes celles qui la précèdent :
\[C_i=c_1+\cdots +c_i=n_1x_1+\cdots +n_ix_i.\]
Bien évidemment, les quantités $c_i$ et $C_i$
ne sont pas des nombres abstraits : par exemple, si $X$ désigne un revenu, elles s’expriment en euros, en dollars... en tonnes si $X$ désigne
une quantité de blé etc.
Le caractère cumulé de la dernière classe $C_k=c_1+\cdots +c_k$, qu’on notera $C$, est le caractère total.
C’est la totalité de ce que se partagent les différents individus de l’échantillon $\Omega $.
2.2. Mais c’est plus significatif d’introduire une fonction disant plutôt quelle est la fraction du caractère total qui revient à une fraction
cumulée de l’effectif total. Ce qui amène à la fonction qui suit :
\[h:F_i\in \{F_0, F_1,\cdots ,F_k\}\subset [0,1] \longmapsto h_i={{C_i}\over C}\in [0,1].\]
Ici, rappelons-le, $F_i$ est la fréquence cumulée de la valeur $x_i$ pour $i=1,\cdots ,k$ et $F_0=0$ avec $h(F_0)=0$.
Le graphe de cette fonction est un ensemble de $k$ points $A_0,\cdots ,A_k$ dans le carré
$[0,1]\times [0,1]$ ; $A_0$ et
$A_k$ ont pour coordonnées respectives $(0,0)$ et $(1,1)$.
2.3. En joignant chaque point $A_{i-1}$ à $A_i$ par un segment de droite, on obtient
le graphe ${\cal L}$ d’une fonction continue et affine par morceaux $h:[0,1]\longrightarrow [0,1]$ qu’on appelle fonction de concentration
de la série $\{ (x_1,n_1),\cdots ,(x_k,n_k)\} $. Le graphe ${\cal L}$ est sa
courbe de concentration ou sa courbe de Lorenz.
Ci-dessous, nous avons représenté la courbe de concentration d’une série à quatre valeurs. Nous l’utiliserons dans la suite pour illustrer
nos raisonnements et calculs.
2.4. Donnons quelques propriétés de la courbe ${\cal L}$. Mais remarquons d’abord que :
\[h_i={{n_1x_1+\cdots +n_ix_i}\over {n_1x_1+\cdots +n_kx_k}}={{f_1x_1+\cdots +f_ix_i}\over {f_1x_1+\cdots +f_kx_k}}=
{{f_1x_1+\cdots +f_ix_i}\over {\overline X}}\]
où $\overline X$ est la moyenne de la série.
(i) La droite $(A_0A_k)$ est la première bissectrice de l’angle droit formé par les deux axes de coordonnées ; elle partage le plan en deux demi-plans ouverts : le premier contenant le
point $A$ qu’on notera ${\cal A}$ et l’autre contenant le point $B$ qu’on notera ${\cal B}$.
(ii) La suite $\alpha_1,\cdots ,\alpha_k$ des pentes respectives des droites $(A_0A_1),\cdots ,(A_{k-1}A_k)$ est strictement croissante.
En effet, pour tout $i=1,\cdots ,k-1$, on a :
\[\alpha_i={{h_i-h_{i-1}}\over {F_i-F_{i-1}}}={1\over {f_i}}{{f_ix_i}\over {\overline X}}=
{{x_i}\over {\overline X}}< {{x_{i+1}}\over {\overline X}}=\alpha_{i+1}.\]
(On a utilisé l’inégalité $ x_i < x_{i+1}$ de l’hypothèse $({\cal H})$.) L’angle $\theta_i$ des deux droites $(A_{i-1}A_i)$ et $(A_iA_{i+1})$
a donc une mesure strictement inférieure
à $\pi$ (bien regarder le dessin où celui-ci est $\theta_2$).
(iii) Le polygone $\Delta = A_0A_1\cdots A_k$ a tous ses angles de mesure strictement inférieure à $\pi$ ; il est donc convexe.
D’autre part, on a, en supposant $x_1 >0$ :
\[h_1={{f_1x_1}\over {f_1x_1+\cdots +f_kx_k}}<{{f_1x_1}\over {f_1x_1+\cdots +f_kx_1}}={{f_1x_1}\over {(f_1+\cdots +f_k)x_1}}=f_1.\]
Ceci montre que le sommet $A_1$ est dans le demi-plan ouvert ${\cal A}$. Si $x_1=0$, le point $A_1$ a pour coordonnées $(f_1,0)\neq (0,0)$ et
il est encore dans le demi-plan ouvert ${\cal A}$. Par suite le polygone $\Delta $ est
contenu dans ${\cal A}\cup [A_0A_k]$.
Conclusion : La courbe ${\cal L}$ est en-dessous du segment diagonal $[A_0A_k]$ du carré $A_0AA_kB$.
3. Indice de Gini
Tout point $(F,h)$
de la courbe ${\cal L}$ est tel que $h \leq F$. Comme on est sous l’hypothèse
$({\cal H})$,
il existe au moins un indice $i$ distinct de $0$ et de $k$ tel que $h_i$ est strictement inférieur à $F_i$. En plus, le polygone $\Delta $ étant convexe, il en est de même
pour tout $i=1,\cdots ,k-1$ ;
cela signifie que la proportion $F$ de l’échantillon considéré est strictement plus petite que la proportion
$h$ de la richesse qu’elle reçoit. C’est d’autant plus marqué que la courbe ${\cal L}$ délimite un « gros bide »
collé du côté droit au segment diagonal. Une position extrême est celle où $\Delta $ est le triangle $A_0AA_k$ (qui ne se réalise jamais).
Comment mesurer alors la répartition inégale,
c’est-à-dire l’éloignement relatif de la courbe de concentration du premier segment diagonal ?
C’est naturellement la distance $\vert F-h(F)\vert =F-h(F)$ (puisque $F\geq h(F)$) de l’identité $F\in [0,1] \longmapsto F\in [0,1]$ à la fonction
$h:F\in [0,1]\longmapsto h(F)\in [0,1]$
qui donne l’écart. Mais celle-ci dépend de $F$ ; il faut donc prendre sa moyenne, c’est-à-dire l’intégrale :
\[\int_0^1(F-h(F))dF\]
qui est l’aire du polygone $\Delta $. Comme on aimerait avoir une « distance relative », il faudrait
diviser par l’aire du triangle $A_0AA_k$ (qui est une limite du polygone $\Delta $). Ce qui nous amène à la :
3.1. Définition. On appelle indice de Gini de la série $\{ (x_1,n_1),\cdots ,(x_k,n_k)\} $ le rapport de l’aire du polygone
$\Delta =A_0A_1\cdots A_k$ à celle du triangle $A_0AA_k$ :
\[\nu (X)= {{aire(\Delta )}\over {aire(A_0AA_k)}}=2(aire(\Delta )).\]
Quand il n’y a pas d’ambiguïté, on le notera simplement $\nu $ (sans référence à $X$).
C’est un nombre abstrait, qui prend ses valeurs dans l’intervalle $[0,1]$.
Voyons maintenant comment on peut calculer $\nu $ de façon explicite en fonction
des données de la série.
3.2. Calcul de l’indice de Gini
Il faut à cet effet calculer l’aire du polygone $\Delta $. Mais cela revient au calcul de celle du polygone $A_0A_1\cdots A_kA$,
ce que nous allons faire en nous référant à la figure de la sous-section 2.4.
Le polygone $A_0A_1\cdots A_kA$ est la réunion disjointe
du triangle $A_0A_1K_1$ et des trapèzes $A_1K_1K_2A_2$,...,$A_{k-2}K_{k-2}K_{k-1}A_{k-1}$ et $A_{k-1}K_{k-1}AA_k$. Ici $K_i$ désigne la projection
de $A_i$ sur l’axe des abscisses ($K_k$ étant le point $A$). On a alors :
Aire du polygone $A_0A_1\cdots A_kA$ = ${1\over 2}(h_1f_1+(h_1+h_2)f_2+\cdots +(h_{k-1}+h_k)f_k)$.
Portant ceci dans la formule donnant l’indice de Gini, on obtient l’expression suivante, plus pratique pour le calcul :
\[\nu =1-\sum_{i=1}^k(h_{i-1}+h_i)f_i.\]
3.3. Remarque
Il est facile de voir que la fonction concentration $h$ ne change pas quand on multiplie
$X$ par une constante réelle $\lambda >0$. Par suite, l’indice de Gini ne change pas non plus, c’est-à-dire vérifie la propriété :
$\nu (\lambda X)=\nu (X).$
Lors de son calcul on peut donc normaliser le caractère $C$ et se ramener au cas où il est égal à $1$.
3.4. Avant de donner des exemples de calcul explicite de l’indice $\nu $, examinons d’abord des situations particulières à travers les deux questions qui suivent :
$\bullet $ L’indice de Gini $\nu $ peut-il prendre la valeur $0$ ?
Pour une série vérifiant l’hypothèse $({\cal H})$, la valeur $0$ ne peut pas être prise. En effet si c’est le cas,
son polygone $\Delta $ se réduit au segment $[A_0A_k]$. La fonction concentration $h:[0,1]\longrightarrow [0,1]$ est alors l’identité.
En particulier, pour tout $i=1,\cdots,k$ on a
$h_i=F_i$, c’est-à-dire :
$f_1+\cdots +f_i={{f_1x_1+\cdots +f_ikx_i}\over {\overline X}}.$
Si $i=1$, on a $f_1={{f_1x_1}\over {\overline X}}$ ; d’où $x_1=\overline X$. Si $i=2$, on a $f_1+f_2={{f_1x_1+f_2x_2}\over {\overline X}}=f_1+{{f_2x_2}\over {\overline X}}$ ;
d’où l’on tire $x_2=\overline X$. De proche en proche, on montre ainsi que la série $\{ x_1,\cdots ,x_k\} $ est constante égale à sa moyenne $\overline X$.
Évidemment, si on suppose $X$ constante, on peut reprendre tout ce qu’on a fait, définir l’indice $\nu $ et constater immédiatement qu’il est nul.
$\bullet $ L’indice de Gini $\nu $ peut-il prendre la valeur $1$ ?
La valeur $1$ est interdite par l’hypothèse ${\bf ({\cal H})}$ imposée à la série (ceci est facile à vérifier). Toutefois, l’indice $\nu $ peut
prendre des valeurs arbitrairement proches de $1$ comme on peut le voir sur l’exemple qui suit.
La courbe
de concentration sera celle d’une série à deux valeurs $\{ x_1,x_2\} $ avec $x_1=0$ et $x_2>0$ ayant pour effectifs partiels respectifs $n_1=N-1$ et
$n_2=1$ avec $N$ très grand. Ou, si on veut parler plutôt fréquences, $f_1={{N-1}\over N}$ est très proche de $1$
et $f_2={1\over N}$ est très proche de $0$.
Un simple calcul après un regard sur cette figure donne l’indice de Gini $\nu = 1 -{1\over N}$. Et celui-ci tend vers $1$ quand $N$ tend vers $+\infty $.
3.5. Une situation vraie
L’exemple répondant à la deuxième question 3.4. est bien entendu théorique. En voici un vrai, et qui lui est proche.
Il s’agit de la répartition des richesses en Russie donnée ici (article paru dans Le Monde en 2017) : $1\%$ de la population en concentre $74\%$ et donc $99\%$ de cette même population n’en détient que $26\%$ !
C’est la courbe de Lorenz illustrant cette malheureuse répartition. Son indice de Gini est $\nu =0,73$. Et là, il est vraiment parlant !
4. Exemples
Les deux situations que nous avons décrites dans la sous-section 3.4 sont instructives. La première est un exemple où il n’y a pas concentration de richesse : la répartition est équitable,
et on ne peut donc qu’en rêver ! La deuxième est malheureusement un exemple où l’échantillon $\Omega $ est
morcelé en deux : une partie, constituant la presque totalité, ne reçoit que des broutilles et l’autre, excessivement réduite, s’accapare
presque tout. Et
quelquefois les situations intermédiaires ne sont pas heureuses non plus. Dans certains exemples, comme celui qui suit, la concentration
n’est pas trop marquée mais la répartition
reste tout de même inégale.
4.1. Répartition salariale
Dans ce tableau sont représentés les pourcentages des classes de salaire mensuel (en euros) de la population française pour l’année 2019.
(Source : INSEE)
La dernière classe était en fait $[8000,+\infty [$. Nous l’avons réduite à $[8000,16000[$ pour pouvoir mener les calculs de façon concrète.
Ci-dessous sont rassemblés tous les éléments nécessaires au calcul de l’indice de Gini.
Et voici la courbe de Lorenz associée à la série. Elle paraît partout régulière même si elle n’est pas dérivable aux sommets du polygone $\Delta $.
\[\text{Courbe de Lorenz de la série}\]
La quantité $\sum_{i=1}^k(h_{i-1}+h_i)f_i$ est la somme de tous les termes de la dernière colonne du tableau ci-dessus ; elle vaut $0,668$. En appliquant la formule établie dans la sous-section 3.2,
on obtient la valeur de l’indice de Gini :
\[\nu =1- 0,668= 0,332.\]
On peut dire qu’il y a concentration mais elle est moyenne.
4.2. Exemples marquant l’insuffisance de Gini
Quand l’indice de Gini d’une série est non nul, il
indique qu’il y a concentration. Mais n’étant que l’intégrale d’une fonction continue $h:[0,1]\longrightarrow {\Bbb R}_+$ (fonction concentration), il ne renseigne pas
beaucoup sur la série elle-même.
En effet, deux séries tout à fait différentes peuvent avoir le même indice de Gini. Par exemple deux séries ayant leurs courbes de concentration symétriques par rapport au deuxième segment diagonal
du carré, comme on le voit sur le dessin ci-dessous (la rouge et la bleue).
Ceci nous amène à la remarque qui suit. Bien que l’indice de Gini donne une idée de la teneur de la concentration de la richesse il a
malheureusement ses limites : il ne dit pas comment se répartit la richesse. Par exemple, pour deux
séries respectivement associées aux deux courbes de concentration ci-dessus, un calcul immédiat donne le même indice $\nu =0,4$. Mais :
(a) Sur la courbe rouge on voit que les $90\%$ les moins aisés se partagent la moitié de la richesse et les $10\%$ les plus aisés l’autre moitié.
(b) Sur la courbe bleue on voit que les $50\%$ les moins aisés se partagent $10\%$ de la richesse et les $50\%$ les plus aisés les $90\%$ qui restent.
Illustrons un peu plus cela en associant aux deux courbes des séries statistiques concrètes. Considérons les deux tableaux de données qui suivent.
On peut imaginer qu’ils représentent les répartitions des salaires mensuels dans deux entreprises $A$ et $B$ chacune employant
dix personnes.
Dans $A$, il y a $9$ salariés
qui gagnent $1.000$ euros chacun et un boss qui touche $9.000$ euros. Dans $B$, il y a $5$ salariés qui touchent $1.000$ euros chacun
et $5$ boss qui ont $9.000$ euros chacun.
Les deux séries ont même indice de concentration $\nu =0,4$. Au lecteur d’en donner l’interprétation qu’il « souhaite » !
Voici une référence en rapport avec le sujet (que m’a signalée Gérard Grancher) :
[1] L. Maurin. Le Gini est mort, vive le Palma ?
Elle renvoie vers d’autres tout aussi intéressantes :
[2] Is inequality all about the tails ? The Palma measure of income inequality.
Je remercie Avner Bar-Hen et Gérard Grancher pour la relecture qu’ils ont faite de mon texte ainsi que pour leurs suggestions respectives. Merci aussi à Régis Leclercq pour avoir relu la première version.
Partager cet article
Pour citer cet article :
Aziz El Kacimi — «Concentration et indice de Gini» — Images des Mathématiques, CNRS, 2022
Laisser un commentaire
Actualités des maths
-
5 mars 2023Maths en scène : Printemps des mathématiques (3-31 mars)
-
6 février 2023Journées nationales de l’APMEP, appel à ateliers (9/4)
-
20 janvier 2023Le vote électronique - les défis du secret et de la transparence (Nancy, 26/1)
-
17 novembre 2022Du café aux mathématiques : conférence de Hugo Duminil-Copin (Nancy et streaming, 24/11)
-
16 septembre 2022Modélisation et simulation numérique d’instruments de musique (Nancy & streaming, 22/9)
-
11 mai 2022Printemps des cimetières
Commentaire sur l'article