Nobel 2011 d’économie

Quelques remarques sur les prix Nobel 2011 d’économie et la modélisation des séries économiques

Piste noire Le 17 juin 2012  - Ecrit par  Jean-Michel Zakoian, Stéphane Auray, Christian Francq Voir les commentaires

Le prix Nobel d’économie [1] 2011 a été décerné aux Américains
Thomas J. Sargent et Christopher A. Sims pour leurs travaux en
macroéconomie, et plus particulièrement en macroéconométrie.

Préambule

Selon un communiqué de l’Académie royale des Sciences de Suède, ce prix
leur a été décerné pour « leurs recherches empiriques sur les causes
et les effets en macroéconomie ».
Les lauréats « ont développé des méthodes pour répondre à de
nombreuses questions concernant le lien de causalité entre la
politique économique et différentes variables macroéconomiques comme
le PIB, l’inflation, l’emploi et les investissements », a ajouté le
comité Nobel. « L’économie est constamment affectée par des
événements imprévus », relève le comité. Il note par exemple que le
prix du pétrole peut augmenter de façon inattendue ou qu’une banque
centrale peut fixer des taux d’intérêt imprévisibles pour des
emprunteurs ou des prêteurs ou bien que la consommation des ménages
peut baisser soudainement. « Ces événements inattendus sont
habituellement désignés sous le nom de chocs », explique le comité.
Il ajoute aussi que l’économie peut être affectée par des variations
à plus long terme comme des changements de politique monétaire afin
d’instaurer de plus strictes mesures anti-inflation ou une politique
fiscale plus rigoureuse. « Une des tâches principales de la recherche
en macroéconomie consiste à comprendre comment chocs et changements
systématiques de politique affectent les variables
macroécononomiques à court et à long terme », selon le comité.

Derrière ce vocabulaire (variables, causes et effets, chocs,
macroéconomie, court et long terme ...) se cache une
formalisation dans laquelle les mathématiques jouent un rôle
prépondérant. Essayons d’y voir plus clair en commençant par des
questions simples.

Qu’est-ce qu’un modèle de séries temporelles ?

Il est habituel de regarder comment une grandeur économique $Y$ (chômage, inflation,...) évolue dans le temps. La façon la plus simple de le faire consiste à tracer un graphe avec le temps, $t$, en abscisse et la grandeur à cette date, $Y_t$, en ordonnée.

Faire des graphiques

Prenons l’exemple des séries de « credit default swaps » (CDS). Il s’agit de primes versées par un acheteur à une contrepartie pour se couvrir contre certains risques financiers de défauts. Les CDS ne servent pas seulement d’assurance mais aussi de moyen de spéculation. Pour cette raison, ils sont parfois rendus partiellement responsables des récentes crises financières, et en particulier de la spéculation sur les dettes souveraines européennes. La figure 1 représente l’évolution de primes de CDS sur les dettes souveraines de 4 pays pour une période de plus de 4 années. La figure 2 fait un zoom sur une sous-période. Les données sont transformées en logarithme, mais cela n’en change pas l’interprétation. Lorsque le niveau de CDS augmente, c’est qu’il devient plus coûteux de se couvrir contre un défaut de paiement, ce que l’on interprète comme un signe de dégradation du niveau de confiance en la situation économique du pays considéré. Ce qui frappe en premier lieu c’est que l’évolution des CDS semble assez erratique, avec des périodes de tendance à la hausse (de mi-juin 2007 à fin octobre 2008) puis des retournements de tendance (on parle de tendance stochastique). Il est clair qu’il sera difficile de faire une prévision raisonnable à horizon $h$ élevé, c’est-à-dire de prédire un CDS futur à la date $t+h$ ayant observé les CDS jusqu’à la date présente $t$. La comparaison des différentes séries de CDS fait apparaître des évolutions parallèles. Même si le niveau de chaque série est difficilement prévisible à horizon élevé, on peut imaginer qu’il existe des relations de long terme entre les séries, c’est-à-dire des combinaisons linéaires qui restent relativement stables au cours du temps.

Figure 1 : Primes de contrats CDS dérivés sur défaut de 4 économies émergentes, du 05 janvier 2007 au 25 février 2011.

$\quad$

Figure 2 : Les 4 séries de CDS sur une période de 100 jours.

Faire du bruit

Afin d’aller plus loin que l’analyse descriptive, on essaye généralement de trouver une modélisation appropriée. Il serait vain de chercher à modéliser une série économique à partir d’une fonction déterministe du temps : \[Y_t=f(t).\] D’un point de vue philosophique, un tel modèle semble dire que le futur est déjà contenu dans le présent sous réserve de connaître la fonction $f$. D’un point de vue pratique, un tel modèle serait parfaitement inutile car, ne connaissant pas $f$, nous ne pourrions
rien dire sur les valeurs futures de $Y$. L’approche moderne consiste à définir un cadre probabiliste, dans lequel les variables $Y_t$ sont vues comme des variables aléatoires. Plus précisément, ce que l’on observe est la
réalisation d’une variable aléatoire. Parmi toutes les valeurs potentielles de $Y$ à la date $t$, l’une se réalise et c’est tout ce que l’on observe.

En série temporelle il convient de tenir compte de la flèche du
temps, c’est-à-dire de l’ordre d’apparition des données. Il est
assez naturel de faire dépendre la valeur de la variable à la date
$t$ de ses valeurs passées :
\[Y_t=f(Y_{t-1},Y_{t-2},\dots).\]
Cette modélisation ne semble toujours pas convenir car cela
impliquerait une dynamique déterministe, la valeur de $Y_t$ étant
entièrement déterminée par ses valeurs passées. Il semble plus
réaliste de faire intervenir un terme supplémentaire, de nature
aléatoire, que l’on appelle aléa, perturbation, innovation, choc,
bruit ... et que nous noterons $\epsilon_t$. Beaucoup de modèles de
séries temporelles sont de la forme
\[Y_t=f(Y_{t-1},Y_{t-2},\dots)+\epsilon_t,\] où
$f(Y_{t-1},Y_{t-2},\dots)$ est, en un certain sens, la meilleure
prévision de $Y_t$, et où $\epsilon_t$ s’interprète comme un terme
d’erreur. Si le modèle est correct, si la fonction $f$ est bien
choisie, les termes d’erreurs $\epsilon_t$ doivent être centrés
(i.e prendre aléatoirement des valeurs autour de 0), de
variance finie (intuitivement, prendre la plupart de leurs valeurs
pas trop loin de 0) et ne plus contenir aucune dynamique (être
parfaitement imprévisibles). Une telle série $(\epsilon_t)$ est
appelée un bruit blanc. Pour créer artificiellement, on dit
simuler, de telles séries il suffit d’appuyer sur la touche
« random » d’une calculette (on obtient ainsi des nombres au
hasard entre 0 et 1) puis centrer en enlevant 1/2 à chaque valeur.
Ces erreurs, comprises entre -1/2 et 1/2, peuvent paraître
particulières. Pour obtenir quelque chose de plus « normal »,
on peut sommer 12 valeurs de la touche random et enlever 6 à chaque
date $t$. On obtient par exemple un bruit dont les premières
réalisations sont :

 -0.841  1.384 -1.255  0.070  1.711 -0.603 -0.472 -0.635 -0.286

<h4Intégrer le bruit

En notant $\epsilon_t$, pour $t=1,2,\dots{}$, les simulations de notre
bruit, et en supposant une forme linéaire simple pour $f$, on
obtient un modèle autorégressif :
\[Y_t=a+bY_{t-1}+\sigma\epsilon_t,\]
où $a, b $ et $\sigma$ sont des nombres. Pour parfaitement définir
cette suite par récurrence sur $t$, il convient de fixer une valeur
initiale pour $Y_0$. Lorsque $b=1$ on dit que $Y_t$ suit une marche aléatoire. On passe de la position $Y_t$ à la position
$Y_{t+1}$ en ajoutant la dérive $a$ et le pas aléatoire
$\epsilon_{t+1}$. Une marche aléatoire peut encore s’écrire
\[Y_t=Y_0+at +\sigma\sum_{i=1}^t\epsilon_i.\]
C’est un processus dit intégré car obtenu en sommant, c’est-à-dire en intégrant, les valeurs de $a+\sigma\epsilon_i$.
Lorsque $a\neq 0$, on dit que la série possède la tendance déterministe $Y_0+at. $ La composante $\sigma\sum_{i=1}^t\epsilon_i$
est qualifiée de tendance stochastique. La figure 3 représente une simulation d’une marche aléatoire avec $a=0.$
On peut constater quelques similitudes avec les séries de CDS, en particulier des sous-périodes avec des tendances à la hausse et d’autres à la baisse.

Figure 3 : Une simulation d’une marche aléatoire sans dérive.

Qu’est-ce qu’un choc ?

Refaisons du bruit $\epsilon_1,\epsilon_2,\dots{}$, puis un autorégressif en partant d’une valeur initiale $Y_0$ et en posant \[Y_t=a+bY_{t-1}+\epsilon_t,\]
pour $t=1,2,\dots{}$. Oublions le bruit. Nous connaissons $a$ et $b$ et nous observons $Y_0,Y_1,\dots,Y_{t_0-1}$. Comment prévoir $Y_{t_0}$ ?

Cela semble simple. Nous connaissons le terme $a+bY_{t_0-1}$ et nous n’avons aucun espoir de deviner $\epsilon_{t_0}$ à partir des observations dont nous disposons. Il semble raisonnable de prévoir $\epsilon_{t_0}$ par 0, car le bruit fluctue aléatoirement autour de cette valeur.
On prévoit alors $Y_{t_0}$ par
\[\widehat{Y}_{t_0}=a+bY_{{t_0}-1}.\]
Remarquez au passage que les statisticiens ont la manie de mettre un chapeau sur les quantités qu’ils prévoient ou estiment.
Le fait que le bruit s’écrive $\epsilon_t=Y_t-\widehat{Y}_t$ justifie de l’interpréter comme une erreur de prévision, une nouveauté, ou encore un choc inattendu.

Effets des chocs

Connaissant $Y_0$, $a$ et $b$, on peut exprimer $Y_t$ en fonction des chocs passés :
\[Y_t=\sum_{i=0}^{t-1}b^i(\epsilon_{t-i}+a)+b^tY_0.\]
Il est alors intéressant de regarder l’effet d’une petite variation du choc $\epsilon_t$ sur les valeurs futures $Y_{t+h}$, toutes choses égales par ailleurs, c’est-à-dire sans changer les autres chocs. La réponse mathématique est simple. Cet effet est la dérivée partielle
de $Y_{t+h}$ par rapport à $\epsilon_t$
 [2], qui est donnée par
\[\lim_{\Delta\to 0,\Delta\neq 0}\frac{Y_{t+h}(\epsilon_t+\Delta)-Y_{t+h}(\epsilon_t)}{\Delta}=b^h.\]
Si le choc à la date $t$ avait été diminué d’une quantité $\Delta$, alors la valeur de $Y_{t+h}$ aurait été diminuée de $b^h\Delta$.

Stationnarité et persistance des chocs

Un processus autorégressif avec $|b|<1$ est qualifié de stationnaire car son évolution reste stable au cours du temps, autour d’un niveau constant.
La marche aléatoire (obtenue pour $b=1$) est qualifiée de processus non stationnaire à racine unité. [3] Lorsque $a\neq 0$, la marche aléatoire dérivera inexorablement vers des niveaux arbitrairement grands ou petits, selon que $a>0$ ou $a<0$. Lorsque $a=0$, la marche aléatoire franchira, et cela une infinité de fois, tout niveau arbitraire.

Les chocs ont un effet persistant dans le cas de la marche aléatoire et un effet temporaire dans le cas stationnaire (puisque $b^h$ tend vers zéro quand l’horizon $h$ croît). Cette interprétation en termes de persistance des chocs a connu un grand succès.
Certains économistes ont alors eu l’espoir de pouvoir répondre à des questions du genre « le choc pétrolier de 1973 impute-il encore le PNB mondial en 2012 ? » Les travaux de Peter C.B. Phillips constituent la référence principale pour l’étude des séries à racine unité, et seront peut-être un jour récompensés par un prix Nobel.

La figure 4 présente une simulation d’un autorégressif stationnaire ($b=0.95$, $a=0.1$ et $Y_0=2$)
et d’une marche aléatoire ($b=1$, $a=0.1$ et $Y_0=5$). A la date $t=25$, on a ajouté 3 à la valeur $\epsilon_{25}$ du bruit.
En pointillé on a indiqué les valeurs des simulations en absence de cette perturbation. On voit que l’effet de celle-ci est
temporaire dans le cas de la série stationnaire, alors qu’il est persistant dans le cas de la marche aléatoire. La figure indique également
que les intervalles de prévision s’élargissent indéfiniment dans le cas de la marche aléatoire.

Figure 4 : Processus autorégressif stationnaire (en bleu) et marche aléatoire (en rouge), avec un choc modifié à la date t=25. Les 100 dernières valeurs sont des prévisions et leurs intervalles de confiance à 95 % (c’est-à-dire contenant la valeur à prévoir 95 fois sur 100).

Comment modéliser simultanément les séries ?

Revenons à nos séries de CDS. Nous avons déjà constaté que ces séries sont
dépendantes, qu’elles évoluent conjointement.
Comment modéliser les dynamiques conjointes de deux séries $Y_t$ et $Z_t$ ?

Le modèle VAR

On peut s’inspirer du modèle autorégressif que nous avions proposé en dimension 1, pour proposer le modèle
\[\left\{\begin{array}{lll} Y_t&=&a+bY_{t-1}+cZ_{t-1}+\epsilon_{t}\\ Z_t&=&d+eY_{t-1}+fZ_{t-1}+\nu_{t}. \end{array} \right. \]
Dans cette équation $\epsilon_t$ et $\nu_t$ désignent des bruits.
A ces termes d’erreurs près, chaque série dépend linéairement des valeurs passées des deux séries.
Ce modèle, appelé VAR pour autorégressif vectoriel, est un
exemple (très simplifié) de modèle préconisé par Christopher Sims
pour l’étude des séries macroéconomiques. On notera le traitement
symétrique des variables $Y$ et $Z$ dans le modèle. A l’inverse, les
modèles macroéconométriques traditionnels postulaient un certain
nombre de restrictions a priori entre variables : certaines
variables, dites exogènes, étaient supposées expliquer la dynamique
d’autres variables sans que l’inverse soit vrai. Ces restrictions
sont nécessaires par des raisons pratiques et statistiques [4] mais étaient choisies de manière arbitraire. La méthodologie
préconisée par Sims offre un cadre permettant de tester (à l’aide
d’outils statistiques) de telles restrictions.

Le tableau 1 illustre comment se transmettent les chocs.
Si on ajoute une quantité $\Delta$ à $Y_{t_0}$ (ou de manière
équivalente à $\epsilon_{t_0}$), cela n’a pas d’effet sur $Z_{t_0}$
mais aura l’effet d’ajouter $e\Delta$ à $Z_{t_0+1}$ et $b\Delta$ à
$Y_{t_0+1}$, puis $eb\Delta+fe\Delta$ à $Z_{t_0+2},$ ... Les
éléments de ce tableau sont parfois appelés les réponses
impulsionnelles
. Sauriez-vous compléter le tableau pour les dates
suivantes ?

Table 1 - Transmission des chocs : choc $\Delta$ en $t_0$ sur
$Y$, quel est l’effet en $t_0+h$ sur chacune des deux variables ?

$t_0$ $t_0+1$ $t_0+2$
$Y$ $\Delta$ $b\Delta$ $(b^2+ce)\Delta$
$Z$ $0$ $e\Delta$ $e(b+f)\Delta$

Corrélation et causalité

La recherche de relations causales est le Saint Graal pour les économistes.
Une hausse des taux d’intérêt causera-t-elle une baisse de l’inflation ? C’est à ce genre de questions que
l’on voudrait répondre. Au sens de Clive W.J. Granger, prix Nobel d’économie en 2003, une variable économique $Y$ cause une autre variable $Z$
si elle permet d’améliorer les prévisions de cette dernière. Dans notre exemple de VAR, rappelons que $\widehat{Z}_t=d+eY_{t-1}+fZ_{t-1}$, donc
$Y$ ne causera $Z$ au sens de Granger que si
$e$ est non nul.
Notons que la causalité au sens de Granger a peu de choses à voir avec l’idée
intuitive de la causalité. Cette notion est davantage reliée à la corrélation. Une variable $Y$ ne cause pas $Z$ si, sachant le passé de $Z$, le passé de
$Y$ est non corrélé avec le futur de $Z$. On peut très bien avoir causalité de $Z$ vers
$Y$ et de $Y$ vers $Z$.

Relations de long terme

Nous avons vu que les séries de CDS présentaient des tendances stochastiques, que l’on peut assez bien imiter à l’aide d’une marche aléatoire de la forme $Y_t=Y_0+\sum_{i=1}^t\epsilon_i$ (comparez les figures 1 et 3). Puisque les séries évoluent de concert, il est naturel de mettre la tendance stochastique en commun. Dans le cas de deux séries, cela donnerait un modèle de la forme
\[\left\{\begin{array}{lll} Y_t&=&Y_0+\sum_{i=1}^t\epsilon_i,\\ Z_t&=&a+b\sum_{i=1}^t\epsilon_i+\nu_{t}. \end{array} \right. \]
On dit que les séries sont cointégrées car elles partagent la même tendance stochastique. Toutes deux sont des séries intégrées à partir du même bruit $\epsilon_t$.
Ce modèle se réécrit sous la forme
\[\left\{\begin{array}{lll} Y_t&=&Y_{t-1}+\epsilon_t,\\ Z_t&=&a+bY_t+\nu_{t}. \end{array} \right. \]
Au terme d’erreur près, nous avons $Z_t=a+bY_t$. Cette relation est appelée relation de cointégration, ou relation de long terme
car celle-ci reste valide à tout horizon. La figure 5 montre une simulation du modèle, qui présente effectivement quelques similitudes avec les séries de CSD.

Figure 5 : Une simulation de deux séries cointégrées.

Finalement, qu’est-ce qu’un choc ?

Lorsque l’on a calculé les réponses impulsionnelles du tableau 1, on a supposé un choc $\Delta$ sur $\epsilon_{t_0}$ qui
n’affectait pas les autres valeurs des deux bruits. Les bruits à la
date $t_0$ étant supposés indépendants des bruits aux autres dates,
ce principe n’est pas contestable lorsqu’il n’y a qu’une seule
série. Il est cependant peu plausible de supposer que les bruits à
la même date, c’est-à-dire $\epsilon_{t_0}$ et $\nu_{t_0}$, sont
indépendants. Si, par exemple, $Y$ est le prix du pétrole et $Z$
celui de l’électricité, il n’est pas raisonnable d’imaginer un choc
qui n’affecterait que le prix du pétrole et laisserait inchangé le
prix de l’électricité. C’est en donnant des réponses pertinentes à
ce genre de questions que Thomas J. Sargent et Christopher A. Sims
ont été récompensés par le Nobel.

Post-scriptum :

La rédaction d’Images des maths, ainsi que les auteurs, remercient pour leur relecture attentive,
les relecteurs dont le pseudonyme est le suivant : JMJ_france,
Aurélien Djament,
alchymic666 et Gérard Grancher.

Article édité par Avner Bar-Hen

Notes

[1Il s’agit en fait du « prix de la
Banque de Suède en sciences économiques en mémoire d’Alfred Nobel ».
Contrairement aux autres prix Nobel, cette récompense n’a pas été
prévue par Alfred Nobel dans son testament. Décerné depuis 1969 et
financé par la banque centrale suédoise, il fonctionne néanmoins
comme les autres avec un comité et une dotation de 10 millions de
couronnes (1,1 million d’euros).

[2Dans cette dérivée on considère que \[Y_{t+h}=\sum_{i=0}^{t+h-1}b^i(\epsilon_{t+h-i}+a)+b^{t+h}Y_0=Y_{t+h}(\epsilon_t)\] est fonction de $\epsilon_t$ et que les $\epsilon_i$ pour $i\neq t$ sont des constantes. Ici la fonction $Y_{t+h}(\epsilon_t)$ est linéaire, donc il est même inutile de prendre la limite.

[3Le terme « racine unité » provient du fait que le polynôme $1-bx$ possède alors la racine $x=1$.

[4Un modèle
comportant des centaines d’équations et des centaines de variables
fait intervenir, en principe, des dizaines de milliers de
coefficients inconnus. Il faudrait des millions de dates
d’observations pour estimer un tel modèle. Les séries
macroéconomiques ne sont le plus souvent observées que sur quelques
dizaines de dates ...

Partager cet article

Pour citer cet article :

Jean-Michel Zakoian, Stéphane Auray, Christian Francq — «Nobel 2011 d’économie» — Images des Mathématiques, CNRS, 2012

Commentaire sur l'article

Laisser un commentaire

Forum sur abonnement

Pour participer à ce forum, vous devez vous enregistrer au préalable. Merci d’indiquer ci-dessous l’identifiant personnel qui vous a été fourni. Si vous n’êtes pas enregistré, vous devez vous inscrire.

Connexions’inscriremot de passe oublié ?

Suivre IDM