Statistique bayésienne et archéologie
Comment dater une chronologie d’événements archéologiques à l’aide de la statistique bayésienne ?
Piste rouge Le 22 avril 2017 Voir les commentaires (1)
Nous présentons un modèle de statistique bayésienne permettant de construire une chronologie d’événements archéologiques. Ce type de modélisation permet d’intégrer à la fois des datations archéométriques, par exemple un âge radiocarbone, et l’ensemble des connaissances a priori telles que des dates historiques ou les relations stratigraphiques observées sur le site de fouille.
Objectif archéologique
Certains archéologues s’intéressent à la construction de chronologies
d’évènements archéologiques. En général, ils disposent de deux grands
types d’information : un recueil de connaissances que nous
qualifierons d’information a priori, par exemple, le contexte historique ou le contexte stratigraphique dans lequel s’inscrivent les évènements archéologiques étudiés, et des mesures de datation archéométriques réalisées sur des échantillons prélevés sur le site de fouille.
Nous présentons dans cet article l’exemple d’un four de potier trouvé à
Lezoux (France) [Menessier1995 et Lanos2015]. Le site de Lezoux doit sa notoriété aux nombreux ateliers de potiers installés durant toute l’époque gallo-romaine.
La problématique archéologique est de connaitre ce qu’a pu être le devenir de cette activité artisanale après l’époque romaine. Pour cela, nous cherchons à dater la dernière chauffe d’un de ces fours afin de la comparer à la date de fin de l’époque gallo-romaine (486 après J.-C.).
La présence d’ossements brulés dans les vestiges bien conservés d’un four a permis l’emploi conjoint des méthodes de datation par radiocarbone, archéomagnétisme et thermoluminescence afin de dater avec précision la date de la dernière chauffe d’un des fours du site de Lezoux.
- Schéma d’un four de potier
- (Source A. Desbat)
- Photo d’un four de potier. Vue du dessus.
- (Source A. Desbat)
Pourquoi utiliser la statistique bayésienne ?
On cherche à estimer une date, symbolisée par le paramètre $\theta$, à partir d’observations (les mesures de datation). Ce paramètre est aussi appelé paramètre d’intérêt.
La statistique bayésienne est une méthode d’estimation de ce paramètre qui
permet de prendre en compte à la fois les informations a priori sur ce paramètre et des observations en lien avec ce paramètre [voir Robert2006]. Elle repose sur le théorème de Bayes.
L’information a priori est intégrée dans la modélisation
via une loi de probabilité sur le paramètre d’intérêt qui est donc supposé
aléatoire. Ainsi, la statistique bayésienne articule deux lois de probabilités,
la loi a priori du paramètre d’intérêt $\theta$ et la loi des
observations interprétée comme la loi conditionnelle de l’échantillon observé
sachant le paramètre $\theta$.
Pour l’exemple du four de Lezoux, le contexte
historique permet de fixer une période contenant la date recherchée. En effet, sachant qu’il s’agit d’un site gallo-romain, la date de dernière chauffe de ce four ne peut pas être antérieure à l’arrivée des Romains en Gaule. Ainsi, nous supposerons que cette date appartient à l’intervalle -52 à 1000 ans après J.-C. On va considérer que toutes les dates de l’intervalle -52 à 1000 ans sont équiprobables. Ainsi, la loi a priori sur la date de dernière chauffe du four peut être une loi uniforme sur l’intervalle de temps -52 à 1000 ans après J.-C.
Ce type d’information est important au même titre que les mesures de
datation réalisées sur les échantillons prélevés sur le site de
fouille.
On va donc construire une loi de probabilité a priori, notée $\pi$ sur le
paramètre d’intérêt noté $\theta$, qui résumera l’ensemble des
informations disponibles sur $\theta$. Cette loi de probabilité est appelée loi a priori .
On note $f(\text{observations}|\theta)$, la vraisemblance qui est
interprétée comme la loi des observations sachant $\theta$.
À l’aide de la formule de Bayes, on obtient loi a posteriori au vu des observations. La formule utilisée est la suivante :
\[
\pi( \theta | \text{observations}) = \dfrac{\pi( \theta ) \times f(
\text{observations} | \theta)}{\int \pi( \theta ) \times f( \text{observations} | \theta) \, d\theta}
\]
Cette loi a posteriori est l’estimation bayésienne
du paramètre $\theta$. Il s’agit de la mise à jour des connaissances a priori sur $\theta$ à partir des observations. Cette équation nous dit comment obtenir la densité de probabilité d’un paramètre $\theta$ inconnu (dont nous ne connaissons que la loi a priori) après avoir observé des données notées $\text{observations}$.
À partir de cette loi, on peut construire des estimateurs ponctuels
en prenant l’espérance, la médiane de cette loi, ainsi que des
intervalles de crédibilité (équivalent bayésien des intervalles de confiance).
Estimation de la date de dernière chauffe du four de potier
L’objectif est de dater la dernière chauffe du four de potier de Lezoux à partir des informations a priori et des datations faites sur les différents échantillons prélevés. On notera $\theta$ la date de dernière chauffe .
Les observations
Dans ce four de potier, différents éléments ont été prélevés et datés par différentes méthodes de datation. Ainsi, nous disposons
- d’un ensemble d’ossements contenus dans le remplissage du cendrier daté par radiocarbone
- de structures du four et d’un tesson datés par la thermoluminescence
- et de tuiles de l’alandier datées par archéomagnétisme
Au total, nous disposons de 5 datations : une datation par radiocarbone, deux par thermoluminescence et deux par archéomagnétisme (une mesure d’inclinaison, une mesure de déclinaison).
Pour le radiocarbone $^{14}C$, par exemple, la datation consiste à :
- mesurer le taux d’activité radiocarbone restant dans l’échantillon
- en déduire un âge radiocarbone $A$ (pas tout à fait réaliste) à partir de l’équation de la désintégration du $^{14}C$
- corriger cet âge grâce à une courbe de calibration, pour obtenir un âge réaliste $t$, avec une erreur $\eta$.
La figure suivante présente la courbe de calibration pour le radiocarbone.
- Calibration d’un âge radiocarbone
- La courbe en bleu représente la courbe de calibration avec un intervalle de confiance à 95% (les deux lignes grises autour de la courbe). Cette courbe décroît presque linéairement.
En bas, la densité en bleue représente la loi a posteriori de la date.
Sur la gauche, la densité en vert est la vraisemblance du modèle.
(Source ChronoModel version 1.5)
Les paramètres $A$ et $t$ sont alors reliés par la formule
\[A = g(t) + \eta,\]
où $g$ est la courbe de calibration associée au type de datation (ici le radiocarbone) et $\eta$ est une variable aléatoire gaussienne centrée
qui modélise à la fois les erreurs de mesure faites sur $A$ au laboratoire et les erreurs sur la courbe de calibration $g$.
Chaque type de datation a sa propre courbe de calibration.
Dans l’exemple du four de potier, on dispose de plusieurs 5 mesures $A_1,..., A_5$ (issues de plusieurs types, radiocarbone, archéomagnétisme, thermoluminescence...). On obtient alors les dates $t_1,..., t_5$ données par
\[ \forall i \in {1, ...5}, \, \, A_i= g_i(t_i) + \eta_i \]
où les $\eta_i$ sont encore des variables aléatoires gaussiennes centrées qui modélise à la fois les erreurs de mesure faites sur les mesures $A_i$ au laboratoire et les erreurs sur les courbes de calibration $g_i$.
L’information a priori
La dernière chauffe de ce four peut être n’importe quelle date de l’intervalle -52 ans et 1 000 ans après J-C.
Ainsi à partir de cette information, on peut définir la loi a priori du paramètre $\theta$.
\[\pi(\theta) \sim U[-52, 1000] \]
En pratique, on ne sait pas exactement comment les dates $t_1$,... $t_{5}$ se situent par rapport à la date de dernière chauffe $\theta$. La seule chose que nous savons est que les dates $t_1$,... $t_{5}$ est supposées contemporaine de $\theta$. Ainsi on modélise cette
information par la formule suivante :
\[ \forall i \in [(1, ..., 5)], t_i = \theta + \epsilon_i \\ \epsilon_i \sim N(0, \sigma_i^2) \]
$\epsilon_i $ représente l’écart ou l’erreur qu’il peut y avoir entre la date de dernière chauffe $\theta$ et la date mesurée par l’une des méthodes de datation (voir Lanos2017) .
Nous supposerons que $\epsilon_i$ suit une loi gaussienne $N(0, \sigma_i^2)$.
Le choix d’une loi symétrique s’explique par le fait que les éléments prélevés et datés peuvent être indifféremment antérieurs ou postérieurs à l’évènement d’intérêt. Ces erreurs sont de moyenne $0$, ce qui signifie que les éléments datés n’introduisent pas de biais dans l’estimation de $\theta$.
On a ainsi construit un modèle bayésien où la date
$\theta$ est le paramètre d’intérêt et où les dates $t_i$ sont des
paramètres du modèle. Ils sont introduits artificiellement pour
prendre en compte l’hypothèse de contemporanéité.
L’information a posteriori
Ayant défini la loi a priori et recueilli les observations utiles, nous avons maintenant tous les éléments pour lancer l’analyse bayésienne.
Généralement, il n’est pas possible d’obtenir la forme analytique (ou expression explicite) de la densité a posteriori car les calculs sont complexes. Cependant, on sait qu’à partir d’un échantillon de grande taille issu de la loi a posteriori, nous allons pouvoir estimer avec une bonne précision la moyenne, la variance et l’intervalle de crédibilité du paramètre d’intérêt.
Les algorithmes de Monte-Carlo par chaînes de Markov permettent d’obtenir de tels échantillons mais nécessitent l’utilisation de logiciels.
Nous avons utilisé le logiciel ChronoModel, version 1.5 [ Lanos2016 et Vibet2016], adapté à la construction de chronologies archéologiques, pour effectuer ce calcul.
- Densités a posteriori
- Densités a posteriori des paramètres du modèle bayésien implémenté dans le logiciel ChronoModel version 1.5 afin d’estimer la dernière chauffe du four de potier de Lezoux. Cette figure présente les densités a posteriori du $\theta$ (en vert - fond gris) et des dates $t_i$ (en vert - fond blanc) et les calibrations individuelles des dates $t_i$ (en noir - fond blanc).
La figure ci-dessus présente les densités a posteriori des dates $t_i$ et de la date $\theta$. La densité a posteriori de la date de dernière chauffe (première densité) est une combinaison des 5 dates calendaires issues de différentes techniques de datation.
En conclusion, on peut dire que la date de dernière chauffe a 95% de chance
d’être comprise entre 530 et 787 ans après J.-C conditionnellement aux observations. De plus, la probabilité que le paramètre $\theta$ soit postérieur à 486 ans après J.-C. (date de fin de la période gallo-romaine) est de 99%.
Conclusion
La statistique bayésienne est une méthode d’estimation en loi du paramètre $\theta$. En effet, le résultat obtenu n’est pas une seule estimation ponctuelle associée à une estimation de dispersion. L’estimation en loi permet notamment de répondre à la question : « La date de dernière chauffe du four est-elle postérieure à la date de fin de l’époque gallo-romaine ? ».
La statistique bayésienne permet aujourd’hui à de nombreux archéologues d’établir des chronologies d’évènements archéologiques.
Références
[Menessier1995]
Menessier-Jouannet, C. and Bucur, I. and Evin, J. and Lanos, P. and Miallier, D., Convergence de la typologie de céramiques et de trois méthodes chronométriques pour la datation d’un four de potier à Lezoux (Puy-de-Dôme), Revue d’archéométrie, 1995
[Lanos2015]
Lanos, P. and Philippe, A., Event model : a robust Bayesian tool for chronological modeling, HAL, 2015
[Robert2006]
Robert, Christian, Le choix bayésien : Principes et pratique, Springer Science & Business Media, 2006
[Lanos2017]
Lanos, P. and Philippe, A., Hierarchical Bayesian modeling for combining Dates in archaeological context, Journal de la Société Française de Statistique, 2017
[Lanos2016]
Lanos, P. and Philippe, A. and H. Lanos
and P. Dufresne, Chronomodel : Chronological Modelling of
Archaeological Data using Bayesian Statistics (Version 1.5)., http://www.chronomodel.fr, 2016
[Vibet2016]
Vibet, M-A and Philippe, A. and Lanos, P. and
Dufresne, P., ChronoModel V1.5 User’s manual, http://www.chronomodel.fr, 2016
Les auteurs remercient A. Desbat, chercheur en archéologie et céramologie au laboratoire ARAR, de nous avoir fourni des images pour illustrer ce texte.
Ils remercient également les relecteurs Gérard Grancher, Avner Bar-Hen, Rachidstat, Samuel Tapie et l’éditeur Romain Dujardin.
Les travaux du second auteur sont partiellement soutenus par le
programme régional DéfiMaths, région Pays de la Loire.
Partager cet article
Pour citer cet article :
Anne Philippe, Marie-Anne Vibet — «Statistique bayésienne et archéologie» — Images des Mathématiques, CNRS, 2017
Laisser un commentaire
Actualités des maths
-
5 mars 2023Maths en scène : Printemps des mathématiques (3-31 mars)
-
6 février 2023Journées nationales de l’APMEP, appel à ateliers (9/4)
-
20 janvier 2023Le vote électronique - les défis du secret et de la transparence (Nancy, 26/1)
-
17 novembre 2022Du café aux mathématiques : conférence de Hugo Duminil-Copin (Nancy et streaming, 24/11)
-
16 septembre 2022Modélisation et simulation numérique d’instruments de musique (Nancy & streaming, 22/9)
-
11 mai 2022Printemps des cimetières
Commentaire sur l'article
Voir tous les messages - Retourner à l'article
Statistique bayésienne et archéologie
le 24 avril 2017 à 18:27, par Thomas Sauvaget