La classification des textes

Publié le 28 mars 2011
Bien illustré
> 30 minutes

Comment identifier l’auteur d’un texte d’origine douteuse ou inconnue ? Les anglo-saxons se passionnent pour cette question connue sous le nom de « Authorship attribution ». Depuis la première étude que le statisticien américain Mendehall a consacrée en 1887 à la longueur des mots chez Shakespeare, Bacon et Marlowe, les statistiques appliquées tiennent une place importante.

Nous proposons ici de considérer la recherche de l’auteur d’un texte comme un cas particulier d’une question plus générale : Comment trouver le meilleur classement possible au sein d’une vaste collection de textes écrits dans une même langue ?

Lire l’article en ligne

 

ÉCRIT PAR

Dominique Labbé

Maître de conférences retraité - Institut d'Etudes Politiques de Grenoble

Cyril Labbé

Professeur - Université Paris Cité

Partager