Mathématiques et langage : le feuilleton de l’été

Analyse textuelle

Comment la statistique décortique des œuvres littéraires

Le 21 juillet 2017  - Ecrit par  François Husson Voir les commentaires (5)

Est-il possible, à partir des œuvres de plusieurs écrivains, de retrouver les courants de pensées ou les genres littéraires auxquels ils appartiennent ? Dit autrement, peut-on regrouper les auteurs qui s’intéressent aux mêmes sujets, aux mêmes thématiques ? Une possibilité est bien sûr de faire ce que l’on a appris en cours de français et de lire l’ensemble des œuvres littéraires avant de les comparer pour faire ressortir des groupes d’auteurs d’un même courant ou d’un même genre. Mais comment faire si l’on doit trier 18 auteurs à partir de leurs 317 œuvres ?

Et si l’on faisait appel aux mathématiques ou plus exactement à la statistique ? Au premier abord, on peut se demander ce que vient faire la statistique ici puisque l’on ne dispose que des auteurs et de leurs œuvres littéraires, et donc pas du moindre nombre !

PNG - 14 ko

Cependant, grâce à des logiciels et aux œuvres au format numérique, on peut compter, pour chaque auteur, le nombre d’occurrences de chaque mot de la langue française. On obtient ainsi un tableau croisant les auteurs et les mots (et dans une case le nombre de fois où tel mot est employé par tel auteur). L’idée est alors de considérer que les auteurs qui emploient les mêmes mots dans des proportions similaires s’intéressent aux mêmes sujets et ont les mêmes préoccupations.

À partir de ce principe simple et du tableau ci-dessus, la statistique propose une méthode de visualisation des données pour faire l’analyse textuelle. Les auteurs sont alors positionnés sur un plan (cf. figure ci-dessous) de sorte que deux auteurs qui emploient globalement les mots dans des proportions équivalentes sont proches tandis qu’ils sont éloignés si au contraire ils emploient des mots très différents.

PNG - 92.6 ko

Ainsi Corneille et Racine sont proches et ils sont très différents (car très éloignés) de Zola. En effet, Corneille et Racine sont deux auteurs particulièrement classiques du XVIIe tandis que Zola est un naturaliste du XIXe. Stendhal et Balzac, des réalistes, sont très éloignés de Lamartine qui est un romantique. On retrouve ici que les auteurs réalistes ont un point commun : s’éloigner des excès romantiques ! On détecte ainsi une évolution du vocabulaire choisi selon les auteurs, mais aussi selon les siècles et les courants littéraires.

PNG - 149.8 ko

Une fois les auteurs placés, aidons-nous des mots qu’ils emploient plus fréquemment que les autres auteurs pour connaître leurs sujets de prédilection. Les mots peuvent être placés sur le même plan que les auteurs, mais par souci de lisibilité, ils sont ici reproduits sur un nouveau plan. Le code couleur utilisé est le même dans les deux plans, ainsi on peut voir que Corneille et Racine sur-emploient des mots comme états, alarme, ingrat, vainqueur, victoire, qui sont des mots relatifs aux tragédies qu’ils écrivent. Zola est quant à lui ancré dans le réel puisqu’il utilise des mots comme linge, poing, satin, trottoir. Lamartine, le romantique, utilise beaucoup de termes évoquant la nature : vallée, roc, sentier, rocher, torrent, etc. On retrouve ainsi les particularités des thèmes qui caractérisent chaque courant.

Notons bien que l’analyse réalisée ci-dessus est automatique et que les plans sont construits uniquement à partir du tableau d’occurrences, sans utiliser à aucun moment le sens des mots. Ainsi, on aurait pu aussi facilement travailler sur des œuvres littéraires allemandes et comparer les œuvres de Goethe, Kant, Nietzsche et autres... sans avoir jamais appris le moindre mot d’allemand !

La technique présentée ici permet au linguiste d’aborder des corpus de textes importants, mais elle peut aussi lui permettre d’analyser une œuvre, par exemple chapitre par chapitre ou encore personnage par personnage. C’est donc un outil avant, bien sûr, de regarder plus en détail l’analyse pour approfondir l’étude.

Post-scriptum :

Ce texte appartient au dossier thématique « Mathématiques et langages ».

Article édité par Jérôme Germoni

Partager cet article

Pour citer cet article :

François Husson — «Analyse textuelle» — Images des Mathématiques, CNRS, 2017

Commentaire sur l'article

  • Analyse textuelle

    le 21 juillet à 09:28, par Pierre-Antoine Guihéneuf

    Bonjour,

    Je serais curieux de savoir comment placer les auteurs et mots dans le plan. Est-ce que c’est facile à expliquer ? Est-ce que ce plan a un nom mathématique ?

    Répondre à ce message
    • Analyse textuelle

      le 23 juillet à 07:18, par nicolasL

      Il me semble qu’il s’agit d’une Analyse en Composante Principale. Selon ce principe chaque auteur est représenté dans un espace de de dimension N, les coordonées de chaque auteur dans cet espace sont le nombre d’occurence pour le mot n1, n2 ... nN.
      A partir du nuage de point qu’on obtient on cherche deux vecteurs qui représentent au mieux ce nuage de point. (là c’est technique). Ces deux vecteurs servent ensuite à former le plan.

      Répondre à ce message
      • Analyse textuelle

        le 23 juillet à 18:47, par François Husson

        Bonjour

        En fait il s’agit d’une analyse factorielle des correspondance (AFC). Le principe est proche de l’analyse en composantes principales mais ce n’est pas équivalent, et c’est tout à doit adapté à l’analyse textuelle.

        Si vous voulez en savoir plus sur ces méthodes vous trouverez ici des vidéos de cours décrivant acp Afc et autres méthodes.
        http://math.agrocampus-ouest.fr/infoglueDeliverLive/membres/Francois.Husson/enseignement#AnaDo

        Bonne visualisation

        FH

        Répondre à ce message
  • Analyse textuelle

    le 23 juillet à 09:35, par Maï Huong Pham-Sauvageot

    Chers lecteurs,

    merci pour vos commentaires et questions.
    L’auteur ne manquera pas de vous répondre fin août après une pause estivale !

    Cordialement,
    Maï Sauvageot
    Secrétariat de rédaction
    Carole Gaboriau et Maï Sauvageot

    Répondre à ce message
  • Analyse textuelle

    le 3 août à 19:37, par Vincent Beffara

    Bonjour,

    Merci pour ce joli texte !

    Pour info, le système de suggestion d’articles reliés sur ce site (en bas de chaque page) fonctionne sur un principe similaire, il propose les trois articles utilisant le vocabulaire le plus proche de celui de l’article courant. Des fois ça ne marche pas vraiment bien, mais en général ça tombe assez juste : par exemple là il propose « la classification de textes »

    Ce serait instructif de voir ce que cette représentation graphique indiquerait sur le contenu d’Images des Maths ! On peut en parler, ça ferait un projet intéressant ...

    Vincent (qui a codé le système de suggestion mais ne connaît rien à la théorie qui va avec)

    Répondre à ce message

Laisser un commentaire

Forum sur abonnement

Pour participer à ce forum, vous devez vous enregistrer au préalable. Merci d’indiquer ci-dessous l’identifiant personnel qui vous a été fourni. Si vous n’êtes pas enregistré, vous devez vous inscrire.

Connexions’inscriremot de passe oublié ?

Dossiers

Cet article fait partie du dossier «Mathématiques et langages» voir le dossier

Suivre IDM