PopLang : effet des populations sur les langues

Écrit par Jérôme Germoni

Publié le 1er décembre 2017

$Sujets$

Maths et langage

Comprendre la dynamique des populations et la transmission des langues : tel était le thème de la conférence interdisciplinaire et internationale PopLang, qui s’est déroulée lundi 20 novembre à l’université de Lyon.

Au début du XX^e siècle, plus de six mille langues étaient parlées dans le monde. Plus de la moitié, peut-être neuf dixièmes d’entre elles seraient menacées d’extinction avant la fin du XXI^e siècle ¹ ! Comme nombre d’entre elles sont exclusivement orales, les connaissances et les cultures qui leur sont associées sont vouées à disparaître en même temps que les derniers locuteurs. Voici un exemple précis : dans certaines régions rurales du Pérou, les enfants d’aujourd’hui n’apprennent que le castillan, langue qui leur permettra de trouver un travail (souvent loin de leur village), et ne peuvent plus parler avec leurs grands-parents qui ne maîtrisent que le quechua. Pour les organisateurs de la conférence, « comprendre et protéger activement la vitalité des langues semble être un défi majeur pour conserver l’héritage culturel mondial ». Leur espoir est que la modélisation des phénomènes puisse conduire à des prédictions fiables et suggérer des politiques efficaces.

Évolution du bilinguisme

Depuis une quinzaine d’années, quelques dizaines de mathématiciens se penchent sur la dynamique des langues. Le point de départ de la théorie est l’article fondateur “Linguistics : Modelling the dynamics of language death” de Daniel M. Abrams & Steven H. Strogatz, paru dans Nature en 2003 ². Les auteurs introduisent un modèle à l’échelle d’une région ou d’un pays où deux langues sont en compétition. Leurs exemples de référence sont l’anglais et le gaélique en Écosse, le castillan et le quechua au Pérou, l’anglais et le gallois au Pays de Galles… Ils étudient les proportions $x(t)$ et $y(t)$ de la population qui parlent une langue ou l’autre à un temps $t$. À chaque instant, une partie de la population est susceptible de changer de langue, avec une probabilité qui dépend de la taille de la population et d’un « statut » (un nombre compris entre $0$ et $1$ qui tente de décrire l’attractivité de la langue selon des critères sociaux ou culturels). Cela donne lieu à un système d’équations différentielles que l’on peut étudier mathématiquement.

Bien sûr, le modèle d’Abrams et Srogatz est excessivement simpliste : il ne tient pas compte des personnes bilingues, des variations de la population, des variations géographiques à l’intérieur de leur région de référence… Pourtant, en ajustant les paramètres numériques de leur modèle, ils arrivent à rendre compte de façon crédible de l’évolution des langues dans les exemples qu’ils étudient (Écosse, Pérou, etc.). Leurs prédictions sont alarmantes : leur modèle conduit systématiquement à l’extinction de la langue la moins représentée.

Une quinzaine d’années après, les exposés de la matinée ont présenté des variantes de ce modèle, enrichies de plusieurs façons :

prise en compte de la population bilingue : cela fait apparaître de nouveaux points d’équilibres où les deux langues peuvent coexister ;
prise en compte des variations géographiques : en Écosse, le gaélique, qui est la langue des Highlands, n’a jamais été massivement parlé dans les Lowlands et la répartition spatiale est très hétérogène ;
prise en compte de la démographie ; c’est là la principale innovation de mes collègues lyonnais (cocorico !), qui ont en tête l’épisode appelé la Revanche des landaus : à la fin du XVIII^e siècle, les Canadiens-français ont collectivement décidé de faire plus d’enfants pour que la forte proportion de francophones empêche l’assimilation ou la discrimination par les anglophones.

Autres problématiques

Des questions très différentes ont occupé l’après-midi. Le premier exposé portait sur une modification de la prononciation des sons /r/, roulés [r] ou uvulaires [R], en quelques dizaines d’années en Flandre. La tendance est de les rouler de moins en moins dans certaines zones, sous l’influence du français : près de la frontière linguistique avec la Wallonie, à cause de la fréquentation de francophones, et dans la région de Gand, où la bourgeoisie parle traditionnellement le français.

La loi empirique de Zipf, observée dans un grand nombre de corpus, suggère que la fréquence d’utilisation d’un mot est inversement proportionnelle à son rang. Par exemple, dans Ulysse de James Joyce, le premier mot est employé environ 8000 fois, le dixième 800 fois, etc. Le deuxième orateur de l’après-midi a montré que dans des corpus spécialisés, cette loi n’était pas pertinente et devait être remplacée par une loi exponentielle, dans laquelle la fréquence d’apparition est proportionnelle à l’exponentielle du rang. Cela rend le lexique plus discriminant, plus efficace pour transmettre l’information. Il en est ainsi pour le premier nom des gens dans les langues qu’il a examinées (le prénom en anglais, le nom de famille en chinois ou en coréen) ou pour les noms communs dans des domaines précis (couleurs, habits, mammifères, jouets, etc.). Ce choix des noms traduit donc une auto-organisation de la langue et une optimisation collective.

Les deux derniers exposés portaient sur l’étude du lexique grâce aux techniques de big data, à partir du flot immense des messages de Twitter. Il est ainsi possible de détecter deux « macrovariétés » : l’espagnol des centres urbains, assez homogène dans le monde, et l’espagnol rural, plus divers, spécialisé selon les endroits. L’espagnol « urbain » se coupe à son tour en trois zones : Espagne et îles ; Amérique centrale et nord de l’Amérique du sud ; Chili et Argentine. Cela rejoint une étude de référence de Philippe Cahuzac de 1980. Ce qui est intéressant ici, ce n’est donc pas la découverte de la répartition en zones dialectales mais le fait que les méthodes statistiques permettent de les détecter. Le dernier exposé mettait en regard les forces économiques et linguistiques et la variation linguistique sur Twitter, avec pour objectif d’apprendre à détecter automatiquement le groupe socio-économique d’un twitto.

Comme on le constate, les problématiques et les méthodes présentées dans la conférence étaient variées. Du fait de l’interdisciplinarité et de la variété des participants, les contenus techniques étaient rendus accessibles aux curieux, ce qui rendait la journée passionnante. Pour les organisateurs, « ce domaine qui offre des perspectives inédites pour les linguistes et de nombreux champs d’applications pour les mathématiciens reste encore bien timide. [Ils espèrent] toutefois que ce premier workshop servira de tremplin vers des collaborations nouvelles et fortes entre ces deux communautés, afin de mieux comprendre les mécanismes derrière l’apprentissage et la transmission des langues et peut-être de sauver certaines d’entre elles en voie de disparition. »

Post-scriptum

Le site de la conférence PopLang.

Ce texte appartient au dossier thématique “Maths et langage”.

Commentaires

Écrire un commentaire

Il est possible d’utiliser des commandes LaTeX pour rédiger des commentaires — mais nous ne recommandons pas d’en abuser ! Les formules mathématiques doivent être composées avec les balises .
Par exemple, on pourra écrire que sont les deux solutions complexes de l’équation .

Si vous souhaitez ajouter une figure ou déposer un fichier ou pour toute autre question, merci de vous adresser au secrétariat.