L’idée de « Mathématiques et langages » conduit à s’interroger sur le lien avec un langage particulier, celui que nous utilisons tous les jours pour communiquer. En français nous parlons de langue plutôt que de langage, mais l’ambiguïté est plus forte en anglais où nous parlons de language et de natural language. La volonté d’étudier systématiquement notre langage est une motivation ancienne, qui est à l’origine des travaux en linguistique. Mais l’apparition des machines à calculer a largement motivé les développements spécifiques à l’analyse de la langue.
Au milieu du vingtième siècle, le linguiste Noam Chomsky (même s’il n’est pas seulement connu pour ses travaux en linguistique) propose une formulation calculatoire explicite pour reconnaître les structures internes de la langue. Cette dynamique sera reprise par exemple par Richard Montague pour l’analyse de la sémantique de la langue. Son célèbre article “English as a formal language” débute par : “I reject the contention that an important theoretical difference exists between formal and natural languages.” (« Je rejette la thèse selon laquelle il existe une différence théorique importante entre les langages formels et les langues naturelles. ») On voit bien apparaître l’idée qu’il faut appréhender la langue par le biais de la modélisation mathématique.
Dans la même voie, Noam Chomsky a proposé une caractérisation des langages formels qui a conduit à la définition de la hiérarchie de Chomsky-Schützenberger. Il y définit les classes comme des modèles possibles pour la description des propriétés structurelles des langues naturelles. Noam Chomsky et Marcel-Paul Schtüzenberger sont des pionniers de la théorie des langages, et tout cela est motivé par la question de la langue naturelle.
La relation entre linguistique et modélisation formelle est ancienne et d’autant plus riche que l’informatique permet de mettre en œuvre explicitement la seconde. D’ailleurs, les approches mathématiques ont également influencé la manière dont nous avons appréhendé la langue. Au sortir de la Seconde Guerre mondiale, la formalisation est très influencée par le problème de la traduction automatique, à l’origine pour identifier les informations contenues dans les messages transmis. Dans ce cas, le message exprimé dans une langue est transformé par une fonction mathématique, et seule l’application d’une autre fonction permettra de retrouver le contenu originel. La traduction est donc le résultat d’une transformation par une fonction mathématique d’un message. Évidemment cette approche est trop réductrice en ce qu’elle oublie qu’il s’agit là de la langue, soit une aptitude très spécifique des humains. Il a fallu considérer avec plus de sérieux les propriétés linguistiques pour obtenir des systèmes plus efficaces.
Aujourd’hui, les appareils numériques ayant pris une place considérable dans nos vies, des interfaces en langue naturelle permettent d’avoir des interactions bien plus fluides. Pour y parvenir, il nous faut encore travailler à mathématiser la langue pour développer des solutions efficaces.
Post-scriptum
Ce texte appartient au dossier thématique « Mathématiques et langages ».
Article édité par Jérôme Germoni.