Monde de la recherche 3 commentaires

Evaluer l’activité de recherche en sciences mathématiques : quelques principes et beaucoup de lecture

Le 20 février 2010, par Fabrice Planchon

Professeur à l'Université de Nice Sophia-Antipolis, laboratoire Jean-Alexandre Dieudonné (page web)

Le présent texte est, pour une grande part, inspiré d’un texte écrit par trois mathématiciens australiens, A. Carey, M. Cowling and P. Taylor, en 2006, dans le cadre d’une réflexion menée par le ministère de la recherche australien sur les indicateurs de qualité. Ce texte, publié ultérieurement par la gazette mathématique australienne, a été traduit en français par S. Cordier et publié dans Matapli (p. 37).

On peut dire sans se tromper que la quasi-totalité de l’activité de recherche en sciences mathématiques (on entend ici un ensemble de domaines qui va des plus fondamentaux aux plus appliqués, et notamment les interactions avec les autres sciences et les industriels) est évaluée par des comités. Ces comités sont divers et variés, dans leur mode de constitution, leur mission et leur impact ultérieur sur l’activité évaluée, mais leur dénominateur commun est simple : ils sont formés de chercheurs en sciences mathématiques (les « peers » du « peer review »), et ces chercheurs se basent sur les travaux écrits rendant compte de l’activité pour l’évaluer. Ce constat élémentaire recouvre des situations diverses et qui pourraient paraître éloignées quand on n’y a jamais participé : un jury d’admissibilité de concours chercheur au CNRS, composé de chercheurs et d’enseignants-chercheurs (élus par leur pairs ou nommés par le ministère de la recherche sur proposition du CNRS), va lire soigneusement les dossiers des candidats, avec une attention particulière pour les travaux scientifiques, ce qui inclut la lecture détaillée d’articles publiés ou non, pour décider qui il souhaite recruter ; un comité éditorial de journal scientifique, le plus souvent constitué par cooptation, va décider de la publication d’un article qui lui est soumis sur la base de rapports de lecture détaillée qu’il aura sollicité auprès d’experts qu’il juge compétents [1] ; un comité de visite d’un laboratoire, constitué de scientifiques extérieurs (souvent pour partie étrangers), va, avant de se déplacer sur les lieux, recevoir (et lire !) un volumineux rapport d’activité rédigé par les membres du laboratoire, qui fait une synthèse plus moins détaillée des travaux poursuivis par ses équipes et leurs membres. On retiendra que ces différents comités pris en exemple ne lisent pas tous directement des travaux de recherche : ils lisent des rapports d’activité individuels (qui font la synthèse de travaux de recherche, publiés ou non), des rapports de lecture de relecteurs anonymes, des rapports d’activité de laboratoire (document de synthèse sur 4 ans qui dépasse le cadre strict des travaux de recherche). Il s’agit donc d’un système à plusieurs étages, où l’étape la plus importante, celle de la relecture d’un travail de recherche par des relecteurs anonymes choisis par un comité éditorial, vient en premier lieu, déclenchée par le chercheur qui a soumis son travail à un journal pour publication. Il s’agit là du sens historique du terme « peer review » [2], même si pour la suite de ce texte nous adoptons un sens dérivé recouvrant plus largement l’ensemble des procédés d’évaluation gérés par la communauté scientifique elle-même.

Quels que soient les travers de cette évaluation, il n’en reste pas moins qu’elle a été et demeure la pierre angulaire du fonctionnement du système académique tel qu’on le connait depuis des décennies. Pour paraphraser Churchill, le peer review est le plus mauvais des systèmes à l’exclusion de tous les autres, autrement dit on en connait les travers (nombreux) mais sa modification (règles éthiques, transparence, renouvellements, etc...) n’en change pas l’essence. La multiplication des outils de comptage efficaces (où l’on oublie parfois de réfléchir à ce qu’on compte...), l’émergence des bases de données, la volonté parfois affichée (notamment par les bailleurs de fonds) d’adopter une logique de performances plutôt que de moyens, l’impression diffuse que bon nombre de comités ne ferait finalement qu’additionner (pas toujours correctement) le nombre de publications, le montant des contrats ou l’âge des directeurs d’équipe peuvent laisser croire qu’un bon logiciel avec les bonnes données pourrait produire un résultat de qualité équivalente [3].

La complexité et la diversité des activités pratiquées en sciences mathématiques rendent une telle « utopie » complètement irréaliste ; et la même chose peut d’ailleurs être répétée dans la plupart des domaines scientifiques, dès lors que l’on considère un domaine recouvrant un champ thématique suffisamment large [4]. Nous allons décrire, sans volonté d’exhaustive, quelques activités de nature variée qui entrent en compte dans ces mystérieuses discussions de comité auxquelles on n’a pas accès (jusqu’au moment où on s’y retrouve soi-même !).

Commençons par souligner que les habitudes de publication des chercheurs en sciences mathématiques sont assez disparates, suivant les sous-domaines et les écoles diverses ; et que l’on trouve des extrêmes à quelque époque que ce soit (le logicien K. Godel a publié moins de dix articles dans la première partie du vingtième siècle, L. Euler en a publié près de mille trois siècles plus tôt. P. Erdos a lui publié près de mille cinq cents articles dans la seconde moitié du vingtième siècle, mais G. Perelman moins de dix et ses travaux sur la conjecture de Poincaré ne seront jamais publiés sous son nom dans un journal à comité de lecture). Si l’on veut bien oublier les extrêmes, en général en mathématiques on publie quelques articles par période quadriennale [5], avec des variations significatives entre sous-domaines (ici on publiera « peu » mais de longs articles, entre cinquante et cent pages fréquemment, alors que là on publiera « beaucoup » d’articles courts, dépassant rarement vingt ou trente pages). Aussi l’analyse bibliométrique brute n’a pas grand sens et son utilisation déplacée peut être néfaste, comme l’explique très bien le rapport de l’IMU sur le sujet. Il n’en reste pas moins que les publications sont l’élément naturel considéré pour l’évaluation de l’activité scientifique. La plupart sont des articles dans des journaux internationaux à comité de lecture  ; on trouve également, mais plus rarement, des actes de conférence (dans certains sous-domaines, par exemple en lien avec l’informatique, les grandes conférences internationales et leurs actes ont pris plus de valeur que les publications traditionnelles, notamment parce qu’elles peuvent réduire considérablement le délai de publication). En mathématiques peu de conférences produisent des actes et les journaux à comité de lecture restent la règle, les livres étant eux le plus souvent destinés à faire un état de l’art ou à présenter un tout cohérent, mais rarement à la publication de résultats entièrement nouveaux. L’ordre des auteurs est le plus souvent alphabétique (contrairement à d’autres champs disciplinaires où il existe des règles parfois opposées sur la pertinence de l’ordre), et cela reflète une tradition bien établie qui veut qu’un auteur signe une publication lorsqu’il y a contribué de façon significative (là encore, d’autres domaines ont des pratiques très différentes, qui voient une longue liste d’auteurs incluant au delà des auteurs du texte les expérimentateurs, le chef d’équipe voire de laboratoire). Ceci a bien évidemment une influence sur la longueur des listes de publications, sur les taux de citation (on mentionnera également à ce sujet que la pratique en mathématique est de citer les travaux que l’on utilise ou que l’on étend, et non pas de reprendre une bibliographie exhaustive). Ces réalités pratiques donnent des indicateurs bibliométriques généralement bien plus faibles que dans des disciplines comme les sciences médicales ou la biologie [6]. En outre, il faut prendre en compte d’importants délais de publication en mathématiques [7], souvent des mois avant l’acceptation d’un article et plus d’un an voire deux avant sa mise sous presse. Ceci est d’autant plus important pour le recrutement des jeunes, pour lesquels il n’est pas rare qu’une partie non négligeable des travaux soit au stade de pré-publication (et donc, nécessite une relecture soigneuse pour garantir le sérieux du travail et sa qualité). Ces échelles temporelles se retrouvent également dans la durée de vie d’un article, qui, lorsqu’il est cité, l’est souvent pour des périodes d’une dizaine d’années ou plus (à comparer avec les deux ans après la publication utilisés dans d’autres disciplines pour construire leur facteur d’impact). Finalement, il faut souligner que même lorsqu’on a sous la main un article déjà publié (donc, a priori, validé par un comité de lecture), la qualité du journal où il est publié ou le nombre de citations qu’il a reçu ne dispense pas d’en faire une lecture substantielle si l’on veut convaincre une douzaine de collègues qu’il contient un résultat majeur. Les indices de citation sont susceptibles de variation saisonnière [8], ne serait-ce qu’en raison des volumes considérés ; la qualité des mathématiques se juge sur des temps longs, en comparaison des temps courts en usage dans d’autres disciplines.

Le nombre et le volume des contrats de recherche ont toujours été pris en considération dans les domaines des sciences mathématiques où ils étaient traditionnellement une source de financement conséquente, c’est-à-dire les applications, la modélisation, en lien notamment avec l’industrie. Lorsque qu’une pratique est relativement uniforme au sein d’une communauté, elle devient naturellement un facteur signifiant. La généralisation des financements sur projet (et les liens, parfois très directs, avec l’encadrement doctoral et post-doctoral) conduit donc ceux-ci à devenir un indicateur supplémentaire. il convient néanmoins de garder à l’esprit que n’obtiennent des financements que ceux qui les demandent [9] et que, dans de nombreux sous-domaines, on peut continuer à mener une activité de recherche d’excellence sans jamais remplir une demande de financement.

L’encadrement de doctorants mais également de post-doctorants, est un indicateur qui prend de l’importance au cours d’une carrière individuelle, et au niveau d’une structure de laboratoire, la qualité du cadre offert aux jeunes est un critère important pour mesurer l’activité du laboratoire. L’encadrement en mathématiques est le plus souvent fait de rapports très directs et réguliers entre doctorant et directeur de thèse, et ce dernier ne peut encadrer sérieusement que quelques doctorants simultanément (même si ce peut être sur des sujets complètement différents). Le co-encadrement, s’il est pratiqué notamment avec l’étranger mais également pour permettre à des jeunes non encore habilités à diriger des recherches de pratiquer, n’atteint pas la forme industrielle pratiquée dans d’autres disciplines (où le travail en grosse équipe hiérarchisée fait sens). Pour illustrer le rapport à l’évaluation, soulignons qu’il est aujourd’hui très rare que le CNRS recrute un directeur de recherche qui n’ait pas déjà dirigé quelques doctorants : il ne s’agit pas de textes (qui, contrairement à ceux régissant les recrutements de professeurs des universités, n’exigent pas de procédure de qualification et d’habilitation à diriger des recherches), mais de la réalité d’un concours de recrutement où, à qualité scientifique égale, se trouveront toujours des candidats ayant dirigé des thèses...

Au delà des critères évoqués jusqu’à présent, il en existe de multiples autres, très souvent corrélés à des degrés divers aux précédents et entre eux. Citons, entre autres, les invitations dans des conférences (nationales, internationales) ; les invitations par d’autres institutions académiques pour des périodes plus ou moins longues (année sabbatique dans une autre université ; l’invitation dans un institut de recherche à programme thématique, comme l’IAS, le MSRI, l’IHÉS, l’institut Mittag-Leffler, l’IHP et bien d’autres ; les prix scientifiques ; la participation à des comités (de journaux, d’organisation ou de programme de conférences, de recrutement, d’évaluation...) ; la qualité et la diversité des collaborations (un critère pour lequel les avis sont parfois très divergents...) ; la production de logiciels ultérieurement d’usage répandu ; l’obtention de brevets ; les activités de communication (de nos jours on ne dit plus vulgarisation : il n’en reste pas moins qu’en mathématiques, cette activité n’est que rarement reconnue à sa juste valeur pour ceux qui l’exercent, parfois, souvent, avec un art consommé).

Pour conclure, une évaluation, c’est un processus qui peut comprendre beaucoup de lectures à la lampe de chevet pour les évaluateurs, et qui se termine (pour eux) par une réunion où l’enjeu sera de faire un compte-rendu de lecture, mais également de savoir écouter ceux des autres (on remplacera compte-rendus de lecture par impression de la visite d’évaluation si besoin, etc) ; cela suppose pour l’évaluateur qu’il ait l’envie d’entendre parler d’autre chose que ce dont il est le spécialiste (et qui l’a fait arriver là), qu’il soit prêt à s’adapter à des pratiques diverses pas toujours en phase avec les siennes, qu’il accepte de se ranger gracieusement à l’avis qui n’est pas le sien quand il n’a plus d’argument, et qu’il endosse une forme de responsabilité collective une fois les décisions prises. Le jour où le logiciel Excel passera le test de Turing il sera temps d’envisager de lui confier l’évaluation.

Notes

[1J’ai ouïe dire qu’un éditeur sérieux fait souvent plus que jeter un coup d’œil aux articles qu’il traite, d’autant qu’il devra convaincre ses collègues éditeurs du bien-fondé qu’il y a à suivre les recommandations des relecteurs, si du moins elles sont positives ; autrement dit, là où un avis mitigé ou négatif signe quasiment le rejet, des avis positifs doivent être en plus argumentés, par exemple lorsqu’il y a trop d’articles soumis...

[2Qu’on traduit généralement par l’« évaluation par les pairs ». Ce système est généralement considéré comme étant apparu au dix-septième siècle en Angleterre, mais ne s’est répandu dans tous les domaines scientifiques que dans le courant du vingtième.

[3Cela ne dispense pas, bien au contraire, de disposer de données chiffrées, qu’on peut analyser de manière statistique, ou simplement utiliser comme point de référence, en particulier dans des discussions interdisciplinaires : imaginons qu’on veut promouvoir un mathématicien dans une réunion où les physiciens sont majoritaires. Si le président de séance invoque le nombre de citations comparativement faible du mathématicien, il n’est pas inutile d’avoir une idée de la taille de la communauté dont il fait partie, des taux de citation moyens/médians, d’exemples connus (Médailles Fields) ayant des taux comparables, etc ; l’expérience montre que c’est efficace, en tout cas plus que chanter la sempiternelle ritournelle de l’exception des mathématiques. On pourra utilement consulter le texte d’un exposé de M. Bonneville et N. Haeffner-Cavaillon lors d’un colloque à l’académie des sciences en 2007, utilité et limites des indicateurs bibliométriques pour l’évaluation de la performance académique dans le domaine biomédical, qui définit les notions courantes comme facteur d’impact ou taux de citation, et donne un intéressant panorama de l’utilisation de ces indicateurs dans l’évaluation individuelle.

[4De nouveau, dans une situation où l’on est amené à comparer des champs disciplinaires différents, des indicateurs chiffrés bien définis et ayant le même sens pour tous les interlocuteurs peuvent être un bon moyen de cadrer les comparaisons. Mais il ne s’agit plus d’évaluation scientifique, il s’agit d’interclasser des individus ou des groupes ou des projets qui ont déjà été évalués au niveau précédent. Autre sujet d’article...

[5Période de quatre ans qui correspond en France à la fréquence d’évaluation des laboratoires de recherche.

[6On retrouve ici l’intérêt qu’il y a à comprendre et analyser l’engouement de certaines autres disciplines pour les indicateurs chiffrés, si l’on veut qu’ils soient diversifiés et correctement utilisés comme outils parmi bien d’autres et non comme substitut à l’évaluation.

[7On peut y voir, au choix, un gage du sérieux de la relecture ou une mesure de l’échec à traiter correctement le volume des publications soumises...

[8L’AMS permet de visualiser les cent journaux à plus fort MCQ (une forme d’indice de citation) annuel, dans sa base de données Math Reviews, entre 2000 et 2008 : la réunion de ces 8x100 journaux contient 165 journaux après tri. Le même exercice avec les seuls 10 premiers donne 18 journaux, et 6 d’entre-eux sont présents chaque année...

[9Plus exactement, 10 à 20% d’entre eux... lorsque la logique de distribution est de financer « les meilleurs », définis comme les 10% supérieurs. Dans une discipline où les besoins matériels sont sans comparaison avec les sciences expérimentales et dont les standards de comparaison sont mondiaux, on peut s’interroger sur la pertinence d’une telle logique.

Commentaires sur l'article

Pour citer cet article : Fabrice Planchon, « Evaluer l’activité de recherche en sciences mathématiques : quelques principes et beaucoup de lecture »Images des Mathématiques, CNRS, 2010. En ligne, URL : http://images.math.cnrs.fr/Evaluer-l-activite-de-recherche-en.html