À propos des mathématiques comme pilier invisible mais fondamental de l’identification moléculaire et du traitement de la maladie du Covid-19

Publié le 20 juin 2020

Les mathématiques apportent une contribution implicite mais décisive en termes de caractérisation moléculaire des bactéries et des virus (en particulier les coronavirus) à travers la génomique et la bioinformatique dont elles constituent l’un des piliers fondamentaux. Les mathématiques sont aussi présentes en arrière-plan dans les essais cliniques en général et en particulier dans la controverse méthodologique en cours sur le traitement approprié de la maladie du Covid-19. Les mathématiques sont alors à l’image des fondations d’un bâtiment qui ne sont pas visibles, enfouies dans les profondeurs terrestres mais qui sont pourtant indispensables pour tenir littéralement la structure. Nous présenterons alors dans la suite une esquisse sur les deux aspects susmentionnés de l’apport des mathématiques à la lutte contre la maladie du covid-19. Nous conclurons alors par quelques autres domaines mathématiques nouveaux ou liés à la bioinformatique et aux essais cliniques, susceptibles d’être dans un futur proche au cœur de la prévention et du traitement de la maladie du Covid-19 de notre point de vue.

INTRODUCTION

La pandémie causée par la maladie du coronavirus (Covid-19) est en cours avec son lot de morts. Face à cette urgence multidimensionnelle, les scientifiques sont au premier plan et sont parfois sommés de proposer une solution. Ils sont alors confrontés à un dilemme cornélien, à la quadrature du cercle. En effet, la science au propre comme au figuré a besoin de temps, de recul, de distance, de distanciation par rapport à un phénomène pour pouvoir l’embrasser sous tous les angles et comprendre ainsi ses mécanismes, sa dynamique.

En particulier, les mathématiciens au sens large, et surtout les statisticiens ou épidémiologistes, sont priés d’estimer à partir de leurs modèles les paramètres déterminant la dynamique et la gestion logistique de la pandémie. Ce qui donnerait aux décideurs des outils de décision et leur permettrait de pouvoir ainsi contrôler la propagation de la maladie en se basant par exemple sur la courbe épidémique du Covid-19 qu’il s’agira d’aplatir ou le taux de reproduction de base. Ce dernier est un paramètre clé des modèles épidémiologiques dits compartimentaux, permettant de déterminer la persistance (s’il est supérieur à 1) ou l’extinction (s’il est inférieur à 1) d’une épidémie ¹. Or, en ce qui concerne la maladie du Covid-19, les hypothèses des modèles mathématiques ou même biologiques ne sont pas toujours complètes ou alors sont en constante évolution, car la maladie n’est pas totalement comprise. Toutefois, le rôle clé de la modélisation mathématique déterministe ou stochastique des épidémies est explicitement revenu au premier plan.

Mais, en réalité les mathématiques apportent déjà une contribution implicite mais décisive en termes de caractérisation moléculaire des virus et bactéries à travers la génomique et la bioinformatique dont elles constituent l’un des piliers fondamentaux. Les mathématiques sont aussi présentes en arrière-plan dans les essais cliniques en général et en particulier dans la controverse méthodologique en cours sur le traitement approprié de la maladie du Covid-19 ². Nous présenterons alors dans la suite une esquisse sur les deux aspects susmentionnés de l’apport des mathématiques à la lutte contre la maladie du coronavirus.

De manière plus précise, dans la première partie, nous commencerons par rappeler l’importance de la génomique, de la bioinformatique, des banques de données génomiques et des métadonnées dans l’identification moléculaire du virus. Puis nous évoquerons synthétiquement les modèles mathématiques et les mathématiciens pionniers et piliers de la modélisation de l’alignement des séquences génomiques qui est la tâche la plus importante de la génomique et de la bioinformatique.

Dans une deuxième partie, nous aborderons brièvement la contribution des mathématiques aux essais cliniques classiques et non conventionnels à travers essentiellement les mathématiciens à l’origine ou au cœur des essais cliniques. Nous conclurons alors par quelques autres domaines mathématiques nouveaux ou liés à la bioinformatique et aux essais cliniques, susceptibles d’être dans un futur proche au cœur de la prévention et du traitement de la maladie du Covid-19 de notre point de vue.

Identification moléculaire du Covid-19, banques de données génomiques, bioinformatique et métadonnées

Toutes les analyses bioinformatiques de la médecine moléculaire, faites dans les structures hospitalières de Wuhan (Chine) pour la caractérisation du Covid-19 ont reposé essentiellement sur la comparaison des séquences nucléiques (ADN, ARN) ³ ou protéiques (acides aminés) du virus Covid-19 avec celles de très nombreux organismes ⁴, stockées dans les banques de données biologiques comme GeneBank du NIH/NCBI associé à l’EMBL (European Molecular Biology Laboratory), Swiss-prot de la Suisse et beaucoup d’autres. Ces gigantesques bases de données biologiques, quintessence des métadonnées ou Big Data sont peu ou prou l’aboutissement du projet de séquençage du génome humain, le fameux « Human Genome Project », qui avait suscité un engouement et une effervescence scientifique inouïe il y a une vingtaine d’années. Le « Human Genome Project » a consacré la transition de la génétique classique, mendélienne, quasiment monogénique vers la génétique à grande échelle ou génomique d’où l’intersection de cette dernière avec les mathématiques et l’informatique. Le séquençage du génome humain (et accessoirement de ceux des autres organismes animaux ou végétaux) impacte et impactera tous les domaines scientifiques et sociétaux à travers entre autres la bioinformatique et la génomique.

La génomique est donc l’étude de milliers de gènes en même temps contrairement à la génétique classique. Du fait de la très grande masse de données (séquences nucléiques, protéiques, expression des gènes, images et données associées, voies métaboliques, réseaux de gènes, etc. ) qu’elle utilise et génère, la génomique est au cœur du Big data et de l’intelligence artificielle. Elle a été décisive dans l’avènement de la bioinformatique, et l’est dans la montée en puissance de la médecine personnalisée. La bioinformatique est l’application des mathématiques, de l’informatique, de la chimie, et de la physique à la biologie moléculaire ⁵. La génomique a bénéficié de la bioinformatique et réciproquement. Les deux n’auraient pas pu éclore sans l’apport décisif des mathématiques. Ces dernières sont à l’image des fondations d’un bâtiment qui ne sont pas visibles, enfouies dans les profondeurs terrestres mais qui sont pourtant indispensables pour tenir littéralement la structure.

Modèles mathématiques et mathématiciens pionniers incontournables de l’alignement des séquences génomiques et du séquençage

Toutes les comparaisons nucléiques, protéiques, les analyses phylogénétiques, la recherche de régions codantes ou gènes etc., utilisées en génomique et en bioinformatique en général et pour la caractérisation moléculaire du Covid-19 en particulier, sont faites grâce à de puissants algorithmes d’alignement des séquences nucléiques ou protéiques. L’alignement des séquences génomiques (qui sont des chaînes de caractères comme les A, T, C, G constituant l’ADN, les U, T, C, G constituant l’ARN ou les 20 symboles des acides aminés pour les protéines), consiste à trouver la correspondance optimale (matching ou appariement) entre ces dernières afin de mettre en exergue leur similarité. Il est considéré comme la tâche la plus fondamentale de la bioinformatique. Cet alignement peut être global ou local selon qu’on compare deux séquences entières ou leurs parties (segments). Il peut être multiple si l’on compare plusieurs séquences (ADNs de plusieurs organismes par exemple) entre elles. Cet alignement est mesuré par un score.

Par exemple en attribuant comme score +1 pour une correspondance parfaite (appariement parfait) entre deux caractères et -1 pour une absence de similarité, le score de l’alignement global des deux séquences ATCC et ATCG (chacune de longueur 4) est s=s(A,A)+s(T,T)+s(C,C)+s(C,G)=1+1+1-1=2. L’alignement entre deux séquences est représenté conventionnellement comme suit avec une barre verticale représentant un appariement c’est-à-dire une correspondance parfaite entre deux caractères (nucléotides ou acides aminés) et un symbole – représentant une insertion (nucléotide ou acide aminé insérée entre deux nucléotides ou deux acides aminés) ou une délétion (disparition de nucléotide ou d’acide aminé) : ⁶

A T C C
| | |
A T C G

En réalité, les scores attribués aux correspondances parfaites ou à l’absence d’appariement, sont déterminés minutieusement en intégrant des hypothèses biologiques évolutives relatives à la probabilité de survenue d’une mutation par exemple. Ce qui donne des matrices de score dites matrices de similarité ou matrices de substitution dont la plus utilisée (pour l’alignement des protéines) est la matrice BLOSUM62.

Les algorithmes d’alignement des séquences sont naturellement la résultante des modèles mathématiques. Les méthodes mathématiques à la base des algorithmes d’alignement des séquences ont été implémentées de manière optimale et conviviale pour donner des outils logiciels utilisés en routine par de très nombreux scientifiques (biologistes, ingénieurs, biomathématiciens, bioinformaticiens, pharmacologues, médecins, etc.). En fait, les bases de données génomiques et leurs logiciels associés (donc Internet) sont devenus des outils quotidiens de la biologie moléculaire, de la bioinformatique et de la médecine génomique entre autres, toutes devenues en partie des sciences de l’information donc des données.

L’un des logiciels de bioinformatique qui fait partie des plus connus et des plus utilisés est BLAST ⁷. Il est issu des travaux des mathématiciens Samuel Karlin ⁸ et Stephen Altschul. Ces derniers ont fourni une modélisation probabiliste de la distribution des scores des alignements locaux optimaux ⁹ aléatoires de deux séquences nucléiques ou protéiques en se basant sur la loi statistique des valeurs extrêmes. Ce faisant, leur modélisation permet d’asseoir la pertinence statistique de la similarité de deux séquences génomiques, en obtenant des alignements locaux significatifs et en calculant en particulier la probabilité d’obtenir un alignement significatif par hasard. Pratiquement, BLAST compare une séquence génomique (requête pouvant être une séquence entière ou un segment d’un génome) de fonction biologique inconnue à une base de données entière comprenant des séquences dont certaines ont des fonctions biologiques connues.

Ainsi selon Karlin et Altschul, la probabilité pour que le score $S$ de l’alignement de deux séquences (considéré comme une variable aléatoire c’est-à-dire une quantité dépendant du hasard) soit au moins égal à $x$ est :

$$ P(S >=x)=1-\exp(-Kmn\exp(-\lambda x)) $$

où $K$ et $\lambda $ sont des paramètres dépendant de la matrice des scores et des séquences de longueurs respectives $m$ et $n$.

La modélisation mathématique de Karlin et Altschul est une amélioration heuristique et efficiente en termes de temps de calcul d’outils initiaux d’alignement surtout global des séquences génomiques. Ces outils logiciels utilisant essentiellement la programmation dynamique ¹⁰ ont été proposés respectivement par des bioinformaticiens comme Needleman et Wunsch dont l’algorithme trouve un alignement global optimal entre deux séquences génomiques ; et des mathématiciens comme Smith et Waterman dont l’algorithme est une amélioration du précédent et qui trouve des alignements locaux ou globaux optimaux, mais qui est gourmand en termes de temps de calcul.

Le mathématicien ¹¹ Michael Waterman est un pionnier essentiel de la bioinformatique et des méthodes mathématiques ¹². appliquées à la biologie (Computational Biology). Son travail séminal de modélisation mathématique fait avec le mathématicien Eric Landermodélisant la cartographie des génomes, est le fondement théorique des projets de séquençage. L’alignement des séquences est encore une fois essentiel dans la phase d’assemblage des nucléotides des fragments d’ADN ou d’ARN obtenus pendant le séquençage.

Parmi les très nombreuses autres méthodes mathématiques utilisées par les logiciels d’analyse des séquences, notons l’analyse matricielle, la topologie ¹³ et la géométrie pour étudier par exemple la conformation et le repliement des protéines dont la structure tridimensionnelle détermine leur fonction biologique, et surtout les chaînes de Markov cachés pour la recherche des gènes (régions dites codantes) et les techniques de classification supervisée ou non supervisée ¹⁴ en phylogénie.

Sans les différentes théories ou modèles mathématiques et les logiciels subséquents comme BLAST ou autres, chercher toutes les paires de segments identiques entre une séquence de plusieurs milliers ou milliards de bases paires (le génome du Covid-19 a 29 903 nucléotides) contre une banque de données de 300 000 organismes ¹⁵ est une tâche titanesque, pratiquement impossible. Au delà de la caractérisation moléculaire des virus et des bactéries, la génomique et la bioinformatique sont de plus en plus utilisées dans les essais cliniques notamment pour stratifier les patients.

STATISTIQUE MATHEMATIQUE, SIMULATION STOCHASTIQUE ET ESSAIS CLINIQUES

Une autre contribution indirecte des mathématiques relativement au traitement de la maladie du coronavirus, et alimentant en filigrane la controverse sur l’utilisation ou non de la chloroquine pour sa thérapie, est l’application des procédures statistiques fréquentistes (tests d’hypothèses basées sur des échantillons de tailles importantes obtenus à partir de répétitions) ou bayésiennes (utilisation d’information ou de connaissance a priori ¹⁶) et les techniques de simulation stochastique pour la validation des essais cliniques.

Les essais cliniques modernes, quantitatifs, randomisés ont pris naissance en Angleterre sous l’impulsion du statisticien épidémiologiste Austin Bradford Hill et du géant de la statistique Ronald A. Fisher auteur du monumental ouvrage « Principes de la méthode expérimentale ». Notons que le fondateur et « grand maître » de la statistique mathématique Karl Pearson a aussi eu une influence indirecte sur le développement méthodologique des essais cliniques. Ces derniers constituent une branche des statistiques très appliquées avec parfois de très puissantes modélisations quantitatives notamment les méthodes bayésiennes introduites dans les essais cliniques par D.O Dixon et R. Simon.

Les essais cliniques comparent typiquement un groupe contrôle ¹⁷ à un groupe traitement ¹⁸, afin de tester l’effectivité d’un nouveau médicament mais aussi une nouvelle technique de diagnostic, un nouveau procédé thérapeutique etc. Ils sont divisés en 5 phases notées 0, 1, 2 et 3 et 4 visant à évaluer la toxicité, le dosage et l’efficacité du médicament. Les phases 0, 1 et 2 cherchent essentiellement à déterminer la dose maximale tolérable en augmentant progressivement la dose et en étudiant la courbe dose-toxicité. Ces phases utilisent évidemment des faibles tailles d’échantillons. La phase dite 3 est le test à grande échelle avant la mise du médicament sur le marché tandis que la phase 4 est en quelque sorte le processus d’amélioration continue du médicament.

Dans l’approche fréquentiste qui est la plus utilisée, les essais cliniques comparent une hypothèse dite nulle par exemple d’absence d’efficacité d’un traitement contre une hypothèse alternative de son efficacité en se basant sur une variable aléatoire (statistique du test), un risque de première espèce ¹⁹ et une puissance ²⁰ convenable égale à un moins le risque de seconde espèce ²¹. La statistique ²² du test mesure une différence moyenne standardisée des effets moyens pour les groupes contrôle et traitement et suit la loi de Student ou la loi normale. On rejettera donc l’hypothèse nulle si cette statistique est suffisamment éloignée de la valeur 0. Un test statistique standard utilise implicitement comme justification mathématique (probabiliste) le théorème central limite de Laplace et De Moivre.

Par rapport au traitement du Covid-19, de nombreux essais cliniques relatifs à plusieurs médicaments , sont en cours et finiront par décider dans les prochains mois de l’efficacité et de la toxicité des différentes thérapies susceptibles d’être utilisées contre la maladie. Toutefois, tous ces essais cliniques ne pourront être optimaux qu’avec une connaissance accrue de la maladie en termes de ses mécanismes, interactions et tests diagnostiques moléculaires qui permettront de personnaliser les futurs traitements. En effet, en plus du polymorphisme bien connu des patients, celui du virus est de plus en plus un fait établi et donc les essais cliniques doivent être stratifiés, ciblés et les traitements doivent idéalement être personnalisés.

De fait, dans les essais cliniques traditionnels, les patients qui ne bénéficient pas du traitement sont enrôlés et donc ces derniers occultent le bénéfice pour certains patients, à cause de l’hétérogénéité moléculaire. En clair, des tailles d’échantillons importantes et une puissance statistique inadéquate caractérisent les essais cliniques traditionnels qui concluent le plus souvent à l’inefficacité de médicaments pourtant bénéfiques pour des sous-ensembles de patients. Fort heureusement, les essais cliniques ciblés, moléculaires(Voir aussi) requérant une faible taille d’échantillon, ayant une puissance adéquate et prélude à la médecine génomique ou personnalisée sont en pleine période de maturation ²³. De plus, les techniques de simulation stochastique comme les méthodes Monte Carlo inventées par des mathématiciens du projet Manhattan comme le très éclectique prodige John Von Neumann, ont tout juste commencé à être utilisées dans les essais cliniques.

PERSPECTIVES MATHEMATIQUES RELATIVES A LA MALADIE DU CORONAVIRUS

Bien qu’étant en arrière plan, les mathématiques ont été essentielles pour décrypter le génome du virus Covid-19, le caractériser et comprendre la dynamique de la pandémie qu’il a causée. Cette contribution sera encore importante pour pouvoir complètement appréhender tous les aspects génomiques du virus. Ceci, à travers l’étude des données d’expression des gènes du Covid-19 ou des patients, mais aussi pour trouver la thérapie optimale, la valider et modéliser son métabolisme. En particulier, en termes d’épidémiologie et de distanciation sociale, les modèles compartimentaux intégrant les interventions dites non pharmaceutiques seront cruciaux ²⁴ d’une part. D’autre part, des « nouvelles sciences » comme la socio-physique (« sociophysics ») de Galam et le très populaire modèle d’Axelrod de dissémination (propagation) des cultures (qui modélise mathématiquement les convergences, divergences, fragmentations ou interactions des cultures humaines) pourraient aussi intervenir. En effet, le modèle d’Axelrod de dissémination des cultures et la socio-physique étudient les interactions humaines en s’inspirant de la physique des particules via la modélisation mathématique.

Néanmoins, des approches mathématiques plus ou moins classiques mais vues sous l’angle épidémiologique comme la théorie des graphes, la simulation ou la formalisation de la distanciation sociale, la modélisation mathématique des mouvements de foules ²⁵, la théorie de la percolation (Voir aussi l’article d’Etienne Ghys) et l’optimisation sous contraintes, pourraient être utilisées. En effet, une question que l’on pourrait se poser est par exemple : Comment optimiser la distanciation sociale sous diverses contraintes sociales, géographiques, culturelles, professionnelles, etc. ? Dans un futur plus ou moins proche, les essais cliniques deviendront moléculaires, ciblés, individualisés grâce à la connaissance des mécanismes moléculaires du covid-19 et des patients. In fine, le Covid-19 bénéficie et bénéficiera des très nombreuses recherches faites jusque là en oncologie.

Post-scriptum

L’auteur remercie le professeur Bartholdi ainsi que les deux experts anonymes pour leurs remarques et suggestions qui ont permis d’enrichir l’article, le CNRS pour cet espace d’expression scientifique, le professeur Gane Samb Lo de l’université Gaston Berger de Saint-Louis du Sénégal (président et créateur de la société africaine pour les probabilités et statistiques pour son invite à une contribution scientifique africaine à la lutte contre la pandémie du Covid-19) ainsi que l’université Abdou Moumouni de Niamey pour les mêmes raisons. L’auteur remercie également tous les grands éditeurs et journaux scientifiques pour l’accès libre aux articles relatifs au Covid-19. Enfin, cet article a aussi bénéficié des très nombreuses écoles d’été de l’action IMPG (Informatique, Mathématiques et Physique pour la Génomique) et de la bibliographie engrangée par l’auteur il y a une vingtaine d’années à l’Institut Pasteur (Paris) et aux NIH/NCI (Bethesda/Rockville). L’auteur n’oubliera pas en particulier tous les très enthousiastes animateurs et animatrices de l’ancienne action IMPG.

Commentaires

Écrire un commentaire

Il est possible d’utiliser des commandes LaTeX pour rédiger des commentaires — mais nous ne recommandons pas d’en abuser ! Les formules mathématiques doivent être composées avec les balises .
Par exemple, on pourra écrire que sont les deux solutions complexes de l’équation .

Si vous souhaitez ajouter une figure ou déposer un fichier ou pour toute autre question, merci de vous adresser au secrétariat.