Les mathématiques apportent une contribution implicite mais décisive en termes de caractérisation moléculaire des bactéries et des virus (en particulier les coronavirus) à travers la génomique et la bioinformatique dont elles constituent l’un des piliers fondamentaux. Les mathématiques sont aussi présentes en arrière-plan dans les essais cliniques en général et en particulier dans la controverse méthodologique en cours sur le traitement approprié de la maladie du Covid-19. Les mathématiques sont alors à l’image des fondations d’un bâtiment qui ne sont pas visibles, enfouies dans les profondeurs terrestres mais qui sont pourtant indispensables pour tenir littéralement la structure. Nous présenterons alors dans la suite une esquisse sur les deux aspects susmentionnés de l’apport des mathématiques à la lutte contre la maladie du covid-19. Nous conclurons alors par quelques autres domaines mathématiques nouveaux ou liés à la bioinformatique et aux essais cliniques, susceptibles d’être dans un futur proche au cœur de la prévention et du traitement de la maladie du Covid-19 de notre point de vue.
INTRODUCTION
La pandémie causée par la maladie du coronavirus (Covid-19) est en cours avec son lot de morts. Face à cette urgence multidimensionnelle, les scientifiques sont au premier plan et sont parfois sommés de proposer une solution. Ils sont alors confrontés à un dilemme cornélien, à la quadrature du cercle. En effet, la science au propre comme au figuré a besoin de temps, de recul, de distance, de distanciation par rapport à un phénomène pour pouvoir l’embrasser sous tous les angles et comprendre ainsi ses mécanismes, sa dynamique.
En particulier, les mathématiciens au sens large, et surtout les statisticiens ou épidémiologistes, sont priés d’estimer à partir de leurs modèles les paramètres déterminant la dynamique et la gestion logistique de la pandémie. Ce qui donnerait aux décideurs des outils de décision et leur permettrait de pouvoir ainsi contrôler la propagation de la maladie en se basant par exemple sur la courbe épidémique du Covid-19 qu’il s’agira d’aplatir ou le taux de reproduction de base. Ce dernier est un paramètre clé des modèles épidémiologiques dits compartimentaux, permettant de déterminer la persistance (s’il est supérieur à 1) ou l’extinction (s’il est inférieur à 1) d’une épidémie 26Toutefois pour les modèles stochastiques, on montre que indépendamment de la valeur du taux de reproduction de base, pratiquement l’épidémie finira par s’éteindre même si cela peut prendre beaucoup de temps.. Or, en ce qui concerne la maladie du Covid-19, les hypothèses des modèles mathématiques ou même biologiques ne sont pas toujours complètes ou alors sont en constante évolution, car la maladie n’est pas totalement comprise. Toutefois, le rôle clé de la modélisation mathématique déterministe ou stochastique des épidémies est explicitement revenu au premier plan.
Mais, en réalité les mathématiques apportent déjà une contribution implicite mais décisive en termes de caractérisation moléculaire des virus et bactéries à travers la génomique et la bioinformatique dont elles constituent l’un des piliers fondamentaux. Les mathématiques sont aussi présentes en arrière-plan dans les essais cliniques en général et en particulier dans la controverse méthodologique en cours sur le traitement approprié de la maladie du Covid-19 27Les mathématiques sont aussi présentes dans le design ou conception des médicaments moléculaires, ciblés car cette tâche requiert l’exploitation des données d’expression des gènes. L’étude du transcriptome ou données d’expression des gènes a fortement utilisé les méthodes mathématiques regroupées sous le nom de data mining ou fouille des données.. Nous présenterons alors dans la suite une esquisse sur les deux aspects susmentionnés de l’apport des mathématiques à la lutte contre la maladie du coronavirus.
De manière plus précise, dans la première partie, nous commencerons par rappeler l’importance de la génomique, de la bioinformatique, des banques de données génomiques et des métadonnées dans l’identification moléculaire du virus. Puis nous évoquerons synthétiquement les modèles mathématiques et les mathématiciens pionniers et piliers de la modélisation de l’alignement des séquences génomiques qui est la tâche la plus importante de la génomique et de la bioinformatique.
Dans une deuxième partie, nous aborderons brièvement la contribution des mathématiques aux essais cliniques classiques et non conventionnels à travers essentiellement les mathématiciens à l’origine ou au cœur des essais cliniques. Nous conclurons alors par quelques autres domaines mathématiques nouveaux ou liés à la bioinformatique et aux essais cliniques, susceptibles d’être dans un futur proche au cœur de la prévention et du traitement de la maladie du Covid-19 de notre point de vue.
Identification moléculaire du Covid-19, banques de données génomiques, bioinformatique et métadonnées
Toutes les analyses bioinformatiques de la médecine moléculaire, faites dans les structures hospitalières de Wuhan (Chine) pour la caractérisation du Covid-19 ont reposé essentiellement sur la comparaison des séquences nucléiques (ADN, ARN) 28Le génome du Covid-19 est un ARN. Ce dernier est un simple brin dérivé de l’ADN où l’adénine (A) est remplacée par l’uracile (U). ou protéiques (acides aminés) du virus Covid-19 avec celles de très nombreux organismes 29Ces bases de données biologiques contiennent les séquences génomiques ou protéiques d’au moins 300 000 organismes. Les données sont donc astronomiques., stockées dans les banques de données biologiques comme GeneBank du NIH/NCBI associé à l’EMBL (European Molecular Biology Laboratory), Swiss-prot de la Suisse et beaucoup d’autres. Ces gigantesques bases de données biologiques, quintessence des métadonnées ou Big Data sont peu ou prou l’aboutissement du projet de séquençage du génome humain, le fameux « Human Genome Project », qui avait suscité un engouement et une effervescence scientifique inouïe il y a une vingtaine d’années. Le « Human Genome Project » a consacré la transition de la génétique classique, mendélienne, quasiment monogénique vers la génétique à grande échelle ou génomique d’où l’intersection de cette dernière avec les mathématiques et l’informatique. Le séquençage du génome humain (et accessoirement de ceux des autres organismes animaux ou végétaux) impacte et impactera tous les domaines scientifiques et sociétaux à travers entre autres la bioinformatique et la génomique.
La génomique est donc l’étude de milliers de gènes en même temps contrairement à la génétique classique. Du fait de la très grande masse de données (séquences nucléiques, protéiques, expression des gènes, images et données associées, voies métaboliques, réseaux de gènes, etc. ) qu’elle utilise et génère, la génomique est au cœur du Big data et de l’intelligence artificielle. Elle a été décisive dans l’avènement de la bioinformatique, et l’est dans la montée en puissance de la médecine personnalisée. La bioinformatique est l’application des mathématiques, de l’informatique, de la chimie, et de la physique à la biologie moléculaire 30Ces bases de données biologiques contiennent les séquences génomiques ou protéiques d’au moins 300 000 organismes. Les données sont donc astronomiques.. La génomique a bénéficié de la bioinformatique et réciproquement. Les deux n’auraient pas pu éclore sans l’apport décisif des mathématiques. Ces dernières sont à l’image des fondations d’un bâtiment qui ne sont pas visibles, enfouies dans les profondeurs terrestres mais qui sont pourtant indispensables pour tenir littéralement la structure.
Modèles mathématiques et mathématiciens pionniers incontournables de l’alignement des séquences génomiques et du séquençage
Toutes les comparaisons nucléiques, protéiques, les analyses phylogénétiques, la recherche de régions codantes ou gènes etc., utilisées en génomique et en bioinformatique en général et pour la caractérisation moléculaire du Covid-19 en particulier, sont faites grâce à de puissants algorithmes d’alignement des séquences nucléiques ou protéiques. L’alignement des séquences génomiques (qui sont des chaînes de caractères comme les A, T, C, G constituant l’ADN, les U, T, C, G constituant l’ARN ou les 20 symboles des acides aminés pour les protéines), consiste à trouver la correspondance optimale (matching ou appariement) entre ces dernières afin de mettre en exergue leur similarité. Il est considéré comme la tâche la plus fondamentale de la bioinformatique. Cet alignement peut être global ou local selon qu’on compare deux séquences entières ou leurs parties (segments). Il peut être multiple si l’on compare plusieurs séquences (ADNs de plusieurs organismes par exemple) entre elles. Cet alignement est mesuré par un score.
Par exemple en attribuant comme score +1 pour une correspondance parfaite (appariement parfait) entre deux caractères et -1 pour une absence de similarité, le score de l’alignement global des deux séquences ATCC et ATCG (chacune de longueur 4) est s=s(A,A)+s(T,T)+s(C,C)+s(C,G)=1+1+1-1=2. L’alignement entre deux séquences est représenté conventionnellement comme suit avec une barre verticale représentant un appariement c’est-à-dire une correspondance parfaite entre deux caractères (nucléotides ou acides aminés) et un symbole – représentant une insertion (nucléotide ou acide aminé insérée entre deux nucléotides ou deux acides aminés) ou une délétion (disparition de nucléotide ou d’acide aminé) : 31Aux insertions ou délétions regroupées sous le nom générique d’indels, il faut ajouter les mutations où un nucléotide est transformé en un autre nucléotide ou un acide aminé en un autre acide aminé. Les plus connues sont les SNPs (Single Nucleotide Polymorphism). En alignement des séquences, on attribue donc aussi un score aux mutations. Ces dernières sont importantes car caractérisant la susceptibilité des uns et des autres aux maladies, leur résistance ou réponse aux thérapies. L’étude des mutations est au coeur de la médecine personnalisée.
A T C C
| | |
A T C G
En réalité, les scores attribués aux correspondances parfaites ou à l’absence d’appariement, sont déterminés minutieusement en intégrant des hypothèses biologiques évolutives relatives à la probabilité de survenue d’une mutation par exemple. Ce qui donne des matrices de score dites matrices de similarité ou matrices de substitution dont la plus utilisée (pour l’alignement des protéines) est la matrice BLOSUM62.
Les algorithmes d’alignement des séquences sont naturellement la résultante des modèles mathématiques. Les méthodes mathématiques à la base des algorithmes d’alignement des séquences ont été implémentées de manière optimale et conviviale pour donner des outils logiciels utilisés en routine par de très nombreux scientifiques (biologistes, ingénieurs, biomathématiciens, bioinformaticiens, pharmacologues, médecins, etc.). En fait, les bases de données génomiques et leurs logiciels associés (donc Internet) sont devenus des outils quotidiens de la biologie moléculaire, de la bioinformatique et de la médecine génomique entre autres, toutes devenues en partie des sciences de l’information donc des données.
L’un des logiciels de bioinformatique qui fait partie des plus connus et des plus utilisés est BLAST 32 BLAST est l’acronyme anglais d’Outil Basique d’Alignement de Séquences soit Basic Local Alignment Search Tool.. Il est issu des travaux des mathématiciens Samuel Karlin 33Son encadreur de thèse a été le très grand mathématicien Salomon Bochner. et Stephen Altschul. Ces derniers ont fourni une modélisation probabiliste de la distribution des scores des alignements locaux optimaux 34optimaux en termes de score. aléatoires de deux séquences nucléiques ou protéiques en se basant sur la loi statistique des valeurs extrêmes. Ce faisant, leur modélisation permet d’asseoir la pertinence statistique de la similarité de deux séquences génomiques, en obtenant des alignements locaux significatifs et en calculant en particulier la probabilité d’obtenir un alignement significatif par hasard. Pratiquement, BLAST compare une séquence génomique (requête pouvant être une séquence entière ou un segment d’un génome) de fonction biologique inconnue à une base de données entière comprenant des séquences dont certaines ont des fonctions biologiques connues.
Ainsi selon Karlin et Altschul, la probabilité pour que le score \(S\) de l’alignement de deux séquences (considéré comme une variable aléatoire c’est-à-dire une quantité dépendant du hasard) soit au moins égal à \(x\) est :
$$ P(S >=x)=1-\exp(-Kmn\exp(-\lambda x)) $$
où \(K\) et \(\lambda \) sont des paramètres dépendant de la matrice des scores et des séquences de longueurs respectives \(m\) et \(n\).
La modélisation mathématique de Karlin et Altschul est une amélioration heuristique et efficiente en termes de temps de calcul d’outils initiaux d’alignement surtout global des séquences génomiques. Ces outils logiciels utilisant essentiellement la programmation dynamique 35La programmation dynamique a été introduite dans un cadre général par le mathématicien Richard Bellman. ont été proposés respectivement par des bioinformaticiens comme Needleman et Wunsch dont l’algorithme trouve un alignement global optimal entre deux séquences génomiques ; et des mathématiciens comme Smith et Waterman dont l’algorithme est une amélioration du précédent et qui trouve des alignements locaux ou globaux optimaux, mais qui est gourmand en termes de temps de calcul.
Le mathématicien 36Il est aussi biologiste et informaticien. Michael Waterman est un pionnier essentiel de la bioinformatique et des méthodes mathématiques 37Les méthodes mathématiques incluent l’algorithmique et subséquemment l’informatique.. appliquées à la biologie (Computational Biology). Son travail séminal de modélisation mathématique fait avec le mathématicien Eric Landermodélisant la cartographie des génomes, est le fondement théorique des projets de séquençage. L’alignement des séquences est encore une fois essentiel dans la phase d’assemblage des nucléotides des fragments d’ADN ou d’ARN obtenus pendant le séquençage.
Parmi les très nombreuses autres méthodes mathématiques utilisées par les logiciels d’analyse des séquences, notons l’analyse matricielle, la topologie 38Dans la phase d’assemblage, le séquençage utilise aussi la notion topologique de recouvrement, c’est-à-dire l’inclusion d’une partie dans une réunion de parties. Cette notion est donc proche de la notion commune de recouvrement. et la géométrie pour étudier par exemple la conformation et le repliement des protéines dont la structure tridimensionnelle détermine leur fonction biologique, et surtout les chaînes de Markov cachés pour la recherche des gènes (régions dites codantes) et les techniques de classification supervisée ou non supervisée 39Ces techniques sont aussi utilisées dans l’analyse des données d’expression des gènes issues des puces à ADN (transcriptome) et plus généralement sont au coeur de la fouille des données ou data mining et de l’intelligence artificielle. en phylogénie.
Sans les différentes théories ou modèles mathématiques et les logiciels subséquents comme BLAST ou autres, chercher toutes les paires de segments identiques entre une séquence de plusieurs milliers ou milliards de bases paires (le génome du Covid-19 a 29 903 nucléotides) contre une banque de données de 300 000 organismes 40Pratiquement le champ de la requête est restreint en utilisant le fait que le virus fait partie a priori de telle ou telle famille de virus, en l’occurence celle des coronavirus dans le cas du Covid-19. En clair on ne fait pas en général une recherche exhaustive. est une tâche titanesque, pratiquement impossible. Au delà de la caractérisation moléculaire des virus et des bactéries, la génomique et la bioinformatique sont de plus en plus utilisées dans les essais cliniques notamment pour stratifier les patients.
STATISTIQUE MATHEMATIQUE, SIMULATION STOCHASTIQUE ET ESSAIS CLINIQUES
Une autre contribution indirecte des mathématiques relativement au traitement de la maladie du coronavirus, et alimentant en filigrane la controverse sur l’utilisation ou non de la chloroquine pour sa thérapie, est l’application des procédures statistiques fréquentistes (tests d’hypothèses basées sur des échantillons de tailles importantes obtenus à partir de répétitions) ou bayésiennes (utilisation d’information ou de connaissance a priori 41Par exemple les techniques bayésiennes permettent de calculer la probabilité que le virus Covid-19 présente une mutation sachant qu’il est très proche du coronavirus Sars-Cov de la chauve souris.) et les techniques de simulation stochastique pour la validation des essais cliniques.
Les essais cliniques modernes, quantitatifs, randomisés ont pris naissance en Angleterre sous l’impulsion du statisticien épidémiologiste Austin Bradford Hill et du géant de la statistique Ronald A. Fisher auteur du monumental ouvrage « Principes de la méthode expérimentale ». Notons que le fondateur et « grand maître » de la statistique mathématique Karl Pearson a aussi eu une influence indirecte sur le développement méthodologique des essais cliniques. Ces derniers constituent une branche des statistiques très appliquées avec parfois de très puissantes modélisations quantitatives notamment les méthodes bayésiennes introduites dans les essais cliniques par D.O Dixon et R. Simon.
Les essais cliniques comparent typiquement un groupe contrôle 42Ce groupe est constitué de patients ayant reçu un placebo ou une ancienne thérapie. à un groupe traitement 43Ce groupe est constitué de patients ayant reçu un nouveau médicament., afin de tester l’effectivité d’un nouveau médicament mais aussi une nouvelle technique de diagnostic, un nouveau procédé thérapeutique etc. Ils sont divisés en 5 phases notées 0, 1, 2 et 3 et 4 visant à évaluer la toxicité, le dosage et l’efficacité du médicament. Les phases 0, 1 et 2 cherchent essentiellement à déterminer la dose maximale tolérable en augmentant progressivement la dose et en étudiant la courbe dose-toxicité. Ces phases utilisent évidemment des faibles tailles d’échantillons. La phase dite 3 est le test à grande échelle avant la mise du médicament sur le marché tandis que la phase 4 est en quelque sorte le processus d’amélioration continue du médicament.
Dans l’approche fréquentiste qui est la plus utilisée, les essais cliniques comparent une hypothèse dite nulle par exemple d’absence d’efficacité d’un traitement contre une hypothèse alternative de son efficacité en se basant sur une variable aléatoire (statistique du test), un risque de première espèce 44Le risque de première espèce est la probabilité de rejeter à tort l’hypothèse nulle. En statistique appliquée, il mesure donc la fréquence des faux positifs. Il est usuellement choisi égal à 1% ou 5%. et une puissance 45La puissance d’un test est la probabilité de rejeter avec raison l’hypothèse nulle c’est-à-dire sachant que cette dernière est fausse, c’est en quelque sorte la capacité de conclure à une efficacité du traitement. Elle est usuellement choisie égale à 80%. La puissance d’un test (et donc la capacité de prendre une bonne décision) augmente avec la taille des échantillons utilisés dans le test. En effet, plus la taille d’un échantillon augmente, plus on a d’information. La justification théorique de ce fait est donnée par la loi dite des grands nombres. convenable égale à un moins le risque de seconde espèce 46Le risque de seconde espèce est la probabilité de ne pas rejeter l’hypothèse nulle alors qu’elle est fausse. En statistique appliquée, il mesure donc la fréquence de faux négatifs.. La statistique 47Même en mathématiques, certains termes peuvent être ambivalents, ambigus. Ainsi en algèbre (discipline mathématique), il existe une notion d’algèbre, une structure généralisant un espace vectoriel. De même en statistique mathématique (discipline), il existe une notion de statistique qui est une variable aléatoire donc une quantité dépendant du hasard construite à partir des échantillons utilisés dans le test d’hypothèse et qui traduit un écart entre les deux hypothèses. du test mesure une différence moyenne standardisée des effets moyens pour les groupes contrôle et traitement et suit la loi de Student ou la loi normale. On rejettera donc l’hypothèse nulle si cette statistique est suffisamment éloignée de la valeur 0. Un test statistique standard utilise implicitement comme justification mathématique (probabiliste) le théorème central limite de Laplace et De Moivre.
Par rapport au traitement du Covid-19, de nombreux essais cliniques relatifs à plusieurs médicaments , sont en cours et finiront par décider dans les prochains mois de l’efficacité et de la toxicité des différentes thérapies susceptibles d’être utilisées contre la maladie. Toutefois, tous ces essais cliniques ne pourront être optimaux qu’avec une connaissance accrue de la maladie en termes de ses mécanismes, interactions et tests diagnostiques moléculaires qui permettront de personnaliser les futurs traitements. En effet, en plus du polymorphisme bien connu des patients, celui du virus est de plus en plus un fait établi et donc les essais cliniques doivent être stratifiés, ciblés et les traitements doivent idéalement être personnalisés.
De fait, dans les essais cliniques traditionnels, les patients qui ne bénéficient pas du traitement sont enrôlés et donc ces derniers occultent le bénéfice pour certains patients, à cause de l’hétérogénéité moléculaire. En clair, des tailles d’échantillons importantes et une puissance statistique inadéquate caractérisent les essais cliniques traditionnels qui concluent le plus souvent à l’inefficacité de médicaments pourtant bénéfiques pour des sous-ensembles de patients. Fort heureusement, les essais cliniques ciblés, moléculaires(Voir aussi) requérant une faible taille d’échantillon, ayant une puissance adéquate et prélude à la médecine génomique ou personnalisée sont en pleine période de maturation 48Le très éclectique mathématicien quasiment autodidacte John Wilder Tukey a aussi avant l’heure exploré le rétrécissement des essais cliniques en termes de tailles d’échantillons avec l’article visionnaire « Tightening the clinical trial ».. De plus, les techniques de simulation stochastique comme les méthodes Monte Carlo inventées par des mathématiciens du projet Manhattan comme le très éclectique prodige John Von Neumann, ont tout juste commencé à être utilisées dans les essais cliniques.
PERSPECTIVES MATHEMATIQUES RELATIVES A LA MALADIE DU CORONAVIRUS
Bien qu’étant en arrière plan, les mathématiques ont été essentielles pour décrypter le génome du virus Covid-19, le caractériser et comprendre la dynamique de la pandémie qu’il a causée. Cette contribution sera encore importante pour pouvoir complètement appréhender tous les aspects génomiques du virus. Ceci, à travers l’étude des données d’expression des gènes du Covid-19 ou des patients, mais aussi pour trouver la thérapie optimale, la valider et modéliser son métabolisme. En particulier, en termes d’épidémiologie et de distanciation sociale, les modèles compartimentaux intégrant les interventions dites non pharmaceutiques seront cruciaux 49La mise en quarantaine est un exemple de mesure non pharmaceutique. d’une part. D’autre part, des « nouvelles sciences » comme la socio-physique (« sociophysics ») de Galam et le très populaire modèle d’Axelrod de dissémination (propagation) des cultures (qui modélise mathématiquement les convergences, divergences, fragmentations ou interactions des cultures humaines) pourraient aussi intervenir. En effet, le modèle d’Axelrod de dissémination des cultures et la socio-physique étudient les interactions humaines en s’inspirant de la physique des particules via la modélisation mathématique.
Néanmoins, des approches mathématiques plus ou moins classiques mais vues sous l’angle épidémiologique comme la théorie des graphes, la simulation ou la formalisation de la distanciation sociale, la modélisation mathématique des mouvements de foules 50Voir par exemple l’article de Bernard Maury sur la modélisation mathématique des mouvements des foules dans la gazette des mathématiciens No 152 d’avril 2017., la théorie de la percolation (Voir aussi l’article d’Etienne Ghys) et l’optimisation sous contraintes, pourraient être utilisées. En effet, une question que l’on pourrait se poser est par exemple : Comment optimiser la distanciation sociale sous diverses contraintes sociales, géographiques, culturelles, professionnelles, etc. ? Dans un futur plus ou moins proche, les essais cliniques deviendront moléculaires, ciblés, individualisés grâce à la connaissance des mécanismes moléculaires du covid-19 et des patients. In fine, le Covid-19 bénéficie et bénéficiera des très nombreuses recherches faites jusque là en oncologie.
Post-scriptum
L’auteur remercie le professeur Bartholdi ainsi que les deux experts anonymes pour leurs remarques et suggestions qui ont permis d’enrichir l’article, le CNRS pour cet espace d’expression scientifique, le professeur Gane Samb Lo de l’université Gaston Berger de Saint-Louis du Sénégal (président et créateur de la société africaine pour les probabilités et statistiques pour son invite à une contribution scientifique africaine à la lutte contre la pandémie du Covid-19) ainsi que l’université Abdou Moumouni de Niamey pour les mêmes raisons. L’auteur remercie également tous les grands éditeurs et journaux scientifiques pour l’accès libre aux articles relatifs au Covid-19. Enfin, cet article a aussi bénéficié des très nombreuses écoles d’été de l’action IMPG (Informatique, Mathématiques et Physique pour la Génomique) et de la bibliographie engrangée par l’auteur il y a une vingtaine d’années à l’Institut Pasteur (Paris) et aux NIH/NCI (Bethesda/Rockville). L’auteur n’oubliera pas en particulier tous les très enthousiastes animateurs et animatrices de l’ancienne action IMPG.