Des données biologiques aux modèles et inversement

Piste rouge Le 5 décembre 2019  - Ecrit par  Paul Dequidt, Angélique Perrillat-Mercerot Voir les commentaires

L’examen proposé par l’imagerie par résonance magnétique (IRM) se pose aujourd’hui comme standard dans le dépistage et le suivi des tumeurs cérébrales. À chaque examen, des millions de données multimodales sont mesurées. Pour pouvoir en extraire un maximum d’information, ces données nécessitent un traitement informatique et mathématique. Mais comment passer de mesures variées à des descriptions ou prédictions pour chaque patient ?

Chaque examen produit des variables d’intérêt pouvant être des images médicales, des concentrations moléculaires ou des états cliniques. L’ensemble de ces données peut alors être considéré comme une entrée. Le but est de comprendre comment cet ensemble impacte un paramètre de sortie à définir. Pour cela les mathématiques et l’informatique proposent de nombreux outils, dont les modèles. Un bon modèle donne une vision simplifiée d’une réalité biologique, est adapté au problème et donne accès à des interprétations ou résultats biologiques.
Dans la majorité des cas, un modèle est constitué d’une entrée, d’une loi et d’une sortie. Alors que les entrées sont fournies par l’examen et la sortie définie par le problème, la loi est a priori inconnue. Dans un premier temps, l’objectif est de travailler sur ces entrées et sorties connues pour identifier la loi. Dans un second temps, il est possible d’utiliser le modèle pour calculer les sorties associées à des entrées connues.
Nous présentons ici trois approches : la modélisation déterministe, la régression et la classification. Pour ces deux dernières approches, nous pouvons utiliser des algorithmes d’intelligence artificielle. Nous montrerons pour ces cas comment l’intelligence artificielle (IA) peut s’inscrire dans ces approches.

PNG - 15.9 ko
Figure 1 : Modèle schématique
La majorité des modèles peuvent s’écrire comme la somme d’entrées, d’une sortie et d’une loi qui permet de passer des entrées à la sortie.

Principes des modélisations

Dans la première section nous allons expliquer les principes de ces trois modélisations.

Les modèles déterministes

Un modèle déterministe permet d’expliquer l’évolution en temps d’une variable ou d’un ensemble de variables biologiques. Il est constitué d’une variable d’entrée dans un état initial, d’une loi sous forme d’un système d’équations et d’une sortie donnant l’évolution en temps de la variable d’entrée. Ce système d’équations réagit toujours de la même manière à une entrée prédéfinie, il ne possède donc pas de variabilité. La loi est construite manuellement en se basant sur les interactions biologiquement acceptées comme étant les plus importantes ou pertinente pour expliquer l’évolution de la variable.

PNG - 38.5 ko
Figure 2 : Schéma d’un modèle déterministe.
Un système d’équations permet de comprendre comment passer d’un état fixe connu à son évolution dynamique.

L’intérêt d’une telle approche est de comprendre les liens entre des phénomènes biologiques ou mécaniques connus et la variation temporelle d’une entité pouvant être suivies en IRM. Ce modèle doit être atteignable et analysable d’un point de vue mathématique pour en assurer la pertinence. Il donne ainsi virtuellement accès à l’impact de la loi sur les entrées. Une telle modélisation ne cherche pas à expliquer une dynamique dans son ensemble mais uniquement les interactions principales. Elle est fortement dépendante des connaissances de l’utilisateur et des hypothèses qu’il fait, puisque c’est à lui de choisir la loi.

PNG - 37.8 ko
Figure 3 : Exemple d’un modèle déterministe.
La population de cellules initiale (population de gauche) évolue en suivant des lois biologiques. Après un certain temps, elle a changé (population de droite)

Les modèles de régression

Un modèle de régression permet de trouver comment expliquer la valeur d’une variable de sortie quantitative (dite variable expliquée) en fonction des variables d’entrée (dites variables explicatives) grâce à une fonction de lien. Il permet donc de trouver comment la variable expliquée évolue en fonction de la valeur des variables explicatives. Puis, la fonction de lien peut être appliquée à des entrées connues dont la valeur en sortie doit être estimée. Cette fonction peut avoir une forme prédéfinie grâce à la connaissance du problème, il est alors question de régression paramétrique. Elle peut aussi avoir une forme ajustée par la machine, il s’agit alors de régression non-paramétrique.

PNG - 34.2 ko
Figure 4 : Schéma des modèles de régression.
La fonction de lien permet de comprendre comment les variables explicatives impactent la variable expliquée.

Plus le problème est connu, et donc la fonction de lien explicitée, moins le modèle aura besoin de données pour proposer un résultat pertinent. Dans ce genre de modèle, une hypothèse importante est que la distribution des données connues est représentative des données futures. Le choix de la fonction de lien n’est pas si évident car elle doit minimiser l’erreur commise sur les données connues mais aussi sur les données à venir. Elle est choisie comme la fonction minimisant l’erreur quadratique moyenne, erreur pouvant être décomposée en :

  • le biais, qui est la différence moyenne entre la valeur donnée par l’expérience et la valeur estimée. Il rend donc compte de la performance de l’approche sur les données connues,
  • la variance, qui représente la variation de la fonction autour de sa moyenne. Elle pénalise donc la complexité de l’approche,
  • l’erreur de Bayes, qui est l’erreur minimale que l’on peut faire sur la prédiction des données connues en utilisant une fonction provenant d’un ensemble imposé.

Il est possible de comprendre le biais et la variance comme étant similaires aux notions de justesse et la précision utilisées plus largement en physique, comme par exemple en métrologie. En effet, un instrument de mesure est dit précis s’il permet de mesurer toujours la même valeur avec peu de variation. Le fait que la valeur mesurée soit correcte correspond à la justesse. De cette manière, un instrument peut être précis mais donner des valeurs fausses (variance faible, biais élevé), ou donner la bonne valeur mais avec un grand degré d’imprécision (biais faible, variance élevée). Le meilleur cas est bien sûr celui où la variance et le biais sont tous les deux faibles.

PNG - 192.6 ko
Figure 5 : Schéma sur la différence entre biais et variance.
En haut à gauche, le biais et la variance sont faibles, les essais sont donc en moyenne justes (faible biais) et ils sont proches les uns des autres (faible variance). Lorsque le biais augmente, la moyenne des essais s’éloigne du résultat attendu (en haut à droite et en bas à droite). Lorsque la variance augmente, les essais sont de plus en plus éloignés les uns des autres (en bas à gauche et à droite).

La régression peut être effectuée par apprentissage automatique. Il nécessite un jeu de données initial sur lequel apprendre. Une première phase consiste à trouver la courbe de tendance qui résume au mieux l’information contenue dans le jeu de données : c’est la phase d’apprentissage. En présentant en entrée du modèle un certain nombre d’échantillons, la courbe s’ajuste automatiquement pour diminuer l’écart entre les individus et la courbe. Une deuxième étape permet d’évaluer si la courbe obtenue se généralise bien pour des données inconnues qui n’ont pas été vues par le modèle lors de l’apprentissage. Cette phase est importante car elle permet de voir si le modèle a trop peu ou trop bien résumé l’information du jeu de données. Il est en effet possible de trop apprendre : il s’agit alors de surapprentissage.

PNG - 18.5 ko
Figure 6 : Trois exemples de résultat de régression.
À gauche, le modèle n’a pas assez appris et l’information a été trop résumée, c’est un cas de sous-apprentissage. Au milieu, la courbe de tendance semble bien correspondre aux données. Mais à droite, le modèle continue d’apprendre et finit par parfaitement décrire les données en passant par tous les points. Le modèle ne se généralise plus à des données inconnues : il y a surapprentissage.

Pour éviter le surapprentissage, les données sont divisées en deux parties : d’un côté la base d’apprentissage sur laquelle entraîner le modèle, et de l’autre la base de test qui servira à évaluer la généralisation du modèle à des données inconnues. Un paramétrage fin de l’algorithme permet de fixer son arrêt à un degré d’apprentissage souhaité. De cette manière, il est possible d’identifier le seuil à partir duquel le modèle commence à surapprendre.

PNG - 37.1 ko
Figure 7 : Courbes montrant le nombre d’erreurs commises par le modèle en fonction de son niveau d’apprentissage.
Au fur et à mesure que le modèle apprend, l’erreur du training, en bleu, diminue. Mais il arrive un moment où la généralisation à des données inconnues, le testing set en vert, commet de plus en plus d’erreurs. Trouver le minimum de la courbe verte permet d’avoir le modèle optimal.

Les modèles de classification

Un modèle de classification permet d’associer un label à chaque variable d’entrée grâce à une loi appelée classifieur. La sortie est donc constituée d’individus labellisés. Ces modèles permettent d’effectuer un tri dans les données d’entrée afin de regrouper celles qui se ressemblent dans un sens à définir. Ils permettent ainsi, en utilisant le modèle pré-établi, de labelliser de nouveaux individus sans avoir d’a priori sur eux. Il s’agit ainsi de définir des frontières entre les groupes. Ces modèles relèvent de l’optimisation mathématique.

PNG - 26.9 ko
Figure 8 : Schéma des modèles de classification.
Un classifieur permet de grouper les individus de manière adaptée en leur associant différents labels.

La classification peut être effectuée par ordinateur. Pour cela, il existe différents algorithmes de classification automatique. L’un des plus intuitifs est l’algorithme des ”K plus proches voisins”. Dans cet exemple, nous disposons dispose d’une base d’individus labellisés et nous cherchons à étiqueter un nouveau point. Pour chaque point inconnu, nous regardons dans l’entourage du point la classe des K points qui lui sont le plus proches. Le label attribué au point correspond alors à la classe majoritaire parmi ses voisins. Pour fonctionner, cet algorithme nécessite un seul paramètre d’entrée K. Il s’agit du nombre de voisins considérés afin d’attribuer au point une classe. Le paramètre K est fixé par l’utilisateur.

PNG - 9.7 ko
Figure 9 : Exemple d’application de l’algorithme des « K Plus Proches Voisins ».
Deux familles de points ont leur classe connue (rouge ou bleue). Un point à labelliser est représenté en gris. En fonction du nombre de voisins K regardés, le résultat de classification peut varier.

Le modèle et les données

Dans cette partie nous allons, sur un exemple concret, expliquer comment le modèle utilise les données d’une part, et comment il agit sur les données d’autre part.
La problématique est la suivante : une personne présentant une tumeur se présente pour passer une IRM. L’IRM permet de mesurer certaines variables permettant d’ajuster les modèles et de rendre compte d’un comportement tumoral. Les variables d’intérêt dépendent du modèle choisi.

PNG - 53.2 ko
Figure 10 : Image issue de l’examen IRM du patient présentant une tumeur.
Cette dernière apparaît plus claire, à gauche de l’image.

Comment pourrions-nous utiliser ces variables pour expliquer l’évolution de la tumeur ? Qu’est ce que le modèle peut apporter aux données ? La manière dont le modèle va intégrer les données dépend de l’utilisation souhaitée de l’ordinateur. En effet l’ordinateur peut être vu comme un effecteur ou peut apprendre et s’adapter.

L’ordinateur effectue

Dans les modèles déterministes, la bibliographie et la connaissance de la problématique ont une part prépondérante. En effet c’est l’utilisateur qui définit totalement la structure de la loi en se basant sur ces connaissances. Seuls les paramètres qui composent la loi sont ajustables. Cependant cet ajustement demande aussi un retour aux connaissances pour savoir si les valeurs proposées par l’ordinateur sont plausibles et appartiennent à des domaines biologiques cohérents.
L’ordinateur sert à calculer rapidement l’effet de la loi sur la variable dynamique. Il permet ainsi de proposer virtuellement des simulations de la situation. La plupart du temps, ces simulations sont comparées à des données réelles et les paramètres de la loi sont ajustés en fonction. Les données aident donc à proposer la version de la loi la plus adaptée à un cas fixé.
Une fois la loi définie et les paramètres choisis, ce genre de modèle peut être utilisé pour décrire virtuellement une dynamique et donc comprendre comment la donnée de sortie évolue. Il est possible également de tester virtuellement l’effet de l’augmentation ou de la diminution d’un paramètre sur la variable de sortie. Ainsi nous pouvons savoir quelle partie de la dynamique est la plus sensible et pourrait être une cible thérapeutique intéressante. C’est une modélisation in silico de l’impact d’un traitement.
Dans l’exemple, nous pouvons proposer en s’appuyant sur la littérature un modèle de type réaction-diffusion. La partie réaction est alors donnée par l’impact des métabolites sur la croissance tumorale et la partie diffusion par la capacité des cellules tumorales à se déplacer dans le cerveau en fonction de la géométrie de ce dernier. Ces paramètres d’intérêt, fixés sur un patient après plusieurs IRM, font alors office de variable pour le modèle déterministe choisi et nous permettent de décrire comment la tumeur a évolué en comprenant son fonctionnement. D’autres modèles basés sur d’autres variables peuvent donner des résultats différents.

PNG - 28.3 ko
Figure 11 : Exemple d’application
Application du système d’équations à l’état initial afin d’obtenir l’évolution en temps de la tumeur. Cette dernière apparaît en bleu. Les mathématiques permettent de prédire les évolutions futures de son volume, en jaune et en rouge.

L’ordinateur apprend

Supposons à présent que nous souhaitions utiliser l’intelligence artificielle pour mesurer le volume de la tumeur du patient en nous basant sur les images fournies par l’IRM. Il nous faut tout d’abord une base de données sur laquelle apprendre. Cette base peut, par exemple, être composée d’une part d’images de tumeurs, et d’autre part de cartes de segmentation fournies par les médecins. Ces cartes de segmentation nous indiquent quels pixels de l’image correspondent à des cellules tumorales. Le volume tumoral correspond alors au volume représenté par l’ensemble de ces pixels. Le problème peut alors se réduire à un problème de classification : séparer d’un côté les pixels sains et de l’autre les pixels tumoraux.

PNG - 108.1 ko
Figure 12 : Extrait de la base d’apprentissage.
A gauche, une tumeur cérébrale. A droite, la carte de segmentation fournie par les médecins a été superposée en transparence. La zone blanche est tumorale, le reste est du tissu sain.

Dans notre exemple, nous pouvons voir sur l’IRM que les pixels tumoraux apparaissent plus clairs que les pixels sains. Ce critère semble discriminant : la valeur en niveau de gris des pixels sera la variable d’entrainement du modèle. Nous choisissons donc d’envoyer cette information dans le système d’apprentissage. Notre classifieur a alors pour tâche de classer un pixel selon sa valeur en niveau de gris. En fonction de la complexité du classifieur, l’algorithme peut par exemple effectuer un seuillage de l’image résultant en une carte de segmentation tumorale.
L’étape où nous avons choisi d’utiliser les valeurs des pixels en entrée du classifieur est une étape de description. Cette variable « niveau de gris des pixels » est le descripteur dont notre modèle a besoin pour fonctionner. Il aurait été possible d’utiliser d’autres descripteurs, comme une mesure de la géométrie de la tumeur, sa texture ou encore sa position dans le cerveau. Le choix des descripteurs dépend du problème que l’on cherche à résoudre. Ici, c’est l’utilisateur qui a choisi le descripteur, mais il est aussi possible de laisser le système d’apprentissage calculer ses propres descripteurs de manière autonome.

PNG - 120.7 ko
Figure 13 : Illustration de la phase d’apprentissage.
Des exemples étiquetés sont présentés au classifieur. Selon la difficulté de la tâche, le modèle peut nécessiter plus ou moins d’exemples pour bien apprendre.

Lors de la phase d’apprentissage, on présente successivement au modèle les différents exemples de notre base de données. En associant chaque exemple avec sa carte de segmentation, le modèle s’ajuste pour trouver la meilleure séparation entre pixels sains et tumoraux. Le nombre d’exemples présentés est important : plus on a d’exemples à présenter, plus notre modèle sera capable de mieux généraliser ce qu’il apprend à des cas inconnus.

PNG - 123.7 ko
Figure 14 : Application du classifieur entraîné et obtention de la carte de segmentation du patient.

Une fois que le modèle a appris, nous pouvons lui donner en entrée les images de notre patient. Le classifieur entraîné étiquette alors tous les pixels du patient et nous retourne la carte de segmentation en sortie.

Nous souhaitons à présent estimer le volume tumoral à l’aide de la carte de segmentation. En effet, il semble logique de penser que plus l’image IRM comporte de pixels tumoraux, plus la tumeur a un volume important. Nous allons alors utiliser un modèle de régression. Pour entraîner ce modèle, il nous faut les variables de plusieurs patients ayant des tumeurs de taille différente. Le modèle de régression utilise alors comme variable le nombre de pixels tumoraux pour en déduire le volume de la tumeur du patient.

En définitive, et grâce à l’intelligence artificielle, à partir de l’image acquise par IRM, nous sommes capables de segmenter une tumeur inconnue grâce à un modèle de classification. Puis nous pouvons estimer le volume tumoral par un modèle de régression. L’évolution du volume tumoral peut alors être estimé par un modèle déterministe.

Un retour aux données

Les données sont essentielles au modèle car elles permettent de lui donner un sens biologiques, voire même dans certains cas de le faire exister. Mais les modèles permettent également d’avoir un retour sur les données. Ainsi si les résultats obtenus avec les modèles ajustés ne correspondent pas aux données, nous pouvons nous questionner sur la manière dont la dynamique est pensée et la pertinence d’associer ces entrées pour cette sortie. Ces comparaisons peuvent servir d’argument pour critiquer certaines connaissances et donc faire avancer une conception d’une dynamique précise.
Au contraire, en permettant de trouver des groupes d’entrées ayant des comportements similaires via la même loi, nous pouvons nous demander si les jeux de données mis en entrée n’ont pas à être traités ensemble et/ou selon les mêmes modalités.
Dans l’exemple traité ici, il est parfaitement possible d’imaginer découvrir qu’un métabolite possède une valeur seuil. Ainsi les tumeurs ayant une concentration de ce métabolite supérieure à cette valeur seuil pourraient montrer une dynamique préoccupante. Les résultats du modèle permettraient alors d’adapter les traitements.
Dans certains problèmes complexes traités par intelligence artificielle, comprendre comment le modèle a appris n’est pas simple. En effet, la façon dont la loi hiérarchise l’information demande de grandes puissances de calcul. Il arrive que, lors de la phase d’apprentissage, l’algorithme fasse ressortir comme étant importante une valeur ou un descripteur qui pouvait sembler anodin à l’utilisateur. C’est pourquoi, analyser a posteriori la manière dont le modèle a appris permet parfois de découvrir des critères intéressants négligés jusqu’alors. Ainsi, l’analyse du système permet parfois de mieux comprendre le problème initial de manière rétroactive.

Conclusion

Qu’ils soient déterministes, de régression ou basés sur l’intelligence artificielle, les modèles peuvent être des outils performants pour comprendre ou prédire l’évolution de données biologiques. Alors que les techniques d’imagerie médicale génèrent de plus en plus de données, les mathématiques s’imposent dans le monde médical pour le diagnostic et le suivi des patients.

Les auteurs remercient Gérard Grancher, Clément Caubel et Amic pour leur relecture et leurs commentaires. Sont également remerciés Jocelyne Attab Fazilleau, Carole Gaboriau, Maï Sauvageot et Stéphane Labbé pour leur suivi lors du processus de publication.

Post-scriptum :

Quelques liens pour aller plus loin :

Motivations pour la modélisation mathématique dans le biomédical :
https://71651bdc-2c78-40c3-a76a-c84... (niveau collège)
https://who.rocq.inria.fr/Jean.Clai... (niveau licence)

Un exemple concret d’utilisation des modèles en chimiothérapie et contrôle optimal :
https://images.math.cnrs.fr/Combatt... (piste noire)

À propos du compromis biais-variance :
https://expoundai.wordpress.com/tag... (en anglais)

Les statistiques non-paramétriques :
https://images.math.cnrs.fr/Qu-est-... (piste noire)

Un exemple d’usage de modèle de classification :
http://www.breves-de-maths.fr/disti...

Vidéo sur l’intelligence artificielle et la classification automatique :
http://video.math.cnrs.fr/intellige... (20 minutes, en français)

Utilisation d’un modèle de régression à partir d’un jeu de données :
https://images.math.cnrs.fr/Si-Gali... (piste rouge)

Les cerveaux utilisés dans nos images viennent de la base BRATS dont voici les trois références :
[1] B. H. Menze, A. Jakab, S. Bauer, J. Kalpathy-Cramer, K. Farahani, J. Kirby, et al. « The Multimodal Brain Tumor Image Segmentation Benchmark (BRATS) », IEEE Transactions on Medical Imaging 34(10), 1993-2024 (2015) DOI : 10.1109/TMI.2014.2377694

[2] S. Bakas, H. Akbari, A. Sotiras, M. Bilello, M. Rozycki, J.S. Kirby, et al., « Advancing The Cancer Genome Atlas glioma MRI collections with expert segmentation labels and radiomic features », Nature Scientific Data, 4:170117 (2017) DOI : 10.1038/sdata.2017.117

[3] S. Bakas, M. Reyes, A. Jakab, S. Bauer, M. Rempfler, A. Crimi, et al., « Identifying the Best Machine Learning Algorithms for Brain Tumor Segmentation, Progression Assessment, and Overall Survival Prediction in the BRATS Challenge », arXiv preprint arXiv:1811.02629 (2018)

Article édité par Stéphane Labbé

Partager cet article

Pour citer cet article :

Angélique Perrillat-Mercerot, Paul Dequidt — «Des données biologiques aux modèles et inversement» — Images des Mathématiques, CNRS, 2019

Commentaire sur l'article

Laisser un commentaire

Forum sur abonnement

Pour participer à ce forum, vous devez vous enregistrer au préalable. Merci d’indiquer ci-dessous l’identifiant personnel qui vous a été fourni. Si vous n’êtes pas enregistré, vous devez vous inscrire.

Connexions’inscriremot de passe oublié ?