Le traitement numérique des images

Piste bleue Le 28 novembre 2011  - Ecrit par  Gabriel Peyré Voir les commentaires (4)

Les appareils numériques photographient de manière très précise le monde qui nous entoure. L’utilisateur souhaite pouvoir stocker avec un encombrement minimal ses photos sur son disque dur. Il souhaite également pouvoir les retoucher afin d’améliorer leur qualité. Cet article présente les outils mathématiques et informatiques qui permettent d’effectuer ces différentes tâches.

Cet article présente quelques concepts du traitement mathématique des images numériques. Ces traitements permettent de stocker plus facilement les images et d’améliorer leur qualité. Les mathématiques utilisées dans cet article correspondent au niveau de la classe de troisième. Les mots clés en rouge pointent vers les pages Wikipédia correspondantes. Ils sont repris à la fin de l’article dans un glossaire.

Les pixels d’une image

Une image numérique en niveaux de gris est un tableau de valeurs. Chaque case de ce tableau, qui stocke une valeur, se nomme un pixel. En notant $n$ le nombre de lignes et $p$ le nombre de colonnes de l’image, on manipule ainsi un tableau de $n \times p$ pixels.

La figure ci-dessous montre une visualisation d’un tableau carré avec $n=p=240$, ce qui représente $240 \times 240 = 57600$ pixels. Les appareils photos numériques peuvent enregistrer des images beaucoup plus grandes, avec plusieurs millions de pixels.

PNG - 38.9 ko
Une image en niveaux de gris

Les valeurs des pixels sont enregistrées dans l’ordinateur ou l’appareil photo numérique sous forme de nombres entiers entre $0$ et $255$, ce qui fait $256$ valeurs possibles pour chaque pixel.

La valeur 0 correspond au noir, et la valeur 255 correspond au blanc. Les valeurs intermédiaires correspondent à des niveaux de gris allant du noir au blanc.

La figure ci-dessous montre un sous-tableau de $5 \times 5$ pixels extrait de l’image précédente. On peut voir à la fois les valeurs qui composent le tableau et les niveaux de gris qui permettent d’afficher l’image à l’écran.

PNG - 516.9 ko
Sous image de taille 5×5

Stocker une image

Stocker de grandes images sur le disque dur d’un ordinateur prend beaucoup de place. Les nombres entiers sont stockés en écriture binaire, c’est-à-dire sous la forme d’une succession de 0 et de 1. Chaque 0 et chaque 1 se stocke sur une unité élémentaire de stockage, appelée bit.

Pour obtenir l’écriture binaire d’un pixel ayant comme valeur $179$, il faut décomposer cette valeur comme somme de puissances de deux. On obtient ainsi
\[ 179 = 2^7 + 2^5 + 2^4 + 2 + 1, \]
où l’on a pris soin d’ordonner les puissances de deux par ordre décroissant.
Afin de faire mieux apparaître l’écriture binaire, on ajoute « $1 \times $ » devant chaque puissance qui apparaît dans l’écriture, et « $0 \times $ » devant les puissances qui n’apparaissent pas
\[ 179 = 1 \times 2^7 + 0 \times 2^6 + 1 \times 2^5 + 1 \times 2^4 + 0 \times 2^3 + 0 \times 2^2 + 1 \times 2 + 1 \times 2^0. \]
L’écriture binaire de la valeur $179$ du pixel est ainsi $(1,0,1,1,0,0,1,1)$, où chaque 1 et chaque 0 correspond au facteur multiplicatif qui apparaît devant chaque puissance.

On peut écrire toute valeur entre 0 et 255 de cet manière, ce qui nécessite d’utilisation de 8 bits. Il y a en effet 256 valeurs possibles, et $256=2^8$. Pour stocker l’image complète, on a donc besoin de
\[ n \times p \times 8 \text{ bits}. \]
Pour l’image montrée à la première figure, on a ainsi besoin de
\[ 240 \times 240 \times 8 = 460800 \text{ bits}. \]
On utilise le plus souvent l’octet (8 bits) comme unité, de sorte que cette image nécessite 57,6ko (kilo octets).

La résolution d’une image

Afin de réduire la place de stockage d’une image, on peut réduire sa résolution, c’est-à-dire diminuer le nombre de pixels.

La façon la plus simple d’effectuer cette réduction consiste à supprimer des lignes et des colonnes dans l’image de départ.

La figure suivante montre ce que l’on obtient si l’on retient une ligne sur 4 et une colonne sur 4.

PNG - 6.2 ko
Une ligne/colonne sur 4

On a ainsi divisé par $4 \times 4 = 16$ le nombre de pixels de l’image, et donc également réduit par 16 le nombre de bits nécessaires pour stocker l’image sur un disque dur.

La figure suivante montre les résultats obtenus en gardant de moins en moins de lignes et de colonnes. Bien entendu, la qualité de l’image se dégrade vite.

PNG - 15.6 ko
Une ligne/colonne sur 2
PNG - 6.2 ko
Une ligne/colonne sur 4
PNG - 2.6 ko
Une ligne/colonne sur 8
PNG - 1.2 ko
Une ligne/colonne sur 16

Quantifier une image

Une autre façon de réduire la place mémoire nécessaire pour le stockage consiste à utiliser moins de nombres entiers pour chaque valeur.

On peut par exemple utiliser uniquement des nombres entiers entre 0 et 3, ce qui donnera une image avec uniquement 4 niveaux de gris.

On peut effectuer une conversion de l’image d’origine vers une image avec 3 niveaux de valeurs en effectuant les remplacements :

  • les valeurs dans $0,1,\ldots,63$ sont remplacées par la valeur 0,
  • les valeurs dans $64,65,\ldots,127$ sont remplacées par la valeur 1,
  • les valeurs dans $128,129,\ldots,191$ sont remplacées par la valeur 2,
  • les valeurs dans $192,193,\ldots,255$ sont remplacées par la valeur 3.

Une telle opération se nomme quantification.

La figure suivante montre l’image résultante avec 4 niveaux de gris. Les 4 valeurs sont affichées en utilisant 4 niveaux de gris allant du noir au blanc.

PNG - 19.4 ko
16 niveaux de gris

Nous avons déjà vu que l’on pouvait représenter toute valeur entre 0 et 255 à l’aide de 8 bits en utilisant l’écriture binaire. De façon similaire, on vérifie que toute valeur entre 0 et 3 peut se représenter à l’aide de 2 bits. On obtient ainsi une réduction d’un facteur $8/2=4$ de la place mémoire nécessaire pour le stockage de l’image sur un disque dur.

La figure suivante montre les résultats obtenus en utilisant de moins en moins de niveaux de gris.

PNG - 19.4 ko
16 niveaux de gris
PNG - 7.8 ko
4 niveaux de gris
PNG - 4.7 ko
3 niveaux de gris
PNG - 5 ko
2 niveaux de gris

Tout comme pour la réduction du nombre de pixels, la réduction du nombre de niveaux de gris influe beaucoup sur la qualité de l’image. Afin de réduire au maximum la taille d’une image sans modifier sa qualité, on utilise des méthodes plus complexes de compression d’image. La méthode la plus efficace s’appelle JPEG-2000. Elle utilise la théorie des ondelettes. Pour en savoir plus à ce sujet, vous pouvez consuler cet article d’Erwan Le Pennec.

Changer le contraste d’une image

Il est possible de faire subir différentes modifications à l’image afin de changer son contraste.

Un exemple simple consiste à remplacer chaque valeur $a$ d’un pixel d’une image par $255-a$ ce qui correspond au niveau de gris opposé. Le blanc devient noir et vice-versa, ce qui donne un effet similaire à celui des négatifs d’appareils photos argentiques.

PNG - 39 ko
Négatif

Sans aller jusqu’à des modifications aussi extrêmes, on peut assombrir une image en remplaçant la valeur $a$ de chaque pixel par son carré $a^2 = a \times a$.

Ce faisant, les valeurs résultantes ne sont plus dans $0,\ldots,255$ mais dans $0,\ldots,255^2=65025$. Afin d’afficher l’image à l’écran on va donc utiliser des niveaux de gris allant du noir pour 0 au blanc pour 65025.

PNG - 36.2 ko
Carré

Afin d’éclaircir l’image, on peut remplacer chaque valeur $a$ par sa racine carrée $b = \sqrt{a}$. Cette valeur $b$ est un nombre, qui n’est plus nécessairement entier, qui satisfait $b \times b = a$.

La figure suivante montre l’éclaircissement obtenu. Les valeurs de l’image éclaircie sont dans $0,\ldots,\sqrt{255} \approx 16$, et on utilise donc des niveaux de gris allant du noir (pour 0) au blanc (pour 16).

PNG - 37 ko
Racine carrée

On pourra noter que l’on a
\[ \sqrt{a} \times \sqrt{a} = a \quad\text{et}\quad \sqrt{a \times a}=a \]
de sorte que si l’on réalise un éclaircissement suivi d’un assombrissement (ou dans le sens inverse) on retrouve l’image d’origine. Ces deux opérations sont inverses l’une de l’autre.

Enlever le bruit par moyennes locales

Les images sont parfois de mauvaise qualité. Un exemple typique de défaut est le bruit qui apparaît quand une photo est sous-exposée, c’est-à-dire qu’il n’y a pas assez de luminosité. Ce bruit se manifeste par de petites fluctuations aléatoires des niveaux de gris. La figure ci-dessous montre une image bruitée.

PNG - 56.4 ko
Image bruitée

Afin d’enlever le bruit dans les images, il convient de faire subir une modification aux valeurs de pixels. L’opération la plus simple consiste à remplacer la valeur $a$ de chaque pixel par la moyenne de $a$ et des 8 valeurs $b,c,d,e,f,g,h,i $ des 8 pixels voisins de $a$.

La figure suivante montre un exemple de voisinage de 9 pixels.

PNG - 67.7 ko
Exemple d’un voisinage 9 pixels

On obtient ainsi une image modifiée en remplaçant $a$ par
\[ \frac{a +b + c + d + e + f + g + h + i}{9} \]
puisque l’on fait la moyenne de 9 valeurs.

Dans notre exemple, cette moyenne vaut
\[ \frac{190 + 192 + 79 + 54 + 47 + 153 + 203 + 189 + 166}{9} \approx {141,4}. \]

En effectuant cette opération pour chaque pixel, on supprime une partie du bruit, car ce bruit est constitué de fluctuations aléatoires, qui sont diminuées par un calcul de moyennes. La figure ci-dessous montre l’effet d’un tel calcul.

PNG - 56.4 ko
Image bruitée
PNG - 38.7 ko
Moyenne sur 9 pixels

Tout le bruit n’a pas été enlevé par cette opération. Afin d’enlever plus de bruit, on peut moyenner plus de valeurs autour de chaque pixel. La figure suivante montre le résultat obtenu en moyennant de plus en plus de valeurs.

PNG - 38.7 ko
Moyenne sur 9 pixels
PNG - 31.4 ko
Moyenne sur 25 pixels
PNG - 27.7 ko
Moyenne sur 49 pixels
PNG - 25.1 ko
Moyenne sur 81 pixels

Le calcul de moyenne de pixels est très efficace pour enlever le bruit dans les images. Malheureusement il détruit également une grande partie de l’information de l’image. On peut en effet s’apercevoir que les images obtenues par moyennes sont floues. Ceci est en particulier visible près des contours.

Enlever le bruit par médianes locales

Afin de réduire le flou introduit par les moyennes locales, il faut remplacer le calcul de moyenne par une opération un peu plus complexe, que l’on nomme médiane.

Etant donné la valeur $a$ d’un pixel, et les valeurs $b,c,d,e,f,g,h,i$, on commence par les classer par ordre croissant.

Dans l’exemple du voisinage de 9 pixels utilisé à la section précédente, on obtient les 9 valeurs classées
\[ 47, 54, 79, 153, 166, 189, 190, 192, 203. \]

La médiane des neuf valeurs $a,b,c,d,e,f,g,h,i$ est la 5$^{e} $ valeur de ce classement (c’est-à-dire la valeur centrale de ce classement).

Dans notre cas, la médiane est donc 166. Notez que ce nombre est en général différent de la moyenne, qui vaut, pour notre exemple 141,4.

La figure ci-dessous compare le débruitage obtenu en effectuant la moyenne et la médiane de 9 pixels voisins.

PNG - 38.7 ko
Moyenne sur 9 pixels
PNG - 40.5 ko
Médiane sur 9 pixels

Afin d’enlever plus de bruit, il suffit de calculer la médiane sur un nombre plus grand de pixels voisins, comme montré à la figure suivante.

PNG - 40.5 ko
Médiane sur 9 pixels
PNG - 34 ko
Médiane sur 25 pixels
PNG - 30.3 ko
Médiane sur 49 pixels
PNG - 27.8 ko
Médiane sur 81 pixels

On constate que cette méthode est plus performante que le calcul de moyennes, car les images résultantes sont moins floues. Cependant, tout comme avec le calcul de moyennes, si l’on prend des voisinages trop grands, on perd aussi de l’information de l’image, en particulier les bords des objets sont dégradés.

Détecter les bords des objets

Afin de localiser des objets dans les images, il est nécessaire de détecter les bords de ces objets. Ces bords correspondent à des zones de l’image où les valeurs des pixels changent rapidement. C’est le cas par exemple lorsque l’on passe du pétale de la fleur (qui est clair, donc avec des valeurs grandes) à l’arrière plan (qui est sombre, donc avec des valeurs petites).

Afin de savoir si un pixel avec une valeur $a$ est le long d’un bord d’un objet, on prend en compte les valeurs $b,c,d,e$ de ses quatre voisins (deux horizontalement et deux verticalement), qui sont disposés par rapport à $a$ comme illustré à la figure suivante.

PNG - 51.2 ko
Exemple d’un voisinage de 5 pixels

Notons que l’on utilise ici seulement 4 voisins, ce qui est différent du calcul de moyennes et de médianes où l’on utilisait 8 voisins. Ceci est important afin de détecter aussi précisément que possible les bords des objets.

On calcule une valeur $\ell$ suivant la formule
\[ \ell = \sqrt{ (b-d)^2 + (c-e)^2 }. \]
Dans notre exemple, on obtient donc
\[ \ell = \sqrt{ (192 - 153)^2 + (189 - 54)^2 } = \sqrt{19746} \approx {140,5}. \]

On peut remarquer que si $\ell=0$, alors on a $b=d$ et $c=e$. Au contraire, si $\ell$ est grand, ceci signifie que les pixels voisins ont des valeurs très différentes, le pixel considéré est donc probablement sur le bord d’un objet.

La figure suivante montre l’image obtenue en calculant la valeur $\ell$ associée à chaque pixel. On a affiché ces valeurs avec du noir quand $\ell=0$, du blanc quand $\ell$ atteint sa valeur maximale.

PNG - 38.9 ko
Image
PNG - 42.1 ko
Carte de contours $\ell$

On peut voir que dans l’image de droite, les contours des objets ressortent en blanc, car ils correspondent aux grandes valeurs de $\ell$.

Les images couleurs

Une image couleur est en réalité composée de trois images, afin de représenter le rouge, le vert, et le bleu. Chacune de ces trois images s’appelle un canal. Cette représentation en rouge, vert et bleu mime le fonctionnement du système visuel humain.

La figure suivante montre la décomposition d’une image couleur en ses trois canaux constitutifs.

PNG - 111.9 ko
Image numérique couleur
PNG - 44.7 ko
Canal rouge
PNG - 55.8 ko
Canal vert
PNG - 49.8 ko
Canal bleu

Chaque pixel de l’image couleur contient ainsi trois nombres $ (r,v,b) $, chacun étant un nombre entier entre 0 et 255. Si le pixel est égal à $(r,v,b)=(255,0,0)$, il ne contient que de l’information rouge, et est affiché comme du rouge. De façon similaire, les pixels valant $(0,255,0)$ et $(0,0,255)$ sont respectivement affichés vert et bleu.

On peut afficher à l’écran une image couleur à partir de ses trois canaux $(r,v,b)$ en utilisant les règles de la synthèse additive des couleurs. La figure suivante montre les règles de composition cette synthèse additive des couleurs. Un pixel avec les valeurs $(r,v,b)=(255,0,255)$ est un mélange de rouge et de vert, il est ainsi affiché comme jaune.

PNG - 36.8 ko
Synthèse additive des couleurs

On peut calculer une image en niveaux de gris à partir d’une image couleur en moyennant les trois canaux. On calcule donc une valeur
\[ a = \frac{r+v+b}{3} \]
qui s’appelle la luminance de la couleur.

La figure suivante montre l’image de luminance associée à une image couleur.

PNG - 37.6 ko
Luminance de l’image

Une autre représentation courante pour les images couleurs utilise comme couleurs de base le cyan, le magenta et le jaune. On calcule les trois nombres $(c,m,j)$ correspondant à chacun de ces trois canaux à partir des canaux rouge, vert et bleu $(r,v,b)$ comme suit
\[ c=255-r, \quad m=255-v, \quad j=255-b. \]
Par exemple, un pixel de bleu pur $(r,v,b)=(0,0,255)$ va devenir $(c,m,j) = (255,255,0)$. La figure suivante montre les trois canaux $(c,m,j)$ d’une image couleur.

PNG - 111.9 ko
Image numérique couleur
PNG - 45.1 ko
Canal cyan
PNG - 56.5 ko
Canal magenta
PNG - 50.4 ko
Canal jaune

Afin d’afficher une image couleur à l’écran à partir des trois canaux $(c,m,j)$, on doit utiliser la synthèse soustractive des couleurs.
La figure suivante montre les règles de composition cette synthèse soustractive. Notons que ces règles sont celles que l’on utilise en peinture, lorsque l’on mélange des pigments colorés. Le cyan, le magenta et le jaune sont appelés couleurs primaires.

PNG - 33.9 ko
Synthèse soustractive des couleurs

On peut donc stocker sur un disque dur une image couleur en stockant les trois canaux, correspondant aux valeurs $(r,g,b)$ ou $(c,m,j)$. On peut modifier les images couleur tout comme les images en niveaux de gris. La façon la plus simple de procéder consiste à appliquer la modification à chacun des canaux.

Conclusion

Cet article n’a fait qu’effleurer l’immense liste des traitements que l’on peut faire subir à une image. Le traitement mathématique des images est un domaine très actif, où les avancées théoriques se concrétisent sous la forme d’algorithmes rapides de calcul qui ont des applications importantes pour la manipulation des contenus numériques.

Les personnes intéressées pourront consulter le site web « A Numerical Tour of Signal Processing » pour de nombreux exemples de traitements d’images. On y trouve également des liens vers d’autres ressources disponibles en ligne.

Glossaire

  • Aléatoire : valeur imprévisible souvent due au hazard, comme par exemple le bruit qui perturbe les images de mauvaises qualités.
  • Bit : unité élementaire de stockage de l’information sous forme de 0 et de 1 dans un ordinateur.
  • Canal : une des trois images élémentaires qui composent une image couleur.
  • Bords : zone d’une image où les valeurs des pixels varient beaucoup, qui correspond aux contours des objets qui forment l’image.
  • Bruit : petites perturbations qui dégradent la qualité d’une image.
  • Carré : le carré $b$ d’une valeur $a$ est $a \times a$. Il est noté $a^2$.
  • Contraste : quantité informelle qui indique la différence entre les zones claires et les zones sombres d’une image.
  • Compression d’image : méthode permettant de réduire la place mémoire nécessaire au stockage sur le disque dur d’une image.
  • Ecriture binaire : écriture de valeurs numériques à l’aide uniquement de 0 et de 1.
  • Flou : dégradation d’une image qui rend les contours des objets peu net, et donc difficile à localiser précisément.
  • Image couleur : ensemble de trois images en niveau de gris, qui peut être affiché à l’écran en couleur.
  • Image numérique : tableau de valeurs que l’on peut afficher à l’écran en assignant un niveau de gris à chaque valeur.
  • Inverse : opération ramenant une image dans son état d’origine.
  • JPEG-2000 : méthode récente de compression d’images qui utilise une transformation en ondelettes.
  • Luminance : moyenne des différents canaux d’une image, qui indique la puissance lumineuse du pixel.
  • Médiane : valeur centrale lorsque l’on classe par ordre croissant un ensemble de valeurs.
  • Moyenne : la moyenne d’un ensemble de valeurs est leur somme divisée par leur nombre.
  • Niveaux de gris : nuances de gris utilisées pour afficher à l’écran une image numérique.
  • Nombres entiers : nombres 0, 1, 2, 3, 4 ...
  • Octet : ensemble de huit bits consécutifs.
  • Ondelettes : transformation de l’image qui est utilisée par la méthode JPEG-2000 de compression d’images.
  • Ordre croissant : classement d’un ensemble de valeurs de la plus petite à la plus grande.
  • Pixel : une case dans un tableau de valeurs correspondant à une image numérique.
  • Quantification : procédé consistant à réduire l’ensemble des valeurs possibles d’une image numérique.
  • Racine carrée : la racine carrée $b$ d’une valeur positive $a$ est la valeur positive $b$ vérifiant $a=b \times b$. On la note $\sqrt{a}$.
  • Résolution : taille d’une image (nombre de pixels).
  • Sous-exposée : photographie d’une scène trop sombre pour laquelle l’objectif photographique n’est pas resté assez longtemps ouvert.
  • Synthèse additive : règle permettant de construire une couleur quelconque à partir des trois couleurs rouge, vert et bleu. C’est la règle qui régit le mélange des couleurs de faisceaux lumineux utilisés pour l’éclairage d’un mur blanc.
  • Synthèse soustractive : règle permettant de construire une couleur quelconque à partir des trois couleurs cyan, magenta et jaune. C’est la règle qui régit le mélange des couleurs en peinture.
Post-scriptum :

La rédaction d’Images des maths, ainsi que l’auteur, remercient pour leur relecture attentive,
les relecteurs dont le pseudonyme est le suivant : Fred, Ulysse et Anne-Laure Dalibard.

Article édité par Jacques Istas

Partager cet article

Pour citer cet article :

Gabriel Peyré — «Le traitement numérique des images» — Images des Mathématiques, CNRS, 2011

Crédits image :

Image à la une - Merci à Maïtine Bergounioux pour l’image d’hibiscus.

Commentaire sur l'article

  • Le traitement numérique des images

    le 28 novembre 2011 à 11:28, par Jean-Paul Allouche

    Cet article est bien intéressant, y compris (mais pas seulement) pour donner de jolies réponses à la question ---hélas sempiternelle--- de l’utilité des mathématiques. Connaît-on l’origine ou l’histoire des deux photos utilisées ici, la fleur et le navire ? Il y a quelques années et essentiellement pour la compression l’image classique était une photographie de Lenna (ou Lena) dont on a fini par savoir qu’elle était la version recadrée et assagie d’une photographie parue dans... Playboy (l’histoire de ladite photographie peut se trouver ici).

    Répondre à ce message
  • Le traitement numérique des images

    le 1er décembre 2011 à 21:53, par Gabriel Peyré

    Cher Jean-Paul,

    Merci !

    L’image de la fleur a été prise par Maitine Bergounioux, elle est remerciée en bas de la page dans les crédits photographiques. L’image du bateau est une image standard pour tester les méthodes de compression, elle provient de « SIPI image database ». L’image de Lena est la plus connue, mais il est souvent recommandé de ne pas l’utiliser dans les publications scientifiques.

    Amitiés,

    Gabriel

    Répondre à ce message
    • Le traitement numérique des images

      le 8 décembre 2011 à 16:57, par Thierry Barbot

      Par contre, il semble toujours d’actualité d’utiliser l’image de Lena en exposé de séminaire ! Merci d’ailleurs pour cet exposé.

      Répondre à ce message
  • Le traitement numérique des images

    le 2 décembre 2011 à 17:36, par Jean-Paul Allouche

    Merci Gabriel ! je n’avais pas vu (et encore moins déplié) l’onglet des crédit photographiques pour l’hibiscus. Amitiés, j.-p.

    Répondre à ce message

Laisser un commentaire

Forum sur abonnement

Pour participer à ce forum, vous devez vous enregistrer au préalable. Merci d’indiquer ci-dessous l’identifiant personnel qui vous a été fourni. Si vous n’êtes pas enregistré, vous devez vous inscrire.

Connexions’inscriremot de passe oublié ?

Suivre IDM