Une représentation 3D de la surface des objets toujours plus précise

Résultats scientifiques Image

Des chercheurs du Groupe de REcherche en Informatique, Image, Automatique et Instrumentation de Caen (GREYC - CNRS/ ENSICAEN/ Université de Caen Normandie) ont mis au point un algorithme de reconstruction 3D d’images qui dépasse l’état de l’art. Ces travaux, mêlant stéréophotométrie et intelligence artificielle, mettent en lumière une approche multi-échelles qui offre de nouvelles perspectives au traitement numérique d’images.

La stéréophotométrie consiste à reconstruire un modèle 3D de la surface d’un objet à partir d’un ensemble d’images prises d’un même point de vue, mais avec différentes positions de la source lumineuse. Cette méthode est notamment utilisée dans l’industrie afin d’identifier des micro-défauts à la surface de pièces usinées. Elle peut aussi servir à la reconstruction tridimensionnelle d’objets du patrimoine lorsque leur acquisition par scanner 3D est difficile.

La stéréophotométrie est un procédé algorithmique permettant de reconstruire la géométrie d'un objet 3D, à partir de plusieurs photographies de cet objet du même point de vue, mais avec des positions de sources de lumières différentes. / Crédit photo Clément Hardy, Yvain Quéau et David Tschumperlé

Jusqu’à présent, cette technique ne donnait pas de résultats satisfaisants lorsque les matériaux des objets étaient transparents ou brillants. Ces derniers, comme le métal, le verre ou l’acrylique, réfléchissent la lumière de manière non lambertienne, créant des points de surbrillance, ce qui engendre des artefacts au sein des surfaces 3D reconstruites.

La principale difficulté de la stéréophotométrie est la prise en compte de matériaux qui, une fois éclairés, entraînent des réflexions multiples sur les objets.

Des travaux présentés à l'International Conferences in Central Europe on Computer Graphics, Visualization and Computer Vision (WSCG) 2023, dédiée à la reconnaissance des formes et à la vision par ordinateur, proposent une solution très performante adaptée au traitement de ces matériaux. « Les résultats obtenus dans le cadre de la thèse de Clément Hardy dépassent l'état de l'art et présentent un taux de précision significativement supérieur aux outils existants », s’enthousiasme David Tschumperlé, chargé de recherche CNRS au GREYC et co-encadrant de la thèse avec Yvain Quéau, lui aussi chargé de recherche CNRS au GREYC. Cette réussite tient à la combinaison de la création d’une base de données d’entraînement plus variée que celles déjà disponibles et à l’utilisation d’une architecture de réseaux de neurones inédite dans le domaine.

Le réseau de neurones prend en entrée les différentes photographies et estime la carte de normales 3D associée, en analysant les images itérativement à toutes les échelles. / Crédit photo Clément Hardy, Yvain Quéau et David Tschumperlé

La nouvelle base de données synthétiques se compose de plusieurs millions d’images de nombreux matériaux différents, dont les plus problématiques. Elle a servi à l’entraînement d’un réseau de neurones s’appuyant sur une analyse et une reconstruction multi-échelles des images. Cette approche permet d’étudier différents niveaux de résolutions d’images, et non plus seulement la résolution la plus élevée. « Par ailleurs, lorsqu’on analyse des matériaux présentant des réflexions multiples, l’effet d’un rayon lumineux peut avoir des répercussions un peu partout dans l’image. L’architecture multi-échelle permet donc au réseau de neurones d’avoir une vue à la fois locale et globale de l’image, ce qui améliore ses performances », décrit le chercheur. Des tests réalisés dans le cadre d’un challenge en ligne sur des photographies d’objets réels ont ainsi démontré des reconstructions globalement supérieures pour toutes formes et matières d’objet.

Notre algorithme calcule et analyse des corrélations entre les pixels et les rayons lumineux pour toutes les échelles de l’image, plutôt qu’une analyse trop locale adoptée par les méthodes usuelles.

À terme, ces chercheurs souhaitent étendre ces travaux à l’acquisition vidéo. Une contrainte majeure tient alors à la couverture spatiale de l’éclairage nécessaire à la reconstitution 3D d’une image. « Actuellement, il faut environ 100 images - et donc autant de positions de lumières différentes – pour effectuer une bonne reconstruction. Nous souhaitons réduire ce nombre à une dizaine d’images afin de favoriser la démocratisation de ces méthodes et faciliter leur usage pour des prises de vues, par exemple avec une acquisition rapide par un smartphone qui complique l’acquisition avec une grande variété de positionnement de sources lumineuses », conclut David Tschumperlé.

Résultats sur trois objets de types et matières différents : 1. photo éclairée 2. méthode de référence simple par moindre carrés 3&4. méthodes de l'état de l'art basées sur des réseaux de neurones 5. méthode de réseaux de neurones multi-échelles. Plus l'erreur angulaire moyenne (en haut de chaque image) est faible, meilleure est la qualité de reconstruction. / Crédit photo Clément Hardy, Yvain Quéau et David Tschumperlé

Publication

Clément Hardy, Yvain Quéau, David Tschumperlé. MS-PS: a multi-scale photometric stereo network with a new training database. 2022.

Contact

Clément Hardy
Doctorant au GREYC
Yvain Quéau
Chargé de recherche CNRS au GREYC
David Tschumperlé
Chargé de recherche CNRS au GREYC