Pour identifier un objet jamais vu auparavant, il faut regarder autour !

Résultats scientifiques Informatique

Pour identifier un objet inconnu dans une image, un humain peut utiliser ses connaissances. Par exemple, un tigre peut être identifié comme un animal à fourrure orangée et rayures noires. Au-delà de l’apparence directe d’un objet, le contexte (un tigre se trouve en général dans une jungle ou un zoo) est un élément primordial pour la reconnaissance. À partir de cette dernière intuition, des chercheurs du LIP6 (CNRS/Sorbonne Université) ont proposé un nouvel algorithme de reconnaissance d’objets pour lesquel aucun exemple visuel n’est disponible.

Ces dernières années, les algorithmes de deep learning appliqués à la vision ont connu une progression fulgurante, notamment grâce à l’accroissement de la puissance de calcul disponible et à l’utilisation de gros jeux de données sur lesquels les algorithmes peuvent apprendre. En reconnaissance d’objet, les modèles actuels atteignent des performances supérieures à un être humain, mais un problème important subsiste : pour chaque objet à reconnaître, il faut a minima plusieurs centaines à plusieurs milliers d’exemples.

Les chercheurs en IA se sont donc penchés sur l’identification d’objets dit zero-shot, où le but est de reconnaître des objets que le modèle n’a jamais vus auparavant. Pour ces objets, à défaut d’exemples visuels, les modèles de zero-shot apprennent une fonction qui met en correspondance deux espaces de représentations : où un objet visuel ou un mot correspondent à un point dans un espace de haute dimension (un objet/mot est représenté par une série de 500-4000 nombres réels). Ces espaces de représentation sont appris à partir du texte brut pour les mots et à partir d’exemples (image-objet) pour les objets.

Reconnaissance image

Cependant, les travaux sur la reconnaissance zero-shot ignorent un aspect primordial en vision : le contexte. Par exemple dans l'image ci-dessus, supposons qu’un modèle a pour objectif de reconnaître l’objet contenu dans le rectangle bleu. En considérant uniquement le contenu de la zone bleue, il est possible que le modèle se trompe et identifie une balle de tennis à la place d’une pomme - rappelons qu’en zero-shot, aucun des objets n’a été vu par le modèle préalablement. Dans cet exemple, le contexte est très utile ! En effet, de nombreux éléments ayant trait à la cuisine sont présents autour de l’objet d’intérêt : un plan de travail, des verres, un couteau, etc. C’est donc en considérant la présence de ces autres objets que le modèle peut éliminer balle de tennis et garder pomme.

Une équipe de chercheurs du LIP6 (CNRS/Sorbonne Université) a donc proposé de traduire cette intuition dans un modèle de reconnaissance zero-shot contextuelle. Les informations visuelles préalablement obtenus pour les objets non vus concernent alors deux aspects distincts : l'apparence (une balle de tennis est jaune et ronde) et le contexte (une balle de tennis peut se trouver près d’une raquette, ou d’un filet de tennis). Les résultats alors obtenus sont plus précis, et le contexte joue un rôle important pour affiner les prédictions et désambiguïser entre deux formes qui se ressemblent.

Publication

Eloi Zablocki, Patrick Bordes, Laure Soulier, Benjamin Piwowarski and Patrick Gallinari. Context-Aware Zero-Shot Learning for Object Recognition, ICML 2019: 7292-7303

Contact

Benjamin Piwowarski
Chargé de recherche CNRS au LIP6