Première méthode de transport optimal préservant la sécurité des données
Grâce à l’accès à des bases de données de plus en plus volumineuses, l’apprentissage statistique, sous-domaine de l’intelligence artificielle, a connu un développement sans précédent ces dernières années. Quand les données manipulées représentent des personnes, la question de la préservation de la vie privée dans les processus d’apprentissage devient cruciale. Dans leurs travaux récemment publiés à IJCAI 2019, des chercheurs du laboratoire Hubert Curien (CNRS/Université Jean Monnet) ont proposé la première méthode de transport optimal préservant la sécurité des données et l’ont appliquée dans le contexte de l’adaptation de domaine, aujourd’hui un des sujets les plus étudiés dans la communauté en apprentissage automatique.
Considérons un hôpital (appelons-le « source ») souhaitant mettre au point un système automatique de détection de zones tumorales dans des IRM du cerveau. Pour ce faire, une base de données de patients est constituée contenant des images annotées par des experts (les médecins) et un modèle est ensuite optimisé par un algorithme d’apprentissage automatique (deep-learning, Support Vector Machine, Régression logistique, etc.). Considérons désormais un deuxième hôpital (appelons-le « cible ») souhaitant également détecter des tumeurs du cerveau à partir d’images non annotées cette fois, capturées par un système IRM différent de celui de l’hôpital source. Dans ce contexte, les données (les images, ici) des deux hôpitaux ont des distributions statistiques différentes et le modèle appris sur la source ne pourra donc pas bien fonctionner sur la cible. Il est alors nécessaire d’opérer un processus d’adaptation de domaines visant à transférer (typiquement par réduction de l’écart entre les deux distributions statistiques) les connaissances de la source vers la cible.
Une méthode pour résoudre ce problème consiste à utiliser le transport optimal, proposant une théorie géométrique et définissant une distance (la distance de Wassertein) dans l’espace des mesures de probabilités. Cette distance peut donc être exploitée comme critère à minimiser dans les algorithmes d’adaptation de domaines afin de réduire l’écart entre les deux distributions. Une limitation de cette approche est qu’elle requiert de calculer les distances (typiquement euclidiennes) entre les données des domaines source et cible. Dans l’exemple applicatif ci-dessus, il serait donc nécessaire pour calculer ces distances de partager les informations des patients des deux hôpitaux, ce qui peut être jugé inacceptable pour des raisons de préservation de la vie privée des personnes.
Dans l’article "Differentially Private Optimal Transport: Application to Domain Adaptation", Tien Nam Le, Amaury Habrard et Marc Sebban du Laboratoire Hubert Curien (CNRS/Université Jean Monnet) ont proposé la première méthode de transport optimal préservant la sécurité des données. Exploitant une projection aléatoire de celles-ci et en intégrant un bruit Laplacien, ils ont montré que la distance de Wassertein était très peu affectée tout en protégeant formellement la confidentialité des données. Ils ont montré que ce nouvel algorithme pouvait alors être exploité efficacement dans des tâches d’adaptation de domaines. Les résultats expérimentaux obtenus sur des tâches de vision par ordinateur montrent que l’approche proposée obtient des résultats quasiment identiques aux meilleures méthodes d’adaptation qui ne préservent pas la vie privée des individus.
Publication
Tien Nam Le, Amaury Habrard, Marc Sebban: "Differentially Private Optimal Transport: Application to Domain Adaptation". IJCAI 2019: 2852-2858.