Géolocalisation IP : un nouvel espoir

Résultats scientifiques Informatique

Les travaux d’une équipe de scientifiques du Laboratoire d’analyse et d’architecture des systèmes (LAAS-CNRS) et du laboratoire LIP6 (CNRS/Sorbonne Université) donnent un nouveau souffle à la géolocalisation IP, grâce à la réévaluation de publications antérieures et de nouvelles recommandations pour aider à la conception de futures techniques de géolocalisation. Leur article a été distingué par le Best Artifact Award lors de l’ACM Internet Measurement Conference 2023.

La géolocalisation d’un appareil via son adresse IP ou géolocalisation IP est l'une des formes de métadonnées les plus largement utilisées pour les adresses IP. Malgré près de vingt ans d'efforts de la part de la communauté scientifique, il n'existe pas de jeu de données précis, complet, à jour, explicable, et accessible au public.

Pour faire face à cette problématique, Omar Darwich, doctorant au LAAS-CNRS et Kévin Vermeulen, chargé de recherche CNRS au LAAS-CNRS, en collaboration avec Milo Dreyfus, alors en stage de master 1, Matthieu Gouel, doctorant, ainsi que Hugo Rimlinger, doctorant, tous les trois membres du LIP6, se sont concentrés sur les raisons de ce manque. L’une d’elles est l’utilisation par les chercheurs de bases de données privées comme MaxMind ou IPinfo qui possèdent une méthodologie propriétaire, contiennent des erreurs et sont non explicables. Une autre raison est la combinaison des mesures de latence et d’extractions d’indices de géolocalisation dans les noms de domaine inverse. Les mesures de latence sont faites à partir de points de mesures distribués dans le monde qui ne peuvent pas dédier leur trafic à la géolocalisation. Les techniques classiques comme la multilatération (technique permettant de déterminer l’emplacement de cibles en mesurant leur distance par rapport à des points connus) ne peuvent donc pas fonctionner pour géolocaliser des millions d’adresses IP.

En plus de ces raisons techniques, s’ajoute également le problème suivant : des publications antérieures avaient obtenu des résultats impressionnants, à la fois en termes de précision et de couverture de la géolocalisation, freinant la possibilité de nouvelles publications qui devaient s’y comparer. Elles annonçaient une précision à la rue près d’une adresse IP et une couverture de millions d’adresses IP grâce à quelques centaines de points d’observation en quelques mois.  Or, la comparaison avec ces techniques était difficile, car elles avaient été déployées sur des plateformes de mesures indisponibles aujourd’hui et certains jeux de données pour évaluer la technique étaient propriétaires et manquaient de diversité pour être représentatifs d’Internet, car contenant peu d’adresses IP dans des réseaux spécifiques.

Afin d’encourager la communauté à poursuivre les recherches sur la géolocalisation IP, et ainsi d’avancer dans la production d’un jeu de données et d’un code de référence public, les scientifiques ont reproduit et réévalué les deux techniques existantes. Ils ont montré que la première technique ne permet pas d’obtenir la très haute précision revendiquée et que la seconde ne géolocalise pas précisément des millions d’adresses IP sur l’Internet actuel et les infrastructures de mesures disponibles aujourd'hui, contrairement aux résultats annoncés en matière de couverture. 

En réponse à cette découverte, les scientifiques se sont penchés sur les idées fondamentales qui ont conduit aux résultats des publications antérieures, fournissant de nouvelles idées et recommandations pour aider à la conception de futures techniques de géolocalisation. En particulier, ils ont étudié les deux techniques réévaluées, qui se basent sur des mesures de délais entre des points géographiquement distribués et la cible pour géolocaliser celle-ci. Les auteurs soulignent qu’il n’est pas possible d’obtenir de géolocalisation précise avec des mesures de délais si on ne possède pas de points de mesure proche de la cible. En effet, dans la plupart des cas, 10 000 points de mesure ne donnent pas de meilleurs résultats qu’un seul bien placé ! Les codes et données de cette nouvelle étude sont accessibles au public pour garantir la réplicabilité et reproductibilité de leurs résultats et pour fournir une nouvelle base d’évaluation des nouvelles techniques de géolocalisation IP. 

Ces travaux sont étroitement liés aux précédentes recherches de Kevin Vermeulen sur l’optimisation du trafic Internet (actualité du 25 octobre 2022). Le chercheur avait présenté un système capable de mesurer les chemins retours (depuis la destination vers une source) dans internet à large échelle, les chemins d’internet étant largement asymétriques. Comme l’outil bien connu Traceroute, ce système permet de mesurer les chemins (retours) d’un point de vue topologique en donnant une séquence d’adresses IP, qui donne des informations utiles aux opérateurs pour débogger des pannes ou des problèmes de performance. La géolocalisation de ces adresses IP donne une granularité plus fine et rend l’identification des problèmes plus rapide et plus précise.

En savoir plus

Omar Darwich, Hugo Rimlinger, Milo Dreyfus, Matthieu Gouel, Kevin Vermeulen. Replication: Towards a Publicly Available Internet scale IP Geolocation Dataset. ACM Internet Measurement Conference (IMC 2023), ACM, Oct 2023, Montréal, Canada.

Contact

Kevin Vermeulen
Chargé de recherche CNRS au LAAS-CNRS