Dynalips : une animation de la parole aux frontières du réel

Innovation Informatique

Synchroniser la parole au mouvement des lèvres d’avatars 3D n’a jamais été aussi simple qu’avec Dynalips. Cette solution, développée par des chercheurs du Laboratoire lorrain de recherche en informatique et ses applications (LORIA – CNRS/Inria/Université de Lorraine) combine des connaissances en modélisation de la parole à l’intelligence artificielle. Résultat : un gain de temps pour les animateurs qui peuvent se recentrer sur les aspects artistiques de leur travail. Les chercheurs du LORIA présentent Dynalips aux professionnels du cinéma d'animation à l’occasion du Marché international du film d’animation (Mifa) à Annecy qui a lieu du 13 au 16 juin 2023.

L’animation se construit et évolue au gré de prouesses techniques rendant ses univers toujours plus réalistes. Les paysages sont grandioses, les gestes fluides, mais qu’en est-il des mouvements de la bouche dès lors qu’un personnage parle ? En 2015, Slim Ouni, maître de conférences à l’Université de Lorraine, membre du LORIA et spécialiste des mécanismes d’articulation et de leur modélisation, remarque qu’aucun outil basé sur la production de la parole n’est utilisé pour animer la bouche d’avatars 3D dans l’animation. « Tout était fait manuellement, image par image. Ce travail est incontournable, mais il est long et sans réelle plus-value pour les animateurs », rapporte le chercheur.

Après plusieurs années de recherche et de développement, il met au point, avec son doctorant Théo Biasutto, Dynalips : un algorithme de « lip sync » qui synchronise automatiquement les mouvements labiaux à la parole de personnages 3D. La solution se destine aussi bien aux développeurs de jeux vidéo que de films d’animation, deux marchés en forte demande.

J’étudie les mécanismes de la production de la parole : comment les sons de la parole sont prononcés et articulés à partir du conduit vocal, la position de la langue, le mouvement des lèvres, etc.

Si aucune solution basée sur la production de la parole n’existait jusqu’alors, c’est parce que l’articulation est un phénomène bien plus complexe qu’il n’y paraît. Lorsque nous prononçons un mot, il ne s’agit pas simplement de concaténer les sons qui le composent. Par exemple, le mot « clou » est composé des sons [k], [l] et [ou], mais nous ne les articulons pas les uns après les autres. Notre bouche s’arrondit pour former le [ou] avant même d’avoir prononcé le [k]. « C’est le phénomène de coarticulation. Nous avons réussi à l’intégrer dans notre modèle numérique, sans quoi il est difficile d’animer la bouche avec la parole de manière réaliste », précise Slim Ouni.

En pratique, Dynalips combine une expertise en traitement de la parole, à des méthodes de deep learning. Le modèle de lip sync a été entraîné sur des enregistrements réels de locuteurs humains afin de se rapprocher au maximum de la dynamique de leur visage associé à la parole. Dans le cadre d’un financement Epic MegaGrants, les chercheurs ont validé la précision et le réalisme de leur solution. « Nous avons appliqué notre technologie à l’animation des MetaHuman, des modèles humains en 3D hyperréalistes créés par l’entreprise américaine Epic Games. Cela nous a permis d’apporter une belle preuve de concept », précise le chercheur.

Animating MetaHuman (Epic Games) using Dynalips : An automatic lipsync technology (French examples)

Audiodescription

Mais comment cela fonctionne-t-il pour l’utilisateur ? Celui-ci fournit au système l’enregistrement audio. Il reçoit en retour l’animation des lèvres qui peut être lue directement dans Unreal Engine, un moteur de création graphique largement utilisé par des studios d’animation et de jeux vidéo. L’animateur peut ensuite ajouter des expressions faciales ou encore exagérer l’articulation fournie. « Notre outil ne remplace pas l’animateur, il l’aide à se focaliser sur la partie artistique de son travail. Avec Dynalips, une tâche qui lui prenait une journée, est désormais réalisée en quelques secondes », ajoute Slim Ouni.

Avec Dynalips, nous sommes capables d’animer la bouche d’un avatar de façon réaliste en coordonnant le mouvement des lèvres et la parole.

Et maintenant ? Avec l’aide de l’Incubateur Lorrain, Slim Ouni, Louis Abel et Théo Biasutto vont co-fonder une start-up d’ici au début de l’année 2024. Une phase de bêta test apportera des retours d’expériences d’utilisateurs sur l’implémentation de Dynalips au cours de l’été 2023. « En juin, nous sommes présents au Marché international du film d’animation à Annecy et au salon VivaTech à Paris, afin d’entrer en contact avec de premiers clients potentiels et amorcer la prochaine étape de valorisation de notre solution », conclut le chercheur.

Contact

Slim Ouni
Maître de conférences à l’Université de Lorraine, membre du LORIA