Un ERC Proof of concept pour Jean-Julien Aucouturier : l’algorithme du sourire
Après la fin de l’ERC Starting Grant CREAM, Jean-Julien Aucouturier passe à la vitesse supérieure avec Activate. Cet ERC Proof of concept continue d’explorer les rapports entre émotion, musique et parole, liant informatique et neurosciences. Inspirés par le traitement du signal, les algorithmes du chercheur modulent les émotions transmises par la voix humaine, afin de la rendre plus sympathique ou de désamorcer des tensions.
Même si nous avons des goûts différents, la musique nous touche tous. Alors que les humains jouent, chantent et parlent depuis des millénaires, les liens entre sons et émotions restent encore extrêmement mal compris. Jean-Julien Aucouturier, chargé de recherche CNRS au laboratoire Sciences et technologies de la musique et du son (STMS - CNRS/Sorbonne Université/IRCAM/Ministère de la Culture), allie traitement du signal sonore et neurosciences pour percer ce mystère.
« Les émotions ont une utilité. Si on croise un ours dans la forêt, on va crier pour appeler à l’aide, transpirer pour réguler sa température s’il faut courir ou se battre. Le rythme cardiaque va aussi s’accélérer pour pomper plus de sang, afin d’affronter le danger, énumère Jean-Julien Aucouturier. Les Beatles ou un violoncelle ne vont cependant ni nous tuer ni nous donner à manger. On ne comprend donc pas pourquoi le cerveau juge les sons musicaux dignes d’une telle réaction. »
Avec ses collègues, le chercheur tente ainsi de « cracker le code émotionnel de la musique et de la voix ». Cette idée a donné naissance à un premier projet ERC Starting Grant, appelé CREAM1 tout comme son équipe à l’IRCAM2 , terminé avec succès au mois de septembre. Jean-Julien Aucouturier enchaîne et poursuit sur sa lancée avec un ERC Proof of Concept nommé Activate.
Si l’impact de la musique sur les émotions reste mystérieux, la voix humaine joue un rôle crucial pour la survie physique et sociale des individus. « Pour un bébé, le ton d’une voix transmet des informations extrêmement importantes, explique Jean-Julien Aucouturier. La personne est-elle un ami ou un ennemi, heureuse ou mécontente ? » Pour le projet CREAM, Jean-Julien Aucouturier s’est alors concentré sur le son du sourire. Il a étudié comment cette mimique modifie le timbre et les intonations de la voix, et quels effets ont ces changements sur un auditeur.
Au téléphone, le chercheur ne peut d’ailleurs pas s’empêcher d’illustrer son propos en jouant sur sa diction et ses prononciations. En entendant la voix de quelqu’un qui sourit, les gens peuvent se mettre inconsciemment à sourire, même s’ils ne voient pas leur interlocuteur. Plus surprenant encore, le phénomène touche jusqu’aux aveugles de naissance et serait donc inné.
Afin de mieux comprendre et utiliser ce principe, Jean-Julien Aucouturier a créé les premiers outils informatiques capables de modifier les intonations de la voix. Des algorithmes prennent des enregistrements ou des flux directs, puis les colorent pour les rendre souriants, anxieux, énervés, voire changer la perception du genre du locuteur. Sans avoir à synthétiser des voix, ces programmes ajoutent une couche supplémentaire à la parole humaine afin d’en moduler la perception.
Ces algorithmes s’inspirent des transformations physiques et acoustiques provoquées par les expressions du visage. En plus des mouvements classiques liés à la parole, un sourire ou une grimace modifient non seulement la physionomie du visage, mais aussi celle de l’intérieur de la bouche. Comme cette dernière sert de caisse de résonance aux sons produits par les cordes vocales, l’humeur et les mimiques ont un impact mesurable sur la parole. C’est ce que l’équipe de Jean-Julien Aucouturier reproduit.
Les chercheurs ont d’ailleurs poussé l’expérience encore plus loin. « Nous avons appliqué notre algorithme de sourire vocal à un violon : les gens trouvent alors les extraits plus joyeux, s’étonne Jean-Julien Aucouturier. Notre cerveau est profondément câblé pour réagir ainsi, même si c’est absurde d’imaginer un violon qui sourit. Peut-être que c’est comme cela que la musique nous trompe pour susciter des émotions, en jouant sur nos indices de communication vocale. »
À la suite de CREAM, officiellement terminé le 30 septembre, l’ERC Activate vise à porter cette technologie au plus près du marché. Les pistes d’application sont en effet nombreuses. Les algorithmes peuvent par exemple aider ceux qui ne peuvent plus parler. « Lorsque des gens, comme Stephen Hawking, utilisent des synthétiseurs vocaux et tapent leurs mots lettre par lettre, ils ne peuvent plus exprimer de nuances et d’émotions », déplore Jean-Julien Aucouturier.
L'enregistrement vocal
Audiodescription
Le son instrumental (violon)
Audiodescription
Avec l'algorithme de "sourire vocal" conçu par le chercheur
Audiodescription
Il imagine ainsi un système commandé par des smileys en fin de phrase, où le son serait modifié pour correspondre à différentes humeurs. De même, ces voix pourraient être adaptées en fonction de l’âge, du sexe ou même de la corpulence. Ces travaux ont vocation à être mis sur le marché via la start-up Alta Voce, en cours de création avec l’aide du programme RISE de CNRS Innovation. L’équipe est formée de Jean-Julien Aucouturier, de Marco Liuni, déjà présent sur CREAM, Gilles Degottex, ancien de l’IRCAM, et du business développer Nicolas Martinois.
Ces applications intéressent également les centres d’appels, pour rendre les conversations plus agréables et gommer l’agressivité lorsque le ton monte. Tout cela en temps réel et sans altérer l’identité de la voix. Bien entendu, certaines applications posent des questions éthiques auxquelles Jean-Julien Aucouturier reste très attentif. « Notre technologie a de la valeur, mais elle doit aider à aller vers un monde meilleur et ne pas servir, par exemple, à manipuler des clients. »
L’ERC Activate offrira également l’occasion de dépasser le domaine des émotions, pour étudier l’impact social de la voix. Qu’est-ce qui fait qu’une voix inspire confiance ? Quel est l’impact des mensonges sur la parole ? Comment rendre une voix mémorable pour mieux retenir les informations qu’elle nous donne ? Ces travaux feront intervenir davantage d’éléments de la parole, comme la prononciation ou le rythme d’un discours, et combleront le vide scientifique sur ces questions.
Passionné de musique et d’abord attiré par le métier d’ingénieur du son, Jean-Julien Aucouturier a découvert le traitement de signal en école d’ingénieur. Après une thèse en informatique et en mathématiques, il est accepté pour un postdoctorat au Japon en neurosciences. Un grand écart que le Conseil européen de la recherche l’aide à effectuer à nouveau.
« L’ERC est un très beau programme, car il m’a permis de mener un projet en neurosciences alors que ce n’est pas mon background, conclut Jean-Julien Aucouturier. J’ai des choses à apprendre, mais je sais m’entourer des bonnes personnes et suivre une bonne méthodologie. C’est une chance unique de recevoir autant de financement pour un domaine qui n’est à l’origine pas le mien. »
Références :
Pablo Arias, Pascal Belin, Jean-Julien Aucouturier. Auditory smiles trigger unconscious facial imitation. Current Biology, Volume 28, Issue 14, Pr782-R783, July 23, 2018.