Aller + loin, Histoire de la Musique, Musicologie

Manipuler les voix : l’Ircam entre science et friction

Le 19 janvier 2023 par Patrick Jézéquel

Le cycle de conférences « Fictions-Science » se penche sur la voix produite par l’intelligence artificielle, son histoire, son actualité, et réunit à l’Ircam une autrice de science-fiction, une chercheuse en science cognitive, un anthropologue ainsi qu’un directeur de recherche à l’Ircam et responsable de l’équipe Analyse-Synthèse. Quelques exemples de voix artificielles enregistrées pimentent la soirée. La manipulation des voix, pour le bonheur ou pour le délire ?

Nathalie Triou, productrice de l’émission « La science CQFD » sur France Culture et modératrice de cette rencontre, introduit le débat en rappelant que l’Ircam est pionnière dans la synthèse vocale et en attirant l’attention sur le paradoxe qui veut que la voix, ce qui n’appartient qu’à soi, ce qu’il y a de plus personnel, soit devenue un formidable enjeu des recherches en intelligence artificielle. Modifiée, transfigurée, simulée, qu’est-ce qu’une voix sans locuteur ? Doit-on craindre les conséquences possibles du deepfake, technique de reproduction de la voix rendant possible l’impensable : faire dire à quelqu’un des choses qu’il n’a jamais dites ?

Dès que, par le simple enregistrement, la voix rencontre la machine, il y a un sentiment de perte, avance Jean Lassègue, car on ne la reconnaît pas tout à fait comme nôtre. Étrangeté, trahison ? Veut-on faire la différence ou non entre la voix naturelle et la voix artificielle ? Le chargé de recherche CNRS en linguistique anthropologique et sociolinguistique souligne que le phénomène vocal est vaste et divers, évoquant notre théâtre intérieur – quand on se parle – et aussi que l’énonciation d’un discours n’est pas seulement une production physique, mais également une manifestation culturelle puisque, par exemple, on pose sa voix différemment selon les langues. Donc, la voix reste liée à quelque chose de très profond en nous. Par ailleurs, le développement actuel du recours aux vidéos pose la question de la confiance, en particulier dans le domaine de la Justice, quand l’unité de la salle d’audience est menacée par l’intrusion d’une parole extérieure rivalisant avec le témoignage direct. Nous vivons un moment charnière et allons au-devant de questions éthiques et juridiques.

On peut ajouter à cela une dimension philosophique dans la mesure où le recours à la voix artificielle éloigne de la véritable relation entre deux individus.

Nadia Guerouaou insiste sur le fait qu’une voix communique des émotions puisqu’au sens des mots s’ajoutent une intonation et un certain débit de la parole. C’est d’ailleurs sur le vecteur émotionnel que se fait l’accès au souvenir pour la voix et l’odorat. Pour les besoins de la soirée, l’intervenante a commandé une vidéo à Elena Knox, chercheuse et média-artiste vivant au Japon et s’intéressant à la relation homme-machine dans la société nippone. Le petit film met en scène des personnages féminins animés et doués d’une voix « Kawaï », comme celle que produit le logiciel Vocaloid au Japon : une voix jeune, aigüe, sucrée et gentillette. La fabrication d’un tel artifice reflète les attentes sociales du pays quant à sa population féminine, commente Nadia Guerouaou. La doctorante STMS et Centre de recherche Lille Neuroscience & Cognition parle de coercition de la société japonaise sur l’évolution de la voix féminine.

Après la diffusion de l’enregistrement d’un faux monologue d’André Dussollier – que tout le monde a identifié dans la salle –, Catherine Dufour, autrice de science-fiction pourtant habituée aux voix de robots, ne cache pas son effroi devant l’usage de la synthèse vocale, qui permet de faire dire n’importe quoi à n’importe qui. Pour l’instant, nous faisons confiance au locuteur que nous avons au téléphone, la voix étant le dernier élément de vérification, mais de gros changements sont à venir. Puis, après la vidéo d’Hôtel du temps, émission où Thierry Ardisson s’entretient avec « Dalida », elle aussi confondante de vérité, Catherine Dufour parle de transhumanisme – il s’agit de tuer la mort – et rappelle que l’homme a deux rêves : voler et être immortel. Axel Roebel, directeur de recherche Ircam-STMS, explique le trucage « Dalida » en parlant de clonage vocal : une actrice portant masque et perruque fait la source et l’on ajoute la couleur de la voix. Jean Lassègue pointe l’importance de l’idée, véhiculée déjà par 2001, l’Odyssée de l’espace, selon laquelle les machines sont supérieures aux hommes.

D’autres extraits sonores illustrent les propos de la table ronde, ainsi le fameux passage de la Reine de la nuit dans La Flûte enchantée, mais il est à regretter que ces entretiens, qui étaient surtout des rappels de ce qu’on savait déjà, n’aient pas accordé plus de place aux travaux de l’Ircam ni à la musique en général.

(Visited 376 times, 1 visits today)