Imiter à la perfection Ségolène Royal ou le regretté Coluche, que l’on soit un homme, une femme ou un enfant ? Chanter avec la voix de Céline Dion ? Faire parler son smartphone avec sa propre voix ? CandyVoice, petite start-up parisienne qui travaille en partenariat avec Microsoft, a mis au point un système de reproduction vocale personnalisée. Un marché naissant digne d’un épisode de la série d’anticipation Black Mirror : à la fois fascinant et inquiétant.
CandyVoice en est encore au stade expérimental. La version en ligne fonctionne de manière intermittente, mais son système est prometteur. Elle propose deux types de services. Le premier, le plus classique, permet d’utiliser sa propre voix dans toutes sortes de services vocaux en ligne, en remplacement des voix de synthèse habituelles. Pour cela, il faut télécharger l’application sur son smartphone, puis lire posément 160 petites phrases s’affichant sur l’écran, qui couvrent l’essentiel des sons de la langue française – un exercice d’une dizaine de minutes, un peu fastidieux.
Les serveurs de CandyVoice analysent alors les caractéristiques de la voix grâce à des algorithmes, et constituent un fichier informatique qui permettra de recréer à volonté le timbre exact de la voix choisie.
Foule de services
Dans sa version actuelle, le système a encore des défauts. Ainsi, il gère mal les accents régionaux : les utilisateurs marseillais risquent de se retrouver avec une voix affligée de l’accent pointu des Parisiens. Mais le créateur et patron de CandyVoice, Jean-Luc Crebouw, un ingénieur de 57 ans, espère résoudre ce problème.
S’il parvient à convaincre les industriels et les grands services Internet d’acheter son système, il imagine une gamme infinie de services : « Vous pourrez faire parler avec votre propre voix des personnages de jeux vidéo, des messageries en ligne, des services vocaux de type Siri (Apple) ou Google Now, des chatbots et des hotlines automatiques, des appareils ménagers intelligents, des robots, des GPS de voiture, etc. »
Vos messages écrits (mails, SMS, tweets), au lieu d’être publiés en mode texte, seront prononcés avec votre voix
De même, vos messages écrits (e-mails, SMS, tweets, messages Facebook), au lieu d’être simplement publiés en mode texte, seront prononcés, avec votre voix, par les smartphones et les ordinateurs de vos correspondants, qui auront ainsi l’illusion de vous entendre en direct.
Usage médical
CandyVoice veut aussi venir en aide aux nombreuses personnes qui perdent leur voix à cause d’une maladie ou d’une opération : « Si ces gens constituent leur fichier vocal pendant qu’ils peuvent encore parler, ils pourront ensuite continuer à s’exprimer avec leur ancienne voix à travers des machines. » En France, environ 350 000 personnes ne peuvent plus parler, pour des raisons médicales.
Au total, Jean-Luc Crebouw affirme être en négociation avec une dizaine de clients potentiels, notamment des fabricants de robots compagnons : bientôt, un père de famille pourra offrir à ses enfants un robot doté de sa voix. La machine deviendra alors une espèce de clone mécanique de la figure paternelle.
Intrigant et… effrayant
L’autre service proposé par CandyVoice est plus complexe – à la fois ludique, intrigant et un peu effrayant. Il permet à n’importe qui de parler en empruntant la voix d’une autre personne, soit un proche, soit une personnalité dont la voix est connue du grand public – homme politique, vedette du show-business, journaliste… En d’autres termes, on peut faire dire à quelqu’un ce qu’il n’a jamais dit.
L’opération se fait en temps réel : dans le test, vous parlez avec votre voix naturelle, et les haut-parleurs de l’ordinateur restituent vos paroles avec la voix d’autrui. La séquence peut bien sûr être enregistrée, puis réutilisée à volonté.
Si une personne célèbre « prête » sa voix, constituer un « fichier d’imitation » est relativement aisé.
Si la personne célèbre « prête » sa voix, constituer un « fichier d’imitation » est relativement aisé. Si elle n’a pas envie de se prêter au jeu, ou si elle est morte, le travail de CandyVoice est plus complexe : il doit se procurer une sélection de discours ou d’interviews contenant un large éventail de mots et de sons, enregistrés dans de bonnes conditions. Cela dit, les tests réalisés sur une dizaine de personnalités « non consentantes », du général de Gaulle à Manuel Valls, sont assez concluants.
A nouveau, Jean-Luc Crebouw imagine une infinité d’applications : « Dans un jeu vidéo, un gamin de 10 ans pourra parler avec la voix de Sylvester Stallone ou de Dark Vador. On pourra aussi organiser des karaokés où vous chanterez avec la voix de l’artiste original, ou avec celle d’un autre chanteur. » Pour cela, il faudra au préalable extraire la voix de l’artiste sur un CD, en la séparant de la musique instrumentale – une tâche qui nécessite du matériel professionnel.
Droits
En ce qui concerne les droits de reproduction et d’utilisation des voix reconstituées, Jean-Luc Crebouw semble persuadé qu’ils n’existent pas vraiment : « Les imitateurs professionnels ne demandent pas l’autorisation aux hommes politiques ou aux acteurs qu’ils imitent. Même chose pour nous. » Les imitateurs, qui, très souvent, ne sont pas les auteurs de leurs sketches, mais uniquement des interprètes, seraient remplaçables par une machine, comme tant d’autres travailleurs avant eux. Les humains étant ce qu’ils sont, le système de CandyVoice permettra canulars, manipulations, usurpations d’identité et arnaques diverses - on pourrait même imaginer l’émergence d’un nouveau volet dans le marché du big data: la voix humaine. Sur la question de l’identité, Jean-Luc Crebouw est le premier à le reconnaître : « L’ancien ministre Jérôme Cahuzac a été condamné pour fraude fiscale parce que l’enregistrement téléphonique dans lequel il s’accusait lui-même a été analysé par le laboratoire de biométrie de la police scientifique, et jugé authentique [avec un score de 5 sur 6]. Or, désormais, ce type de preuve devient incertain. » Conscient du danger, M. Crebouw a contacté l’Institut national de police scientifique de Lyon (INPS) dès 2015, avec un premier prototype : « Ils sont venus me voir et sont repartis avec un échantillon de voix reconstituée d’Arielle Dombasle. Leur logiciel a conclu qu’il s’agissait d’un enregistrement authentique de la voix de l’actrice. » Contacté, l’INPS n’a pas souhaité commenter cette affirmation et ne confirme pas qu’il dispose d’un système de reconnaissance vocale. En revanche, l’Institut de recherche en criminalité de la gendarmerie nationale (IRCGN), installé à Pontoise, fait savoir qu’il a conçu un outil informatique baptisé GendVox permettant de comparer et d’identifier des voix. Il sert par exemple à déterminer si une même personne utilise plusieurs lignes téléphoniques dans le but de brouiller les pistes, ou à identifier des suspects dans des lieux placés sur écoute avec des micros cachés. Le capitaine de gendarmerie Mikael de Miras, créateur de GendVox, ne connaît pas CandyVoice, mais il n’est pas surpris qu’une voix de synthèse ait pu tromper un système d’identification : « Qu’il s’agisse de comparer ou de transformer des voix, on extrait les mêmes paramètres. Il est donc normal que le modèle de la voix de synthèse corresponde au modèle de l’échantillon d’origine. » Il précise que l’identification par la voix restera un exercice complexe, moins sûr que l’ADN ou l’iris : « Les paramètres de la voix d’une même personne changent sans arrêt à cause de facteurs comme la fatigue, la maladie, l’énervement, le contexte social, le chuchotement, ou à cause de la qualité de l’enregistrement. Nous ne sommes jamais affirmatifs à 100 %. » Selon le capitaine de Miras, cependant, les voix artificielles ne sont pas encore parfaites. Un professionnel exercé saura les reconnaître à l’oreille.