Une nouvelle IA effrayante peut simuler votre voix parfaitement après l'avoir entendue pendant 3 secondes

Une nouvelle IA effrayante peut simuler votre voix parfaitement après l'avoir entendue pendant 3 secondes

La technologie moderne a révolutionné la façon dont nous faisons avancer les choses. Même la version la plus élémentaire des smartphones dans les poches de la plupart des gens ou les appareils de maison intelligente dans nos salons a une quantité impressionnante de capacités, en particulier lorsque vous considérez que vous pouvez les contrôler simplement en parlant, grâce à l'intelligence artificielle (IA). Mais même si les ordinateurs ont progressé pour nous faciliter notre vie, ils entrent également dans un nouveau territoire à mesure qu'ils deviennent capables d'imiter le comportement humain et même de penser par eux-mêmes. Et maintenant, une nouvelle forme effrayante d'IA peut simuler votre voix parfaitement après l'avoir entendue pendant seulement trois secondes. Lisez la suite pour en savoir plus sur la technologie révolutionnaire.

Lisez ceci suivant: ne facturez jamais votre téléphone Android de cette façon, disent les experts.

Microsoft a développé un nouveau type d'IA qui peut simuler parfaitement votre voix.

Shutterstock / Soloviova Liudmyla

Nous comptons tous sur des machines pour faciliter notre vie quotidienne d'une manière ou d'une autre. Mais que se passe-t-il si un ordinateur pouvait intervenir et imiter la façon dont vous parlez sans que les autres ne remarquent même?

La semaine dernière, des chercheurs de Microsoft ont annoncé qu'ils avaient développé une nouvelle forme d'IA textuelle à dispection qu'ils ont surnommée Vall-E, rapporte Ars Technica. La technologie peut simuler la voix d'une personne en utilisant un clip audio de trois secondes, même en ramassant et en préservant le ton émotionnel du haut-parleur d'origine et les sons acoustiques de l'environnement dans lequel ils enregistrent. L'équipe affirme que le modèle pourrait être pratique pour créer des vocalisations automatiques de texte - même elle comporte des risques potentiels de dupes très sophistiqués similaires aux vidéos DeepFake.

La société affirme que la nouvelle technologie est basée sur un "modèle de langage de codec neural."

Shutterstock / Fizkes

Dans son article discutant de la nouvelle technologie, Microsoft Dubs Vall-e un "modèle de langage de codec neural."Cela signifie que si le logiciel traditionnel de texte à dispection (TTS) prend des mots écrits et manipule les formes d'onde pour générer des vocalisations, l'IA peut ramasser des éléments subtils d'une voix et des invites audio spécifiques qui l'aident à créer une recréation fiable d'un personne qui parle de toute phrase qui lui est alimentée, selon le site Web Intéressant Engineering.

"Synthétiser le discours personnalisé (E.g., TTS zéro-shot), Vall-E génère les jetons acoustiques correspondants conditionnés sur les jetons acoustiques de l'enregistrement inscrit en 3 secondes et l'invite de phonème, qui contraint respectivement les informations du haut-parleur et du contenu ", explique l'équipe dans leur article. "Enfin, les jetons acoustiques générés sont utilisés pour synthétiser la forme d'onde finale avec le décodeur de codec neural correspondant."

Connexes: Pour plus d'informations à jour, inscrivez-vous à notre newsletter quotidien.

L'équipe a utilisé plus de 60 000 heures de discours enregistré pour former la nouvelle IA.

Michael Julius Photos / Shutterstock

Pour développer le nouveau modèle, l'équipe a déclaré avoir utilisé environ 60 000 heures de discours enregistré en anglais de plus de 7 000 orateurs individuels d'une bibliothèque audio assemblée par Meta connu sous le nom. Dans la plupart des cas, les enregistrements ont été tirés des lectures des livres audio du domaine public stockés sur Librivox, rapporte Ars Technica. Dans ses essais, l'équipe a déclaré que Vall-E avait besoin de la voix dans l'échantillon de trois secondes pour ressembler étroitement à l'une des voix de ses données de formation pour produire un résultat convaincant.

L'équipe présente désormais son travail en publiant des exemples spécifiques du logiciel en action sur une page GitHub. Chacun fournit un clip de trois secondes de la voix d'un haut-parleur lisant le texte aléatoire et une «vérité au sol», qui est un exemple enregistré de l'orateur lisant une phrase à utiliser à titre de comparaison. Ils fournissent ensuite un enregistrement "de base" pour montrer comment le logiciel TTS typique générerait un son parlé et une version "Vall-E" de l'enregistrement à titre de comparaison avec les deux précédents.

Bien que les résultats ne soient pas entièrement parfaits, ils présentent des exemples très convaincants où la parole générée par la machine semble choquante humaine. Les chercheurs ajoutent également qu'en plus d'imiter l'inflexion et l'émotion, le logiciel peut également reproduire l'environnement dans lequel l'audio de base est enregistré pour l'exemple, ce qui donne l'impression que quelqu'un parle à l'extérieur, dans une salle en écho ou sur un appel téléphonique.

Jusqu'à présent, Microsoft n'a pas publié le programme pour que d'autres puissent tester ou expérimenter avec.

istock

L'équipe de recherche conclut son article en disant qu'ils prévoyaient d'augmenter la quantité de données de formation pour aider le modèle à améliorer ses styles de parole et à s'améliorer pour imiter la voix humaine. Mais pour le moment, Microsoft a également empêché de rendre le nouveau logiciel disponible pour les développeurs ou le grand public à tester-potentiellement en raison de sa capacité à tromper les gens ou à être utilisés à des fins néfastes. ae0fcc31ae342fd3a1346ebb1f342fcb

"Étant donné que Vall-E pourrait synthétiser le discours qui maintient l'identité du locuteur, il peut comporter des risques potentiels dans une mauvaise utilisation du modèle, comme l'identification de l'identification vocale ou l'identité d'un orateur spécifique", ont écrit les auteurs dans leur conclusion. "Pour atténuer ces risques, il est possible de construire un modèle de détection pour discriminer si un clip audio a été synthétisé par Vall-E. Nous mettrons également en pratique les principes de Microsoft AI lorsque vous développez davantage les modèles."