Logo - Jor2a.online
L

L'intelligence artificielle parlante de Microsoft est capable d'imiter une voix en l'écoutant seulement 3 secondes


Abonnez vous sur
Telegram

VALL-E peut préserver le ton émotionnel du haut-parleur d'origine et même simuler son environnement acoustique.
Les ingénieurs de Microsoft ont développé VALL-E , un nouvel outil d'intelligence artificielle (IA), qui peut simuler la voix d'une personne après l'avoir écoutée pendant seulement 3 secondes . L'application est basée sur une technologie de compression audio appelée EnCodec , qui a été développée par Meta (classée en Russie comme une organisation extrémiste), ont rapporté ses auteurs dans une publication en attente d'examen par les pairs.
Microsoft a profité de la technologie EnCodec pour rendre la synthèse vocale (TTS) réaliste, basée sur un échantillon source très limité. Au cours de la phase de formation de l'IA, ils ont utilisé 60 000 heures de conversation en anglais , ce qui est des centaines de fois plus important que les systèmes existants.

avantage
Selon ses créateurs, VALL-E affiche des capacités d'apprentissage en contexte et peut être utilisé pour synthétiser une voix personnalisée de haute qualité avec seulement un enregistrement enregistré de 3 secondes. Les résultats de l'expérience montrent que VALL-E surpasse de manière significative les systèmes TTS à déclenchement zéro (non entraînés avec la voix qu'ils simulent) à la pointe de la technologie, en termes de naturel de la parole et de similarité des locuteurs. De plus, ils soutiennent que VALL-E pourrait préserver l'émotion du locuteur et l'environnement acoustique dans le message vocal synthétisé à partir du texte.

lacunes
Malgré ses réalisations notables, les chercheurs de Microsoft ont attiré l'attention sur certains problèmes liés à l'outil. En particulier, ils ont critiqué le fait que certains mots peuvent être peu clairs, perdus ou dupliqués dans la synthèse vocale. Un autre aspect noté est qu'il ne peut toujours pas couvrir la voix de tout le monde, en particulier les locuteurs accentués . Ils ont également fait valoir que la diversité des styles de parole n'est pas suffisante, puisque LibriLight (la base de données qu'ils ont utilisée pour la formation) est un ensemble de données de livres audio, dans lequel la plupart des énoncés sont en style de lecture.
Les ingénieurs de Microsoft ont averti que VALL-E pourrait synthétiser la parole qui maintient l'identité du locuteur, ce qui peut comporter des risques potentiels en cas d'utilisation abusive du modèle . Un exemple de cela pourrait être l'usurpation d'identité vocale ou l'usurpation de l'identité d'un locuteur spécifique pour produire un « deepfake ».

Les 'deepfake', ou falsifications profondes, sont des fichiers vidéo, image ou voix créés à l'aide d'un programme d'intelligence artificielle pour supplanter de manière très réaliste l'image des protagonistes du contenu par celle d'autres personnes.



Afficher Plus


Dernières actualités




© 2024 ||Jor2a.online || Condition d'utilisation