OpenAI a commencé à mettre en œuvre le Mode de Voix Avancé de ChatGPT, avec des réponses audio hyperréalistes grâce à GPT-4o. Selon TechCrunch, la version alpha est disponible pour un petit groupe d’utilisateurs depuis mardi et sera lancée pour tous les utilisateurs à l’automne 2024.
Lancée initialement en mai, la fonction a surpris le monde entier en ayant une voix appelée Sky qui ressemblait beaucoup à celle de Scarlett Johansson dans le film Her, alors que l’actrice a nié avoir autorisé l’utilisation de sa voix et a entrepris des mesures légales. OpenAI a nié l’utilisation de sa voix mais a finalement retiré Sky de la bibliothèque de voix.
Cette nouvelle fonctionnalité permettra à ChatGPT de parler et d’écouter de manière plus fluide, grâce à la capacité multimodale de GPT-4o. Contrairement au mode vocal précédent, qui utilisait trois modèles différents, le nouveau système est capable de traiter toute la conversation sans l’aide de modèles auxiliaires, réduisant ainsi considérablement la latence et permettant de percevoir les intonations émotionnelles.
L’implémentation se fait progressivement pour surveiller l’utilisation de la nouvelle fonctionnalité et les utilisateurs sélectionnés recevront des notifications via l’application et par e-mail avec des instructions pour la tester. Depuis la démonstration en mai, OpenAI a testé les capacités vocales avec plus de 100 experts en sécurité parlant 45 langues. La société publiera un rapport début août sur ces tests.
Les voix disponibles sont Juniper, Breeze, Cove et Ember, créées en collaboration avec des acteurs de doublage, tandis que Sky n’est plus disponible. Lindsay McCallum, porte-parole d’OpenAI, assure que « ChatGPT ne peut pas remplacer les voix d’autres personnes » et affirme que des filtres seront mis en place pour éviter de générer de la musique ou d’autres contenus protégés par des droits d’auteur. Avec cette mesure, l’entreprise cherche à éviter les problèmes juridiques futurs et les controverses telles que celles survenues avec d’autres technologies de clonage vocal.