OpenAI a révélé la semaine dernière la « carte du système »du modèle GPT-4o de ChatGPT, détaillant à la fois ses limitations et les procédures de sécurité mises en place. L’un des points forts est la capacité du modèle à imiter des voix, qui a réussi dans un cas étrange à reproduire la voix d’un des red teamers engagés pour tester la sécurité de l’IA, sans son consentement.
Le mode de voix avancé de ChatGPT permet aux utilisateurs de tenir des conversations vocales avec l’assistant IA, en utilisant des voix prédéfinies basées sur différents acteurs et actrices de doublage. Cependant, dans un épisode documenté par OpenAI dans la feuille de route de GPT-4o, le modèle a reproduit la voix d’un testeur après avoir reçu une entrée audio avec un peu de bruit, contournant les sauvegardes mises en place par l’entreprise.
OpenAI explique que GPT-4o peut synthétiser n’importe quel son, y compris des voix, en se basant sur de petits fragments audio. Cette capacité est contrôlée par un classificateur de sortie qui garantit que le modèle n’utilise que des voix présélectionnées. Malgré ces contrôles, le bruit dans l’entrée audio de l’utilisateur dans l’exemple mentionné a perturbé le modèle, le poussant à imiter la voix de l’utilisateur au lieu de la voix autorisée.

La carte du système révèle qu’OpenAI prend ces risques au sérieux, en veillant à ce que son système capture 100% des déviations significatives dans la voix. Simon Willison, un chercheur indépendant, a commenté qu’OpenAI a mis en place une protection solide pour éviter l’utilisation de voix non autorisées, mais a averti qu’à l’avenir, il pourrait y avoir des technologies très similaires. « ElevenLabs peut déjà cloner des voix, et bientôt nous verrons des modèles qui permettront cette capacité sur nos propres machines », a déclaré Willison, soulignant la rapide évolution de la technologie de synthèse vocale grâce aux nouveaux modèles d’IA.
Source: Ars Technica