Des chercheurs ont révélé une technique de « jailbreak » qui élude les restrictions éthiques imposées par OpenAI sur son modèle de langage GPT-5, en utilisant une approche appelée Echo Chamber. Cette technique, combinée à des narrations contextuelles, permet aux utilisateurs de poser des questions qui seraient normalement rejetées par le modèle, facilitant ainsi la génération de réponses indésirables. Selon Martí Jordà, chercheur en cybersécurité, cette méthode repose sur l’introduction d’un contexte de conversation subtilement toxique qui n’émet pas de signaux directs d’intention malveillante.
Attention, fans de l’IA
Ces attaques potentielles, qui s’inscrivent dans un « boucle de persuasion », présentent un risque croissant à mesure que les modèles de langage génératifs sont utilisés dans des environnements professionnels. Des découvertes récentes ont montré qu’il est possible que les attaquants choisissent des mots-clés et construisent des phrases qui incitent le modèle à révéler des instructions dangereuses, comme dans le cas de la création de cocktails Molotov, dans un format narratif qui masque la demande directe.
De plus, de nouveaux attaques appelées ‘zero-click’ ont été identifiées, où des informations confidentielles peuvent être extraites de documents et d’e-mails apparemment inoffensifs par le biais d’injections de prompts. Ces attaques tirent parti de l’intégration des modèles d’IA avec des systèmes externes, exposant encore plus les vulnérabilités de sécurité.
Les recherches soulignent la nécessité de mettre en œuvre des filtrages stricts des résultats et des tests réguliers comme mesures pour atténuer ces risques. Cependant, le défi persiste, car l’évolution de ces menaces va de pair avec le développement continu de l’intelligence artificielle. L’introduction de protections adéquates contre ces manipulations sera cruciale pour garantir la sécurité et la confiance dans ces systèmes émergents.