OpenAI a émis un avertissement concernant la menace croissante des attaques par injection de prompts, une technique qui cache des instructions malveillantes dans du contenu en ligne ordinaire, devenant un risque considérable pour les agents d’intelligence artificielle qui opèrent dans les navigateurs web. L’entreprise a mis en place une mise à jour de sécurité pour son outil ChatGPT Atlas après avoir découvert une nouvelle classe d’attaques lors de simulations internes de sécurité automatisées.
Pas tant d’intelligence, mais très artificielle
La version mise à jour d’Atlas inclut un modèle entraîné spécifiquement pour résister aux attaques adversariales, ainsi que des protections renforcées. Selon OpenAI, le mode agent du navigateur permet au logiciel d’interagir sur le web de manière similaire à un utilisateur humain, accédant à des e-mails, des documents et des services web, ce qui augmente sa valeur en tant que cible d’attaques adversariales par rapport à un chatbot traditionnel qui ne répond qu’à des questions.
La société a développé un attaquant automatisé, utilisant des modèles de langage qui identifient des stratégies d’injection de prompts, ce qui permet de réaliser des flux de travail nuisibles complexes. Cet attaquant peut simuler des rencontres avec du contenu malveillant, générant une trace complète de raisonnement et d’actions de l’agent victime, ce qui aide à affiner les attaques à travers plusieurs rounds de test.
Un exemple hypothétique illustre le risque : un e-mail malveillant indiquant à l’agent d’envoyer une lettre de démission au supérieur de l’utilisateur. Si l’agent trouve cet e-mail lors d’une demande légitime, il pourrait mal interpréter les instructions, agissant au détriment de l’utilisateur. Ce changement dans la dynamique d’interaction souligne la nécessité d’aborder les nouvelles formes de risque en ligne.
Ce n’est pas seulement OpenAI qui est confronté à ce problème ; le Centre national de cybersécurité du Royaume-Uni a averti que ces attaques pourraient ne pas être complètement éliminées, incitant les organisations à minimiser les risques et à limiter les impacts. Avec l’introduction d’une équipe de « Préparation », OpenAI cherche à identifier et à traiter ces risques émergents dans le domaine de l’intelligence artificielle et de la cybersécurité.