OpenAI et Anthropic ont annoncé leur collaboration avec les gouvernements des États-Unis et du Royaume-Uni dans le but de renforcer la sécurité de leurs modèles de langage. À travers une série d’initiatives, les deux entreprises permettent aux chercheurs gouvernementaux d’évaluer la vulnérabilité de leurs systèmes face à d’éventuelles cyberattaques.
Une fin noble qui cache plus qu’il n’y paraît
Dans des articles récents sur leurs blogs, OpenAI et Anthropic ont révélé qu’ils ont travaillé avec l’Institut National des Standards et de la Technologie (NIST) et l’Institut de Sécurité de l’IA du Royaume-Uni. Cette coopération inclut l’accès à des modèles, des classificateurs et des données d’entraînement, ce qui permet à des experts indépendants d’examiner la résilience de ces modèles face à des attaques externes et leur efficacité pour prévenir des usages éthiquement discutables.
OpenAI a identifié des vulnérabilités critiques qui pourraient permettre à des attaquants sophistiqués de prendre le contrôle de systèmes informatiques et de se faire passer pour des utilisateurs, avec un taux de réussite de 50 % dans une méthode de détournement d’IA. Bien que les ingénieurs aient initialement cru que ces vulnérabilités étaient sans importance, la recherche a montré que leur combinaison avec des techniques de détournement pouvait être efficace.
Tant OpenAI qu’Anthropic mettent en œuvre des processus de « red-teaming » pour identifier et corriger rapidement ces vulnérabilités, cherchant à prévenir l’utilisation abusive de leur technologie. Cependant, certains experts en sécurité ont exprimé leur inquiétude quant à la possibilité que cette collaboration puisse entraîner une diminution de l’attention portée à la sécurité technique, en raison d’une plus grande compétitivité sur le marché mondial.
Néanmoins, des chercheurs comme Md Raz, étudiant en doctorat à l’Université de New York, soutiennent que les modèles deviennent de plus en plus résistants et difficiles à compromettre à chaque nouvelle version, suggérant une approche plus rigoureuse en matière de sécurité dans les derniers développements comme GPT-5.