OpenAI a rendu public la fiche système du GPT-4o, un document qui détaille les mesures de sécurité et les évaluations des risques effectuées avant le lancement de leur dernier modèle d’intelligence artificielle, qui a fait ses débuts en public en mai de cette année.
Avant la publication de la carte, OpenAI a fait appel à un groupe externe d’experts en sécurité connu sous le nom de « red teamers » dans le but d’identifier les risques potentiels liés au modèle. Ces experts ont évalué plusieurs menaces, notamment la possibilité que GPT-4o génère des clones non autorisés de voix, du contenu érotique ou violent, ainsi que des extraits audio protégés par des droits d’auteur.
Les résultats de ces évaluations indiquent que, selon le cadre de travail d’OpenAI, GPT-4o présente un risque « moyen ». Ce niveau de risque global est basé sur la note la plus élevée obtenue dans quatre catégories générales : cybersécurité, menaces biologiques, persuasion et autonomie du modèle. Parmi celles-ci, seule la catégorie de persuasion a été classée comme présentant un risque moyen, car il a été découvert que certains textes générés par GPT-4o pouvaient influencer l’opinion des lecteurs plus que ceux écrits par des humains, bien que de manière non constante.
Lindsay McCallum Rémy, porte-parole d’OpenAI, a déclaré à The Verge que la fiche système de GPT-4o comprend des évaluations internes ainsi que des tests effectués par des équipes externes telles que Model Evaluation and Threat Research (METR) et Apollo Research. Bien qu’OpenAI ait déjà publié des fiches système pour d’autres modèles tels que GPT-4 et DALL-E 3, la publication de cette fiche intervient à un moment crucial, au milieu de critiques croissantes concernant les normes de sécurité de l’entreprise.
De plus, la publication de cette carte coïncide avec l’élaboration d’un nouveau projet de loi en Californie, aux États-Unis, qui pourrait imposer des restrictions et des responsabilités légales accrues aux laboratoires d’IA, tels qu’OpenAI, si leurs modèles sont utilisés de manière préjudiciable.