OpenAI y Anthropic han anunciado su colaboración con los gobiernos de Estados Unidos y Reino Unido con el objetivo de fortalecer la seguridad de sus modelos de lenguaje. A través de una serie de iniciativas, las dos compañías están permitiendo que investigadores gubernamentales evalúen la vulnerabilidad de sus sistemas ante posibles ataques cibernéticos.
Un fin noble que tiene detrás más de lo que parece
En posts recientes en sus blogs, OpenAI y Anthropic revelaron que han estado trabajando con el Instituto Nacional de Estándares y Tecnología (NIST) y el Instituto de Seguridad AI del Reino Unido. Esta cooperación incluye el acceso a modelos, clasificadores y datos de entrenamiento, lo que permite a expertos independientes examinar la resiliencia de estos modelos ante ataques externos y su efectividad para prevenir usos éticamente cuestionables.
OpenAI identificó vulnerabilidades críticas que podrían permitir a atacantes sofisticados tomar control de sistemas informáticos y suplantar a usuarios, con una tasa de éxito del 50% en un método de secuestro de IA. A pesar de que los ingenieros inicialmente creyeron que estas vulnerabilidades eran irrelevantes, la investigación demostró que su combinación con técnicas de secuestro podía ser efectiva.
Tanto OpenAI como Anthropic están implementando procesos de “red-teaming” para identificar y corregir estas vulnerabilidades rápidamente, buscando prevenir el uso indebido de su tecnología. Sin embargo, algunos expertos en seguridad han expresado su preocupación sobre si esta colaboración podría llevar a una disminución en la atención a la seguridad técnica, debido a una mayor competitividad en el mercado global.
No obstante, investigadores como Md Raz, estudiante de doctorado en la Universidad de Nueva York, sostienen que los modelos están volviéndose más resistentes y difíciles de vulnerar con cada nueva versión, sugiriendo un enfoque más riguroso en la seguridad en los últimos desarrollos como GPT-5.