Bluesky, la red social descentralizada, se encuentra en el centro de la polémica tras la reciente publicación de un conjunto de datos (dataset) en Hugging Face, una plataforma comunitaria de inteligencia artificial.
Según recoge 404 Media, el conjunto contenía un millón de publicaciones junto con información de usuarios, obtenida por el investigador Daniel van Strien mediante una técnica conocida como scraping, usando la API Firehose. Van Strien justificó el uso de los datos para “desarrollar modelos de inteligencia artificial, analizar tendencias en redes sociales y estudiar patrones de publicación”, aunque acabó eliminando el conjunto tras ver que “este enfoque violaba los principios de transparencia y consentimiento en la recopilación de datos”.
El conjunto de datos incluía metadatos sensibles, como los identificadores descentralizados (DIDs) de los usuarios y herramientas de búsqueda específicas, algo que preocupó a muchos por el posible uso indebido de dicha información. Aunque Bluesky asegura que no entrena modelos de IA con los datos de sus usuarios, admite que “no puede hacer cumplir esta política fuera de nuestros sistemas” y que la decisión recae en los desarrolladores externos. La compañía también promete seguir trabajando con ingenieros y abogados para abordar el problema.
Brief update on our ongoing efforts to allow users to specify consent (or not) for AI training: ?
— Bluesky (@bsky.app) 27 de noviembre de 2024, 2:52
Y es que la naturaleza abierta y descentralizada de Bluesky, basada en el protocolo Authenticated Transfer (AT), facilita que terceros accedan al contenido públicamente. Un enfoque que contrasta con plataformas como Twitter, donde Elon Musk restringió y encareció el acceso a su API para, supuestamente, frenar el scraping indiscriminado.