Bluesky, le réseau social décentralisé, est au cœur de la polémique suite à la récente publication d’un ensemble de données (dataset) sur Hugging Face, une plateforme communautaire d’intelligence artificielle.
Selon 404 Media, l’ensemble contenait un million de publications ainsi que des informations d’utilisateurs, obtenues par le chercheur Daniel van Strien grâce à une technique connue sous le nom de scraping, en utilisant l’API Firehose. Van Strien a justifié l’utilisation des données pour « développer des modèles d’intelligence artificielle, analyser les tendances sur les réseaux sociaux et étudier les schémas de publication », bien qu’il ait fini par supprimer l’ensemble après avoir constaté que « cette approche violait les principes de transparence et de consentement dans la collecte de données ».
Le jeu de données comprenait des métadonnées sensibles, telles que les identifiants décentralisés (DIDs) des utilisateurs et des outils de recherche spécifiques, ce qui a inquiété beaucoup de monde quant à l’utilisation abusive possible de ces informations. Bien que Bluesky assure qu’il ne forme pas de modèles d’IA avec les données de ses utilisateurs, il admet qu’« il ne peut pas appliquer cette politique en dehors de nos systèmes » et que la décision revient aux développeurs externes. La société promet également de continuer à travailler avec des ingénieurs et des avocats pour aborder le problème.
Brief update on our ongoing efforts to allow users to specify consent (or not) for AI training: ?
— Bluesky (@bsky.app) 27 de noviembre de 2024, 2:52
Et c’est que la nature ouverte et décentralisée de Bluesky, basée sur le protocole Authenticated Transfer (AT), facilite l’accès des tiers au contenu de manière publique. Une approche qui contraste avec des plateformes comme Twitter, où Elon Musk a restreint et augmenté le coût d’accès à son API pour, soi-disant, freiner le scraping indiscriminé.