Cómo eliminar tus datos de las IA: OpenAI, Slack, Adobe, Google…

Absolutamente todos hemos publicado algo en Internet en los últimos 20 años, por lo que es muy probable que las empresas de inteligencia artificial hayan absorbido y utilizado nuestra información para ayudar a entrenar la actual ola de IA generativa.

ChatGPT DESCARGAR

Los grandes modelos lingüísticos, como ChatGPT, y los creadores de imágenes se nutren de grandes cantidades de nuestros datos. E incluso si no se trata de un chatbot, los datos pueden utilizarse para otras funciones de aprendizaje automático.

Las empresas tecnológicas han rastreado vastas franjas de la web para recopilar los datos que afirman que son necesarios para crear IA generativa, sin apenas tener en cuenta a los creadores de contenidos, las leyes de derechos de autor o la privacidad.

As OpenAI and other tech firms make advances, the media industry is split between pushing back and making deals. https://t.co/Y2f5fxTR2B
— The Washington Post (@washingtonpost) May 28, 2024

Y para sumar problemas, las empresas que tienen montones de mensajes de la gente (como Reddit, Twitter, etc.) están tratando de llevarse un trozo del pastel de la IA mediante la venta o concesión de licencias de esa información.

Sin embargo, a medida que se acumulan las demandas e investigaciones en torno a la IA generativa y sus opacas prácticas con los datos, se han producido pequeños avances para dar a la gente más control sobre lo que ocurre con lo que publican en línea.

Algunas empresas permiten ahora a particulares y empresas optar por que sus contenidos no se utilicen para entrenar la IA o se vendan con fines de entrenamiento. Esto es lo que puedes y no puedes hacer.

Microsoft’s billion-dollar OpenAI investment was trigged by Google fears, emails reveal https://t.co/qOlHH165Gc
— The Verge (@verge) May 1, 2024

Hasta donde podemos llegar para frenar el entreno de la IA

Antes de hablar de cómo puede optar por no participar, conviene establecer algunas expectativas. Muchas empresas que crean IA ya han rastreado la web, por lo que es probable que todo lo que hayas publicado ya esté en sus sistemas.

En Wired, un experto explica que las empresas pueden hacer que sea complicado optar por que no se utilicen los datos para el entrenamiento de IA, e incluso cuando es posible, muchas personas no tienen una «idea clara» sobre los permisos que han acordado o cómo se están utilizando los datos.

Y eso antes de tener en cuenta diversas leyes, como las de protección de los derechos de autor y las estrictas leyes de privacidad europeas. Facebook, Google, Twitter y otras empresas han incluido en sus políticas de privacidad que pueden utilizar tus datos para entrenar la IA.

It’s generally accepted that ChatGPT was trained on Reddit data.

Apparently OpenAI failed to scrub several highly NSFW subreddits before training their models.

As a result, ChatGPT will say things like “Age is just a number” from a 4-word prompt. pic.twitter.com/LyE3LVa7DM
— Reddit Lies (@reddit_lies) May 22, 2024

Aunque hay varias formas técnicas de eliminar o «desaprender» los datos de los sistemas de IA, dice el experto, se sabe muy poco sobre los procesos que existen. Las opciones pueden estar enterradas o requerir mucho trabajo. Conseguir que los mensajes se eliminen de los datos de entrenamiento de la IA será probablemente una ardua batalla.

En los casos en los que las empresas están empezando a permitir la exclusión voluntaria para el raspado o el intercambio de datos en el futuro, casi siempre están haciendo que los usuarios la acepten por defecto.

Aunque es menos habitual, algunas empresas que crean herramientas de IA y modelos de aprendizaje automático no incluyen automáticamente a los clientes.

Cómo eliminar nuestros datos de la IA en estos servicios

Adobe

Si almacenas tus archivos en Creative Cloud de Adobe, la compañía puede usarlos para entrenar su algoritmo de aprendizaje automático. «Cuando analizamos su contenido con fines de mejora y desarrollo de productos, primero agregamos su contenido con otro contenido y luego utilizamos el contenido agregado para entrenar nuestros algoritmos y así mejorar nuestros productos y servicios», reza la FAQ de la compañía. Esto no se aplica a los archivos almacenados únicamente en tu dispositivo.

Si utilizas una cuenta personal de Adobe, es fácil excluirte. Abre la página de privacidad de Adobe, desplázate hasta la sección Análisis de contenido y haz clic en el botón para desactivarlo. En el caso de las cuentas de empresas o centros de enseñanza, el proceso de desactivación no está disponible a nivel individual, por lo que tendrás que ponerte en contacto con tu administrador.

Google: Gemini

Para los usuarios del chatbot de Google, Gemini, las conversaciones pueden seleccionarse a veces para ser revisadas por humanos con el fin de mejorar el modelo de IA. No obstante, la exclusión es sencilla.

Abre Gemini en tu navegador, haz clic en Actividad y selecciona el menú desplegable Desactivar. Aquí puedes simplemente desactivar la Actividad de Gemini Apps, o puedes optar por no participar así como eliminar los datos de tus conversaciones.

Si bien esto significa en la mayoría de los casos que los chats futuros no se verán para revisión humana, los datos ya seleccionados no se borran a través de este proceso. Según el centro de privacidad de Google para Gemini, estos chats pueden permanecer durante tres años.

OpenAI: ChatGPT y Dall-E

La gente revela todo tipo de información personal cuando utiliza un chatbot. OpenAI ofrece algunas opciones sobre lo que ocurre con lo que le dices a ChatGPT, entre ellas permitir que sus futuros modelos de IA no se entrenen con el contenido.

En sus páginas de ayuda, OpenAI dice que los usuarios web de ChatGPT sin cuenta deben ir a Configuración y desmarcar la opción Mejorar el modelo para todos. Si tienes una cuenta y has iniciado sesión a través de un navegador web, selecciona ChatGPT, Configuración, Controles de datos y, a continuación, desactiva Historial de chat y formación.

Si utilizas las aplicaciones móviles de ChatGPT, ve a Configuración, selecciona Controles de datos y desactiva Historial de chat y entrenamiento. Según las páginas de soporte de OpenAI, el cambio de estos ajustes no se sincronizará con los distintos navegadores o dispositivos, por lo que deberás realizar el cambio en todos los lugares en los que utilices ChatGPT.

OpenAI es mucho más que ChatGPT. Para su generador de imágenes Dall-E 3, la startup tiene un formulario que te permite enviar imágenes para que sean eliminadas de «futuros conjuntos de datos de entrenamiento».

Slack

Todos esos mensajes aleatorios de Slack en el trabajo también podrían ser utilizados por la empresa para entrenar sus modelos.

Aunque la empresa no utiliza los datos de los clientes para entrenar un gran modelo de lenguaje para su producto Slack AI, Slack puede utilizar tus interacciones para mejorar las capacidades de aprendizaje automático del software.

La única forma real de darse de baja es que tu administrador envíe un correo electrónico a Slack a feedback@slack.com. El mensaje debe tener como asunto «Slack Global model opt-out request» e incluir la URL de tu organización. Slack no indica cuánto tarda el proceso de exclusión, pero debería enviarte un correo electrónico de confirmación una vez completado.

WordPress

Al igual que Tumblr, WordPress tiene una opción para «evitar que se comparta con terceros». Para activarla, visita el panel de control de tu sitio web, haz clic en Configuración, General y, a continuación, en Privacidad, selecciona la casilla Impedir que terceros compartan.

Tu propio sitio web

Si alojas tu propio sitio web, puedes actualizar tu archivo robots.txt para indicar a los robots de AI que no rastreen las páginas. La mayoría de los sitios web de noticias no permiten que sus artículos sean rastreados por los robots de IA.

Esta exclusión no es solo para grandes medios: cualquier sitio web, grande o pequeño, puede modificar su archivo robots para excluir los rastreadores de IA.

Author: Chema Carvajal Sarabia

{ "de-DE": "Journalist, spezialisiert auf Technologie, Unterhaltung und Videospiele. Über das zu schreiben, was mich begeistert (Gadgets, Spiele und Filme), ermöglicht es mir, bei Verstand zu bleiben und mit einem Lächeln im Gesicht aufzuwachen, wenn der Wecker klingelt. PS: Das stimmt nicht 100% der Zeit.", "en-US": "Journalist specialized in technology, entertainment and video games. Writing about what I'm passionate about (gadgets, games and movies) allows me to stay sane and wake up with a smile on my face when the alarm clock goes off. PS: this is not true 100% of the time.", "es-ES": "Content Manager - Periodista especializado en tecnología, entretenimiento y videojuegos. Escribir sobre lo que me apasiona (cacharros, juegos y cine) me permite seguir cuerdo y despertarme con una sonrisa cuando suena el despertador. PD: esto no es cierto el 100 % de las veces.", "fr-FR": "Journaliste spécialisé dans la technologie, le divertissement et les jeux vidéo. Écrire sur ce qui me passionne (gadgets, jeux et films) me permet de rester sain d'esprit et de me réveiller avec le sourire aux lèvres quand le réveil sonne. PS : cela n'est pas vrai 100 % du temps.", "it-IT": "Giornalista specializzato in tecnologia, intrattenimento e videogiochi. Scrivere di ciò che mi appassiona (gadget, giochi e film) mi permette di mantenere la sanità mentale e di svegliarmi con un sorriso sul viso quando suona la sveglia. PS: questo non è vero al 100% del tempo.", "ja-JP": "", "nl-NL": "", "pl-PL": "", "pt-BR": "Jornalista especializado em tecnologia, entretenimento e videogames. Escrever sobre o que me apaixona (gadgets, jogos e filmes) me permite manter a sanidade e acordar com um sorriso no rosto quando o despertador toca. PS: isso não é verdade 100% do tempo.", "social": { "email": "chemacs91@gmail.com", "facebook": "", "twitter": "https://twitter.com/chematopetazo", "linkedin": "" } } View all posts by Chema Carvajal Sarabia