Absolutamente todos hemos publicado algo en Internet en los últimos 20 años, por lo que es muy probable que las empresas de inteligencia artificial hayan absorbido y utilizado nuestra información para ayudar a entrenar la actual ola de IA generativa.
Los grandes modelos lingüísticos, como ChatGPT, y los creadores de imágenes se nutren de grandes cantidades de nuestros datos. E incluso si no se trata de un chatbot, los datos pueden utilizarse para otras funciones de aprendizaje automático.
Las empresas tecnológicas han rastreado vastas franjas de la web para recopilar los datos que afirman que son necesarios para crear IA generativa, sin apenas tener en cuenta a los creadores de contenidos, las leyes de derechos de autor o la privacidad.
Y para sumar problemas, las empresas que tienen montones de mensajes de la gente (como Reddit, Twitter, etc.) están tratando de llevarse un trozo del pastel de la IA mediante la venta o concesión de licencias de esa información.
Sin embargo, a medida que se acumulan las demandas e investigaciones en torno a la IA generativa y sus opacas prácticas con los datos, se han producido pequeños avances para dar a la gente más control sobre lo que ocurre con lo que publican en línea.
Algunas empresas permiten ahora a particulares y empresas optar por que sus contenidos no se utilicen para entrenar la IA o se vendan con fines de entrenamiento. Esto es lo que puedes y no puedes hacer.
Hasta donde podemos llegar para frenar el entreno de la IA
Antes de hablar de cómo puede optar por no participar, conviene establecer algunas expectativas. Muchas empresas que crean IA ya han rastreado la web, por lo que es probable que todo lo que hayas publicado ya esté en sus sistemas.
En Wired, un experto explica que las empresas pueden hacer que sea complicado optar por que no se utilicen los datos para el entrenamiento de IA, e incluso cuando es posible, muchas personas no tienen una «idea clara» sobre los permisos que han acordado o cómo se están utilizando los datos.
Y eso antes de tener en cuenta diversas leyes, como las de protección de los derechos de autor y las estrictas leyes de privacidad europeas. Facebook, Google, Twitter y otras empresas han incluido en sus políticas de privacidad que pueden utilizar tus datos para entrenar la IA.
Aunque hay varias formas técnicas de eliminar o «desaprender» los datos de los sistemas de IA, dice el experto, se sabe muy poco sobre los procesos que existen. Las opciones pueden estar enterradas o requerir mucho trabajo. Conseguir que los mensajes se eliminen de los datos de entrenamiento de la IA será probablemente una ardua batalla.
En los casos en los que las empresas están empezando a permitir la exclusión voluntaria para el raspado o el intercambio de datos en el futuro, casi siempre están haciendo que los usuarios la acepten por defecto.
Aunque es menos habitual, algunas empresas que crean herramientas de IA y modelos de aprendizaje automático no incluyen automáticamente a los clientes.
Cómo eliminar nuestros datos de la IA en estos servicios
Adobe
Si almacenas tus archivos en Creative Cloud de Adobe, la compañía puede usarlos para entrenar su algoritmo de aprendizaje automático. «Cuando analizamos su contenido con fines de mejora y desarrollo de productos, primero agregamos su contenido con otro contenido y luego utilizamos el contenido agregado para entrenar nuestros algoritmos y así mejorar nuestros productos y servicios», reza la FAQ de la compañía. Esto no se aplica a los archivos almacenados únicamente en tu dispositivo.
Si utilizas una cuenta personal de Adobe, es fácil excluirte. Abre la página de privacidad de Adobe, desplázate hasta la sección Análisis de contenido y haz clic en el botón para desactivarlo. En el caso de las cuentas de empresas o centros de enseñanza, el proceso de desactivación no está disponible a nivel individual, por lo que tendrás que ponerte en contacto con tu administrador.
Google: Gemini
Para los usuarios del chatbot de Google, Gemini, las conversaciones pueden seleccionarse a veces para ser revisadas por humanos con el fin de mejorar el modelo de IA. No obstante, la exclusión es sencilla.
Abre Gemini en tu navegador, haz clic en Actividad y selecciona el menú desplegable Desactivar. Aquí puedes simplemente desactivar la Actividad de Gemini Apps, o puedes optar por no participar así como eliminar los datos de tus conversaciones.
Si bien esto significa en la mayoría de los casos que los chats futuros no se verán para revisión humana, los datos ya seleccionados no se borran a través de este proceso. Según el centro de privacidad de Google para Gemini, estos chats pueden permanecer durante tres años.
OpenAI: ChatGPT y Dall-E
La gente revela todo tipo de información personal cuando utiliza un chatbot. OpenAI ofrece algunas opciones sobre lo que ocurre con lo que le dices a ChatGPT, entre ellas permitir que sus futuros modelos de IA no se entrenen con el contenido.
En sus páginas de ayuda, OpenAI dice que los usuarios web de ChatGPT sin cuenta deben ir a Configuración y desmarcar la opción Mejorar el modelo para todos. Si tienes una cuenta y has iniciado sesión a través de un navegador web, selecciona ChatGPT, Configuración, Controles de datos y, a continuación, desactiva Historial de chat y formación.
Si utilizas las aplicaciones móviles de ChatGPT, ve a Configuración, selecciona Controles de datos y desactiva Historial de chat y entrenamiento. Según las páginas de soporte de OpenAI, el cambio de estos ajustes no se sincronizará con los distintos navegadores o dispositivos, por lo que deberás realizar el cambio en todos los lugares en los que utilices ChatGPT.
OpenAI es mucho más que ChatGPT. Para su generador de imágenes Dall-E 3, la startup tiene un formulario que te permite enviar imágenes para que sean eliminadas de «futuros conjuntos de datos de entrenamiento».
Slack
Todos esos mensajes aleatorios de Slack en el trabajo también podrían ser utilizados por la empresa para entrenar sus modelos.
Aunque la empresa no utiliza los datos de los clientes para entrenar un gran modelo de lenguaje para su producto Slack AI, Slack puede utilizar tus interacciones para mejorar las capacidades de aprendizaje automático del software.
La única forma real de darse de baja es que tu administrador envíe un correo electrónico a Slack a feedback@slack.com. El mensaje debe tener como asunto «Slack Global model opt-out request» e incluir la URL de tu organización. Slack no indica cuánto tarda el proceso de exclusión, pero debería enviarte un correo electrónico de confirmación una vez completado.
WordPress
Al igual que Tumblr, WordPress tiene una opción para «evitar que se comparta con terceros». Para activarla, visita el panel de control de tu sitio web, haz clic en Configuración, General y, a continuación, en Privacidad, selecciona la casilla Impedir que terceros compartan.
Tu propio sitio web
Si alojas tu propio sitio web, puedes actualizar tu archivo robots.txt para indicar a los robots de AI que no rastreen las páginas. La mayoría de los sitios web de noticias no permiten que sus artículos sean rastreados por los robots de IA.
Esta exclusión no es solo para grandes medios: cualquier sitio web, grande o pequeño, puede modificar su archivo robots para excluir los rastreadores de IA.