Los usuarios han expresado de forma repetida su preocupación sobre el origen de los datos que las grandes empresas utilizan para entrenar modelos de IA. En este caso, Apple presume de defender la privacidad de sus usuarios al no usar sus datos para entrenar a Apple Intelligence. Sin embargo, nadie ha dicho nada de Internet y los vídeos de YouTube.
Según Wired, grandes tecnológicas como Nvidia, Anthropic y Apple han usado material procedente de miles de vídeos de YouTube para entrenar a sus IAs. Esto ha ocurrido debido al uso que han hecho estas empresas del material de Eleuther AI, organización sin ánimo de lucro que busca ayudar a los desarrolladores de IA más independientes.
Eleuther AI descargó archivos de subtítulos de más de 170,000 vídeos de YouTube, que después pasaron a formar parte de una amplia compilación denominada Pile. Esta organización, dedicada a la inteligencia artificial de código abierto, ha hecho que la mayoría de estos datos estén disponibles para quien desee utilizarlos, incluidas las grandes tecnológicas. Un ejemplo notable es Apple, que ha afirmado usar Pile para entrenar OpenELM, un avanzado modelo de IA desarrollado pocas semanas antes del lanzamiento de Apple Intelligence.
Fundada en julio de 2020, el principal objetivo que persigue Eleuther AI es ayudar en el desarrollo de modelos de IA de código abierto. A pesar de apuntar principalmente a los pequeños desarrolladores, los datos que recopila también captan el interés de gigantes tecnológicos, como Apple.
Sin embargo, conviene recalcar que ni Apple ni las otras compañías habían usado los datos de YouTube directamente. Estos ya habían sido recopilados previamente por Eleuther AI, por lo que son ellos quienes habrían incumplido los términos y condiciones de YouTube. Sea como sea, esta situación arroja luz sobre una situación bastante común: el robo de datos que ocure de forma indiscriminada.