Según hemos podido saber gracias a un documento de investigación, Apple y su Apple Intelligence pasaron de Nvidia a la hora de elegir los equipos que entrenarían a la IA de Tim Cook. Y eso significa mucho.
Parece ser que Apple no quería aupar más a Nvidia en el mercado dándole el encargo del entrenamiento de su IA, así que eligió a la competencia de Nvidia y socios desde hace tiempo: Sundar Pichai y su empresa.
Sin embargo, en su documento, Apple comparte que su Apple Foundation Model (AFM) de 2.730 millones de parámetros se basa en clústeres en la nube de unidades de procesamiento tensorial (TPU) v4 y v5p que suele proporcionar Google, de la matriz Alphabet Inc.
La IA de Apple se basa en el uso de TPU en lugar de GPU, como es habitual
El documento de investigación de Apple, publicado hoy, cubre su infraestructura de entrenamiento y otros detalles para los modelos de IA que impulsarán las funciones anunciadas en la WWDC a principios de este año. Apple anunció tanto el procesamiento de IA en dispositivos como el procesamiento en la nube, y en el corazón de estas funciones de IA se encuentra el Apple Foundation Model apodado AFM.
Para AFM en servidor, o el modelo que impulsará las funciones de IA en la nube llamadas Apple Cloud Compute, Apple compartió que entrena un modelo de IA de 6,3 billones de tokens “desde cero” en “8.192 chips TPUv4”. Los chips TPUv4 de Google están disponibles en vainas formadas por 4.096 chips cada una.
Apple añadió que los modelos de AFM (tanto en el dispositivo como en la nube) se entrenan en chips TPUv4 y clústeres TPU en la nube v5p. Este v5p forma parte del “hiperordenador” de IA en la nube de Google, y se anunció en diciembre del año pasado.
Cada pod v5p está formado por 8.960 chips cada uno y, según Google, ofrece el doble de operaciones en coma flotante por segundo (FLOPS) y el triple de memoria que TPU v4 para entrenar modelos casi tres veces más rápido.
Para el modelo de IA en el dispositivo para funciones como la escritura y la selección de imágenes, Apple utiliza un modelo de 6.400 millones de parámetros “entrenado desde cero con la misma receta que AFM-server”.
Apple también optó por confiar en los antiguos chips TPU v4 para el modelo de servidor AFM. Como se ha señalado anteriormente, utilizó chips TPU 8.092 v4, pero para el modelo AFM en el dispositivo, la firma optó por confiar en los chips más nuevos. Este modelo, según Apple, se entrenó con chips TPU v5p de 2.048.