AMD entra de lleno en la IA con su primer LLM

AMD ha presentado su primera serie de grandes modelos de lenguaje (LLM) de 1.000 millones de parámetros y código abierto, denominada AMD OLMo, dirigida a diversas aplicaciones y preentrenada en las GPU Instinct MI250 de la compañía.

Suscríbete a la Newsletter de Softonic y recibe las últimas noticias en tech, juegos, entretenimiento en tu buzón de correo

Suscríbete (es GRATIS) ►

Los LLM de código abierto de AMD pretenden mejorar la posición de la compañía en la industria de la IA y permitir a sus clientes (y a todo el mundo) implantar estos modelos de código abierto con el hardware de AMD.

Al hacer públicos los datos, los pesos, las recetas de entrenamiento y el código, AMD pretende permitir a los desarrolladores no solo reproducir los modelos, sino también basarse en ellos para seguir innovando.

Más allá del uso en centros de datos, AMD ha permitido el despliegue local de modelos OLMo en PCs AMD Ryzen AI equipados con unidades de procesamiento neural (NPUs), permitiendo a los desarrolladores aprovechar los modelos de IA en dispositivos personales.

Smol models ftw! @AMD released AMD OLMo 1B – beats OpenELM, tiny llama on MT Bench, Alpaca Eval – Apache 2.0 licensed ?

> Trained with 1.3 trillion (dolma 1.7) tokens on 16 nodes, each with 4 MI250 GPUs

> Three checkpoints:

– AMD OLMo 1B: Pre-trained model
– AMD OLMo 1B SFT:… pic.twitter.com/ae4pLzAKoA
— Vaibhav (VB) Srivastav (@reach_vb) November 2, 2024

Todo lo que sabemos sobre el LLM de AMD

Los modelos AMD OLMo se entrenaron en un amplio conjunto de datos de 1,3 billones de tokens en 16 nodos, cada uno con cuatro GPU AMD Instinct MI250 (64 procesadores en total). La línea de modelos OLMo de AMD se entrenó en tres pasos.

En las propias pruebas de AMD, los modelos OLMo de AMD mostraron un rendimiento impresionante frente a modelos de código abierto de tamaño similar, como TinyLlama-1.1B, MobiLlama-1B y OpenELM-1_1B en pruebas de referencia estándar para capacidades de razonamiento general y comprensión multitarea.

Congratulations to @AMD on the launch of AMD OLMo 1B ? “AMD OLMo 1B is based on the model architecture and training set up of fully open source 1 billion version of OLMo.” Check out more details here: https://t.co/Uw0cd5Yn5e
— Ai2 (@allen_ai) November 4, 2024

El modelo SFT de dos fases experimentó mejoras significativas en la precisión, con un aumento del 5,09% en las puntuaciones de MMLU y del 15,32% en GSM8k, lo que demuestra el impacto del enfoque de entrenamiento de AMD.

El modelo final AMD OLMo 1B SFT DPO superó a otros modelos de chat de código abierto en al menos un 2,60% de media en las pruebas comparativas.

ChatGPT DESCARGAR

Además, AMD probó pruebas de IA responsables, como ToxiGen (que mide el lenguaje tóxico, donde una puntuación más baja es mejor), crows_pairs (que evalúa la parcialidad) y TruthfulQA-mc2 (que evalúa la veracidad en las respuestas). Y se comprobó que los modelos OLMo de AMD estaban a la par con modelos similares en el manejo de tareas de IA éticas y responsables.

Author: Chema Carvajal Sarabia

{ "de-DE": "Journalist, spezialisiert auf Technologie, Unterhaltung und Videospiele. Über das zu schreiben, was mich begeistert (Gadgets, Spiele und Filme), ermöglicht es mir, bei Verstand zu bleiben und mit einem Lächeln im Gesicht aufzuwachen, wenn der Wecker klingelt. PS: Das stimmt nicht 100% der Zeit.", "en-US": "Journalist specialized in technology, entertainment and video games. Writing about what I'm passionate about (gadgets, games and movies) allows me to stay sane and wake up with a smile on my face when the alarm clock goes off. PS: this is not true 100% of the time.", "es-ES": "Content Manager - Periodista especializado en tecnología, entretenimiento y videojuegos. Escribir sobre lo que me apasiona (cacharros, juegos y cine) me permite seguir cuerdo y despertarme con una sonrisa cuando suena el despertador. PD: esto no es cierto el 100 % de las veces.", "fr-FR": "Journaliste spécialisé dans la technologie, le divertissement et les jeux vidéo. Écrire sur ce qui me passionne (gadgets, jeux et films) me permet de rester sain d'esprit et de me réveiller avec le sourire aux lèvres quand le réveil sonne. PS : cela n'est pas vrai 100 % du temps.", "it-IT": "Giornalista specializzato in tecnologia, intrattenimento e videogiochi. Scrivere di ciò che mi appassiona (gadget, giochi e film) mi permette di mantenere la sanità mentale e di svegliarmi con un sorriso sul viso quando suona la sveglia. PS: questo non è vero al 100% del tempo.", "ja-JP": "", "nl-NL": "", "pl-PL": "", "pt-BR": "Jornalista especializado em tecnologia, entretenimento e videogames. Escrever sobre o que me apaixona (gadgets, jogos e filmes) me permite manter a sanidade e acordar com um sorriso no rosto quando o despertador toca. PS: isso não é verdade 100% do tempo.", "social": { "email": "chemacs91@gmail.com", "facebook": "", "twitter": "https://twitter.com/chematopetazo", "linkedin": "" } } View all posts by Chema Carvajal Sarabia