De « llama » à « caméléon » : voici la nouvelle IA multimodale de Meta

Meta a présenté Chameleon, sa nouvelle intelligence artificielle multimodale, conçue pour faire face à la concurrence croissante dans le domaine de l’IA générative. Chameleon se distingue par sa multimodalité native, intégrant de manière fluide des composants de différentes modalités tels que des images, du texte et du code.

Facebook TÉLÉCHARGER

Selon le document publié par l’équipe de recherche, l’architecture de Chameleon permet d’excellentes performances dans des tâches nécessitant une compréhension approfondie à la fois de l’information visuelle et textuelle. Parmi les capacités remarquables de Chameleon, on trouve le sous-titrage d’images et la réponse à des questions visuelles (VQA), ainsi que sa compétitivité dans des tâches exclusivement textuelles.

Traditionnellement, les modèles multimodaux sont créés à l’aide d’un processus appelé « fusion tardive », où le système d’IA traite les différentes modalités séparément, puis fusionne les encodages pour l’inférence. Cependant, cette approche limite la capacité des modèles à intégrer de manière fluide des informations entre différentes modalités.

Chameleon a adopté une architecture de « fusion précoce basée sur des jetons mixtes », ce qui signifie qu’il a été conçu dès le départ pour apprendre à partir d’un mélange entrelacé d’images, de texte et d’autres modalités. Cette méthodologie transforme les images en jetons discrets, de manière similaire à la façon dont les modèles linguistiques gèrent les mots, et utilise un vocabulaire unifié de jetons de texte, de code et d’image.

En comparaison avec des modèles similaires tels que Google Gemini, Chameleon offre une intégration plus cohésive des modalités lors de la génération de contenu, car il ne nécessite pas de composants spécifiques pour chaque modalité.

L’entraînement de Chameleon a été réalisé en deux étapes, en utilisant un vaste ensemble de données comprenant 4,4 billions de jetons de texte, des paires image-texte et des séquences de texte et d’images entrelacées. Les modèles de Chameleon, avec 7 000 et 34 000 milliards de paramètres, ont été entraînés pendant plus de 5 millions d’heures sur des GPU Nvidia A100 de 80 Go.

Les expériences ont démontré que Chameleon peut effectuer une large gamme de tâches de texte et multimodales avec une performance leader sur le marché. Dans les tests de VQA et de sous-titrage d’images, Chameleon-34B a surpassé des modèles tels que Flamingo, IDEFICS et Llava-1.5. De plus, il a égalé les performances d’autres modèles avec moins d’exemples d’entraînement en contexte et avec des modèles de taille plus petite.

Malgré la complexité de la multimodalité, Chameleon reste compétitif dans les tâches de texte seul, comparable à des modèles tels que Mixtral 8x7B et Gemini-Pro dans les tests de raisonnement logique et de compréhension de lecture. Les chercheurs soulignent que Chameleon débloque de nouvelles capacités de raisonnement et de génération multimodales, offrant des résultats préférés par les utilisateurs dans les documents combinant du texte et des images de manière entrelacée.

Facebook TÉLÉCHARGER

Author: Pedro Domínguez

{ "de-DE": "", "en-US": "Publicist and audiovisual producer in love with social networks. I spend more time thinking about which videogames I will play than playing them.", "es-ES": "Publicista y productor audiovisual enamorado de las redes sociales. Paso más tiempo pensando a qué videojuegos voy a jugar que jugándolos.", "fr-FR": "Publicitaire et producteur audiovisuel passionné par les réseaux sociaux. Je passe plus de temps à penser aux jeux vidéo auxquels je jouerai qu'à y jouer.", "it-IT": "", "ja-JP": "", "nl-NL": "", "pl-PL": "", "pt-BR": "", "social": { "email": "", "facebook": "", "twitter": "", "linkedin": "" } }