ByteDance acaba de lançar iLLaDA: modelo de difusão 8B supera o Qwen2.5 7B

A ByteDance apresentou o iLLaDA, um novo modelo de linguagem com 8 bilhões de parâmetros. O trabalho saiu em um artigo no arXiv assinado em parceria com pesquisadores da Universidade Renmin, na China. O que faz o projeto se destacar é a escolha da abordagem: difusão, e não a geração autoregressiva tradicional, para disputar qualidade com modelos que já estão bem estabelecidos.

ChatGPT Baixar

Em vez de produzir texto palavra por palavra, sempre da esquerda para a direita, o modelo segue outro caminho. Ele começa com tokens mascarados e vai refinando a resposta em várias passadas paralelas. Nos números publicados pelos autores no arXiv, o iLLaDA-Base chegou a uma média de 63,9 em benchmarks, ligeiramente acima dos 63,3 do Qwen2.5 7B, um nome já bastante consolidado entre os modelos autoregressivos.

A aposta do iLLaDA é mostrar, segundo os próprios autores, que modelos de difusão também conseguem competir em qualidade, não só em eficiência. Nos sistemas tradicionais, a lógica é prever o próximo token em sequência. Aqui, o modelo usa contexto bidirecional para revisar a resposta inteira ao longo de várias etapas.

Essa arquitetura ainda ocupa um espaço pequeno no mercado, mas já vem atraindo atenção. Os pesquisadores apontam vantagens possíveis em tarefas como raciocínio reverso e planejamento de longo horizonte. No mesmo trabalho, eles dizem também que esse tipo de modelo ainda pode melhorar com mais ajuste supervisionado.

Os autores apresentam o iLLaDA como uma evolução do LLaDA. O pré-treinamento foi feito do zero com 12 trilhões de tokens, um salto grande em relação aos 2,3 trilhões usados no modelo anterior. Depois dessa etapa, a equipe aplicou 12 épocas de fine-tuning.

E essa mudança de escala aparece com clareza nos resultados do artigo. Na comparação com o LLaDA 8B, a média saiu de 51,1 para 63,9. Pelos dados divulgados pelos autores, o iLLaDA-Base superou o Qwen2.5 7B em MMLU (74,8 contra 71,9), BBH (71,3 contra 63,9), ARC-C (60,8 contra 51,5) e GSM8K (81,9 contra 78,9).

Nem tudo ficou a favor dele. O iLLaDA-Base perdeu para o Qwen2.5 7B em HellaSwag, Math e MBPP, o que mostra que essa disputa ainda está longe de terminar. Também ficou à frente de outro rival baseado em difusão, o Dream 7B, na média geral, com 63,9 contra 61,4, embora o Dream 7B tenha mantido uma pequena vantagem em alguns testes de programação.

Se a base parece promissora, a versão ajustada para seguir instruções ainda tem chão pela frente. Segundo os autores, o iLLaDA-Instruct fica atrás do Qwen2.5 7B Instruct, principalmente em matemática e código.

O próprio trabalho sugere uma explicação para isso: o Qwen2.5 passou por uma etapa extra de alinhamento por reforço, algo pelo qual o iLLaDA ainda não passou. Esse quadro se encaixa numa tendência mais ampla. Em junho de 2026, o Google DeepMind apresentou o DiffusionGemma, também baseado em difusão, com foco em baixa latência e geração cerca de 4 vezes mais rápida, mas com perda de qualidade em relação às variantes autoregressivas do Gemma 4 em testes como MMLU e programação, segundo o próprio Google DeepMind. Para quem quiser acompanhar mais de perto ou testar por conta própria, o iLLaDA foi liberado publicamente junto com o código no GitHub, de acordo com os autores, o que abre espaço para uma comparação mais ampla.

Author: Alyssa Lavinia Dellosa

{ "social": { "email": "content.reviewer8@ext.softonic.com", "facebook": "", "twitter": "", "linkedin": "https:\/\/www.linkedin.com\/in\/alyssadellosa19\/" }, "ja-JP": "", "de-DE": "Alyssa Dellosa ist eine philippinische Produktinformationsspezialistin mit einem Abschluss in Pädagogik, die Menschen gerne dabei hilft, Technologie zu verstehen. Sie schreibt technische Produktblogs, korrigiert Artikel und verfasst ansprechende Social-Media-Beiträge.", "en-US": "Alyssa Dellosa is a Filipina Product Information Specialist with a degree in Education who loves helping people make sense of technology. Her path in content creation has led her through writing technical product blogs, proofreading articles in fields like home improvement, and crafting engaging captions for social media.", "es-ES": "Alyssa Dellosa es una especialista filipina en Información de Productos con licenciatura en Educación que disfruta ayudar a la gente a entender la tecnología. Escribe blogs técnicos sobre productos, corrige artículos y crea contenido cautivador para redes sociales.", "fr-FR": "Alyssa Dellosa est une spécialiste en information produit d'origine philippine, diplômée en éducation, passionnée par rendre la technologie accessible à tous. Elle rédige des articles techniques sur les produits, révise des contenus et crée des textes engageants pour les réseaux sociaux.", "it-IT": "Alyssa Dellosa è una specialista filipina di informazioni sui prodotti con una laurea in Pedagogia che adora aiutare le persone a comprendere la tecnologia. Scrive blog tecnici su prodotti, corregge articoli e crea didascalie accattivanti per i social media.", "nl-NL": "Alyssa Dellosa is een Filipijnse Product Information Specialist met een achtergrond in Educatie die graag mensen helpt technologie beter te begrijpen. Ze schrijft technische productblogs, corrigeert artikelen en maakt aantrekkelijke social media-posts.", "pl-PL": "Alyssa Dellosa to filipińska specjalistka ds. informacji o produktach z dyplomem w dziedzinie edukacji, która uwielbia pomagać ludziom zrozumieć technologię.", "pt-BR": "Alyssa Dellosa é uma Especialista em Informações de Produtos filipina com formação em Educação que adora ajudar as pessoas a entender tecnologia." } View all posts by Alyssa Lavinia Dellosa