A ByteDance apresentou o iLLaDA, um novo modelo de linguagem com 8 bilhões de parâmetros. O trabalho saiu em um artigo no arXiv assinado em parceria com pesquisadores da Universidade Renmin, na China. O que faz o projeto se destacar é a escolha da abordagem: difusão, e não a geração autoregressiva tradicional, para disputar qualidade com modelos que já estão bem estabelecidos.
Em vez de produzir texto palavra por palavra, sempre da esquerda para a direita, o modelo segue outro caminho. Ele começa com tokens mascarados e vai refinando a resposta em várias passadas paralelas. Nos números publicados pelos autores no arXiv, o iLLaDA-Base chegou a uma média de 63,9 em benchmarks, ligeiramente acima dos 63,3 do Qwen2.5 7B, um nome já bastante consolidado entre os modelos autoregressivos.
A aposta do iLLaDA é mostrar, segundo os próprios autores, que modelos de difusão também conseguem competir em qualidade, não só em eficiência. Nos sistemas tradicionais, a lógica é prever o próximo token em sequência. Aqui, o modelo usa contexto bidirecional para revisar a resposta inteira ao longo de várias etapas.
Essa arquitetura ainda ocupa um espaço pequeno no mercado, mas já vem atraindo atenção. Os pesquisadores apontam vantagens possíveis em tarefas como raciocínio reverso e planejamento de longo horizonte. No mesmo trabalho, eles dizem também que esse tipo de modelo ainda pode melhorar com mais ajuste supervisionado.
Os autores apresentam o iLLaDA como uma evolução do LLaDA. O pré-treinamento foi feito do zero com 12 trilhões de tokens, um salto grande em relação aos 2,3 trilhões usados no modelo anterior. Depois dessa etapa, a equipe aplicou 12 épocas de fine-tuning.
E essa mudança de escala aparece com clareza nos resultados do artigo. Na comparação com o LLaDA 8B, a média saiu de 51,1 para 63,9. Pelos dados divulgados pelos autores, o iLLaDA-Base superou o Qwen2.5 7B em MMLU (74,8 contra 71,9), BBH (71,3 contra 63,9), ARC-C (60,8 contra 51,5) e GSM8K (81,9 contra 78,9).
Nem tudo ficou a favor dele. O iLLaDA-Base perdeu para o Qwen2.5 7B em HellaSwag, Math e MBPP, o que mostra que essa disputa ainda está longe de terminar. Também ficou à frente de outro rival baseado em difusão, o Dream 7B, na média geral, com 63,9 contra 61,4, embora o Dream 7B tenha mantido uma pequena vantagem em alguns testes de programação.
Se a base parece promissora, a versão ajustada para seguir instruções ainda tem chão pela frente. Segundo os autores, o iLLaDA-Instruct fica atrás do Qwen2.5 7B Instruct, principalmente em matemática e código.
O próprio trabalho sugere uma explicação para isso: o Qwen2.5 passou por uma etapa extra de alinhamento por reforço, algo pelo qual o iLLaDA ainda não passou. Esse quadro se encaixa numa tendência mais ampla. Em junho de 2026, o Google DeepMind apresentou o DiffusionGemma, também baseado em difusão, com foco em baixa latência e geração cerca de 4 vezes mais rápida, mas com perda de qualidade em relação às variantes autoregressivas do Gemma 4 em testes como MMLU e programação, segundo o próprio Google DeepMind. Para quem quiser acompanhar mais de perto ou testar por conta própria, o iLLaDA foi liberado publicamente junto com o código no GitHub, de acordo com os autores, o que abre espaço para uma comparação mais ampla.