{"id":54994,"date":"2026-06-27T07:00:00","date_gmt":"2026-06-27T11:00:00","guid":{"rendered":"https:\/\/cms-articles.softonic.io\/br\/?p=54994"},"modified":"2026-06-27T07:00:39","modified_gmt":"2026-06-27T11:00:39","slug":"bytedance-acaba-de-lancar-illada-modelo-de-difusao-8b-supera-o-qwen2-5-7b","status":"publish","type":"post","link":"https:\/\/cms-articles.softonic.io\/br\/bytedance-acaba-de-lancar-illada-modelo-de-difusao-8b-supera-o-qwen2-5-7b\/","title":{"rendered":"ByteDance acaba de lan\u00e7ar iLLaDA: modelo de difus\u00e3o 8B supera o Qwen2.5 7B"},"content":{"rendered":"<p class=\"wp-block-paragraph\">A ByteDance apresentou o iLLaDA, um novo modelo de linguagem com <strong>8 bilh\u00f5es de par\u00e2metros<\/strong>. O trabalho saiu em um artigo no arXiv assinado em parceria com pesquisadores da Universidade Renmin, na China. O que faz o projeto se destacar \u00e9 a escolha da abordagem: difus\u00e3o, e n\u00e3o a gera\u00e7\u00e3o autoregressiva tradicional, para disputar qualidade com modelos que j\u00e1 est\u00e3o bem estabelecidos.<\/p>\n<div class=\"sc-card-program\">\r\n  <div class=\"sc-card-program__body\">\r\n    <div class=\"sc-card-program__row clearfix\">\r\n      <div class=\"sc-card-program__col-logo\">\r\n        <img decoding=\"async\" class=\"sc-card-program__img\" src=\"https:\/\/images.sftcdn.net\/images\/t_app-icon-s\/p\/1ead0e5b-b4d8-4827-a864-bd65ea5cc739\/1431254015\/chatgpt-logo\" alt=\"ChatGPT\" width=\"100px\" height=\"100px\">\r\n      <\/div>\r\n      <div class=\"sc-card-program__col-title\">\r\n        <span class=\"sc-card-program__title\">ChatGPT<\/span>\r\n        <a class=\"sc-card-program__button sc-card-program-internal\" href=\"https:\/\/chatgpt.softonic.com.br\/\" target=\"_blank\" rel=\"noopener noreferrer\">Baixar<\/a>\r\n      <\/div>\r\n      <div class=\"sc-card-program__col-rating\">\r\n        <svg class=\"rating-score__content\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" version=\"1.1\" x=\"0\" y=\"0\" viewbox=\"0 0 50 50\" enable-background=\"new 0 0 50 50\" xml:space=\"preserve\"><path class=\"rating-score__background rating-score--good\" fill=\"none\" stroke-width=\"6\" stroke-miterlimit=\"10\" d=\"M40 40c8.3-8.3 8.3-21.7 0-30s-21.7-8.3-30 0 -8.3 21.7 0 30\"><\/path><path class=\"rating-score__value rating-score__value--0\" fill=\"none\" stroke-width=\"6\" stroke-dashoffset=\"0\" stroke-miterlimit=\"10\" d=\"M40 40c8.3-8.3 8.3-21.7 0-30s-21.7-8.3-30 0 -8.3 21.7 0 30\"><\/path><text class=\"rating-score__number\" content=\"\" text-anchor=\"middle\" transform=\"matrix(1 0 0 1 25 31.0837)\" data-auto=\"app-user-score\"><\/text><\/svg>\r\n      <\/div>\r\n    <\/div>\r\n    <div class=\"sc-card-program__row\">\r\n      <span class=\"sc-card-program__description\"><\/span>\r\n    <\/div>\r\n    <div class=\"sc-card-program__row\">\r\n      <img decoding=\"async\" class=\"sc-card-program__bigpic\" src=\"\" onerror=\"this.style.display='none'\">\r\n    <\/div>\r\n    <a class=\"sc-card-program__link track-link sc-card-program-internal\" href=\"https:\/\/chatgpt.softonic.com.br\/\" target=\"_blank\" rel=\"noopener noreferrer\"><\/a>\r\n  <\/div>\r\n<\/div>\n\n\n\n<p class=\"wp-block-paragraph\">Em vez de produzir texto palavra por palavra, sempre da esquerda para a direita, o modelo segue outro caminho. Ele come\u00e7a com tokens mascarados e vai refinando a resposta em v\u00e1rias passadas paralelas. Nos n\u00fameros publicados pelos autores no arXiv, o iLLaDA-Base chegou a uma m\u00e9dia de <strong>63,9 em benchmarks<\/strong>, ligeiramente acima dos 63,3 do <a href=\"https:\/\/www.softonic.com.br\/artigos\/bytedance-lanca-seedance-2-5-em-beta-videos-de-ate-30-segundos\" rel=\"noopener\">Qwen2.5 7B<\/a>, um nome j\u00e1 bastante consolidado entre os modelos autoregressivos.<\/p>\n\n<p class=\"wp-block-paragraph\">A aposta do iLLaDA \u00e9 mostrar, segundo os pr\u00f3prios autores, que modelos de difus\u00e3o tamb\u00e9m conseguem competir em qualidade, n\u00e3o s\u00f3 em efici\u00eancia. Nos sistemas tradicionais, a l\u00f3gica \u00e9 prever o <strong>pr\u00f3ximo token em sequ\u00eancia<\/strong>. Aqui, o modelo usa contexto bidirecional para revisar a resposta inteira ao longo de v\u00e1rias etapas.<\/p>\n\n<p class=\"wp-block-paragraph\">Essa arquitetura ainda ocupa um espa\u00e7o pequeno no mercado, mas j\u00e1 vem atraindo aten\u00e7\u00e3o. Os pesquisadores apontam vantagens poss\u00edveis em tarefas como racioc\u00ednio reverso e planejamento de longo horizonte. No mesmo trabalho, eles dizem tamb\u00e9m que esse tipo de modelo ainda pode melhorar com <strong>mais ajuste supervisionado<\/strong>.<\/p>\n\n<p class=\"wp-block-paragraph\">Os autores apresentam o iLLaDA como uma evolu\u00e7\u00e3o do LLaDA. O pr\u00e9-treinamento foi feito do zero com <strong>12 trilh\u00f5es de tokens<\/strong>, um salto grande em rela\u00e7\u00e3o aos 2,3 trilh\u00f5es usados no modelo anterior. Depois dessa etapa, a equipe aplicou 12 \u00e9pocas de fine-tuning.<\/p>\n\n<p class=\"wp-block-paragraph\">E essa mudan\u00e7a de escala aparece com clareza nos resultados do artigo. Na compara\u00e7\u00e3o com o LLaDA 8B, a m\u00e9dia saiu de 51,1 para <strong>63,9<\/strong>. Pelos dados divulgados pelos autores, o iLLaDA-Base superou o Qwen2.5 7B em MMLU (74,8 contra 71,9), BBH (71,3 contra 63,9), ARC-C (60,8 contra 51,5) e GSM8K (81,9 contra 78,9).<\/p>\n\n<p class=\"wp-block-paragraph\">Nem tudo ficou a favor dele. O iLLaDA-Base perdeu para o Qwen2.5 7B em <strong>HellaSwag, Math e MBPP<\/strong>, o que mostra que essa disputa ainda est\u00e1 longe de terminar. Tamb\u00e9m ficou \u00e0 frente de outro rival baseado em difus\u00e3o, o Dream 7B, na m\u00e9dia geral, com 63,9 contra 61,4, embora o Dream 7B tenha mantido uma pequena vantagem em alguns testes de programa\u00e7\u00e3o.<\/p>\n\n<p class=\"wp-block-paragraph\">Se a base parece promissora, a vers\u00e3o ajustada para seguir instru\u00e7\u00f5es ainda tem ch\u00e3o pela frente. Segundo os autores, o iLLaDA-Instruct fica atr\u00e1s do Qwen2.5 7B Instruct, principalmente em <strong>matem\u00e1tica e c\u00f3digo<\/strong>.<\/p>\n\n<p class=\"wp-block-paragraph\">O pr\u00f3prio trabalho sugere uma explica\u00e7\u00e3o para isso: o Qwen2.5 passou por uma etapa extra de alinhamento por refor\u00e7o, algo pelo qual o iLLaDA ainda n\u00e3o passou. Esse quadro se encaixa numa tend\u00eancia mais ampla. Em <strong>junho de 2026<\/strong>, o <a href=\"https:\/\/www.softonic.com.br\/artigos\/google-deepmind-acaba-de-investir-us-75-milhoes-na-a24\" rel=\"noopener\">Google DeepMind<\/a> apresentou o DiffusionGemma, tamb\u00e9m baseado em difus\u00e3o, com foco em baixa lat\u00eancia e gera\u00e7\u00e3o cerca de 4 vezes mais r\u00e1pida, mas com perda de qualidade em rela\u00e7\u00e3o \u00e0s variantes autoregressivas do Gemma 4 em testes como MMLU e programa\u00e7\u00e3o, segundo o pr\u00f3prio Google DeepMind. Para quem quiser acompanhar mais de perto ou testar por conta pr\u00f3pria, o iLLaDA foi liberado publicamente junto com o c\u00f3digo no GitHub, de acordo com os autores, o que abre espa\u00e7o para uma compara\u00e7\u00e3o mais ampla.<\/p>","protected":false},"excerpt":{"rendered":"<p>A ByteDance apresentou o iLLaDA, um novo modelo de linguagem com 8 bilh\u00f5es de par\u00e2metros. O trabalho saiu em um artigo no arXiv assinado em parceria com pesquisadores da Universidade Renmin, na China. O que faz o projeto se destacar \u00e9 a escolha da abordagem: difus\u00e3o, e n\u00e3o a gera\u00e7\u00e3o autoregressiva tradicional, para disputar qualidade &hellip; <a href=\"https:\/\/cms-articles.softonic.io\/br\/bytedance-acaba-de-lancar-illada-modelo-de-difusao-8b-supera-o-qwen2-5-7b\/\" class=\"more-link\">Continue reading<span class=\"screen-reader-text\"> &#8220;ByteDance acaba de lan\u00e7ar iLLaDA: modelo de difus\u00e3o 8B supera o Qwen2.5 7B&#8221;<\/span><\/a><\/p>\n","protected":false},"author":9341,"featured_media":54993,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":"","wpcf-pageviews":0},"categories":[4082],"tags":[],"usertag":[],"vertical":[],"content-category":[4508],"class_list":["post-54994","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-news","content-category-ia"],"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/cms-articles.softonic.io\/br\/wp-json\/wp\/v2\/posts\/54994","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/cms-articles.softonic.io\/br\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/cms-articles.softonic.io\/br\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/br\/wp-json\/wp\/v2\/users\/9341"}],"replies":[{"embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/br\/wp-json\/wp\/v2\/comments?post=54994"}],"version-history":[{"count":1,"href":"https:\/\/cms-articles.softonic.io\/br\/wp-json\/wp\/v2\/posts\/54994\/revisions"}],"predecessor-version":[{"id":54995,"href":"https:\/\/cms-articles.softonic.io\/br\/wp-json\/wp\/v2\/posts\/54994\/revisions\/54995"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/br\/wp-json\/wp\/v2\/media\/54993"}],"wp:attachment":[{"href":"https:\/\/cms-articles.softonic.io\/br\/wp-json\/wp\/v2\/media?parent=54994"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/br\/wp-json\/wp\/v2\/categories?post=54994"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/br\/wp-json\/wp\/v2\/tags?post=54994"},{"taxonomy":"usertag","embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/br\/wp-json\/wp\/v2\/usertag?post=54994"},{"taxonomy":"vertical","embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/br\/wp-json\/wp\/v2\/vertical?post=54994"},{"taxonomy":"content-category","embeddable":true,"href":"https:\/\/cms-articles.softonic.io\/br\/wp-json\/wp\/v2\/content-category?post=54994"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}