ByteDance, la société chinoise derrière TikTok, semble accélérer sa collecte de données sur Internet pour entraîner ses modèles d’intelligence artificielle générative. Depuis avril, l’entreprise a déployé un bot de scraping web appelé Bytespider, selon une étude de Kasada, une société spécialisée dans la gestion des bots, à laquelle Fortune a eu accès. Ce bot est l’un des plus agressifs sur Internet, dépassant de loin le rythme de scraping des autres grandes entreprises technologiques telles que Google, Meta, Amazon, OpenAI et Anthropic.
Abonnez-vous à la newsletter de Softonic et recevez les dernières nouveautés en technologie, jeux vidéo et offres directement dans votre boîte
Abonnez-vous (c'est GRATUIT) ►D’après Sam Crowther, PDG de Kasada, Bytespider extrait des données à un rythme 25 fois plus rapide que GPTbot, le bot scraper d’OpenAI. De plus, il dépasse de 3 000 fois la vitesse de ClaudeBot, utilisé par Anthropic. Au cours des six dernières semaines, l’activité de scraping de Bytespider a atteint des pics significatifs, ce qui montre que ByteDance intensifie ses efforts pour rattraper son retard dans la course à l’IA générative.
L’étude de Kasada a révélé que Bytespider ne respecte pas robots.txt, un standard d’exclusion qui indique aux bots de ne pas extraire de données de certaines pages web. Ce scraping agressif survient dans un contexte délicat pour ByteDance, alors que TikTok pourrait être interdit aux États-Unis. En avril, le président américain Joe Biden a signé une loi obligeant la société à vendre l’application pour des raisons de sécurité nationale ou à la fermer.

La collecte de données sur Internet n’est pas nouvelle, mais la montée en puissance de l’IA générative a ravivé la controverse, notamment en ce qui concerne la violation des droits d’auteur. Les entreprises technologiques utilisent des bots pour copier des données et entraîner leurs modèles, ce qui inquiète et irrite les artistes et créateurs de contenu à travers le monde, qui voient leurs œuvres utilisées sans permission, sans scrupule et sans compensation.
Des rumeurs circulent selon lesquelles ByteDance développe un nouveau modèle d’IA, qui pourrait être intégré à la fonction de recherche de TikTok. Cet outil a été mis à jour ces derniers mois pour permettre aux utilisateurs de rechercher en temps réel les mots-clés les plus populaires, ce qui pourrait aider les annonceurs à améliorer la visibilité de leurs publicités.