Le laboratoire chinois DeepSeek a lancé DeepSeek-R1, l’un des premiers modèles d’intelligence artificielle de raisonnement qui, selon ses créateurs, rivalise avec le modèle o1-preview de OpenAI. Ce type d’IA se distingue par sa capacité à « s’auto-vérifier », car il consacre plus de temps à réfléchir aux questions avant de fournir une réponse. Tout comme le modèle d’OpenAI, DeepSeek-R1 adopte une approche séquentielle pour résoudre les tâches, ce qui peut prendre plusieurs secondes selon la complexité du problème.
Abonnez-vous à la newsletter de Softonic et recevez les dernières nouveautés en technologie, jeux vidéo et offres directement dans votre boîte
Abonnez-vous (c'est GRATUIT) ►DeepSeek affirme que son modèle atteint une performance similaire à celle de o1 dans des tests de référence tels que AIME et MATH ; le premier utilise d’autres IA pour évaluer la performance, tandis que le second inclut des problèmes mathématiques. Cependant, DeepSeek-R1 est loin d’être parfait. Sur les réseaux sociaux, certains utilisateurs ont commenté que le modèle a des difficultés avec des jeux de logique comme le morpion, une faille également observée chez o1. De plus, DeepSeek-R1 pourrait être facilement « jailbreakée », ce qui, par exemple, a permis à un utilisateur d’obtenir de l’IA des instructions détaillées pour fabriquer de la méthamphétamine.
Selon ce qu’a pu constater TechCrunch lors de ses tests, le modèle bloque également les requêtes sur des sujets politiquement sensibles, tels que le président chinois Xi Jinping, la place Tiananmen ou une hypothétique invasion de Taïwan. Cette censure refléterait l’influence du gouvernement chinois sur les projets d’IA, qui doivent s’aligner sur les « valeurs socialistes » établies par les autorités. Le gouvernement évalue même les réponses générées et propose des listes noires de sources interdites pour l’entraînement des modèles.

La montée de ces modèles de raisonnement survient à un moment où les « lois de l’échelle » sont remises en question, car elles supposaient que plus de données et de puissance augmentaient continuellement les capacités des modèles. Face à l’absence de progrès significatifs dans les grands laboratoires d’IA, comme OpenAI ou Google, de nouvelles approches sont recherchées, comme le « test-time compute », qui accorde plus de temps de traitement aux modèles.
DeepSeek prévoit de libérer le code de DeepSeek-R1 et d’offrir une API. L’entreprise, financée par le fonds spéculatif High-Flyer Capital Management, a déjà révolutionné le marché avec des modèles précédents comme DeepSeek-V2. High-Flyer se distingue par la construction de ses propres serveurs, comme un avec 10 000 GPU Nvidia A100 et un coût de 138 millions de dollars, consolidant ainsi son engagement à atteindre une IA « superintelligente ».