Qwen 3.6 : 3 milliards de paramètres actifs battent GPT-5 mini

LLM

Qwen 3.6 : 3 milliards de paramètres actifs battent GPT-5 mini

Alibaba open-source Qwen 3.6-35B-A3B, un modèle MoE qui rivalise avec GPT-5 mini pour 0,38$ le million de tokens.

Louis-Clément Schiltz

CEO & Founder, Webotit.ai

24 avril 20265 min de lecture

Parler de ce sujet avec Webotit

En bref

Qwen 3.6-35B-A3B, sorti le 16 avril 2026 sous licence Apache 2.0, n'active que 3 milliards de paramètres sur 35 milliards. Il surpasse GPT-5 mini et Claude Sonnet 4.5 sur MMMLU et MMMU-Pro, avec un coût d'inférence estimé à 0,38$ par million de tokens.

Un modèle de 3 milliards de paramètres actifs qui bat des modèles 100 fois plus gros

Alibaba a open-sourcé Qwen 3.6-35B-A3B le 16 avril 2026 sous licence Apache 2.0.¹ Le modèle contient 35 milliards de paramètres au total. Il n'en active que 3 milliards par token.

La technique s'appelle MoE — Mixture of Experts (architecture qui répartit les calculs entre 256 experts spécialisés, n'activant que 8 d'entre eux plus 1 expert partagé pour chaque token traité). Résultat : la qualité d'un grand modèle, la rapidité d'un petit.

Sur MMMLU (benchmark de connaissances générales) et MMMU-Pro (raisonnement visuel), Qwen 3.6-35B-A3B surpasse GPT-5 mini et Claude Sonnet 4.5.¹ Trois milliards de paramètres actifs contre des centaines de milliards chez la concurrence.

Ça devrait déranger. Ça ne dérange personne. C'est le problème.

L'open source chinois progresse plus vite que les modèles propriétaires américains

Il y a un an, les modèles IA chinois représentaient moins de 2% du trafic sur OpenRouter. En avril 2026, la part combinée d'Alibaba, DeepSeek, MiniMax, Zhipu, Xiaomi et StepFun dépasse 45% du volume hebdomadaire.²

Ce basculement ne s'explique pas par la géopolitique. Il s'explique par le prix. La gamme Qwen 3.5 délivrait des performances proches du frontier pour environ 0,38$ par million de tokens.³ Qwen 3.6-35B-A3B, en n'activant que 3 milliards de paramètres, nécessite moins de compute — ce qui se traduit mécaniquement par un coût d'inférence inférieur en auto-hébergement. Comparez avec GPT-5.5 à 5$/30$ ou Claude Opus 4.7 à 5$/25$.

Pour une ETI française qui traite 500 000 requêtes de chatbot par mois, la différence est brutale :

Qwen 3.6-35B-A3B (auto-hébergé sur GPU L4) : ~1 200€/mois
GPT-5.5 via API : ~12 000€/mois
Claude Opus 4.7 via API : ~10 000€/mois

÷10 sur la facture. Même qualité sur les tâches de classification, FAQ et routage. Le calcul est vite fait.

73,4% SWE-bench Verified avec 3 milliards de paramètres actifs

Le coding est le benchmark qui impressionne le plus. Qwen 3.6-35B-A3B atteint 73,4% sur SWE-bench Verified et 51,5% sur Terminal-Bench 2.0.¹ Pour un modèle qui n'active que 3 milliards de paramètres, c'est remarquable.

Claude Opus 4.7 atteint 87,6% sur le même benchmark selon Anthropic — mais avec une puissance de calcul 10 fois supérieure. Le ratio performance/compute de Qwen 3.6 est le meilleur du marché.

En vision, le modèle atteint 92,0 sur RefCOCO (intelligence spatiale) et 50,8 sur ODInW13, surpassant Claude Sonnet 4.5 sur ces deux métriques.¹

La question n'est plus "les modèles chinois sont-ils bons ?". C'est : "à quel point les modèles propriétaires américains sont-ils surévalués ?"

RGPD et souveraineté : le vrai sujet pour les DSI français

Un modèle open source Apache 2.0 signifie : vous pouvez le télécharger, l'héberger sur vos serveurs, le modifier et l'utiliser commercialement. En auto-hébergement, la maîtrise des flux de données est possible — sous réserve d'une gouvernance conforme (logs, monitoring, sous-traitants, analyse d'impact).

Pour un grand groupe mutualiste qui traite des données de santé (HDS) ou des données personnelles sensibles (RGPD), c'est un avantage structurel. L'auto-hébergement peut limiter les transferts de données vers des API tierces. Le modèle tourne sur vos GPU, dans votre datacenter, derrière votre firewall — mais la conformité RGPD dépend de l'architecture et de l'exploitation, pas du seul choix de modèle.

Webotit.ai, spécialiste français de l'IA conversationnelle B2B, propose des architectures multimodèles qui combinent modèles propriétaires et open source. Pour les cas d'usage sensibles (santé, assurance, banque), un Qwen 3.6 auto-hébergé traite les requêtes standard. Pour les cas complexes nécessitant du raisonnement avancé, un appel API vers Opus 4.7 ou GPT-5.5 prend le relais.

C'est l'architecture hybride. Pas un dogme. Une optimisation.

L'erreur serait d'ignorer ces modèles par réflexe

La réaction instinctive de beaucoup de DSI français : "modèle chinois = risque". Regardons les faits.

Apache 2.0 signifie que le code source et les poids sont publics. Des milliers de développeurs les auditent. Hugging Face héberge le modèle. La communauté open source détecte les backdoors plus vite que n'importe quel audit propriétaire.

Le vrai risque, ce n'est pas d'utiliser un modèle chinois open source. C'est de payer 10 fois plus cher pour un modèle propriétaire dont vous ne voyez pas les poids, dont vous ne contrôlez pas les mises à jour, et dont les conditions d'utilisation changent tous les trimestres.

Les modèles chinois open source captent 45% du trafic mondial d'inférence.² Des entreprises américaines, européennes et japonaises les utilisent en production. La France peut s'accrocher à ses préjugés ou regarder les benchmarks.

Notre recommandation : testez. Déployez un Qwen 3.6 sur un cas d'usage non critique — FAQ interne, classification de tickets, routage d'emails. Mesurez. Comparez. Décidez avec des données, pas avec des a priori.

Ce qu'il faut retenir

Ce que ça change pour votre entreprise

Les modèles MoE ultra-efficaces comme Qwen 3.6 ouvrent une troisième voie entre "tout API propriétaire" et "tout Mistral souverain".

Un acteur majeur de la bancassurance française peut déployer un Qwen 3.6 auto-hébergé pour les 80% de requêtes simples (FAQ, suivi de dossier, déclaration de sinistre standard) et basculer sur un modèle frontier pour les 20% restants. C'est le modèle que nous déployons chez Webotit pour les clients avec des contraintes RGPD/HDS fortes : les agents IA choisissent le bon modèle à chaque requête.

L'IA conversationnelle n'est plus une question de modèle unique. C'est une question d'architecture.

Vous voulez évaluer le gain d'une architecture multimodèles pour votre relation client ? Estimez votre ROI en 2 minutes.

Conclusion

Qwen 3.6-35B-A3B prouve qu'en 2026, la performance IA ne se mesure plus en milliards de paramètres, mais en intelligence par watt. Trois milliards de paramètres actifs suffisent pour battre des modèles 100 fois plus lourds.

Les DSI français qui continuent d'évaluer uniquement GPT et Claude passent à côté d'une réduction de coûts de ÷10 sur 80% de leurs cas d'usage.

La question n'est pas "faut-il faire confiance aux modèles chinois ?". C'est : pouvez-vous vous permettre de ne pas les évaluer ?

Parlez à un expert Webotit pour auditer votre architecture IA.

Questions frequentes

Qwen 3.6-35B-A3B est-il vraiment gratuit ?

Le modèle est distribué sous licence Apache 2.0 : téléchargement, modification et usage commercial gratuits. Les coûts portent sur l'hébergement (GPU) : comptez 1 000€ à 2 000€/mois sur une instance cloud avec GPU L4 pour servir 500 000 requêtes mensuelles.

Peut-on utiliser un modèle IA chinois en conformité RGPD ?

Sous conditions : auto-hébergement sur infrastructure européenne, contrats de sous-traitance adaptés, contrôle des journaux et télémétrie, et analyse d'impact RGPD. Apache 2.0 permet l'hébergement souverain, mais la conformité dépend de l'architecture et de l'exploitation globale. Consultez votre DPO pour valider le dispositif.

Comment fonctionne l'architecture MoE de Qwen 3.6 ?

MoE (Mixture of Experts) répartit les calculs entre 256 experts spécialisés. Pour chaque token, seuls 8 experts (+ 1 expert partagé) sont activés. Résultat : 3 milliards de paramètres actifs sur 35 milliards au total, ce qui réduit la latence et le coût d'inférence sans sacrifier la qualité.

Qwen 3.6 peut-il remplacer GPT-5 pour un chatbot d'entreprise ?

Pour les tâches de classification, FAQ et routage (≈80% du volume), Qwen 3.6 offre une qualité comparable à moindre coût. Pour le raisonnement complexe, la rédaction longue ou le coding avancé, les modèles frontier (GPT-5.5, Opus 4.7) restent supérieurs. L'architecture optimale combine les deux.

Sources et references

QwenAlibabaLLM chinoisopen sourceMoE