Avancé·2 min·23 avril 2026

Qwen3.6-27B : du code de niveau phare en 27B

🎧 Résumé audio0:00 / 0:00

Qwen sort un modèle 27B qui code comme son ancêtre 397B, 14× plus léger.

Pourquoi ça compte pour toi

Si tu fais du coding local ou sur serveur à petit budget, c'est une rupture : tu obtiens la qualité d'un modèle de référence (coding agentique) sans exploser ton infrastructure. 16,8 Go au lieu de 807 Go, ça change tout pour les petites équipes ou les déploiements embarqués.

Ce qu'il faut retenir

1.Qwen3.6-27B surpasse le précédent modèle de référence Qwen3.5-397B sur tous les benchmarks coding
2.55,6 Go sur HF vs 807 Go pour l'ancien modèle : ~14× plus compact
3.Version quantifiée 16,8 Go testée avec llama-server : génère du SVG complexe en ~3 min
4.S'exécute localement sur du matériel standard (4 Go de RAM en cache suffisent)

Tu galères avec le jargon ?

Lis la version réécrite en mode débutant — toutes les idées, sans le jargon.

Le contexte : la course à l'efficacité

Depuis un an, les modèles s'allègent sans perdre en performance. Qwen3.6-27B en est la preuve : coding agentique de niveau référence (génération de code complexe, autonome) dans un 27B dense.

Ce que ça change concrètement

Avant : si tu voulais du coding sérieux, tu prenais Qwen3.5-397B (MoE, donc activations partielles). 397B paramètres activés par passe, c'est lourd.

Maintenant : 27B dense (tous les paramètres activés à chaque passe) et même résultat sur les benchmarks. Le gain ? Rapidité (tokens/s plus stable), coût (pas de sparse, donc pas de fragmentation mémoire), déploiement (ton laptop peut le faire).

Les chiffres de Simon Willison

Il a testé la version GGUF quantifiée (Q4_K_M, compression avec perte) sur llama-server :

▸SVG pélican-à-vélo : 4 444 tokens en 2 min 53 s = 25,57 t/s
▸SVG opossum-en-trottinette : 6 575 tokens en 4 min 25 s = 24,74 t/s

Ce qui compte : la cohérence (pas de dégradation entre les deux exécutions) et la qualité des sorties (du SVG syntaxiquement correct, esthétique).

Pour qui ?

▸Équipes avec infrastructure limitée (startups, freelances)
▸Déploiement embarqué (IoT, mobile)
▸R&D : tester localement sans passer par l'API OpenAI
▸Confidentialité des données : tout reste chez toi

Attention

C'est du marketing Qwen, certes, mais vérifiable : tu peux télécharger, tester, comparer en 30 min. La quantification GGUF rend ça accessible même sur Mac M-series.

Et concrètement pour toi ?

Choisis ton profil — la lecture de l'article change selon qui tu es.

🔭 Curieux

Pour toi, retiens que la course n'est plus à la taille brute du modèle mais à l'efficacité : 27B qui surpasse 397B, c'est la preuve que l'ingénierie du modèle prime sur la force brute, et ça rend l'IA plus accessible à tous.

Essayer maintenant

Lancer Qwen3.6-27B localement →

Source

Simon Willison

#open-source #coding #local-llm #qwen #inference

🎓

Pour aller plus loin

Cet article t'a donné envie d'approfondir ? Deux formations Noésis t'attendent :

Masterclass · 49 €

Prompt Engineering

8 chapitres + 50 prompts prêts à copier + PDF

Formation vidéo · 79 €

IA Fondations

12 leçons vidéo pour comprendre et utiliser l'IA

Explorer les thèmes de cet article :

🧠 Modèles & Recherche 💻 IA pour développeurs