Kimi K2.6 pulvérise GPT-5.5 et Claude au défi de code

Pourquoi ça compte pour toi
Pendant deux ans, on a cru que les modèles propriétaires américains avaient une avance infranchissable. Kimi K2.6, disponible gratuitement en téléchargement, vient de prouver que c'est fini. C'est un signal : les modèles libres rattrapent les pionniers, et ce n'est pas juste du marketing — c'est chiffré, testé, reproductible.
Ce qu'il faut retenir
- 1.Kimi K2.6 a remporté le tournoi avec 22 points, devant MiMo V2-Pro (Xiaomi) et GPT-5.5 d'OpenAI
- 2.Tous les modèles des labos occidentaux (Anthropic, OpenAI, Google, xAI) ont terminé 3e à 7e
- 3.Le test : une grille de puzzle de mots glissants (10×10 à 30×30) avec du code fonctionnel en temps réel sur TCP
- 4.Deux stratégies opposées, deux résultats proches : Kimi glisse agressivement, MiMo scanne statiquement — la graine aléatoire influence autant que la capacité
Le tournoi : Word Gem Puzzle
C'est du vrai : dix modèles, cinq tours chacun, grilles de 10×10 à 30×30 remplies de lettres aléatoires (selon les fréquences Scrabble). Les bots doivent glisser les tuiles, trouver des mots anglais valides de 7+ lettres (les petits mots coûtent des points), et envoyer la réponse au serveur via TCP en moins de 10 secondes.
La torture : sur 30×30, presque aucun mot intact à la graine. Faut glisser.
Pourquoi Kimi a gagné
Stratégie gloutonne. Kimi recalcule chaque coup : "quel glissement crée un mot positif ?" Puis glisse. Puis recommence. Quand rien ne rapporte, alphabétique aléatoire. Brut, basique, 77 points cumulés (le plus haut du tournoi).
Problème : légère oscillation sur 10×10 (glisse d'avant en arrière sans avancer). Pas grave sur 30×30 où le chaos règne — à force de glisser, ça finit par payer.
Pourquoi MiMo a failli gagner
Stratégie opposée : scan statique. MiMo lit la grille initiale une fois, trouve tous les mots de 7+ lettres, envoie tout en un seul paquet TCP. Fini. 43 points cumulés.
Sur 10×10–15×15 : dévaste. Sur 30×30 où tout est broyé : zéro.
Deux théories du même puzzle, 22 vs 20 points — la différence tient surtout à la graine aléatoire, pas à la capacité brute.
Ce qui s'est passé avec les autres
Claude (5e) : pas de glissement. Tenait bon sur 25×25, s'effondrait sur 30×30. Limitation claire.
GPT-5.5 (3e) : ~120 glissements par round, frein pour éviter les cycles aller-retour. Cohérent, pas optimal.
GLM 5.1 (4e) : le plus agressif (800k+ glissements au total), blocage complet quand plus de mots positifs.
DeepSeek (8e) : envoyait du charabia. Au moins ça ne changeait rien.
Muse Spark (9e) : CATASTROPHE. Réclamait tous les mots, y compris les 3 lettres (coûte 3 points). Cumul final : −15 309 points. 15 000 points derrière la 8e place. Avait pas lu les règles.
Le chiffre : où sont les écarts ?
Kimi : 54 sur l'Artificial Analysis Intelligence Index. GPT-5.5 : 60. Claude : 57.
Pas de parité. Mais c'est 4 à 6 points de différence, et Kimi est gratuit, à poids ouverts, téléchargeable localement.
Il y a un an, le consensus : les labos occidentaux avaient gagné. C'est en train de s'effondrer, pas spectaculairement (ce n'est pas Claude qu'on remplace demain), mais l'écart est maintenant assez mince pour se voir dans les résultats.
À retenir
Ce test mesure un truc hyper spécifique : écrire du code fonctionnel, se connecter à un vrai serveur TCP, jouer un jeu nouveau sans spécification détaillée, en temps réel. Pas de contexte long, pas de génération sur cahier des charges.
Mais c'est là que ça devient parlant : c'est le genre de problème que tu dois résoudre si tu déploies une IA sur du structuré, du vrai, du stressé. Et sur ce genre de problème, le leader n'a pas le drapeau américain sur son t-shirt.
Essayer maintenant
Télécharger Kimi K2.6 gratuitement →Source
📊 Cours en bourse
Pour aller plus loin
Cet article t'a donné envie d'approfondir ? Deux formations Noésis t'attendent :
Explorer les thèmes de cet article :