Mythos est-il vraiment meilleur pour trouver des bugs ?
Pourquoi ça compte pour toi
Anthropic garde Mythos sous le coude en prétextant sa puissance à débusquer les exploits. Mais est-ce vrai ou du marketing ? Cette question compte : si tu développes, tu veux savoir quel outil (payant ou pas) t'aide réellement à sécuriser ton code. Un benchmark sérieux, c'est rare.
Ce qu'il faut retenir
- 1.Un développeur a construit un benchmark maison en compilant 9 bugs réels trouvés par Mythos, puis a testé d'autres modèles à l'aveugle
- 2.Opus (Claude) et Gemma 4 détectent ~44% des bugs ; GPT 5.5 Pro et Nemotron Ultra s'en sortent mal ou n'ont pas terminé les tests
- 3.Tous les modèles trouvent moins que prévu : même les meilleurs peinent sur les bugs multi-fichiers sans indices
Tu galères avec le jargon ?
Lis la version réécrite en mode débutant — toutes les idées, sans le jargon.
D'où vient cette question ?
Swell Joe (l'auteur) a d'abord bâti Nelson, un outil d'audit automatisé pour traquer les bugs dans ses projets. Il a remarqué des écarts bizarres entre modèles. Quand Anthropic a blindé Mythos derrière un accès restreint, la vraie question s'est posée : c'est pour protéger le monde, ou parce que ça coûte 10x plus cher à faire tourner ?
Comment il a testé
Il a extrait 9 bugs que Mythos avait trouvés (documentés par Anthropic), remontés aux commits avant correction. Puis :
- ▸Opus (Claude 4.7) a d'abord vérifié que chaque bug était bien réel et compréhensible si on le pointait directement (le veto humain)
- ▸Tous les autres modèles ont reçu le dépôt entier et un seul indice : « regarde ce fichier » (sans dire quoi chercher)
- ▸Zéro indices réseau, historique git bloqué (pour éviter de tricher)
Les bugs choisis sont tous postérieurs à la date de coupure des modèles, donc pas de mémoire intégrée.
Les résultats (bruts, honnêtes)
Meilleurs détecteurs :
- ▸Opus et Gemma 4 MoE : 4/9 bugs détectés (44%)
- ▸GPT 5.5 Pro : 2/4 bugs (50%, mais a planté et n'a traité que 4 cas avant de brûler 100$ de budget)
Le problème : même les meilleurs trouvent à peine la moitié. Et les bugs les plus sournois ? Multi-fichiers, besoin du contexte global. Humains comme IA peinent dessus.
Pourquoi c'est pas une preuve définitive
- ▸Seulement 1 passage par bug par modèle (les tests coûtent cher)
- ▸Gemma 4 a bénéficié de nouvelles tentatives après plantages (avantage déloyal ?)
- ▸Mythos dispose probablement d'outils qu'on ne mesure pas ici : débogueur, fuzzing, instrumentation du code en direct
- ▸Quelques modèles ont refusé le prompt (Google Gemini via Antigravity a rejeté 8/9 fois pour « sécurité »)
Ce qu'il faut retenir
Mythos n'est pas un mensonge complet. Il détecte des bugs que d'autres ratent. Mais « puissant » ≠ « magique ». Même lui aurait du mal sur ces bugs s'il n'avait pas un arsenal caché (fuzz testing, exécution, instrumentation).
Pour toi : si tu cherches un assistant sécurité, Opus reste abordable et accessible. Mais compte sur ton propre œil et tes tests, pas sur l'IA seule.
Et concrètement pour toi ?
Choisis ton profil — la lecture de l'article change selon qui tu es.
Pour toi, retiens ceci : quand une boîte clame qu'elle a l'outil « meilleur en X », cherche les benchmarks indépendants. Ici, même Mythos ne gagne pas par KO — c'est un avantage mince qui dépend des cas d'usage réels, pas du marketing.
Essayer maintenant
Consulter le rapport de benchmark complet →Source
Pour aller plus loin
Cet article t'a donné envie d'approfondir ? Deux formations Noésis t'attendent :
Explorer les thèmes de cet article :