Intermédiaire·2 min·23 juin 2026

Mythos est-il vraiment meilleur pour trouver des bugs ?

🎧 Résumé audio0:00 / 0:00
Un développeur teste si Mythos d'Anthropic trouve vraiment plus de failles que ses concurrents. Spoiler : c'est compliqué.
Mythos est-il vraiment meilleur pour trouver des bugs ?

Pourquoi ça compte pour toi

Anthropic garde Mythos sous le coude en prétextant sa puissance à débusquer les exploits. Mais est-ce vrai ou du marketing ? Cette question compte : si tu développes, tu veux savoir quel outil (payant ou pas) t'aide réellement à sécuriser ton code. Un benchmark sérieux, c'est rare.

Ce qu'il faut retenir

  • 1.Un développeur a construit un benchmark maison en compilant 9 bugs réels trouvés par Mythos, puis a testé d'autres modèles à l'aveugle
  • 2.Opus (Claude) et Gemma 4 détectent ~44% des bugs ; GPT 5.5 Pro et Nemotron Ultra s'en sortent mal ou n'ont pas terminé les tests
  • 3.Tous les modèles trouvent moins que prévu : même les meilleurs peinent sur les bugs multi-fichiers sans indices

Tu galères avec le jargon ?

Lis la version réécrite en mode débutant — toutes les idées, sans le jargon.

D'où vient cette question ?

Swell Joe (l'auteur) a d'abord bâti Nelson, un outil d'audit automatisé pour traquer les bugs dans ses projets. Il a remarqué des écarts bizarres entre modèles. Quand Anthropic a blindé Mythos derrière un accès restreint, la vraie question s'est posée : c'est pour protéger le monde, ou parce que ça coûte 10x plus cher à faire tourner ?

Comment il a testé

Il a extrait 9 bugs que Mythos avait trouvés (documentés par Anthropic), remontés aux commits avant correction. Puis :

  1. Opus (Claude 4.7) a d'abord vérifié que chaque bug était bien réel et compréhensible si on le pointait directement (le veto humain)
  2. Tous les autres modèles ont reçu le dépôt entier et un seul indice : « regarde ce fichier » (sans dire quoi chercher)
  3. Zéro indices réseau, historique git bloqué (pour éviter de tricher)

Les bugs choisis sont tous postérieurs à la date de coupure des modèles, donc pas de mémoire intégrée.

Les résultats (bruts, honnêtes)

Meilleurs détecteurs :

  • Opus et Gemma 4 MoE : 4/9 bugs détectés (44%)
  • GPT 5.5 Pro : 2/4 bugs (50%, mais a planté et n'a traité que 4 cas avant de brûler 100$ de budget)

Le problème : même les meilleurs trouvent à peine la moitié. Et les bugs les plus sournois ? Multi-fichiers, besoin du contexte global. Humains comme IA peinent dessus.

Pourquoi c'est pas une preuve définitive

  • Seulement 1 passage par bug par modèle (les tests coûtent cher)
  • Gemma 4 a bénéficié de nouvelles tentatives après plantages (avantage déloyal ?)
  • Mythos dispose probablement d'outils qu'on ne mesure pas ici : débogueur, fuzzing, instrumentation du code en direct
  • Quelques modèles ont refusé le prompt (Google Gemini via Antigravity a rejeté 8/9 fois pour « sécurité »)

Ce qu'il faut retenir

Mythos n'est pas un mensonge complet. Il détecte des bugs que d'autres ratent. Mais « puissant » ≠ « magique ». Même lui aurait du mal sur ces bugs s'il n'avait pas un arsenal caché (fuzz testing, exécution, instrumentation).

Pour toi : si tu cherches un assistant sécurité, Opus reste abordable et accessible. Mais compte sur ton propre œil et tes tests, pas sur l'IA seule.

Et concrètement pour toi ?

Choisis ton profil — la lecture de l'article change selon qui tu es.

🔭 Curieux

Pour toi, retiens ceci : quand une boîte clame qu'elle a l'outil « meilleur en X », cherche les benchmarks indépendants. Ici, même Mythos ne gagne pas par KO — c'est un avantage mince qui dépend des cas d'usage réels, pas du marketing.

Newsletters Noésis

3 minutes d'IA dans ta boîte mail, chaque matin.

Rejoins les francophones qui comprennent, essaient et progressent avec l'IA. Choisis ce que tu veux recevoir. Désabonnement en 1 clic.

Explorer les thèmes de cet article :