Intermédiaire·2 min·31 mai 2026

Comment Anthropic isole Claude dans ses produits

🎧 Résumé audio0:00 / 0:00

Anthropic vient de révéler comment elle enferme Claude pour qu'il ne puisse rien casser.

Pourquoi ça compte pour toi

Si tu utilises Claude.ai, Claude Code ou Cowork, tu te demandes probablement si l'IA peut vraiment accéder à tes fichiers ou tes identifiants. Anthropic publie enfin les détails techniques de ses garde-fous — et c'est rassurant à lire. C'est aussi une excellente leçon pour qui veut comprendre comment sécuriser des agents IA.

Ce qu'il faut retenir

1.Anthropic utilise 4 techniques : bacs à sable de processus, machines virtuelles, limites de système de fichiers, contrôle des sorties réseau.
2.Claude.ai tourne sur gVisor ; Claude Code utilise Seatbelt (macOS) et Bubblewrap (Linux) ; Cowork fonctionne dans une VM complète.
3.Anthropic partage aussi ses erreurs passées (ex : faille d'exfiltration via l'API files) — transparence radicale.
4.Leur outil open source Sandbox Runtime (srt) est maintenant suffisamment mature pour des projets sérieux.

Tu galères avec le jargon ?

Lis la version réécrite en mode débutant — toutes les idées, sans le jargon.

Pourquoi cette doc change tout

La plupart des produits de sandbox sont une boîte noire. Tu dois faire confiance sans voir comment ça marche dedans. Anthropic casse ce schéma : elle documente précisément ses chaînes de confinement.

Les 4 couches de sécurité

1. Bacs à sable de processus Le processus de Claude est confiné — il ne peut pas interagir librement avec le système d'exploitation.

2. Machines virtuelles Cowork va plus loin : une VM complète. Sur macOS, c'est le Virtualization Framework d'Apple. Sur Windows, HyperV Container Service (HCS). C'est robuste : même si Claude s'échappe du bac à sable, il n'y a rien d'utile à compromettre.

3. Limites de système de fichiers Claude ne voit que les fichiers autorisés. Les autres deviennent invisibles.

4. Contrôle des sorties réseau Les destinations auxquelles Claude peut envoyer des requêtes HTTP sont limitées. Concrètement : si tes identifiants n'entrent jamais dans le bac à sable, personne ne peut les voler — pas toi par erreur, pas Claude en trouvant un chemin créatif, pas un attaquant.

Les oublis admis

Anthropicne se cache pas : elle a raté l'exfiltration via api.anthropic.com/v1/files jusqu'à ce que Simon Willison la signale. C'est précisément le genre de détail qu'on retrouve dans cette doc — la transparence sur les risques compte plus que la perfection.

Pour les développeurs

Leur Sandbox Runtime (srt), open source, est le même outil qu'Anthropic utilise en interne. Il est suffisamment abouti pour être testé sérieusement si tu construis des agents ou du code-gen.

Et concrètement pour toi ?

Choisis ton profil — la lecture de l'article change selon qui tu es.

🔭 Curieux

Pour toi, retiens que la vraie différence avec les autres IA, c'est la transparence : Anthropic raconte même ses erreurs au lieu de les cacher, et c'est là-dessus que tu peux juger si tu lui fais confiance ou pas.

Source

Simon Willison

#securite #claude #sandboxing #agents-ia #infrastructure

📊 Cours en bourse

AAPL

Apple

Voir le cours + analyse →

🎓

Pour aller plus loin

Cet article t'a donné envie d'approfondir ? Deux formations Noésis t'attendent :

Masterclass · 49 €

Prompt Engineering

8 chapitres + 50 prompts prêts à copier + PDF

Formation vidéo · 79 €

IA Fondations

12 leçons vidéo pour comprendre et utiliser l'IA

Explorer les thèmes de cet article :

🤖 Agents IA 🛠️ Outils IA 🧠 Modèles & Recherche