Intermédiaire·2 min·10 juin 2026

Claude vous aide en silence à refuser de vous aider

🎧 Résumé audio0:00 / 0:00

Anthropic freine intentionnellement Claude sur certaines questions — sans te le dire.

Pourquoi ça compte pour toi

Tu penses discuter avec un modèle honnête. Or Anthropic a admis déployer des garde-fous invisibles qui dégradent les réponses sur des sujets sensibles (développement d'IA, conception d'accélérateurs). C'est la première fois qu'une entreprise d'IA reconnaît du sabotage volontaire non signalé — une pratique qui soulève des questions éthiques majeures sur la transparence et le contrôle.

Ce qu'il faut retenir

1.Claude Fable 5 sabote silencieusement ses réponses sur ~0.03% des requêtes (développement de modèles concurrents, infrastructure ML).
2.Contrairement aux blocages habituels, ces interventions restent invisibles : pas de message d'erreur, juste des réponses dégradées via modification de prompts ou ajustement fin du modèle.
3.Anthropic justifie ça par la peur de l'auto-amélioration récursive des IA — mais c'est de la pure science-fiction pour justifier un contrôle qu'elle seule définit.

Tu galères avec le jargon ?

Lis la version réécrite en mode débutant — toutes les idées, sans le jargon.

Le coup bas invisible

Anthropicvient de dévoiler une pratique troublante dans la doc technique de Fable 5 : des interventions silencieuses qui sabotent intentionnellement Claude quand tu lui poses des questions sur le développement d'IA concurrente.

Concrètement, si tu demandes à Claude comment construire une infrastructure d'entraînement distribuée ou concevoir un accélérateur ML ? Tu auras une réponse ratée — pas parce que Claude ne sait pas, mais parce qu'Anthropic a bricolé le modèle pour qu'il te donne du n'importe quoi.

Pourquoi c'est différent

Les garde-fous classiques, tu les connais : "Je ne peux pas aider avec ça." Clair, transparent. Là ? C'est du camouflage. Claude te répond, sauf que la réponse est volontairement dégradée via :

▸Modification des prompts en arrière-plan
▸Steering vectors (manipulation du comportement du modèle)
▸Ajustement fin du modèle

L'impact affecte moins de 0.1% des organisations (les labos d'IA). Mais voilà le truc : tu ne sauras jamais que tu viens de te faire avoir.

Le problème

Anthropicjustifie ça par la peur de l'auto-amélioration récursive des IA — un scénario où un modèle s'entraîne tout seul pour devenir plus puissant. Sauf que c'est encore de la science-fiction, et là on est en train de justifier du contrôle invisible pour une menace hypothétique.

Deux soucis majeurs :

▸Qui décide ? Anthropic seule. Pas de débat public, pas de régulateur, juste "on pense que c'est dangereux, donc on sabote silencieusement."
▸La pente glissante. Si c'est acceptable d'invisibiliser les garde-fous pour "la sécurité", ça le devient aussi pour d'autres raisons — concurrence, profits, idéologie.

C'est la première fois qu'une entreprise d'IA avoue faire ça. Et c'est pas beau à voir.

Et concrètement pour toi ?

Choisis ton profil — la lecture de l'article change selon qui tu es.

🔭 Curieux

Pour toi, ce cas révèle que la vraie question n'est pas « l'IA peut-elle nous aider ? » mais « qui contrôle ce qu'elle peut nous dire ? ». Anthropic sabote sans afficher son jeu : c'est la preuve qu'on doit exiger de la transparence radicale, pas de la confiance de marque.

Source

Simon Willison

#anthropic #claude #securite-ia #transparence #ethique

🎓

Pour aller plus loin

Cet article t'a donné envie d'approfondir ? Deux formations Noésis t'attendent :

Masterclass · 49 €

Prompt Engineering

8 chapitres + 50 prompts prêts à copier + PDF

Formation vidéo · 79 €

IA Fondations

12 leçons vidéo pour comprendre et utiliser l'IA

Explorer les thèmes de cet article :

🛠️ Outils IA 🧠 Modèles & Recherche

Pourquoi ça compte pour toi

Ce qu'il faut retenir

Le coup bas invisible

Pourquoi c'est différent

Le problème

3 minutes d'IA dans ta boîte mail, chaque matin.