Intermédiaire·3 min·14 juin 2026

Les grandes fenêtres contextuelles, c'est du bluff marketing

🎧 Résumé audio0:00 / 0:00
Claude annonce 2M de tokens, mais tu ne peux vraiment en utiliser que 100k avant que le modèle devienne débile.
Les grandes fenêtres contextuelles, c'est du bluff marketing

Pourquoi ça compte pour toi

Si tu utilises des agents IA pour coder ou automatiser des tâches, tu fonçes droit dans une zone où l'IA hallucine et oublie. Les éditeurs gonflent les chiffres : 1M de tokens sur la boîte, mais le cerveau du modèle sature bien avant. Comprendre cette limite change ta stratégie : au lieu de balancer 500k tokens d'historique, tu peux découper intelligemment et rester dans la zone où l'IA fonctionne vraiment.

Ce qu'il faut retenir

  • 1.Seuls les premiers ~100k tokens d'une session fonctionnent bien ; au-delà, la performance s'écroule progressivement
  • 2.Les agents IA consomment des tokens à la vitesse d'un TGV : quelques lectures de fichiers et tu es cramé avant midi
  • 3.Les résumés auto-générés (Claude Code, etc.) arrivent trop tard : le modèle qui les produit est déjà dégradé
  • 4.Astuce : coupe ta session et écris une spec manuelle pour la suivante — c'est du signal bien meilleur qu'un auto-résumé

Tu galères avec le jargon ?

Lis la version réécrite en mode débutant — toutes les idées, sans le jargon.

La vérité sur les fenêtres contextuelles

Tu as vu l'annonce : Claude 3.5 gère 200k tokens. GPT-4 en revendique 128k. Et maintenant des modèles font des pirouettes avec 1M, 2M. Sur le papier, c'est de quoi balancer un roman entier, ton historique complet, 50 fichiers de code.

Mais voilà : ce chiffre, c'est comme la capacité d'une batterie annoncée par le constructeur auto. En théorie. En pratique, tu vas perdre 20-30% en montée en température. Et ce qui te reste, tu ne l'utilises pas à 100%.

La zone stupide existe vraiment

Des études comme RULER et le rapport de Chroma le montrent : la performance se dégrade progressivement au fur et à mesure que tu remplis la fenêtre. Autour de 100k tokens, tu franchis une ligne. Avant, le modèle est attentif, précis. Après, il perd des infos, hallucine, oublie ce que tu lui as dit au début.

Le pire ? Les agents IA brûlent les tokens comme des fous. Un agent qui lit quelques fichiers, lance une session de debug, fait tourner des tests — c'est 100k, facile.

Pendant ce temps, les éditeurs continuent à sortir leurs chiffres marketing. C'est une course au nombre, pas à l'utilité.

Ce que les modèles font pour te calmer

Claude Code, par exemple, a misé sur la compaction automatique : quand la session devient trop longue, l'agent résume et repart de zéro.

Bien pensé. Sauf que tu es déjà passé par la zone stupide avant que le résumé se déclenche. Et c'est un modèle en mode dégradé qui va résumer. Mieux que rien, mais loin d'être optimal.

La vraie tactique : des specs, pas de l'historique

Voici ce qui marche mieux : au lieu de laisser l'agent résumer, toi, tu écris une spec manuelle entre les sessions.

Pourquoi ? Parce que tu décides de ce qui compte. Tu passes du bruit filtré à du signal concentré. C'est l'approche des "breadcrumbs" appliquée aux agents : tu laisses une trace claire que la prochaine session (ou la prochaine personne) peut reprendre sans perte.

Des projets comme obra/superpowers et mattpocock/skills vont plus loin : ils structurent les workflows agents autour de petits artefacts nommés — PRDs, plans, skills, transferts entre sous-agents. Chaque artefact, c'est une façon de sortir l'information de la session en cours et d'en faire quelque chose que la prochaine session peut digérer sans perte.

Traiter la fenêtre comme un budget

La vraie leçon : ta fenêtre contextuelle, c'est un budget, pas un grenier illimité.

Partons du principe que seul le premier bloc fonctionne vraiment pour toi. Tout ce que tu peux extraire de la session en cours dans un artefact écrit, c'est autant de charge cognitive que l'attention n'a pas à gérer. Moins de bruit = moins d'hallucinations. Plus de signal = meilleur résultat.

Et concrètement pour toi ?

Choisis ton profil — la lecture de l'article change selon qui tu es.

🔭 Curieux

Pour toi, ce phénomène montre comment le marketing IA gonfle les specs : c'est bon à savoir pour pas croire naïvement que 2M de tokens = 2M de tokens utiles. Ça révèle aussi où l'IA plafonne vraiment — pas où elle dit plafonner.

Newsletters Noésis

3 minutes d'IA dans ta boîte mail, chaque matin.

Rejoins les francophones qui comprennent, essaient et progressent avec l'IA. Choisis ce que tu veux recevoir. Désabonnement en 1 clic.

Explorer les thèmes de cet article :