Intermédiaire·3 min·29 avril 2026

Nemotron, Laguna, vLLM 0.20 : la semaine qui change les infras

Trois lancements qui redéfinissent comment faire tourner l'IA en production : modèles omni, kernels plus rapides, orchestration d'agents.
Nemotron, Laguna, vLLM 0.20 : la semaine qui change les infras

Pourquoi ça compte pour toi

Si tu construis une startup IA ou que tu dois déployer des modèles en 2026, cette semaine a posé les briques infra qui vont devenir ton quotidien. Nemotron multimodal tourne sur un GPU. vLLM 0.20 divise par 4 la mémoire KV. Et les agents quittent enfin la démo pour la production. C'est moins visible que GPT-6, mais c'est là que les euros se font.

Ce qu'il faut retenir

  • 1.vLLM 0.20 : cache KV 4× plus petit (TurboQuant 2-bit), latence −2,1%, support DeepSeek V4 MegaMoE
  • 2.Nemotron 3 Nano Omni : 30B/3B actifs, multimodal (texte, image, vidéo, audio), 256K contexte, 9× plus rapide que les omni concurrents
  • 3.Poolside Laguna XS.2 : 33B/3B actifs, Apache 2.0, tourne sur un seul GPU, vraie alternative ouverte à Qwen-3.5
  • 4.Agents en prod : Mistral Workflows, orchestration durable et observable, fin de l'ère des démos

Ce qui s'est vraiment passé

Latent Space disait « pas grand-chose aujourd'hui ». Mensonge pieux. Trois sorties qui restructurent le marché des infras IA sont tombées en 24 heures.

vLLM 0.20 : la course au kernel

vLLM 0.20 sort avec du lourd. Le truc qui tue : TurboQuant 2-bit pour le cache KV. Ça veut dire que tu peux mettre 4 fois plus de requêtes en parallèle sur la même GPU sans crever la mémoire. C'est hyper discret mais c'est ça qui rend rentable un serveur d'inférence.

En bonus : fused RMSNorm (−2,1% latence), support direct de DeepSeek V4 avec le mega-kernel DeepGEMM (dispatch + combine + GEMM + SwiGLU en un seul kernel). Et un signal à noter : DeepSeek V4 Pro est 8× plus rapide sur B300 que sur H200. Les accélérateurs NVIDIA avancent plus vite que les modèles qui les utilisent.

Nemotron 3 Nano Omni : l'omni qui passe à l'échelle

NVIDIA sort son premier modèle omni (texte + image + vidéo + audio). 30B paramètres totaux, 3B actifs en MoE. Contexte 256K. Encodeur audio Parakeet (5,95% WER).

Le vrai scoop : c'est disponible le jour même sur Ollama, OpenRouter, LM Studio, Together, Fireworks, DeepInfra, Unsloth. Zéro délai entre annonce et accès. Et les benchmarks annoncent 9× le débit des omni concurrents.

Pour les équipes légères, c'est énorme. Pas besoin d'avoir 100B de paramètres si tu peux router intelligemment les tokens actifs.

Laguna XS.2 : Poolside sort enfin du stealth

Poolside (la startup qui traîne depuis 2 ans) lâche son premier modèle public : Laguna XS.2, 33B/3B actifs, Apache 2.0, code optimisé pour tourner sur un seul GPU.

Pourquoi ça compte ? Parce que c'est 100% maison : données, entraînement, RL, infra d'inférence. Pas de fine-tuning Llama ou Qwen. Ça pèse lourd pour une startup : tu dois prouver que tu peux bâtir une pile complète, pas juste faire des petits ajustements sur Hugging Face.

Performances annoncées proches de Qwen-3.5 (225B/23B et 33B/3B actifs). Hybrid attention, FP8 KV cache.

Agents en prod : la vraie révolution

Mistral lance Workflows en avant-première. C'est un orchestrateur d'agents. Durable, observable, fault-tolerant.

Traduction : tu arrêtes de faire des démos qui plantent au bout de 3 étapes. Tu construis des systèmes où un agent peut tourner 8 heures, distribuer à des sous-agents, persister l'état, redémarrer sans perdre le contexte.

C'est banal en développement classique. Pour l'IA, c'est nouveau. Ça signifie que les agents passent de « cool pour YouTube » à « déployable en prod sans crainte ».

À retenir

Cette semaine ne ressemble à rien sur les réseaux. Zéro annonce de modèle fondamental révolutionnaire. Mais les trois couches — inférence (vLLM), modèles (Nemotron + Laguna), orchestration (Workflows) — se resserrent autour d'une même idée : faire de l'IA prête pour la production sans infrastructure de grande entreprise.

Si tu lances une startup d'agents ou que tu dois déployer un service IA, tu as maintenant les briques pour le faire sans carte de crédit illimitée.

📊 Cours en bourse

Newsletter quotidienne

3 minutes d'IA dans ta boîte mail, chaque matin.

Rejoins les francophones qui comprennent, essaient et progressent avec l'IA. Un email court, utile, sans spam. Désabonnement en 1 clic.

Explorer les thèmes de cet article :