Intermédiaire·2 min·1 juin 2026

Cosmos 3 : le modèle IA qui comprend vraiment la physique

🎧 Résumé audio0:00 / 0:00

NVIDIA sort un modèle unique capable de générer des vidéos, raisonner sur la physique et contrôler des robots — tout en un.

Pourquoi ça compte pour toi

Si tu construis des robots, des voitures autonomes ou génères des données synthétiques pour l'entraînement, tu cherches à passer moins de temps à jongler entre 4-5 modèles différents. Cosmos 3 consolide tout ça en un seul. Ça veut dire moins de complexité, plus de flexibilité, et accès gratuit aux jeux de données pour entraîner ton propre système.

Ce qu'il faut retenir

1.Un seul modèle pour générer des vidéos, raisonner sur la physique et prédire des actions
2.Deux versions : Nano (8B, tourne sur RTX PRO) et Super (32B, pour les gros calculs)
3.Intégré à Hugging Face Diffusers : quelques lignes de code pour démarrer
4.NVIDIA publie les jeux de données synthétiques (robotique, voitures autonomes, entrepôt, etc.)

Tu galères avec le jargon ?

Lis la version réécrite en mode débutant — toutes les idées, sans le jargon.

Un modèle omni pour la physique

Au lieu d'assembler ensemble Cosmos Predict (génération vidéo), Cosmos Transfer (contrôle), Cosmos Reason (compréhension) et Cosmos Policy (commandes robots), tu as maintenant une seule architecture — la Mixture-of-Transformers (MoT) — qui fait tout.

Concrètement, tu fournis du texte, une image ou une vidéo, et Cosmos 3 :

▸Génère une vidéo physiquement plausible
▸Prédit les mouvements futurs
▸Estime les commandes pour un robot ("mets le pot à gauche")
▸Raisonne sur la causalité et les collisions

Architecture = deux cerveaux dans une tête

La MoT sépare les tâches sans se dupliquer :

▸Séquence AR (autoregressive) : pour le raisonnement et la prédiction (comme un LLM classique)
▸Séquence DM (diffusion) : pour la génération (itérative, lissée)

Les deux partagent les encodeurs (ViT pour images, VAE pour la génération) et dialoguent via joint attention. Aucune architecture différente selon la tâche : c'est le même poids qui pense comme un VLM, génère comme un vidéo-diffuseur et pilote comme une policy.

Deux poids pour deux vitesses

Cosmos 3 Nano (8B) : la version économe. Tourne sur une RTX PRO 6000. Pour les prototypes et la mise en test rapide.

Cosmos 3 Super (32B) : pour générer des volumes importants de données synthétiques ou mener des travaux de recherche. Demande du Hopper/Blackwell (GPU NVIDIA haut de gamme).

Les prompts, ça compte

Pour la vidéo, détaille comme tu racontes une scène : "La vidéo commence à l'intérieur d'un véhicule sur une autoroute sous ciel bleu..."

Pour l'action (robot), sois concis : "Mets le pot à gauche de l'objet violet."

Les données, c'est gratuit

NVIDIA publie 6 jeux de données synthétiques sur Hugging Face :

▸Robotique (simulations de pick-and-place)
▸Physique (Isaac Sim)
▸Conduite autonome
▸Sécurité en entrepôt
▸Mouvement humain
▸Raisonnement spatial

Tu peux affiner le modèle directement sur tes propres données avec les scripts de post-training fournis.

Code = 10 lignes

Avec la lib Diffusers :

from diffusers import Cosmos3OmniPipeline
pipe = Cosmos3OmniPipeline.from_pretrained("nvidia/Cosmos3-Nano")
result = pipe(prompt="...", num_frames=1, height=720, width=1280)
result.video[0].save("output.jpg")

Voilà. Prêt à l'emploi.

Et concrètement pour toi ?

Choisis ton profil — la lecture de l'article change selon qui tu es.

🔭 Curieux

Pour toi, comprends que Cosmos 3 marque un tournant : au lieu d'avoir un modèle pour chaque tâche, on consolide tout en un seul outil polyvalent — c'est la logique du logiciel classique appliquée à l'IA, et ça change comment les prod tech vont se construire.

Essayer maintenant

Télécharger Cosmos 3 sur Hugging Face →

Source