Avancé·2 min·24 avril 2026

DeepSeek V4 : modèles géants à prix cassés

DeepSeek lâche deux monstres d'IA (1,6T et 284B params) 10x moins chers que GPT-5.5.
DeepSeek V4 : modèles géants à prix cassés

Pourquoi ça compte pour toi

Si tu fais tourner de l'IA en production, ces prix te changent l'équation économique. Flash à $0,14/M tokens, c'est 35x moins cher que Claude Opus. Et les poids sont ouverts : tu peux les télécharger et les faire tourner localement. L'ère où seul OpenAI/Anthropic dominaient commence à craquer.

Ce qu'il faut retenir

  • 1.DeepSeek-V4-Pro (1,6T params) : $1,74/M tokens en entrée. Rivalise avec GPT-5.4 et Gemini 3.1 Pro.
  • 2.DeepSeek-V4-Flash (284B params) : $0,14/M tokens en entrée. Le modèle le moins cher du marché, toutes catégories.
  • 3.Les deux en Mixture of Experts (MoE) avec 1M tokens de contexte. Poids ouverts, licence MIT.
  • 4.DeepSeek-V4-Pro est 27% plus efficace en calcul que V3.2 sur 1M tokens. Flash, lui, utilise 10% des FLOPs de V3.2.

Les chiffres qui tuent

DeepSeek a lâché deux modèles en avant-première. Le Pro avec 1,6T paramètres totaux (49B actifs). Le Flash avec 284B (13B actifs). Tous deux en MoE, 1M tokens de contexte, sous licence MIT.

Pour te donner l'échelle : DeepSeek-V4-Pro est le plus gros modèle à poids ouverts du marché aujourd'hui. Il devance Kimi K2.6 (1,1T) et GLM-5.1 (754B). Et il pèse deux fois plus lourd que le V3.2 sorti il y a 4 mois.

Sur disque : Pro = 865 Go, Flash = 160 Go. Flash quantisé léger pourrait tourner sur un MacBook 128 Go. Pro, peut-être en chargement d'experts depuis le disque.

Le vrai truc : les prix

C'est là que ça devient fou.

Flash : $0,14/M tokens en entrée, $0,28/M en sortie. C'est le modèle le moins cher de tout le marché. Même GPT-5.4 Nano ($0,20/$1,25) est plus cher.

Pro : $1,74/M en entrée, $3,48/M en sortie. Moins cher que Gemini 3.1 Pro ($2/$12), Claude Sonnet 4.6 ($3/$15), GPT-5.5 ($5/$30).

Pour du concret : si tu as une appli avec 100M tokens/mois, Flash te coûte $14. Claude Haiku, $100. GPT-5.4, $75.

Pourquoi c'est possible ?

DeepSeek a misé sur l'efficacité plutôt que sur la performance brute. Sur 1M tokens :

  • Pro utilise 27% des FLOPs de V3.2 et 10% du cache KV.
  • Flash utilise 10% des FLOPs et 7% du cache KV.

Moins de calcul = moins d'électricité = prix divisés par 10.

Le hic

Le benchmark interne de DeepSeek ? Son Pro est compétitif avec les modèles de pointe... mais avec un bémol. Performance « marginalement inférieure » à GPT-5.4 et Gemini 3.1 Pro. Traduction : on accuse 3 à 6 mois de retard en performance brute.

Mais si tu veux du rapport qualité/prix et des poids à faire tourner localement, V4 change la donne.

Action immédiate

Si tu utilises l'API : teste Flash d'abord. Le rapport prix/performance est remarquable.

Si tu veux du local : attends les versions Unsloth quantisées. Ça va débarquer vite.

Newsletters Noésis

3 minutes d'IA dans ta boîte mail, chaque matin.

Rejoins les francophones qui comprennent, essaient et progressent avec l'IA. Choisis ce que tu veux recevoir. Désabonnement en 1 clic.

Explorer les thèmes de cet article :