Inference

Définition

L'inference, c'est le moment où un modèle IA génère une réponse à partir d'une entrée. Contrairement à l'entraînement qui construit le modèle, l'inference utilise un modèle déjà formé pour produire du texte, des images ou d'autres outputs en temps réel.

📌 Exemple concret

Quand tu écris une question à ChatGPT et qu'il te répond en quelques secondes, c'est de l'inference : le modèle utilise ses poids pré-entraînés pour générer ta réponse.

💡 Pourquoi ça compte

L'inference détermine la vitesse et le coût d'utilisation des IA. Optimiser l'inference, c'est rendre les IA plus rapides et moins chères pour tout le monde.

Voir aussi

LLM Pretraining vs Inference Latency Token Quantization Edge AI / On-device GPU