RLHF
Définition
Technique d'entraînement qui utilise le feedback humain pour affiner un modèle IA. Au lieu de simplement prédire le prochain mot, le modèle apprend à générer des réponses que les humains jugent meilleures, plus honnêtes et moins dangereuses.
📌 Exemple concret
ChatGPT a été entraîné avec RLHF : des humains ont évalué plusieurs réponses possibles, et le modèle a appris à préférer celles jugées les plus utiles et sûres.
💡 Pourquoi ça compte
RLHF explique pourquoi les IA modernes sont si différentes des anciennes versions, et comment on les rend plus fiables et alignées avec nos valeurs.