📖 Glossaire IAEntraînement

RLHF

Définition

Technique d'entraînement qui utilise le feedback humain pour affiner un modèle IA. Au lieu de simplement prédire le prochain mot, le modèle apprend à générer des réponses que les humains jugent meilleures, plus honnêtes et moins dangereuses.

📌 Exemple concret

ChatGPT a été entraîné avec RLHF : des humains ont évalué plusieurs réponses possibles, et le modèle a appris à préférer celles jugées les plus utiles et sûres.

💡 Pourquoi ça compte

RLHF explique pourquoi les IA modernes sont si différentes des anciennes versions, et comment on les rend plus fiables et alignées avec nos valeurs.

Voir aussi