RLHF

Définition

Technique d'entraînement qui utilise le feedback humain pour affiner un modèle IA. Au lieu de simplement prédire le prochain mot, le modèle apprend à générer des réponses que les humains jugent meilleures, plus honnêtes et moins dangereuses.

📌 Exemple concret

ChatGPT a été entraîné avec RLHF : des humains ont évalué plusieurs réponses possibles, et le modèle a appris à préférer celles jugées les plus utiles et sûres.

💡 Pourquoi ça compte

RLHF explique pourquoi les IA modernes sont si différentes des anciennes versions, et comment on les rend plus fiables et alignées avec nos valeurs.

Voir aussi

LLM Fine-tuning Alignment DPO Pre-training