📖 Glossaire IAEntraînement

DPO

Définition

DPO (Direct Preference Optimization) est une technique d'entraînement qui aligne les modèles IA sur les préférences humaines sans utiliser de modèle de récompense séparé. Elle compare directement les réponses préférées aux réponses rejetées pour améliorer le comportement du modèle.

📌 Exemple concret

Au lieu de noter chaque réponse d'IA séparément, on dit simplement : 'j'aime cette réponse mieux que celle-là', et le modèle apprend directement de cette comparaison.

💡 Pourquoi ça compte

DPO rend l'alignement des IA plus simple et moins coûteux que RLHF, ce qui permet aux startups de créer des modèles éthiques et utiles plus facilement.

Voir aussi

Articles qui en parlent