DPO
Définition
DPO (Direct Preference Optimization) est une technique d'entraînement qui aligne les modèles IA sur les préférences humaines sans utiliser de modèle de récompense séparé. Elle compare directement les réponses préférées aux réponses rejetées pour améliorer le comportement du modèle.
Au lieu de noter chaque réponse d'IA séparément, on dit simplement : 'j'aime cette réponse mieux que celle-là', et le modèle apprend directement de cette comparaison.
DPO rend l'alignement des IA plus simple et moins coûteux que RLHF, ce qui permet aux startups de créer des modèles éthiques et utiles plus facilement.
Voir aussi
Articles qui en parlent
Meilleur hébergeur web en 2026 : comparatif honnête FR
On a comparé Hostinger, OVH, o2switch, Bluehost et Hetzner pour te dire lequel choisir selon ton projet.

Les hackers nord-coréens médiocres volent des millions avec l'IA
Des cybercriminels sans compétences utilisent ChatGPT et Cursor pour voler 12 millions de dollars en crypto en trois mois.