DPO

Définition

DPO (Direct Preference Optimization) est une technique d'entraînement qui aligne les modèles IA sur les préférences humaines sans utiliser de modèle de récompense séparé. Elle compare directement les réponses préférées aux réponses rejetées pour améliorer le comportement du modèle.

📌 Exemple concret

Au lieu de noter chaque réponse d'IA séparément, on dit simplement : 'j'aime cette réponse mieux que celle-là', et le modèle apprend directement de cette comparaison.

💡 Pourquoi ça compte

DPO rend l'alignement des IA plus simple et moins coûteux que RLHF, ce qui permet aux startups de créer des modèles éthiques et utiles plus facilement.

Voir aussi

RLHF Alignment Fine-tuning Modèle de fondation Jailbreak

Articles qui en parlent

Débutant10 min·27 avril 2026

Meilleur hébergeur web en 2026 : comparatif honnête FR

On a comparé Hostinger, OVH, o2switch, Bluehost et Hetzner pour te dire lequel choisir selon ton projet.

#hebergement-web#comparatif#wordpress

Intermédiaire2 min·23 avril 2026

Les hackers nord-coréens médiocres volent des millions avec l'IA

Des cybercriminels sans compétences utilisent ChatGPT et Cursor pour voler 12 millions de dollars en crypto en trois mois.

#cybersecurite#geopolitique-ia#crypto