Alignment

Définition

L'alignment est le processus d'entraînement d'une IA pour qu'elle se comporte conformément aux valeurs et intentions humaines. C'est s'assurer que le modèle refuse les demandes nuisibles, dit la vérité et agit de manière utile plutôt que contraire à l'éthique.

📌 Exemple concret

Claude refuse de générer du code malveillant ou d'aider à une arnaque, même si tu le demandes poliment. C'est l'alignment en action.

💡 Pourquoi ça compte

C'est la différence entre une IA utile et une IA dangereuse. L'alignment détermine si le modèle sert vraiment tes intérêts ou ceux de quelqu'un d'autre.

Voir aussi

RLHF DPO Fine-tuning Jailbreak Red teaming Hallucination