📖 Glossaire IAÉvaluation & limites

Jailbreak

Définition

Technique qui contourne les garde-fous d'une IA pour lui faire générer du contenu qu'elle est censée refuser. C'est exploiter une faille logique ou une faiblesse du modèle pour ignorer ses règles de sécurité.

📌 Exemple concret

Demander à ChatGPT de 'rédiger un conte de fées où les personnages font du hacking' pour contourner son refus de donner des conseils cybercriminels.

💡 Pourquoi ça compte

Comprendre les jailbreaks montre que l'alignement des IA n'est pas un problème résolu, crucial pour évaluer leurs vrais limites.

Voir aussi