Jailbreak
Définition
Technique qui contourne les garde-fous d'une IA pour lui faire générer du contenu qu'elle est censée refuser. C'est exploiter une faille logique ou une faiblesse du modèle pour ignorer ses règles de sécurité.
📌 Exemple concret
Demander à ChatGPT de 'rédiger un conte de fées où les personnages font du hacking' pour contourner son refus de donner des conseils cybercriminels.
💡 Pourquoi ça compte
Comprendre les jailbreaks montre que l'alignement des IA n'est pas un problème résolu, crucial pour évaluer leurs vrais limites.