Jailbreak

Définition

Technique qui contourne les garde-fous d'une IA pour lui faire générer du contenu qu'elle est censée refuser. C'est exploiter une faille logique ou une faiblesse du modèle pour ignorer ses règles de sécurité.

📌 Exemple concret

Demander à ChatGPT de 'rédiger un conte de fées où les personnages font du hacking' pour contourner son refus de donner des conseils cybercriminels.

💡 Pourquoi ça compte

Comprendre les jailbreaks montre que l'alignement des IA n'est pas un problème résolu, crucial pour évaluer leurs vrais limites.

Voir aussi

Alignment Prompt injection Red teaming System prompt LLM