Red teaming

Définition

Technique de test qui consiste à chercher intentionnellement les faiblesses et les erreurs d'une IA pour évaluer sa robustesse et sa sécurité. Des experts tentent de faire échouer le modèle en le confrontant à des questions piégées, des cas limites ou des demandes problématiques.

📌 Exemple concret

Une équipe teste ChatGPT en lui demandant de générer du contenu dangereux ou biaisé pour identifier les limites avant le lancement public.

💡 Pourquoi ça compte

Le red teaming révèle les vrais risques d'une IA avant qu'elle nuise réellement aux utilisateurs, essentiel pour un déploiement responsable.

Voir aussi

Alignment Jailbreak Hallucination Prompt injection Benchmark