📖 Glossaire IAÉvaluation & limites

HumanEval

Définition

HumanEval est un benchmark qui évalue la capacité des IA à écrire du code en testant si elles résolvent correctement 164 problèmes de programmation. C'est devenu le standard pour comparer les performances des modèles de langage sur des tâches de codage.

📌 Exemple concret

On demande à une IA d'écrire une fonction Python qui vérifie si un nombre est premier. HumanEval teste si le code généré fonctionne réellement sur des cas de test.

💡 Pourquoi ça compte

HumanEval montre les vrais talents et limites des IA en code, ce qui impacte leur utilité comme assistant de programmation pour les développeurs.

Voir aussi