HumanEval
Définition
HumanEval est un benchmark qui évalue la capacité des IA à écrire du code en testant si elles résolvent correctement 164 problèmes de programmation. C'est devenu le standard pour comparer les performances des modèles de langage sur des tâches de codage.
📌 Exemple concret
On demande à une IA d'écrire une fonction Python qui vérifie si un nombre est premier. HumanEval teste si le code généré fonctionne réellement sur des cas de test.
💡 Pourquoi ça compte
HumanEval montre les vrais talents et limites des IA en code, ce qui impacte leur utilité comme assistant de programmation pour les développeurs.