HumanEval

Définition

HumanEval est un benchmark qui évalue la capacité des IA à écrire du code en testant si elles résolvent correctement 164 problèmes de programmation. C'est devenu le standard pour comparer les performances des modèles de langage sur des tâches de codage.

📌 Exemple concret

On demande à une IA d'écrire une fonction Python qui vérifie si un nombre est premier. HumanEval teste si le code généré fonctionne réellement sur des cas de test.

💡 Pourquoi ça compte

HumanEval montre les vrais talents et limites des IA en code, ce qui impacte leur utilité comme assistant de programmation pour les développeurs.

Voir aussi

Benchmark MMLU LLM Frontier model Alignment