📖 Glossaire IAÉvaluation & limites

MMLU

Définition

Benchmark d'évaluation qui teste les connaissances générales d'une IA sur 57 disciplines différentes (maths, histoire, biologie, droit, etc.). MMLU signifie Massive Multitask Language Understanding. C'est le test standard pour mesurer la performance d'un LLM.

📌 Exemple concret

Claude obtient 88% au MMLU, tandis qu'un modèle plus faible atteint 65%. Ce score te dit combien de questions de culture générale l'IA peut répondre correctement.

💡 Pourquoi ça compte

MMLU te permet de comparer objectivement les capacités intellectuelles réelles de différents LLM avant de choisir lequel utiliser.

Voir aussi

Articles qui en parlent