MMLU
Définition
Benchmark d'évaluation qui teste les connaissances générales d'une IA sur 57 disciplines différentes (maths, histoire, biologie, droit, etc.). MMLU signifie Massive Multitask Language Understanding. C'est le test standard pour mesurer la performance d'un LLM.
Claude obtient 88% au MMLU, tandis qu'un modèle plus faible atteint 65%. Ce score te dit combien de questions de culture générale l'IA peut répondre correctement.
MMLU te permet de comparer objectivement les capacités intellectuelles réelles de différents LLM avant de choisir lequel utiliser.
Voir aussi
Articles qui en parlent
Comment NVIDIA crée de meilleures données pour ses IA
NVIDIA a découvert que générer 700 tâches d'apprentissage, c'est mieux que d'avaler 100 milliards de tokens bruts.

Évaluer l'IA coûte désormais plus cher que l'entraîner
L'évaluation des modèles IA est devenue si chère qu'elle redéfinit qui peut faire de la recherche.