Tag

#benchmarks

9 articles sur ce sujet.

Kimi K3, Qwen 3.8, Xi qui promet l'open source : les labs chinois accélèrent et posent des vraies questions aux géants US.

Les chercheurs les plus doués abandonnent les LLM pour la découverte de médicaments. Voici pourquoi.

Les modèles IA ne peuvent pas choisir ce qu'il faut construire. C'est là que gagnent les vrais entrepreneurs.

Trois nouveaux benchmarks le prouvent : même les meilleurs agents IA plafonnent à 2,6% de réussite sur des tâches réelles.

NVIDIA a découvert que générer 700 tâches d'apprentissage, c'est mieux que d'avaler 100 milliards de tokens bruts.

Anthropic vient de lever 65 milliards en Series H et affiche 47 milliards de revenus annualisés.

Une fact-checkeuse professionnelle a testé ChatGPT, Claude et Gemini. Aucun n'a réussi à vérifier un seul fait.

Les modèles ouverts chinois et indiens rattrapent, mais CAISI le confirme : l'écart avec la frontière américaine s'élargit.

L'évaluation des modèles IA est devenue si chère qu'elle redéfinit qui peut faire de la recherche.