Tag
1 article sur ce sujet.
NVIDIA lâche des modèles qui génèrent plusieurs tokens à la fois au lieu d'un seul : jusqu'à 6× plus rapide, et tu peux basculer entre 3 modes sans changer ton code.