Quantization
Définition
La quantization réduit la précision des nombres qui représentent les poids d'un modèle IA, passant par exemple de 32 bits à 8 bits. Cela diminue drastiquement la taille du modèle et sa consommation de mémoire, tout en gardant une performance acceptable.
Un modèle de 70 milliards de paramètres peut passer de 140 GB à 35 GB en mémoire grâce à la quantization, ce qui le rend exécutable sur du matériel moins puissant.
Permet de déployer des modèles puissants sur des appareils mobiles ou serveurs moins chers, rendant l'IA accessible à plus de monde.
Voir aussi
Articles qui en parlent

Pourquoi les labos IA gaspillent 90% de leurs GPU
xAI tourne à 10% d'efficacité. Le vrai problème : pas les GPU, mais comment on les utilise.

PyTorch Landscape : l'écosystème IA à la loupe
Une carte interactive de tous les outils qui gravitent autour de PyTorch, l'une des deux armes principales des créateurs d'IA.
CyberSecQwen-4B : l'IA de sécu qui tient sur ton laptop
Un modèle IA de 4 milliards de paramètres spécialisé en cybersécurité qui rivalise avec des modèles deux fois plus gros, sans passer par le cloud.

Atomic : ta base de connaissances IA, organisée toute seule
Une appli qui transforme tes notes en graphe de connaissances intelligent, sans dossiers à gérer.