Intermédiaire·2 min·9 juin 2026

Des Spaces Hugging Face deviennent des briques pour agents IA

🎧 Résumé audio0:00 / 0:00

Un agent IA a construit une galerie 3D de Paris en chaînant deux outils sans écrire une ligne de code d'intégration.

Pourquoi ça compte pour toi

Jusqu'ici, assembler des modèles IA (génération d'images + reconstruction 3D) exigeait des mois de plomberie technique : SDKs, GPUs, formats incompatibles. Avec agents.md, chaque Space devient un bloc documenté et appelable. Les agents préfèrent naturellement ce qui est facile à atteindre — c'est la fin de l'intégration sur mesure.

Ce qu'il faut retenir

1.agents.md expose le schéma d'API de chaque Space en texte brut : un agent lit ça et peut l'appeler directement
2.La chaîne : prompt → Ideogram4 (image) → TripoSplat (splat 3D) → viewer Three.js, tout orchestré par un agent
3.Le modèle préfiguré : la vraie barrière n'était jamais l'IA, c'était l'intégration — supprime-la, et les agents assemblent les briques entre elles

Tu galères avec le jargon ?

Lis la version réécrite en mode débutant — toutes les idées, sans le jargon.

Pourquoi c'est un tournant

Mitchell Hashimoto parle d'une « économie des briques » : l'IA est nulle pour tout faire de zéro, mais imbattable pour assembler des pièces éprouvées ensemble. Jusqu'à présent, ce concept s'appliquait surtout aux bibliothèques de code. Maintenant, ça frappe le multimédia.

Le problème historique : utiliser un modèle image SOTA, un modèle 3D SOTA, un modèle vidéo — chacun venait avec ses dépendances, ses formats d'entrée bizarres, son interrogation asynchrone. Intégrer ça prenait des semaines.

Comment agents.md change la donne

Chaque Space Gradio expose maintenant un fichier agents.md en texte brut :

API schema: GET .../gradio_api/info
Call endpoint: POST .../gradio_api/call/v2/{endpoint}
Poll result: GET .../gradio_api/call/{endpoint}/{event_id}
File inputs: POST .../gradio_api/upload
Auth: Bearer $HF_TOKEN

Un agent lit ça, comprend immédiatement comment appeler l'outil, et le fait. Aucune bibliothèque cliente à installer, aucune intégration codée en dur. Juste : du texte documenté, un token HF, et c'est parti.

Le pipeline Paris en action

L'agent a chaîné deux Spaces :

Ideogram4 (idéogram-ai/ideogram4) : tu lui donnes un prompt (« Eiffel Tower, isolated on black »), elle crache une image propre.

TripoSplat (VAST-AI/TripoSplat) : tu lui donnes l'image, elle reconstruit un splat 3D gaussien (format .ply).

Ensuite, l'agent a fait le liant : il a remarqué que TripoSplat sort du Y-down, l'a retourné, compressé les .ply en .ksplat (~3× plus léger), construit un viewer Three.js avec défilement pour naviguer et glisser pour pivoter, et déployé le tout en Space statique.

Le plus surprenant : l'agent a aussi réagi à la réalité. Une pyramide en verre splatte mal → pas bon pour le résultat. Un obélisque mince → visuellement pauvre. L'agent a proposé des alternatives, et l'humain a dit oui ou non.

Ce que ça implique

Les modèles deviennent composables. Un splat SOTA et une image SOTA, de deux organisations différentes, chaînées sans une ligne de code d'intégration.

La barrière historique n'était jamais l'IA — c'était la plomberie. Supprime-la, et les agents préfèrent naturellement ce qui est documenté et facile à atteindre. C'est le même effet que dans l'open-source : une bibliothèque bien documentée sur npm devient plus utilisée qu'un code propriétaire plus puissant, mais qui demande une configuration poussée.

Dans 6 mois, attends-toi à voir des centaines de Spaces chaînés par des agents pour faire des choses qui, il y a un an, auraient demandé une équipe.

Et concrètement pour toi ?

Choisis ton profil — la lecture de l'article change selon qui tu es.

🔭 Curieux

Pour toi, c'est simple : jusqu'ici, assembler deux outils IA ensemble c'était compliqué et coûteux. Là, ça devient transparent et gratuit. Ça annonce un monde où les applications « complexes » seront juste des Legos emboîtés entre eux.

Essayer maintenant

Voir la galerie live sur Hugging Face →

Source