Gemma 4 VLA sur Jetson Orin : l'IA qui décide seule d'ouvrir les yeux
Pourquoi ça compte pour toi
C'est la première démo vraiment fonctionnelle d'une VLA (Vision Language Action) sur du matériel grand public. Pas de mot-clé, pas de logique figée : le modèle raisonne sur ce qu'il doit faire. Pour les créateurs et entrepreneurs, ça signifie qu'on peut bâtir des assistants visuels intelligents sans cloud, sans dépendre d'une API payante, et sans latence réseau.
Ce qu'il faut retenir
- 1.Gemma 4 décide de façon autonome si elle doit accéder à la webcam pour répondre (pas de déclencheur codé en dur)
- 2.Pile logicielle complète en source ouverte : Parakeet STT + Gemma 4 + Kokoro TTS, tout en local sur Jetson Orin Nano Super
- 3.Tutoriel complet et gratuit avec code GitHub : configuration système, Python, llama.cpp, calibrage micro/enceinte inclus
Tu galères avec le jargon ?
Lis la version réécrite en mode débutant — toutes les idées, sans le jargon.
Pourquoi c'est différent
D'habitude, un assistant multimodal, c'est : tu demandes → il analyse la webcam → il répond. Ici, c'est : tu demandes → le modèle raisonne sur ce qu'il a besoin de voir → il appelle la webcam si nécessaire → il répond avec le contexte visuel.
L'exemple classique : "Qu'est-ce que j'ai sur mon bureau ?" → Gemma ouvre les yeux d'elle-même. "Quelle heure il est ?" → pas besoin de webcam, elle passe.
Matériel requis (minimaliste)
- ▸NVIDIA Jetson Orin Nano Super (8 GB) — c'est le point essentiel, rien de plus puissant nécessaire
- ▸Une webcam USB (la Logitech C920 est testée, mais tout modèle compatible Linux marche)
- ▸Un micro USB et une enceinte USB
C'est ça. Pas de GPU externe, pas de cloud.
Mise en place en 6 étapes
Étapes 1-2 : dépendances système + Python
Les commandes apt install pour audio, webcam, Python. Rien de surprenant.
Étape 3 : libérer de la RAM (critique)
C'est un 8 GB très serré. Le tutoriel te guide pour tuer Docker, GNOME, tracker-miner, et ajouter 8 GB de swap. Sans ça, le modèle ne charge pas.
Étape 4 : serveur llama.cpp + Gemma 4
Tu compiles llama.cpp en natif (CUDA ON, architecture 87 pour Jetson), tu télécharges la quantification Q4_K_M du modèle (~9 GB) et le projecteur de vision (mmproj). Puis tu lances le serveur sur le port 8080.
Étape 5 : calibrer micro, enceinte, webcam
Des commandes pour identifier les bons périphériques Linux (arecord -l, pactl, v4l2-ctl), et un test audio rapide pour vérifier que tu t'entends.
Étape 6 : lancer le script VLA
Une ligne Python. D'abord SPACE pour enregistrer ta question, SPACE pour arrêter. Le script télécharge les modèles TTS/STT au premier lancement, puis c'est en direct.
Le détail technique
Le script expose un seul outil à Gemma : look_and_answer. Pas de condition, pas de regex sur les mots-clés. C'est le flag --jinja sur llama-server qui active l'appel d'outils natif du modèle.
Voix disponibles
Kokoro TTS embarque plusieurs voix : af_jessica, af_nova, am_puck, bf_emma, am_onyx. Tu peux changer avec export VOICE.
Mode texte
Si tu veux contourner la configuration audio, il y a --text pour tester le LLM seul.
La vraie question
Ça fait quoi, une VLA qui fonctionne vraiment ? Ici, ça veut dire : l'IA n'est plus une boîte noire qui répond, c'est un agent qui raisonne sur ses propres entrées. Elle te parle, elle décide si elle doit voir, elle combine les infos. Zéro latence cloud, zéro données envoyées dehors. Pour du prototypage rapide ou des cas d'usage privés (santé, légal, R&D), c'est un tournant.
Et concrètement pour toi ?
Choisis ton profil — la lecture de l'article change selon qui tu es.
Pour toi, le pli est plié : l'IA ne demande plus la permission pour voir. Gemma 4 décide seule d'accéder à ta caméra selon le contexte—c'est moins un gadget qu'un signal sur où va l'autonomie des systèmes. Regarde le code, comprends comment ça marche, puis pose-toi des vraies questions éthiques.
Essayer maintenant
Cloner le repo GitHub et lancer la démo →Source
📊 Cours en bourse
Pour aller plus loin
Cet article t'a donné envie d'approfondir ? Deux formations Noésis t'attendent :
Explorer les thèmes de cet article :