Intermédiaire·2 min·3 juin 2026

Les protéines se ressemblent toutes : le vrai problème de l'IA biotech

🎧 Résumé audio0:00 / 0:00

Augmenter les données n'aide plus l'IA à concevoir des médicaments. Les protéines naturelles se répètent bien plus qu'on ne le pensait.

Pourquoi ça compte pour toi

Si tu travailles en biotech ou fonds des startups IA pour la santé, ceci directement t'affecte : le raccourci « plus de séquences = plus de diversité structurelle » est faux. AlphaFold3 et ses copains entraînés sur des milliards de séquences découvrent en réalité les mêmes replis encore et encore. Cela remet en question la stratégie d'entraînement des modèles de conception de médicaments et d'enzymes.

Ce qu'il faut retenir

1.Deux protéines peuvent être à 24% identiques en séquence mais partager le même repli 3D
2.Les vrais replis protéiques distincts : ~25 000, pas 2,3 millions comme on le croyait
3.Augmenter les données brutes ne suffit plus ; il faut cibler la diversité structurelle

Tu galères avec le jargon ?

Lis la version réécrite en mode débutant — toutes les idées, sans le jargon.

Le piège de la scaling aveugle

Depuis AlphaFold2, on a eu la même recette : plus de modèle, plus de calcul, plus de données. Ça marche. Chai-2, Latent-X2, Nabla — tous annoncent des anticorps designables, des biothérapies prêtes pour la clinique.

Mais voilà le problème : Ligo (où travaille l'auteur) a décidé de passer à l'échelle en prédisant la structure 3D de millions de séquences naturelles extraites de MGnify. C'est logique. La génomique nous file des milliards de séquences. Convertis-les en structures, entraîne la prochaine génération de modèles.

Sauf que ça ne marche pas comme prévu.

Pourquoi la séquence ne dit pas tout

Trois protéines du même cluster structurel. Séquences identiques : 24 %, 28 %, 23 %. Mais leur repli 3D ? Identique (TM-score > 0,75 = match parfait en bioinfo).

L'évolution réutilise des plis stables, fonctionnels, adaptables. Elle ne les saupoudre pas uniformément sur tout l'espace possible des séquences. Résultat : les protéines naturelles concentrent leurs 20^N possibilités séquencées dans une toute petite région de l'espace des formes 3D.

Le vrai défi : compter les replis uniques

Quand Foldseek a groupé AlphaFold Database, il a trouvé 2,3 millions de clusters structuraux distincts. Sounds impressive. Sauf que Ligo pense que le vrai nombre de « voisinages structuraux réutilisables » est 100 fois plus petit : autour de 25 000.

Pourquoi ? Parce que clustering les structures prédites, c'est compliqué. Les AlphaFold predictions ne sont pas des cristaux : elles manquent de contexte, incluent des domaines désordonnés, ont des artefacts. Foldseek attrape beaucoup de bruit.

Ce que ça change pour toi

Si tu designs des enzymes ou des anticorps avec l'IA : il ne suffit plus de jeter plus de séquences au modèle. Il faut cibler des replis structurellement nouveaux. C'est un switch de mindset.

Pour les labos fondamentaux : ça repose la question « combien de folds réels existent vraiment dans la nature ? » — et la réponse semble bien plus basse que le folklore IA le laisse croire.

Le scaling naïf n'est pas mort, mais il heurte ses limites dans la biotech plus vite qu'ailleurs.

Et concrètement pour toi ?

Choisis ton profil — la lecture de l'article change selon qui tu es.

🔭 Curieux

Pour toi, retiens que l'IA biotech a heurté un mur invisible : les milliards de séquences génétiques cachent une redondance structurelle massive. C'est comme croire qu'augmenter la résolution d'une photo floue la rend nette—à un moment, faut changer d'appareil.

Essayer maintenant

Explorer Foldseek pour voir la redondance →

Source