AlphaFold 3 l'avait prédit. Maintenant, les biologistes l'utilisent pour trouver des médicaments.

Lorsque DeepMind a publié AlphaFold 2 en 2020, il a résolu un défi majeur vieux de 50 ans en biologie : prédire comment une chaîne d'acides aminés se replie en une structure protéique tridimensionnelle. La communauté scientifique a qualifié cela de moment charnière. Des programmes de recherche entiers qui nécessitaient autrefois des années de cristallographie aux rayons X ou de cryo-microscopie électronique pouvaient désormais être tentés par calcul en quelques heures. En 2022, la base de données de structures protéiques AlphaFold contenait des structures prédites pour pratiquement toutes les protéines du protéome humain et des centaines de millions d'autres à travers la vie sur Terre.

Puis, en mai 2024, DeepMind a publié AlphaFold 3 — et a complètement changé la question.

Ce qu'AlphaFold 3 a réellement ajouté

AlphaFold 2 était exceptionnel pour prédire les structures protéiques isolées. AlphaFold 3 a étendu cette capacité à l'écosystème moléculaire complet : ADN, ARN, petits ligands moléculaires, ions et modifications chimiques, tous prédits conjointement avec les protéines dans un modèle unifié unique. Ce n'est pas une amélioration marginale — c'est un changement fondamental dans ce que la prédiction de structure peut signifier pour la découverte de médicaments.

Le changement architectural était tout aussi significatif. AlphaFold 3 a remplacé le backbone Evoformer par une architecture basée sur la diffusion, empruntant des techniques aux modèles de génération d'images pour affiner itérativement les coordonnées atomiques 3D à partir du bruit. Sur le benchmark PoseBusters — un test exigeant de poses de molécules de type médicamenteux physiquement plausibles dans les sites de liaison des protéines — AlphaFold 3 a obtenu une amélioration de plus de 50 % par rapport aux méthodes de pointe antérieures. Pour les chasseurs de médicaments, ce chiffre compte : prédire avec précision comment un petit ligand moléculaire s'amarre dans le site actif d'une protéine est l'un des problèmes les plus anciens et les plus exigeants en calcul de la recherche pharmaceutique.

Le pari pharmaceutique

Les implications commerciales n'ont pas échappé à l'industrie. Isomorphic Labs, la société sœur de DeepMind axée sur la découverte de médicaments par IA, a annoncé un partenariat historique avec Eli Lilly en janvier 2024, d'une valeur allant jusqu'à 1,7 milliard de dollars — l'un des plus grands accords entre l'IA et la pharmacie de l'histoire. La collaboration se concentre spécifiquement sur l'application d'outils avancés de prédiction de structure et de conception moléculaire au pipeline de médicaments de Lilly.

Recursion Pharmaceuticals a intégré les prédictions AlphaFold dans sa plateforme de criblage biologique à haut débit, utilisant les données structurelles pour prioriser les composés à synthétiser et à tester. Au CASP16 — le concours biennal Critical Assessment of Structure Prediction tenu fin 2024 — les méthodes basées sur l'IA ont dominé la prédiction de structure de l'ARN pour la première fois, une catégorie où les outils précédents avaient eu beaucoup de difficultés. La capacité à modéliser avec précision les conformations de l'ARN ouvre la porte à des classes de cibles entièrement nouvelles, y compris les médicaments ciblant l'ARN qui sont devenus un domaine majeur d'investissement pharmaceutique.

La controverse sur l'accès

La stratégie de publication d'AlphaFold 3 par DeepMind a immédiatement suscité des critiques de la part de la communauté académique. Contrairement à AlphaFold 2, dont les poids étaient entièrement open-source et ont permis tout un écosystème d'outils, les poids du modèle AlphaFold 3 ont été initialement publiés sous des conditions très restrictives — disponibles pour la recherche académique mais pas pour une application commerciale, et avec des contraintes rendant difficile l'intégration dans des pipelines ouverts.

La réaction a été vive. Les chercheurs ont fait valoir que restreindre les poids d'un modèle construit en grande partie sur des fonds publics créait un avantage injuste pour les entreprises pharmaceutiques bien dotées. DeepMind a ensuite évolué vers un accord de licence plus permissif pour un usage académique non commercial, bien que les restrictions commerciales soient restées.

La controverse a accéléré le développement d'alternatives ouvertes. RoseTTAFold All-Atom, du laboratoire Baker de l'Université de Washington, offre une prédiction conjointe protéine-ligand-acide nucléique avec des poids entièrement ouverts. Chai-1, publié par Chai Discovery en 2024, égalise les performances d'AlphaFold 3 sur plusieurs benchmarks et est disponible sous une licence de recherche permissive. Boltz-1, du MIT, fournit une autre implémentation ouverte. Ensemble, ces outils ont garanti que la communauté de recherche conserve l'accès à la prédiction de structure de pointe sans dépendre d'un seul gardien corporatif.

Ce que les modèles ne peuvent toujours pas faire

La prédiction de structure a résolu un goulot d'étranglement tout en en laissant d'autres intacts. La limitation la plus fondamentale est que ces modèles prédisent des instantanés statiques — une seule conformation de plus basse énergie — plutôt que l'ensemble dynamique de structures qu'une protéine échantillonne à température physiologique. La biologie repose sur le mouvement : les enzymes changent de forme pour catalyser des réactions, les récepteurs fléchissent pour lier des molécules de signalisation, les protéines intrinsèquement désordonnées fonctionnent précisément parce qu'elles manquent d'une structure fixe. On estime que 30 à 40 % du protéome humain est constitué de régions intrinsèquement désordonnées qu'AlphaFold et ses successeurs traitent mal, comme en témoignent les faibles scores de confiance pLDDT pour ces segments.

Les protéines membranaires présentent un défi distinct. Ces cibles — qui représentent environ 60 % des médicaments approuvés — existent dans un environnement de bicouche lipidique difficile à simuler avec précision, et leurs structures prédites comportent une incertitude plus élevée que les protéines solubles. Les modèles ont également du mal avec les grands changements conformationnels induits par la liaison du ligand, le type de dynamiques d'ajustement induit qui sont cruciales pour comprendre la sélectivité des médicaments et les effets hors cible.

L'écosystème ouvert au-delà de DeepMind

Le domaine a mûri en un riche écosystème ouvert. ESMFold de Meta, basé sur le modèle de langage ESM entraîné sur des données de séquence évolutive plutôt que sur des alignements de séquences multiples, offre une inférence considérablement plus rapide — utile pour les applications de criblage à grande échelle où la vitesse compte plus que la précision. OpenFold fournit une réimplémentation entièrement ouverte d'AlphaFold 2 que les chercheurs peuvent réentraîner et affiner sur des ensembles de données personnalisés.

ESM3 d'Evolutionary Scale, publié en 2024, adopte une approche plus ambitieuse : un modèle génératif multimodal qui raisonne conjointement sur la séquence, la structure et la fonction des protéines. Là où AlphaFold prédit la structure à partir de la séquence, ESM3 peut générer de nouvelles séquences qui se replient en structures cibles — commençant à boucler la boucle entre prédiction et conception.

L'infrastructure de base de données a suivi le rythme. La Protein Data Bank contient désormais plus de 220 000 structures déterminées expérimentalement accumulées sur cinq décennies de travail. La base de données AlphaFold, maintenue conjointement par DeepMind et l'EMBL-EBI, est passée à plus de 200 millions de structures prédites couvrant la plupart des protéines connues dans tous les domaines de la vie. Cette combinaison de vérité terrain expérimentale et de couverture computationnelle à grande échelle a transformé ce qui est possible en biologie structurale comparative.

Un goulot d'étranglement supprimé, pas la biologie résolue

Deux ans après la publication d'AlphaFold 3, l'évaluation honnête est la suivante : il a supprimé un goulot d'étranglement réel et significatif dans le pipeline de découverte de médicaments, mais il n'a pas rendu la découverte de médicaments facile. La prédiction de structure était l'une des plusieurs étapes limitant la vitesse — aux côtés de la validation de cible, du profilage ADMET, de la traduction clinique et de l'imprévisibilité fondamentale de la biologie humaine in vivo. La résoudre avec une haute précision a accéléré les premières étapes de la conception de médicaments basée sur la structure et ouvert des classes de cibles auparavant inaccessibles.

Les accords commerciaux, les alternatives ouvertes, la croissance des bases de données et la poursuite continue vers la dynamique et la conception générative indiquent tous que le domaine est en pleine transition. Mais l'écart entre une pose de liaison magnifiquement prédite et un médicament qui fonctionne chez les patients reste énorme — et rempli de biologie qu'aucun modèle ne sait encore prédire.