La Revue « Nature Methods » a proclamé la méthode de prédiction de la structure des protéines comme Méthode de l’année 2021 – Nature Methods|VOL 19|January 2022|5–10| www.nature.com/naturemethods – le champion toutes catégories de prédiction des structures étant AlphaFold2, développé par DeepMind Technologies, une entreprise spécialisée en Intelligence Artificielle (AI) basée à Londres et appartenant à Google depuis 2014.
Structure 3-dimensionnelle des protéines : pourquoi est-ce à ce point une révolution ?
Les protéines sont à la base du fonctionnement de toutes nos cellules et c’est la structure de la protéine qui fait la fonction: catalyse, structure, signalisation, fixation, reconnaissance d’une infection, etc. La conformation de la protéine va lui permettre de s’adapter à son ligand, de réagir et de faire fonctionner la cellule.
La fonction vient donc de la forme du volume et des sites réactifs en surface ou dans les cavités de la structure 3-dimensionnelle : structure tertiaire. D’où l’importance de connaitre cette structure pour comprendre l’utilité de la protéine.
Quelle est l’origine de cette structure 3-dimensionnelle ?
Cette structure se forme à partir de
– la succession d’acides aminés (AA) :
il y a 20 acides aminés différents (codés par l’ARN messager (ARNm)) qui sont hydrophiles, hydrophobes ou amphiphatiques et qui constituent la séquence dite structure primaire (de quelques dizaines à plusieurs dizaines ou centaines de milliers d’AA pour constituer une protéine) et
– des liens établis entre les différents atomes qui constituent les AA :
liens covalents ou non-covalents (liaisons hydrogènes, ponts salins, interactions électrostatiques de longue distance, liaisons van der Waals).
Les AA établissent donc des liens pour former les éléments de la structure secondaire de la protéine : hélices alpha, feuillets beta, boucles ou coudes, qui s’assemblent ensuite pour former la structure tertiaire.
Parfois plusieurs structures tertiaires s’associent pour former une structure plus complexe dite structure quaternaire. (pour visualiser le tout, un joli petit cours de 5 min www.youtube.com/watch?v=qFD04mSKNPA )
Les données disponibles aujourd’hui
Si on dispose aujourd’hui d’un très grand nombre de séquences d’acides aminés, (www.uniprot.org : recense plus de 380 000 entrées), il faut encore savoir quelles sont les interactions qui vont prévaloir pour donner, à la protéine, sa forme tridimensionnelle et sa fonction – si on sait que l’outil est constitué de fer, d’acier et de bois, cela n’indique pas si on obtient une hache, un marteau ou une fourche – sans compter que cette forme peut varier en fonction du pH, de la position dans la cellule, ou de son interaction avec d’autres molécules et d’autres protéines…
Il y a peu, seul un tiers des structures des plus de 20 000 protéines codées dans le génome humain était identifié de façon expérimentale. Un petit nombre comparé au nombre de séquences disponibles. Et, pour cause leur détermination nécessite un lourd travail expérimental faisant appel à la cristallographie au rayons-X, la spectroscopie par Résonance Magnétique Nucléaire (RMN) et la microscopie cryo-électronique. Travail d’analyse long et fastidieux et donc couteux. Les structures sont déposées par les spécialistes (en cristallographie, biologie moléculaire, biologie cellulaire, etc) du monde entier, dans la PDB: Protein Data Bank. Créée en 1971, cette banque fait partie du domaine public, aujourd’hui appelée wwPDB (worldwide Protein Data Bank) : http://www.wwpdb.org/. Elle contient aujourd’hui, environ 190 000 entrées déterminées expérimentalement pour des protéines humaines et d’autres génomes, des parties de protéines de génomes de différentes espèces, des acides nucléiques et des assemblages complexes.
La méthode Alphafold
Trouver une méthode rapide, précise et fiable permettant des avancées dans la compréhension du fonctionnement cellulaire ou de son dysfonctionnement, ou trouver des médicaments efficaces adaptés à la cible identifiée était une forme de Graal. L’intérêt suffisamment important pour cette quête a initié en 1994 un concours bisannuel : le CASP ou Critical Assessment of protein Structure Prediction , une sorte de championnat du monde de la structure 3D des protéines. Un concours en double aveugle (des expérimentateurs d’un côté et des développeurs de méthodes de l’autre) pour des protéines dont la structure n’avait pas encore été révélée. Les deux derniers CASP, 13 et 14 ont été remportés par Deepmind avec la méthode Alphafold en 2018 et sa méthode améliorée Alphafold2 en 2020.
La méthode Alphafold2 fait appel à l’Intelligence Artificielle qui travaille sur la base de données disponibles de protéines déjà connues (wwPDB) et prend en compte des préférences conformationnelles des AA, ,l’identification de sites de fixation catalytique, des sites de liaison, des homologies de séquences, des Alignements Multiples de Séquences (MSA) …
Non seulement, cette méthode fournit une structure 3D mais en plus, elle indique la cote de confiance du résultat obtenu et cette cote peut approcher les 90% alors que les résultats précédents dépassaient difficilement les 40%.
La méthode algorithmique qui fait appel au Deep Learning est constituée de trois blocs :
- un bloc d’assemblage de données, établi sur la base des données issue de la wwPDB,
- un Evoformer (evolution-transformer) basé sur un mécanisme d’attention qui fait appel aux premières données assemblées et inclut des informations sur les relations des protéines dans l’évolution et
- un troisième bloc qui conduit à la structure 3D basé lui aussi sur des mécanismes d’attention.
Pour expliquer de façon très courte ce mécanisme d’attention utilisé en AI, on peut l’envisager dans le domaine où il a fait largement ses preuves, en traduction : lors d’un dialogue nous nous focalisons instinctivement sur certains mots ou intonations qui par notre expérience nous ont appris que là se situe l’information essentielle. Le mécanisme d’attention fait appel à ce processus intégré et adapté pour interpréter de façon automatique des données et résultats. Il s’agit aussi de multiplier les liens et relations entre toutes les données.
Ainsi l’algorithme d’AlphaFold2 a été entrainé avec les données de la PDB obtenues par voie expérimentale, pour déterminer les différentes structures par voie algorithmique.
Les structures résolues sans expérimentation ont donc obtenu des cotes de confiance très élevées. Ces structures sont aujourd’hui, disponibles dans le domaine public dans la banque de données « AlphaFold Protein Structure Database » développée par Deepmind et l’EMBL-EBI (European Molecular Biology Laboratory- European Bioinformatics Institute) sur le site : https://alphafold.ebi.ac.uk/. Les structures de pratiquement toutes les protéines du génome humain ont été prédites ainsi que celles de 20 organismes modèles (pour certaines protéines, plusieurs prédictions sont proposées).
Donc, non seulement, la méthode est magistrale mais en plus elle est ouverte à tous !
Et pour le futur ?
Maintenant, il reste à savoir comment enregistrer les données des différentes banques, les unes expérimentales et les autres algorithmiques afin de les utiliser de façon appropriée.
D’autre part, connaitre la structure, ce n’est pas encore connaitre les fonctions de la protéine même si ça permet de mieux l’envisager à partir, par exemple, de sites réactifs mis en évidence. Il reste bien sûr de nombreuses questions parmi lesquelles :
- Comment se fait ce repliement ?
- Est-ce que ce repliement est stable ? Quels sont les éléments qui peuvent affecter la stabilité des protéines ? Quelles sont les modifications post-traduction qui peuvent influencer la structure ?
- Comment une mutation peut affecter le repliement ?
- Comment identifier les interactions entre protéines, protéines et DNA, protéines et ligands ?
- Comment aborder les parties désordonnées de protéines ? les structures complexes ?
- etc
Donc, de nombreuses questions en attente et d’autres à venir notamment avec la dynamique des protéines, le fonctionnement des machines moléculaires, le design des médicaments et même la fabrication de protéines de novo, avec une structure et fonctionnalité désirée, pour par exemple remplacer des protéines mal formées… l’AI n’arrête pas de faire ses preuves et apportera sans doute plus qu’un coup de pouce à ces recherches futures…
La rencontre réussie de ces deux mondes du vivant et du virtuel, de la biologie structurale et de l’intelligence artificielle souligne l’intérêt de les combiner, même si elle nécessite toujours un contrôle des résultats !
Et la biologie structurale n’est pas le seul domaine dans lequel Deepmind fait des prouesses, un autre exemple est le contrôle de la fusion nucléaire: Deepmind vient de montrer ses capacités dans le contrôle du champ magnétique confinant le plasma à l’intérieur du réacteur expérimental Tokamak à Configuration Variable (TCV) à l’EPFL de Lausanne (« Nuclear fusion is one step closer with new AI breakthrough », par Tom Metcalfe publié le 2022 03 04 on Live Science). Une avancée prometteuse dans le contrôle de la fusion nucléaire… ! A suivre… !
L’Intelligence Artificielle offre aux sciences un outil extrêmement puissant, oui mais : il s’agit dès lors de l’encadrer et de contrôler ce nouveau monde virtuel, de lui imposer des directives éthiques, pour des usages répondant à un code de bonne conduite.
I need to to thank you for this great read!! I certainly loved every bit of it. I have got you book-marked to look at new things you postÖ
I was pretty pleased to discover this great site. I need to to thank you for your time for this particularly fantastic read!! I definitely appreciated every part of it and I have you book marked to see new stuff on your blog.