L’AI capable d’identifier la structure des protéines pour créer de nouveaux médicaments

DiploDoc
7 min readMay 18, 2021

--

Le Deep Learning booste la recherche en biologie

Les chercheurs en biologie ont de plus en plus recours à des modèles de Deep Learning pour développer leurs connaissances dans les domaines en plein essor de la biologie: Genomics et Proteomics.

  • La génomique est une discipline de la biologie moderne. Elle étudie le fonctionnement d’un organisme, d’un organe, d’un cancer, etc… à l’échelle du génome, au lieu de se limiter à l’échelle d’un seul gène. Le génome est l’ensemble du matériel génétique d’un organisme. Son étude permet d’améliorer les diagnostics; d’identifier des prédispositions génétiques d’une personne par rapport à une maladie; de mettre au point des traitements selon l’information génétique de chaque individu et, par conséquent, de permettre l’avancement de la médecine personnalisée.
  • La protéomique désigne la science qui étudie les protéomes, c’est-à-dire l’ensemble des protéines d’une cellule, d’un organite, d’un tissu, d’un organe ou d’un organisme. La protoénomique pourait permettre de percer le mystère des virus géants et découvrir de nouveaux médicaments.

Preuve de l’importante croissante du Deep Learning dans le domaine de la biologie. Le MIT propose un cours “Computational system Biology” : Deep learning in the life science”, animé par Manolis Kellis, qui montre comment les algorithms de Deep Learning peuvent être utilisés avec efficacité dans le domaine des sciences de la vie et les compare avec des méthodes de recherche traditionnelles.

Machine Learning et Génomique

DeepVariant pour prédire des variants

De nombreux modèles ont été développés, dans le domaine de la génomique, ces dernières années. Ils reposent sur des architecures CNN (Convolutional neural network), RNN (Recurrent neural network), LSTM(Long Short Term Memory), les GANs (Generative Adversarial Networks) et les Autoencoders (AE): DeepTarget, DeepMirGene, DeepChrome, DeepVariant.

DeepVariant , mis au point par les chercheurs de Google en 2017, est un exemple de l’utilisation du Deep Learning dans le domaine de la génomique. Ce modèle permet grâce une architecture CNN de séquencer le génome et d’identifier les variations par rapport au génome de référence d’un individu, par exemple les mutations ou les polymorphismes.

Le terme « mutation » désigne n’importe quel changement intervenu dans la séquence de l’ADN, sans préjuger de sa pathogénicité à l’échelle du gène ou du chromosome. On parle aussi de « variants ».

La conséquence de toute mutation dépend de son effet fonctionnel, qui peut être neutre, conduire à l’amélioration d’une fonction (diversité, évolution) ou à l’altération d’une fonction (effet pathogène).

Au lieu d’utiliser directement les nucléotides des fragments d’ADN séquencés (sous la forme des symboles A, C, G, T), Les chercheurs de Google ont converti les séquences en images et ont ensuite appliqué des réseaux neuronaux convolutifs à ces images.

  • Inputs du modèle : 3 allèles alternatifs ‘A’, ‘ATATTT’, ‘ATATTTT’ avec l’allèle de référence ‘AT’.
  • Outputs du modèle : DeepVariant génère des exemples de toutes les combinaisons possibles de deux allèles différents, à savoir les 6 combinaisons.
  • Analyse : il n’est pas difficile de déduire d’après les prédictions du modèle que les allèles les plus probables à cet endroit sont l’allèle de référence ‘AT’ et les allèles “ATATTT”.

En septembre 2020, Google a dévoilé DeepVariant 1.0 qui améliore les performances de DeepVariant. DeepVariant peut être entraîné directement via Google Cloud.

Dans une étude transversale publiée dans le JAMA et portant sur 2 367 patients atteints de cancer de la prostate et de mélanome aux États-Unis et en Europe, DeepVariant 1.0 a trouvé des variantes pathogènes chez 14 % de personnes en plus; comparé aux méthodes de pointe antérieures.

Machine Learning et Protéomique

BERTology pour découvrir la structure des protéines

En juin 2020, les chercheurs de Salesforce Research, ont publié un papier “BERTology Meets Biology: Interpreting Attention in Protein Language Models qui montre l’utilisation du modèle de Natutal Language Processing BERT dans l’analyse de la structure des protéines. BERTology permet d’étudier les trois niveaux de structure des protéines :

  • La structure primaire : la séquence d’acides aminés.
  • La structure secondaire : les formes spécifiques des protéines (hélice alpha, feuillet béta).
  • La structure tertiaire : repliement spatiale (structure 3D, contact entre amino-acides, sites actifs). C’est cette structure tridimensionnelle native unique qui confère aux protéines leur propriétés biologiques. Ce sont ces propriétés qui permettent de créer de nouveaux médicaments.

L’idée est d’avoir en input du modèle une séquence d’acides aminés et de prédire les éléments manquants de cette séquence comme le fait BERT avec les mots d’une phrase. Le modèle permet également de déterminer si les acides aminés sont en contact étroit et où se situe les sites actifs (binding site).

Alphafold2, une révolution dans le domaine de la biologie

Fin décembre 2020, DeepMind, a annoncé avoir résolu avec son algorithme AlphaFold 2, l’un des problème les plus importants de la biologie, vieux de 50 ans : le repliement des protéines.

Il existe un grand nombre, mais qui semble fini, de repliements des protéines observés dans la nature. On en comptabilise environ 1400 (selon les modes de classification et les bases de données).

La structure des anti-corps est en Y pour s’accrocher aux agents pathogènes et déclencher une réponse immunitaire. La maladie d’Alzheimer ou de Parkinson seraient liées au fait que les protéines n’adoptent pas la bonne configuration.

De nombreuses protéines fonctionnent comme des récepteurs: la protéine s’active quand une forme de protéine complémentaire vient s’associer à elle. C’est ce mécanisme qui est pris en compte dans la conception de nombreux médicaments comme le montre cette vidéo.

Les expériences CASP (Critical Assessment of protein Structure Prediction) visent à établir l’état actuel des connaissances en matière de prédiction de la structure des protéines. Un comité choisit des protéines dont on connait la séquence d’acides aminés.

D’un côté des expérimentateurs travaillent à la structure des protéines via des rayons X. De l’autre les chercheurs effectuent des prédictions de structure via des algorithmes. Pour évaluer les résultats de la compétitions, les résulats expérimentaux (en vert) et les prédiction des algorithmes (en bleu) sont comparés. Les performances des compétiteurs sont évaluées en GDT (Global Distance Test).

Compétition CASP : comparaison de la structure des protéines

En 2018 et 2020, les algorithmes de DeepMind ont obtenu des résultats significatifs. Sur l’ensemble de la compétition, toute catégorie confondue, le score GTD médian d’AlphaFold2 est de 92,4 (pour les spécialistes le problème du repliement des protéines est résolu avec un GDT >90). En moyenne leur erreur de distance sur le placement des acides aminés est de 1,6 angström à peine plus que la taille d’un atome.

2018-AlfaFold / 2020-AlfaFold2

Deepmind a divisé le problème en deux étapes : étape 1, la création d’une matrice de distance à partir d’une séquence d’acides-aminés et étape 2 la reconstitution de la structure de la protéine à partir de la matrice de distance obtenue (via le système de descente de gradients).

Dans AlphaFold (2018) l’étape 1 était assuré par un CNN (réseau de neurones convolutifs de 220 blocs de convolution), dans la version Alphafold2 plus performante, l’étape 1 setait assuré par des Attention-based neural networks (réseaux avec des mécanismes d’attention).

Vainqueur de la compétition CASP 2020-AlphaFold 2

Attention is all you need

BERTology et AlphaFold2 reposent sur des réseaux de neurones avec des mécanismes d’attention (Transformers) qui sont utilisés par des modèles NLP comme GPT-3 et BERT pour mémoriser par exemple la corrélation entre un pronom et un nom dans une phrase à traduire.

Alphafold2 : de la compétition à la lutte contre la COVID-19

En 2020, les équipes de DeepMind ont utilisé AlfaFold pour générer la structure des protéines associées au SARS-CoV-2, le virus à l’origine de la COVID-19.

L’analyse des variants et de la structure des protéines sont essentiels dans la compréhension de l’évolution du virus SARS-CoV-2 (mutations) et pour l’élaboration des vaccins comme le montre Etienne Decroly, directeur au CNRS dans la vidéo suivante.

Pour en savoir plus du DeepVariant

Pour en savoir plus sur BERTology

Pour en savoir plus sur AlphaFold 2

--

--

DiploDoc
DiploDoc

Written by DiploDoc

Diplodocus interested in the applications of artificial intelligence to healthcare.

No responses yet