Les réseaux de neurones en graphes (GNN)
Les graphiques sont un langage pour décrire et analyser des entités avec des relations / interactions.
Les réseaux de neurones en graphes(GNN) sont une nouvelle forme de réseaux de neurones artificiels qui se basent sur des graphiques.
Un graphique se compose de plusieurs points (nodes ou vertices) reliés entre eux (par des bords ou edges) et constituent des paires.
De nombreuses données peuvent être représentées sous forme de graphiques.
Les graphiques permettent de formaliser des problèmes de recherche complexes. Cela permet de prendre en compte la compléxité des interactions entre des données hétérogènes.
Par exemple les interactions entre différents médicaments, entre différentes protéines ou encore entre les médicaments et les protéines. La prise en compte de cette complexité doit permettre aux chercheurs d’effectuer de meilleures prédictions.
GNN : Encodage puis prédictions
Les réseaux de neurones en graphes (GNN) consistent à encoder le réseau sous forme de vecteurs puis à utiliser cet encodage pour effectuer des prédictions.
1/ L’encodage repose sur le principe suivant : encoder des noeuds avec un vecteur similaire si le voisinage des noeuds dans le graphique est similaire.
2/ Les prédictions sont de quatre ordres : prédire la propriété d’un noeud, prédire le liens entre deux noeuds, prédire les propriétés d’un graphique, prédire la similarité entre deux noeuds ou deux graphiques.
Optimisation des performances des GNN
Les réseaux de neurones en graphes(GNN) sont aussi “hype” que les Transformeurs (Tranformers). Les chercheurs tentent d’optimiser l’entraînement et les performances de ces modèles. Ils divisent les graphes en sous-graphes (Sub-GNN), entraînent des réseaux dont les liens entre les noeuds mal définis (G-Meta), mesurent l’impact de légères modifications du graphe sur les prédictions et les performances des modèles (GNNGuard).
GNN et la recherche biomédicale
La recherche biomédicale vise à mieux connaître les maladies : à mieux les dépister (tests, diagnostics) et à mieux les guérir (médicaments, dispositifs médicaux). La plupart des données biomédicales peuvent être représentées sous forme de réseaux.
Pour Marinka Zitnik, Professeur d’informatique biomédicale à la Harvard Medical School, les réseaux de neurones convolutifs (CNN) et les réseaux de neurones récurrents (RNN) ont permis des avancées dans le domaine de la vision par ordinateur (computer vision), le traitement automatique du langage (NLP), la reconnaissance vocale et la robotique.
Cependant la boîte à outils moderne d’apprentissage profond est conçue pour des séquences et des grilles simples pas pour analyser les interactions complexes représentées par un graphe.
Fin décembre 2020, ce sont les GNN qui ont permis à DeepMind de résoudre avec son algorithme AlphaFold 2, l’un des problème les plus importants de la biologie, vieux de 50 ans : le repliement des protéines.
GNN pour prévenir les interactions entre médicaments
Les réseaux de neurones en graphes sont utilisés par les chercheurs pour découvrir les associations de médicaments optimales, rendre les médicaments plus efficaces, évaluer l’utilisation de médicaments sur de nouvelles pathologies.
La recherche des interactions entre les médicaments est capitale car la prise multiple de médicaments peut être plus nocive que bénéfique pour de nombreux patients.
Marinka Zitnik, Monica Agrawal et Jure Leskovec ont développé Decagon, une approche pour la modélisation des effets secondaires de la polypharmacie.
L’approche repose sur un graphe multimodal d’interactions protéine-protéine, médicament-protéine cible et des effets secondaires de la polypharmacie (représentés comme des interactions médicament-médicament).
Les noeuds (nodes) sont des médicaments ou des protéines; et les bords (edges)sont les interactions. Le GNN est entraîner pour prédire les effets secondaires sur les muscles de l’association de la Simvastatin et la Ciprofloxacin.
Decagon atteint une excellente précision dans la tâche de prédiction des effets secondaires de la polypharmacie. Par exemple sur les dix effets secondaires listés ci-dessous prédits par Decagon; 5 ont été vérifiés par de la littérature médicale.
Les chercheurs ont utilisé le paquet t-SNE (Maaten et Hinton, 2008) pour cartographier les effets secondaires prédits par Decagon. Les trois principaux effets secondaires qui apparaissent souvent en même temps que celui du polype utérin sont : les saignements utérins, la dysplasie mammaire et les saignements post-ménopausiques. Decagon est capable de déduire par lui-même des clusters d’effets secondaires (de diféfrentes couleurs sur ce graphe).
GNN pour découvrir de nouveaux antibiotiques
Une équipe de chercheurs du MIT a développé un modèle capable de prédire les propriétés moléculaires directement à partir de la structure graphique de la molécule; où les atomes sont représentés comme des nœuds et les liaisons entre atomes comme des arêtes.
Ces chercheurs ont effectué des prédictions sur plusieurs bibliothèques chimiques et découvert une molécule — l’halicine — qui diverge structurellement des antibiotiques conventionnels et présente une activité contre un large spectre de pathogènes.
Annexe
Pour en savoir plus sur les Graph Neural Networks dans le domaine de la création de nouveaux médicaments
Neural-relational Learning and some Biomedical Applications
Cette vidéos donne un aperçu de la recherche sur l’apprentissage automatique basé sur les graphiques menée à NEC Labs Europe. Les applications biomédicales sont, entre autres, le développement de vaccins contre le cancer, la prédiction des effets secondaires des médicaments.
Pour en apprendre plus sur les GNN