L’apprentissage par renforcement (Reinforcement Learning) appliqué à la médecine

L’essor de l’apprentissage par renforcement (Reinforcement Learning)

L’apprentissage par renforcement (RL pour Reinforcement Learning) fait référence à une classe de problèmes d’apprentissage automatique, dont le but est d’apprendre, à partir d’expériences successives.

A chaque pas de temps, dans un environnement observé, l’algorithme fait certaines actions qui vont modifier son état. Cela lui apportera une récompense locale. La fonction de valeur correspond au cumul des récompenses. C’est ce cumul que l’algorithme doit maximiser.

L’apprentissage par renforcement (RL) est un domaine de l’apprentissage automatique qui a suscité beaucoup d’attention depuis 2015, suite aux publications de DeepMind (Google) sur une AI qui joue à Atari, une AI qui apprend à marcher, une AI qui gagne au jeu de GO (AlphaGo) et aux échecs (AlphaZero).

Producing flexible behaviours in simulated environments

Playing Atari with Deep Reinforcement Learning

AlphaGo: The story so far

Assessing Game Balance with AlphaZero: Exploring Alternative Rule Sets in Chess

La création de Gym par OpenAI (organisation à but non lucratif lancée par Elon Musk fondée en 2015), une librairie conçue en Python, d’environnements conçus pour tester et développer des algorithmes d’apprentissage par renforcement, a contribué à l’essor de la recherche dans cette branche du Deep Learning. Cet outil a permis d’augmenter la reproductibilité des algorithmes et d’apprendre à des futurs chercheurs les bases du RL.

Des obstacles à lever pour appliquer le RL à la santé

Malgré l’engouement pour l’apprentissage par renforcement ces cinq dernières années, l’utilisation de l’apprentissage par renforcement reste limité et doit faire face aux obstacles suivants.

  • Contrairement à de nombreux jeux vidéo, les chercheurs ne sont pas capables d’observer tout ce qui se passe dans le corps (environnement).
  • Les données de santé sont non-stationnaires. Les symptômes des patients sont souvent enregistrés à des intervalles irréguliers et les signes vitaux de certains patients sont enregistrés plus souvent que d’autres (état).
  • Les algorithmes de RL sont gourmants en données. Les chercheurs ne peuvent pas simuler le traitement d’un patient comme ils simulent pour Alphazero une partie d’échec (pas éthique). Les données de santé restent rares et difficiles à obtenir.
  • La fonction de récompense est difficile à déterminer. Des améliorations périodiques de la pression artérielle peuvent ne pas entraîner d’amélioration final de l’état du patient dans le cas d’une septicémie. Il est nécessaire dans l’interprétation des effets d’un traitement de prendre en compte la causalité.

Les applications du RL à la médecine

Les algorithmes de RL sont utilisés pour optimiser le traitement de maladies “chroniques”: optimiser le dosage des médicaments de chimiothérapie (cancer), optimiser la thérapie antirétrovirale(VIH), adapter les médicaments antiépileptiques pour le contrôle des convulsions (épilepsie). Ils sont également utilisés pour améliorer les soins intensifs : optimisation des stratégies de traitement de la septicémie.

Le papier de recherche “Reinforcement Learning in Healthcare : A Survey” dresse la liste des cas d’usage du RL dans le domaine du traitement des cancers et des soins intensifs.

L’essor de la chirurgie robotique

Un autre champ d’application des algorithmes de RL est la chirurgie robotique. Les robots chirurgicaux comme le système chirurgical Da Vinci⃝R d’Intuitive Surgical, ont permis de réaliser des opérations chirurgicales plus efficaces en améliorant la dextérité et en réduisant la fatigue du chirurgien.

En 2019, des chercheurs de l’IEEE (Institute of Electrical and Electronics Engineers) ont mis à disposition les premiers environnements d’apprentissage par renforcement pour les robots chirurgicaux, appelés dVRL sur le modèle des environnements Gym d’OpenAI.

Ces environnements permettent de faciliter le prototypage et la mise en œuvre d’algorithmes d’apprentissage par renforcement dans le domaine de la robotique chirurgicale.

En savoir plus sur les sujets abordés dans cet article

Series about reinforcement learning (RL) by Deeplizard

David Silver: AlphaGo, AlphaZero, and Deep Reinforcement Learning | Lex Fridman Podcast #86

En savoir plus sur la chirurgie robotique (Playlist YouTube)

Diplodocus interested in the applications of artificial intelligence to healthcare. Twitter : @https://cutt.ly/9bVCBSa

Diplodocus interested in the applications of artificial intelligence to healthcare. Twitter : @https://cutt.ly/9bVCBSa