L’Apprentissage par renforcement pour lutter contre la résistance aux antibiotiques

Résistance antibiotique, un enjeu de santé majeur

En France, on estime que la résistance antibiotique cause 12 500 décès par an, selon un rapport remis en 2015 au ministère de la Santé. La majorité des décès touchent les jeunes enfants de moins de 12 mois et les plus de 65 ans.

Evaluation d’un traitement antibiotique

David Sontag et son équipe de chercheurs ont développé un algorithme de RL pour valider un traitement d’infection urinaire par prescription d’antibiotiques. L’algorithme développé doit guider le choix du médecin : prescrire le bon antibiotique et éviter le phénomène de résistance.

Le jeu de données utilisé

Le jeu de données utilisé pour mettre au point l’algorithme est le AMR-UTI Dataset. Il s’agit d’une cohorte composée de 15 806 spécimens micro-biologiques collectés auprès de 13 682 femmes souffrant d’infections urinaires entre 2007 et 2016. Le jeu de données d’entrainement (train set) est composé des données de 2007 à 2013 et le jeu de données de test (test set) est composé des données de 2014 à 2016.

Le modèle RL mis en place

L’algorithme permet d’apprendre directement une politique π (Pi) à partir des données du patient X en entrée et une décision de traitement en sortie A (action space).

La fonction de récompense (Reward)

Pour entrainer leur algorithme d’apprentissage par renforcement, les chercheurs ont choisit :

  • Une politique à apprendre (π),
  • Une action (l’antibiotique administré),
  • Une récompense(r) calculée en fonction de la résistance du patient à l’antibiotique et la classe de l’antibiotique administré (spectre étroit-première intention/spectre large-deuxième intention).
  • Les vecteurs d’efficacité des traitements Y correspondent à la sensibilité d’un patient à chaque antibiotique Yi (a) = 1 [le patient i est sensible à l’antibiotique a]. Le vecteur de coût C des traitements est fonction de la classe de l’antibiotique choisi Ci (a) = 1 [a est un antibiotique de 2ème ligne], et la récompense composite du traitement (r) est une combinaison linéaire de l’efficacité et des coûts de chaque antibiotique en utilisant la préférence ω ∈ [0, 1], donnée par ri =ω-Yi+(1-ω)-(1-Ci).

La fonction de coût

La fonction de coût choisie par l’équipe de David Sontag pour apprendre la politique π s’inspire des travaux “cost sensitive classification”. Elle permet de transformer une fonction de coût complexe en une fonction plus simple à optimiser.

optimisation de la fonction fa en minimisant la quantité ci-dessus

Les résultats obtenus

L’objectif poursuivi par les chercheurs est de définir une politique (goal sur le graphique) qui diminue à la fois l’utilisation des antibiotiques à spectre large (deuxième intention) et qui diminue l’inefficacité du traitement par antibiotiques.

Direct Policy Learning varie en fonction de w
Les décisions des médecins comparés aux décisions de l’algorithme RL

Cet article a été rédigé à partir de ces ressources

Diplodocus interested in the applications of artificial intelligence to healthcare. Twitter : @https://cutt.ly/9bVCBSa

Diplodocus interested in the applications of artificial intelligence to healthcare. Twitter : @https://cutt.ly/9bVCBSa