L’Apprentissage par renforcement pour lutter contre la résistance aux antibiotiques

Résistance antibiotique, un enjeu de santé majeur

En France, on estime que la résistance antibiotique cause 12 500 décès par an, selon un rapport remis en 2015 au ministère de la Santé. La majorité des décès touchent les jeunes enfants de moins de 12 mois et les plus de 65 ans.

A travers le monde : 700 000 personnes meurent chaque année à cause de maladies résistantes aux médicaments, dont 230 000 à cause de la tuberculose multirésistante.

Selon le rapport d’un groupe d’experts internationaux, la résistance aux antibiotiques devrait causer « 10 millions de morts par an » dans le monde en 2050, soit plus que le cancer. Les morts surviendraient principalement en Asie (4,7 M) et Afrique (4,1 M). En Europe, l’étude prévoit une moyenne annuelle de 390.000 morts. Elle serait de 317.000 aux Etats-Unis.

Evaluation d’un traitement antibiotique

David Sontag et son équipe de chercheurs ont développé un algorithme de RL pour valider un traitement d’infection urinaire par prescription d’antibiotiques. L’algorithme développé doit guider le choix du médecin : prescrire le bon antibiotique et éviter le phénomène de résistance.

Le jeu de données utilisé

Le jeu de données utilisé pour mettre au point l’algorithme est le AMR-UTI Dataset. Il s’agit d’une cohorte composée de 15 806 spécimens micro-biologiques collectés auprès de 13 682 femmes souffrant d’infections urinaires entre 2007 et 2016. Le jeu de données d’entrainement (train set) est composé des données de 2007 à 2013 et le jeu de données de test (test set) est composé des données de 2014 à 2016.

Le modèle RL mis en place

L’algorithme permet d’apprendre directement une politique π (Pi) à partir des données du patient X en entrée et une décision de traitement en sortie A (action space).

Cette décision de traitement consiste à donner un des quatre antibiotiques : nitrofurantoïne (NIT), triméthoprime-sulfaméthoxazole (SXT), ciprofloxacine (CIP) et lévofloxacine (LVX).

NIT et SXT sont des antibiotiques de première intention (à spectre étroit), tandis que CIP et LVX sont des antibiotiques de deuxième intention (à large spectre).

Les antibiotiques à spectre étroit (première intention) ne tuent qu’un nombre limité de bactéries. Ils peuvent cibler et tuer les bactéries à l’origine de la maladie tout en laissant en vie les autres bactéries, lesquelles peuvent être bénéfiques. Ce type d’antibiotique est habituellement prescrit lorsque le médecin sait exactement quelle bactérie est à l’origine de l’infection.

Les antibiotiques à spectre large (deuxième intention) sont efficaces contre de nombreuses bactéries différentes, y compris certaines bactéries qui sont résistantes à des antibiotiques à spectre plus étroit. Ce type d’antibiotique est prescrit lorsque le médecin ne sait pas exactement quelle bactérie est à l’origine de l’infection ou lorsque la maladie est causée par plusieurs bactéries différentes.

L’utilisation d’antibiotiques à spectre étroit limite l’apparition de souches bactériennes multi-résistantes.

La fonction de récompense (Reward)

Pour entrainer leur algorithme d’apprentissage par renforcement, les chercheurs ont choisit :

  • Un agent patient (X),
  • Une politique à apprendre (π),
  • Une action (l’antibiotique administré),
  • Une récompense(r) calculée en fonction de la résistance du patient à l’antibiotique et la classe de l’antibiotique administré (spectre étroit-première intention/spectre large-deuxième intention).
  • Les vecteurs d’efficacité des traitements Y correspondent à la sensibilité d’un patient à chaque antibiotique Yi (a) = 1 [le patient i est sensible à l’antibiotique a]. Le vecteur de coût C des traitements est fonction de la classe de l’antibiotique choisi Ci (a) = 1 [a est un antibiotique de 2ème ligne], et la récompense composite du traitement (r) est une combinaison linéaire de l’efficacité et des coûts de chaque antibiotique en utilisant la préférence ω ∈ [0, 1], donnée par ri =ω-Yi+(1-ω)-(1-Ci).

La fonction de coût

La fonction de coût choisie par l’équipe de David Sontag pour apprendre la politique π s’inspire des travaux “cost sensitive classification”. Elle permet de transformer une fonction de coût complexe en une fonction plus simple à optimiser.

optimisation de la fonction fa en minimisant la quantité ci-dessus

Les résultats obtenus

L’objectif poursuivi par les chercheurs est de définir une politique (goal sur le graphique) qui diminue à la fois l’utilisation des antibiotiques à spectre large (deuxième intention) et qui diminue l’inefficacité du traitement par antibiotiques.

Le modèle entrainé (rond bleu) obtient de meilleures performances que les médecins (croix rouges) et que les recommandations (losanges).

Direct Policy Learning varie en fonction de w

Pour 1245 cas pour lesquels les cliniciens optent pour des antibiotiques de deuxième intension, l’algorithme choisit 1014 fois de conseiller des antibiotiques de première intension sans compromettre l’issue favorable du traitement.

Pour la recommandation d’antibiotiques dans le cas d’infections urinaires non compliquées, l’algorithme développé par David Sontag et son équipe a permis de réduire de 50 % l’utilisation d’antibiotiques en seconde intention et de diminuer de 20 % les traitements inappropriés.

Les décisions des médecins comparés aux décisions de l’algorithme RL

Cet article a été rédigé à partir de ces ressources

Diplodocus interested in the applications of artificial intelligence to healthcare. Twitter : @https://cutt.ly/9bVCBSa

Diplodocus interested in the applications of artificial intelligence to healthcare. Twitter : @https://cutt.ly/9bVCBSa