La stratification des risques
La stratification des risques permet aux prestataires de santé d’identifier le bon niveau de soins et de services destinés à des sous-groupes distincts de patients.
Il s’agit d’attribuer un statut de risque d’avoir une pathologie pour les patients, puis d’utiliser ces informations pour orienter les soins et optimiser les coûts de dépenses de santé. La stratification des risques permet d’évaluer ce type de risques :
- Les risques de morbidité pour les nourrissons prématurés.
- L’admission des patients dans une unité de soins coronariens.
- La probabilité de réadmission à l’hôpital.
Traditionnellement la stratification des risques était estimée via des grilles de scores.
Ces grilles de scores trop peu utilisées par les soignants ont été remplacées par des algorithmes de Machine Learning de type régression logistique avec de nombreuses variables en entrée.
Ces modèles sont moins difficiles à développer et à faire adopter par le personnel médical. Ils sont également plus précis car au lieu de reposer sur quelques questions, ils sont entraînés avec des milliers de variables.
Diabète de type 2
En 2019, 1 personne sur 11 souffrait du diabète dans le monde soit 463 millions. 3,3 millions de français avaient du diabète.
90% des diabétiques français sont de type 2. Le diabète de type 2 est une maladie caractérisée par une hyperglycémie chronique, c’est-à-dire par un taux trop élevé de glucose (sucre) dans le sang.
L’incidence du DT2 augmente avec l’âge. La maladie se manifeste généralement après 40 ans et elle est diagnostiquée à un âge moyen proche de 65 ans. L’incidence est maximale entre 75 et 79 ans avec 20% des hommes et 14% des femmes traités pour cette maladie.
Le diabète de type 2 touche de plus en plus de jeunes, y compris des adolescents, voire des enfants. Les déséquilibres nutritionnels et la sédentarité participent de plus en plus à la “propagation” du DT2.
Le Machine Learning pour prédire les risques de DT2
David Sontag, chercheur et professeur au MIT, explique dans son cours magistral comment le Machine Learning a remplacé les grilles de scores dans l’analyse des facteurs de risques du diabète de type 2.
À partir des demandes de remboursement, des dossiers pharmaceutiques, de l’utilisation des soins de santé et des résultats de laboratoire de 4,1 millions d’individus entre 2005 et 2009, 42 000 variables ont été sélectionnées, qui décrivent l’état de santé complet et les antécédents de chaque individu.
L’apprentissage automatique a ensuite été utilisé pour sélectionner les variables prédictives et ajuster les modèles prédisant l’apparition du diabète de type 2 entre 2009–2011, 2010–2012 et 2011–2013.
Le modèle utilisé est une régression logistique avec une régularisation L1. La régularisation L1 effectue une sélection en attribuant aux variables d’entrée du modèle insignifiantes un poids nul et aux variables utiles : un poids non nul.
Après l’entrainement du modèle 769 variables ont été sélectionnées comme étant prédictives. Le modèle montre que l’apnée du sommeil, l’essoufflement, le reflux oesophagien sont des facteurs à risque d’un diabète de Type 2.
Le machine learning permet de générer des hypothèses de facteurs de risques d’une maladie. Il permet d’évaluer les risques au sein d’une population et de mettre en place des politiques de prévention appropriées.
Données de santé non stationnaires
David Sontag met aussi l’accent sur le côté non stationnaires des données de santé. Les données changent avec le temps. Les systèmes de collecte de données tombent en panne, les modes d’enregistrement des données peuvent être modifiés, les codifications des variables d’entrée du modèle peuvent changer. Il est nécessaire d’évaluer continuellement les performances d’un modèle à l’aune des nouvelles données récoltées.
Cet article a été rédigé à partir de ces ressources…
MIT 6.S897 Machine Learning for Healthcare, Spring 2020- Lesson 4 & 5 Risk stratification