Le machine learning appliqué à la santé est unique

DiploDoc
5 min readMay 7, 2021

--

Une discipline jeune et en plein essor

L’utilisation du Machine Learning appliqué à la médecine a pris son envol dans les années 90 mais peu de modèles ont trouvé leur application dans un contexte médical. Les praticiens n’en voyaient pas l’usage, les modèles étaient difficiles à entraîner avec peu de données et la généralisation d’un modèle avec de nouvelles données était rare.

Depuis fin 2010, la discipline est rentrée dans une nouvelle ère. Quelles sont les raisons de cette expansion? L’explosion du nombres de données médicales, la standardisation de ces données et les récentes avancées du Machine Learning.

Explosion du nombre de données médicales

Sous l’impulsion des politiques mises en place par l’administration Obama, l’adoption du EHR (Electronic Health Records) aux USA a été multiplié par 9 depuis 2008 (9,4% en 2018 contre 83,8% en 2015). Cette génération de données a permis la création de jeux de donnéés nécessaires à l’entraînement des algorithmes de Maching Learning.

  • MIMIC a été crée en 2016 par le MIT (open source). MIMIC est une base de données open source développée par le MIT, comprenant des données de santé “sans l’identité du patient” générées par environ 60 000 admissions en unité de soins intensifs. Elle comprend des données démographiques, des données sur les signes vitaux, des résultats de tests de laboratoire, des prescription de médicaments, etc.
  • Dans le cadre du Plan “Precision Médecine Initiative”, l’administration Obama a lancé la création d’une base de plus d’un million de volontaires pour partager leurs données sur leur santé : examens, EHR, ordonnances, résultats d’analyses.
  • Les sources de données se sont également multipliées dans les années 2010 avec l’extension du Quantified Self (les montres connectées, les applications de santé disponibles sur les téléphones portables). L’essor de disciplines comme l’étude du génome (genomics) et l’étude des protéines (proteomics) ont également contribué à l’explosion des données de santé.
extrait de “The State of Data in Healthcare: Path Towards Standardization”

La standardisation des données

En parallèle de la création de ces jeux de données indispensables aux chercheurs, un travail de standardisation de la donnée à été effectué ces dernières années aux USA. Les données standardisées sont mises à disposition des chercheurs via des API et permettent d’uniformiser le travail des chercheurs et d’avoir des données plus qualitatives.

Quelques exemples de standards dans le domaine des diagnostics et des médicaments :
-ICD-9, ICD-10, ICD-11 (classement international des maladies)
-LOINC (codes pour les examens effectués par les laboratoires)
-NDCs-National Drugs code (code pour les prescriptions de médicaments)
-UMLS-Unified Medical Language system.

Le renouveau du Machine Learning depuis la fin des années 2000.

Ce renouveau repose sur l’avénement du Big Data et le développement d’algorithmes plus performants (Back-Propagation, CNN, RNN, Q-Learning). Mais également sur la démocratisation du machine learning grâce au travail d’évangélistes sur YouTube, la mise à disposition des languages dédiés au Machine Learning (Tensorflow, Keras, PyTorch) et la possibilité d’entraîner les modèles dans le Cloud (Azure Machine Learning, Amazon’s AWS SageMaker, or Google Cloud AI Platform, Google Colab open source).

Un marché attractif pour les start-ups et les GAFA

L’intérêt pour les applications du Machine Learning dans le domaine de la santé se traduit par l’essor des investissements :

  • Digital Health Funding in 2011 : 1,2B$
  • Digital Heath Funding in 2018 : 6,9B$

Le nombre de start-up dans ce domaine a également explosé. Les géants de la tech ont investi ce champ d’activité : Google Health (qui a intégré DeepMind Health), IBM Watson Health , Apple Health, Amazon Care. Ces grandes multinationales rachètent les start-ups les plus prometteuses comme Truven Health Analytics rachetée par IBM en 2016 pour 2,6 milliards de $.

Le Machine Learning appliqué à la santé est unique

Le Machine Learning appliqué à la santé est unique de part la diversité des acteurs concernés, des sources de données, des champs d’application et des challenges à relever.

De nombreux acteurs

Tous les acteurs de la médecine : les soignants, les malades, les assurances, les laboratoires, la recherche sont susceptibles de bénéficier du Machine Learning appliqué à la médecine.

De nombreux champs d’application

  • Diagnostics précoces de maladies graves et rares.
  • Monitoring de la santé au quotidien (médecine préventive).
  • Prédiction des diagnostics et des soins.
  • Création de nouvelles molécules et de nouveaux médicaments.
  • Meilleur ciblage des essais cliniques.
  • Prédiction de l’évolution des maladies chroniques dans le temps (traitement A versus traitement B)

De nombreux challenges à relever

  • Améliorer la robustesse des algorithmes : les algorithmes développés ont un pouvoir de vie ou de mort : ils ont besoin d’être extrêmement robustes.
  • Eviter les biais démographiques et sociaux: les modèles ne doivent pas renforcer les inégalités face au système de soins (être des mouchards pour les assurances).
  • Obtenir des données de qualité : il est souvent difficile d'obtenir les données des assurances (accès aux données payants). Il est nécessaire de rendre les données anonymes pour respecter la vie privée et le secret médical. Beaucoup de données sont manquantes car les interlocuteurs qui collectent les données sont nombreux (médecins généralistes, assurance santé, assurance maladie, laboratoires, etc..). Ces acteurs travaillent encore en silos et restent assis sur leur tas de données sans les partager.
  • Généraliser les modèles avec de nouvelles données: créer des modèles adaptés à tous les pays, à tous les hôpitaux reste extrêmement difficile à cause de la diversité du matériel médical, de la données collectées et des process de travail.
  • Introduire de la causalité dans les modèles appliqués à la santé: la performance des soins et l’évolution de la maladie dépend de plusieurs facteurs.

Cet article a été rédigé à partir de ces ressources…

MIT 6.S897 Machine Learning for Healthcare, Spring 2020- Lesson 1 : What’s make healthcare unique? David Sontag

--

--

DiploDoc
DiploDoc

Written by DiploDoc

Diplodocus interested in the applications of artificial intelligence to healthcare.

No responses yet