MIMIC-III : des données cliniques à disposition des chercheurs
La base de données MIMIC-III, disponible gratuitement, regroupe environ 47 000 patients uniques avec plus de 650 000 diagnostics. Chaque patient et diagnostic est composé d’une riche liste d’attributs comprenant des informations démographiques sur le patient, des listes de médication, un historique des diagnostics et d’autres caractéristiques médicales potentiellement prédictives chez les patients.
- MIMIC-III intègre des données cliniques complètes et “désidentifiées” de patients admis au “Beth Israel Deaconess Medical Center” à Boston, Massachusetts, et les rend largement accessibles aux chercheurs du monde entier dans le cadre d’un accord d’utilisation des données.
- L’accès en open source des données permet de reproduire et d’améliorer les études cliniques d’une manière qui ne serait pas possible autrement. Les publications sur arXiv montre l’utilisation intensive de MIMIC-II et MIMIC-III par les chercheurs.
Création de modèles à partir de MIMIC-III Clinical Database
- A partir de MIMIC-III Clinical Database, les chercheurs peuvent développer un modèle de logistique régression pour évaluer l’impact des données démographiques sur la mortalité à l’hôpital.
- D’autres algorithmes peuvent être entraînés avec MIMIC-III : des arbres de décisions, des forêts d’arbres décisionnels, des SVM et des réseaux de neurones comme dans l’exemple disponible sur Kaggle.
Diversité et typologie des données cliniques
Tous les prestataires et les actes de santé sont susceptibles de générer des données utilisées pour entrainer des modèles de Machine Learning.
- Des données démographiques.
-Des données sur les signes vitaux lors des séjours en réanimation.
-Des données liées aux prescriptions des médecins.
-Des données générées par les test en laboratoire.
-Des données liées à la microbiologie.
-Toutes les données extraites de notes écrites : décharges suite aux hospitalisations, notes prises aux urgences, notes des radiologistes, des compte-rendus de laboratoires.
-Des données extraites des factures des prestataires de santé (dentistes, auxiliaires de vie, etc…).
-Des données extraites des notes des administrations : transfert, services.
-Des images radiologiques.
-Des données générés par les téléphone mobile ou montres connectées (data du quantified self) …..
Il y a deux types de données cliniques :
- Les données structurées : organisation cohérente ; un tableau avec des lignes et des colonnes (MIMIC-III)
-Les données non structurées utilisées avec des algorithmes de Deep Learning (CNN, RNN) :
-> Texte clinique : assez différent du langage écrit ordinaire (acronymes)-> Images d’IRM, de scanners, d’échographies en 3D
-> Signaux : mesures provenant d’un capteur, généralement à intervalles de temps réguliers.
Cet article a été rédigé à partir de ces ressources…