Prendre en compte la causalité pour élargir le champ d’action de l’IA
Pour David Sontag, chercheur au MIT, L’intelligence artificielle est de plus en plus utilisée dans le domaine de la médecine mais pour des applications de diagnostics qui ne nécessitent que d’effectuer des prédictions: détection des cancers du poumon, des cancers de la peau, du diabète.
Cependant si l’Intelligence Artificielle veut être utilisée de façon décisive dans le domaine de la santé, il faut prendre en compte la causalité pour pouvoir déterminer l’impact d’un traitement sur la pathologie d’un patient et l’évolution de la maladie. La causalité permettra également de déterminer quel traitement est le plus efficace.
“Causal inference is a part of AI and machine learning. And not surprisingly, some of the best research in causal inference & ML is being done by researchers in medical AI such as @suchisaria.” — Thomas G. Dietterich (@tdietterich) May 4, 2019
Inference causale pour déterminer les effets d’un traitement
Dans le cadre d’un essai clinique d’un médicament. Il est possible de formuler la question de l’efficacité du traitement comme un problème d’inférence causale en ayant recours à un diagramme de causalité.
- La variable X représente le contexte dans ce cas précis l’historique médical du patient.
- La variable T est le traitement : T = 0, le patient fait partie du groupe contrôle; T= 1, le patient est traité avec le médicament.
- La variable Y est le résultat du traitement : Y(0) résultat observé pour un patient du groupe contrôle; et Y(1) résultat observé pour un patient traité.
Les effets d’un traitement sont évalués par deux calculs : Average Treatement Effect (ATE) et Conditional ATE (CATE).
- l’ATE permet de déterminer en moyenne quel traitement est le plus efficace.
- Le CATE permet de déterminer pour un patient avec un dossier médical spécifique quel est le meilleur traitement.
- Quand E [Y1|x, T = 1]-E [Y0|x, T = 0] ] ≠E [Y1]-E [Y0] il existe un facteur de confusion et aucune conclusion valable ne peut être apportée sur l’efficacité d’un traitement par rapport à un autre.
- Dans le cas étudié ci-dessous : -075 ≠0.75. Il est impossible de déterminer lequel du traitement A ou du traiement B est le plus efficace pour contrôler la glycémie.
Pour éviter le paradoxe de Simpson, il y a trois solutions: randomisation de l’essai, ajustement et pondération. Les chercheurs utilisent des algorithmes de machine learning pour estimer l’effet du traitement (ATE et CATE). Ces algorithmes permettent de mettre en oeuvre ajustement et pondération (covariate adjustment and propensity score re-weighting).
Machine Learning pour estimer l’effet du traitement
Pour calculer le CATE et ATE, les chercheurs entrainent au préalable des algorithmes qui prennent en inputs X (historique du patient) et T (traitement) et qui produisent en output Y (résultats observés).
Les modèles linéaires classiques de type régression linéaire ne fonctionnent pas correctement. Ils obtiennent de bonnes performances (good accuracy) sur les individus dont les résultats sont observés mais de mauvaises performances sur les “conterfactuals”(résultats non observés).
Sur le schema “effect of model misspecification”, le modèle de regression linéaire (ligne orange) est parfait pour les résulats observés (points oranges) mais la généralisation sur une nouvelle distribution de personnes non traités (points bleus) est inexistante.
Covariate Adjustment
Les modèles d’inférence causale sont différents des algorithmes de Machine Learning classiques car ils doivent être performants sur deux distributions différentes: distribution des “treated (ronds pleins rouges) et distribution des counterfactual treated (ronds pointillés rouges)”.
Y1(x) sur le schéma “Covariate adjustment” remplit cette exigence. Le même raisonnement s’applique pour Y0(x) qui s’ajuste à la fois à la distribution “ control” (ronds pleins bleus) et celle “counterfactual control” (ronds pointillés bleus).
Ces dernières années, les chercheurs ont déployé des algorithmes de Machine Learning non linéaires qui répondent à cette nécessité d’ajustement: random forests and bayesian trees, gaussian processes. Désormais, à l’instar de David Sontag et ses équipes, ils cherchent à entrainer des modèles basés sur des réseaux de neurones. Le modèle présenté dans le papier de recherche “Estimating individual treatment effect : generalization bounds and algorithms”, repose sur un DNN (Deep neural network).
L’architecture de leur modèle est composée de deux parties :
- La fonction Φ prend en input uniquement X pour générer une représentation partagée pour T =0 et T= 1.
- Puis ils utilisent deux branches de layers différentes (layers en bleus et layers en orange) pour effectuer les prédictions Y0 et Y1.
Propensity score re-weighting
Propensity score re-weighting est un autre outil pour estimer l’ATE. L’idée est de transformer une étude observationnelle en un essai pseudo-randomisé en changeant la pondération des échantillons.
Dans le cas ci-dessous, la pondération des points “control group” (unobserved) est augmentée tandis que la pondération des points “treatment group” est diminuée.
L’utilisation du Propensity score re-weighting ouvre également le champ des possibles dans l’optimisation d’algorithmes comme le RCFR “re-weighted counterfactual regression” développé par David Sontag et son équipe de chercheurs.
Une “weighting” fonction W(x) est ajoutée au modèle TARNet initial et la fonction de coût à minimiser est modifiée : re-weighted regression + regularizing based on imbalances.
TARNet et les modèles utilisant les “counterfactual regression”modèles sont les plus performants pour évaluer ATE et CATE.
Cette article a été écrit à partir des vidéos suivantes…
MIA: David Sontag, Fredrik Johansson, AI for health needs causality
MIT 6.S897 Machine Learning for Healthcare, Spring 2019-Causal Inference Part 1
MIT 6.S897 Machine Learning for Healthcare, Spring 2019-Causal Inference Part 2
D’autres vidéos au sujet de la causalité et du Machine learning
Causality and Increasing Model Reliability — SUCHI SARIA
Towards Discovering Casual Representations — Yoshua Bengio