Biais Algorithmique-Comment un algorithme raciste a empêché des patients noirs de bénéficier d’une greffe de rein ?

Les dangers du biais algorithmique

Un biais algorithmique est le fait que le résultat d’un algorithme ne soit pas neutre, loyal ou équitable. (Wikipedia)

Des systèmes d’IA utilisés aux États-Unis par la justice ou la police pour prédire le risque de récidive ou de survenance de crimes, se sont révélés racistes envers les populations noires et latino-américaines.

En 2015, Amazon a essayé un processus de recrutement via un algorithme entraîné sur des centaines de milliers de CV reçus par l’entreprise depuis 10 ans. L’algorithme sélectionnait majoritairement des hommes car les cadres recrutés dans le passé étaient en très grande majorité des hommes. L’algorithme a donc “appris” à ne laisser aucune chance aux femmes.

Une étude récemment publiée dans le Journal of General Internal Medicine a révélé, qu’un algorithme de diagnostic pour l’estimation de la fonction rénale qui tient compte de la race; attribue aux Noirs des scores plus sains, sous-estimant ainsi la gravité de leur maladie rénale.

Si l’algorithme était corrigé, un tiers des 2 225 patients noirs étudiés seraient classés comme souffrant d’une maladie rénale chronique plus grave et 64 d’entre eux pourraient bénéficier d’une transplantation rénale que l’algorithme leur aurait refusée.

De tels résultats discriminants s’expliquent en grande partie par des données biaisées, utilisées pour entraîner les algorithmes qui deviennent, à leur tour, biaisés.

Dans un article de recherche paru en août 2020 “ Hidden in Plain Sight — Reconsidering the Use of Race Correction in Clinical Algorithms”, des chercheurs montrent que dans tous les domaines de la médecine (de l’oncologie à la cardiologie en passant par l’urologie), les patients blancs seraient favorisés au détriment des minorités raciales et ethniques dans l’allocation des ressources et des soins par des algorithmes biaisés.

https://www.nejm.org/doi/full/10.1056/NEJMms2004740

Détecter les biais algorithmiques

Pour Yannic Kilcher, les biais algorithmiques sont causés par l’échantillonage déséquilibré des données. Dans ce cas pour corriger le ou les biais, il suffit de corriger l’échantillonnage des données.

Les biais peuvent être également créés par une réalité qui n’est pas ce que nous voulons (discriminante) mais qui est reflétée par les données. Dans ce cas corriger le ou les biais perpétué par les algorithmes revient à travestir la réalité.

PAIR (People + AI) Research est une équipe multidisciplinaire de Google qui explore l’impact sociologique de l’IA. Ils ont créé des animations interactives simples pour expliquer la génération des biais algorithmiques “AI Explorables”

Une des animations proposée par PAIR Research permet de mesurer l’équité d’un algorithme en fonction des données à partir desquelles il est entraîné. Il s’agit d’un algorithme utilisé pour prédire si les gens sont malades. Deux configurations peuvent être rencontrées par les chercheurs pour évaluer les performances du modèle.

Le choix peut être fait de ne jamais râter la maladie. Le risque est d’avoir un algorithme qui effectue trop de prédictions de personnes malades alors qu’elles sont en bonne santé (faux positif).

Inversement les chercheurs peuvent vouloir développer un algorithme qui ne prévoit presque jamais de personnes malades alors qu’ils sont en bonne santé mais le risque est de passer à côté des patients vraiment malades et de prédire qu’ils sont en bonne santé (faux négatif).

L’agressivité du modèle est au choix des chercheurs et des praticiens en fonction de la façon dont ils veulent se servir de leur algorithmes. L’injustice apparaît quand les groupes de patients en bonne santé et de patients en mauvaise santé ne sont pas égaux en nombre (mauvais échantillonnage) en fonction de l’age.

Pour une même “agressivité”, le modèle va diagnostiquer plus d’adultes malades alors qu’ils ne le sont pas car dans l’échantillonage données il y a plus d’adultes en bonne santé que d’adultes malades. Ce qui n’est pas le cas dans l’échantillonnage de données des enfants.

Dans ce cas de figure, les chercheurs n’ont pas de levier qui corrige cette injustice. Peu importe comment les curseurs sont déplacés, les deux mesures ne seront jamais justes en même temps. Le biais de cet algorithme est lié à la réalité car les enfants sont plus souvent malades que les adultes. L’échantillonnage des données ne reflète que la réalité.

Article écrit à partir de ces ressources

MIT 6.S897 Machine Learning for Healthcare, Spring 2019 Instructor: Peter Szolovits-Fairness

PAIR AI Explorables | Is the problem in the data? Examples on Fairness, Diversity, and Bias- Yannic Kilcher

Diplodocus interested in the applications of artificial intelligence to healthcare. Twitter : @https://cutt.ly/9bVCBSa

Diplodocus interested in the applications of artificial intelligence to healthcare. Twitter : @https://cutt.ly/9bVCBSa