Le NLP pour créer CheXpert
Pour faire progresser la recherche et entraîner des algorithmes comme CheXNeXt, les chercheurs ont besoin de jeux de données étiquetées de radios du thorax . CheXpert, MIMIC-CXR, PadChest, ChestX-ray14, IU X-Ray sont les jeux de données les plus utilisés.
Il est fastidieux d’attribuer manuellement des étiquettes aux images de ces jeux de données donc les chercheurs créent des étiqueteurs.
Pour créer CheXpert les chercheurs de Stanford ont développé un modèle NLP pour extraire les étiquettes à partir d’images et de rapports radiologiques désidentifiés associés à ces images.
Ce travail a permis la création d’un jeu de données étiqueté, constitué de 224 316 radiographies pulmonaires de 65 240 patients ayant subi un examen radiographique au centre médical de l’université de Stanford entre octobre 2002 et juillet 2017.
Ce jeu de données est open source et permet aux chercheurs de proposer de nouveaux modèles qui permettent de détecter des pathologies pulmonaires comme la COVID-19.
CheXpert et ChestXray-14 pour diagnostiquer la Covid-19
Les jeux de données CheXpert et ChestXray-14, enrichis de données sur la COVID-19 ont permis à des chercheurs de l’IEEE d’entraîner deux modèles CMTNet et ReCoNet capables de classer des radios du thorax COVID-19 ou non COVID-19 et d’offrir une segmentation visuelle de la radio pour localiser les anomalies.
- CMTNet
- ReCoNet
BERT et Transformers : une nouvelle ère pour le NLP
Le papier de recherche sur ChexPert indique que les chercheurs de Stanford pour mettre au point cet étiqueteur ont eu recours aux librairies NLP suivantes:
- NLTK (Bird, Klein, and Loper 2009) Natural Language Toolkit, une plate-forme de pointe pour la construction d’algorithmes en Python
- le Bllip parser (Charniak and Johnson 2005; McClosky 2010), une librairie Python pour parser.
- Stanford CoreNLP (De Marneffe et al. 2014).
Pour effectuer l’ensemble du process de traitement de texte naturel, les chercheurs ont a leur disposition d’autres librairies NLP: spaCy, Gensim, SparkNLP, PyTorch-NLP, Scikit-learn, Tensorflow, Transformers.
La mise à disposition du modèle BERT (Bidirectional Encoder Representations from Transformers) en 2018 par Google marque pour les experts le début d’une nouvelle ère dans le domaine du Traitement du langage naturel (NLP).
BERT reprend les atouts de deux modèles précédents ELMo (prise en compte du contexte des mots dans la phrase) et Open AI GPT (mécanisme d’attention pour distinguer les mots les plus importants de la phrase).
BERT a été entraîné sur un Bookcorpus de 800M de mots et le wikipédia en langue anglaise de 2.5000 M de mots. Il faut 3 jours pour le pré-entraîner avec 16TPU. Il est capable de prédire un mot et de prédire quelle sera la phrase suivante. Pour l’anecdote, il existe deux versions françaises de BERT : CamemBERT et FlauBERT.
CheXbert pour améliorer l’étiqueteur CheXpert
Fin 2020, les chercheurs de Stanford qui avaient développé le modèle CheXpert ont proposé un nouveau modèle CheXbert plus performant pour étiqueter les rapports de radiologie. Comme son nom l’indique CheXbert repose sur l’entrainement d’un modèle BERT.
BERT est d’abord entraîné sur des annotations d’un étiqueteur, CheXpert, à base de règles. Puis il est “affiné” (fine tuning)sur un petit ensemble d’annotations de radiologistes complétées par une rétro-traduction automatisée.
Grâce à l’utilisation de BERT, CheXbert est capable de surpasser CheXpert, établissant un nouveau State of the Art pour l’étiquetage des rapports de radiographies pulmonaires.
Les chercheurs sont capables de comparer les performances des différents étiqueteurs T-auto, CheXpert et CheXbert et de comprendre comment ils interprètent les mots des phrases et comment ils génèrent les étiquettes.
BigBird pour un séquençage du génome plus performant
Fin juillet 2020, les chercheurs de Google ont publié un nouveau papier de recherche sur arxiv qui présente BigBird : un nouveau modèle de NLP dont les performances sont supérieures à celle de BERT.
BigBird utilise le mécanisme de “Sparse Attention” qui lui permet de traiter des séquences d’une longueur jusqu’à 8 fois supérieure à ce qui est possible avec BERT avec la même puissance de calcul.
L’une des utilisations de BigBird identifiée par les chercheurs est son application dans le domaine du séquençage de L’ADN. L’analyse de la séquence ADN peut être utilisée pour identifier, diagnostiquer et potentiellement trouver des traitements à des maladies génétiques. Elle sert aussi à analyser des virus et à trouver des vaccins.
Annexe
Natural Language Processing (NLP) Zero to Hero avec Tensorflow
BigBird