GPT-4 le nouveau modèle d’Open AI et les futures LLMs, vont t’ils révolutionner la médecine?

DiploDoc
7 min readMar 31, 2023

Des Transformeurs au buzz ChatGPT

La révolution Transformeur commence par la publication de deux papiers de recherche en 2017 “Attention is All you need” et en 2018 “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” par Google. Les deux papiers propulsent les recherches dans le domaine du NLP (Natural Language Processing) dans une nouvelle ère.

Utilisés dans un premier temps pour des tâches de traductions, les Transformeurs sont rapidement utilisés dans le domaine de la vision par ordinateur. Les usages dans le domaine de la santé sont nombreux : chatbots médicaux, diagnostics médicaux, segmentation d’images médicales, découverte de la structure des protéines et découverte de nouveaux médicaments.

Le 2 Juillet 2022, Open AI publie un papier de recherche de 75 pages, “Language Models are Few-Shot Learner” qui présente leur modèle GPT-3 (Generative Pre-trained Transformer 3).

  • GPT-3 est un transformeur composé de plus de 175 milliards de paramètres. En comparaison, son prédécesseur, GPT-2, était basé sur 1,5 milliard de paramètres. Ces données correspondent au nombre de valeurs que le réseau de neurones essaye d’optimiser durant son entraînement.
  • Pour entraîner GPT-3, les chercheurs d’Open AI ont utilisé un ensemble de données gigantesque qui comprend des milliards de documents provenant du web.
  • Zero-shot, one-shot, few-shot learning sont des méthodes de fine-tuning utilisées pour optimiser les performances de GPT-3. Le modèle peut performer sur certaines tâches spécifiques à partir de très peu d’exemples.
Few Shot Learning vs traditional fine-tuning
ChatGPT : qu’est-ce qui distingue GPT-3 des autres transformeurs?

GPT-3 est à l’origine de l’essor de la recherche dans le domaine des LLMs. Ces nouveaux modèles monopolisent désormais les chercheurs des grands acteurs de l’intelligence artificielle : Meta, Microsoft, Baïdu, Hugging Face, Nvidia, DeepMind, Google.

Extrait de state of AI 2022 (slide 34)-shorturl.at/impOS
ChatGPT : Qu’est-ce qu’un LLM?

GPT-3 est également à l’origine de ChatGPT lancé en novembre 2022 dont le lancement a eu un écho retentissant dans la communauté AI mais également dans les médias et dans les entreprises. OpenAI précise sur son blog que ChatGPT est basé sur un modèle de la série GPT-3.5, entraîné sur les infrastructures de Microsoft Azure AI.

ChatGPT : Quelles est la différence entre GPT-3 et ChatGPT?

Pour donner accès au grand public à ChatGPT, Open AI a développé un LLM appelé InstructGPT. Ce modèle est optimisé via un apprentissage supervisé comme GPT-3.5 (étape 1) mais également via le RLHF “Reinforcement Learning via Human Feedback” (étapes 2 et 3).

Step 1 : supervised training I Step 2 &Step 3 : RHLF

Le modèle apprend à partir de l’appréciation de ses prédictions par des êtres humains. Cette technique permet de réduire les risques d’erreurs du modèle. Pour en savoir plus sur le Reinforcement Learning from Human Feedback (RHLF), vous pouvez consulter cet article de Hugging Face.

ChatGPT : “Act as a doctor “ !

Le modèle ChatGPT est capable de générer du texte de type humain. En lui fournissant une question (prompt), il peut générer des réponses qui poursuivent la conversation ou complètent une question (prompt) initialement posée.

Sur GitHub, vous trouverez une variété de questions (prompts) pouvant être utilisées avec ChatGPT pour le transformer en comptable, en fleuriste, en rappeur, en magicien ou encore en docteur.

Doctor Prompts
ChatGPT : Doctor Prompt

Certains médecins se sont employés à tester et à piéger ChatGPT. Parmi eux Doctor Mike qui constate que ChatGPT répond souvent de façon correcte à ses questions sauf lorsque le diagnostic du patient nécessite plus de contexte comme les résultats d’examens sanguins ou l’historique médical du patient. Nous verrons que GPT-4 permet d’améliorer cette prise en compte du contexte de façon étonnante.

GPT-4 appliqué à la médecine

Le 22 mars 2023, OpenAI a dévoilé la version la plus récente de ses modèles de langage, GPT-4.

GPT-4 est un LLM (Large Language Model) multimodal capable d’accepter à la fois du texte et des images en entrée et de produire un texte en sortie. GPT-4 est le modèle sur lequel a été développée la version augmentée de ChatGPT : ChatGPT Plus. Pour certains experts en Intelligence Artificielle GPT-4 est un premier pas vers l’AGI : l’intelligence artificielle générale, cette intelligence artificielle capable de résoudre des problèmes très variés, à l’image de ce que font les êtres humains.

Parallèlement au lancement de GPT-4, le 20 mars 2023, Microsoft et Open AI ont publié un papier de recherche “GPT-4 on Medical Challenge Problemsqui montre les performances remarquables de leur nouveau modèle pour poser un diagnostic et former les médecins. GPT-4 surpasse les modèles GPT-3.5 ainsi que les modèles spécifiquement adaptés aux connaissances médicales comme Med-PaLM et Flan-PaLM 540B.

Pour évaluer la capacité de GPT-4 à poser des diagnostics, les chercheurs ont utilisé les jeux de données MedQA, PubMedQA, MedMCQA et MMLU accessibles au grand public qui contiennent des questions basées sur la littérature médicale et des cas cliniques. Ils ont également eu recours aux questions des examens qui certifient les médecins aux Etats-Unis : the United States Medical Licensing Examination (USMLE) publiés officiellement par le National Board of Medical Examiners (NBME). Voici un exemple de question médicale posée à GPT-4 et la réponse choisie par le modèle.

Exemple de diagnostic correct effectué par GPT-4 à partir d’une **question (prompt)**

Sur tous ces jeux de données GPT-4 obtient de meilleurs performances que les autres modèles GPT-3.5 et Flan-PaLM 540B. Il creuse l’écart de façon significative en terme de réponses correctes par rapport aux anciens modèles développés par Open AI et Flan-PaLM 540B.

Performances sur les questions USMLE
Performances sur les questions MedQA, PubMedQA, MedMCQA et MMLU

GPT-4 est capable de poser un diagnostic et de justifier les raisons de ce diagnostic sans avoir vu les images d’une endoscopie pourtant spécifiée dans la question.

GPT-4 capable de poser un diagnostic sans avoir accès au document visuel

GPT-4 est capable d’expliquer son diagnostic mais aussi de justifier pourquoi il a rejeté les autres réponses proposées dans la question. Il peut également expliquer à un étudiant en médecine de façon précise ses erreurs de diagnostic.

GPT-4 explique pourquoi il a rejeté certains diagnostics
GPT-4 explique à l’étudiant son erreur de diagnostic

Ce modèle peut également modifier à la demande légèrement les résultats des laboratoires par rapport à la question initiale, ce qui a pour effet immédiat de modifier le diagnostic. Ces capacités de GPT-4 en font potentiellement une aide à la formation des médecins très efficace.

Modification des résultats de laboratoires pat GPT-4 pour obtenir un diagnostic différent

Selon les chercheurs, GPT-4 et ses successeurs pourraient fournir aux professionnels de la santé des analyses détaillées et une aide à l’élaboration de diagnostics différentiels à partir des antécédents du patient et des résultats de laboratoire.

Ils insistent cependant sur le fait que la qualité des résultats fournis par les modèles dépendent de la qualité des questions (prompts), les biais ethniques et démographiques contenus dans les jeux de données utilisés pour l’entraînement des modèles.

Privés des informations contextuelles et historiques nécessaires à l’élaboration de bons diagnostics, l’usage des les LLMs pourrait avoir des conséquences néfastes sur la santé des patients. Il faut donc être extrêmement prudent sur leurs usages et les confronter régulièrement à la connaissance empirique des médecins.

Ressources utilisées pour écrire cet article

  • Sam Altman: OpenAI CEO on GPT-4, ChatGPT, and the Future of AI | Lex Fridman Podcast #367

--

--

DiploDoc

Diplodocus interested in the applications of artificial intelligence to healthcare.