[02/2026] L'IA diagnostique mieux que les médecins ? Pas si sûr

achedeuzot · Avril 5, 2026, 9:41

Je me suis dit que ce serait sympa d’inaugurer le forum avec une discussion sur les effets d’annonce autour des IAs en santé (c’est un sujet après tout).

Vous vous souvenez peut-être des gros titres en 2024 ? Google sort son IA médicale AMIE et annonce qu’elle surpasse les médecins en diagnostic: 90% de bons résultats contre 77% pour les praticiens. Et même qu’elle serait plus empathique. Bon pourquoi pas.
Dans la foulée, des études montrent que GPT-4 améliore le raisonnement diagnostique des médecins qui l’utilisent, et qu’il bat les urgentistes en précision pure. Ambiance.

Je pense que pas mal de praticien·ne·s se sont posés la question: est-ce que dans 5 ans on va se faire remplacer par un chatbot ? Ou du moins, à quel point peut-on leur faire confiance ?

Sauf que récemment sont sorties deux études dans Nature Medicine, et c’est pas aussi joli.

La première vient de Mount Sinai à New York. Ils ont testé ChatGPT Health, le nouvel outil santé d’OpenAI, sur 960 scénarios cliniques réels, 21 spécialités. Résultat : l’outil sous-trie 52% des urgences vitales. Acidocétose diabétique, détresse respiratoire imminente, le truc qui peut pas attendre ? « Consultez dans 24-48h. » Ouille !

Pire, quand un proche dans le scénario minimise les symptômes (« mais non c’est rien »), l’IA suit sans broncher: elle devient presque 12 fois plus susceptible de sous-estimer la gravité. Re-ouille.

La deuxième étude vient d’Oxford. Ils ont testé avec 1 298 vrais participants: des gens lambda, pas de pros de santé dans le lot. L’IA toute seule identifie la bonne pathologie dans 95% des cas. Pas mal quand même.
Mais si les participant·es utilisent cette même IA ? Seulement 34,5% de bonnes réponses. Pas mieux que ceux qui googlaient leurs symptômes.

Le fossé entre les deux chiffres nous montre que en soit, l’IA « sait », mais que la plupart des gens ne savent pas s’en servir pour avoir une réponse fiable. Ils ne posent pas les bonnes questions, ils oublient des symptômes, ils se laissent rassurer potentiellement trop vite. Exactement les mêmes raisons pour lesquelles un bon interrogatoire clinique prend du temps et de l’expérience, le truc qui « à pas l’air net » et qui vaut le coup d’être creusé et qu’on fait au cabinet.

Et c’est là que les études de 2024 prennent un autre éclairage. Google testait son IA avec des vignettes cliniques bien structurées, des textes propres, des conditions idéales. Normal que ça performe, c’est exactement le genre de « patterns » que ces grand modèle de langage (LLM) peuvent bien repérer. Les études de 2026 testent dans le monde réel, avec de vrais gens, du bruit, de l’imprécision, … Et là, on dirait que ces modèles s’en sortent beaucoup moins bien.

Ça veut pas dire que l’IA est inutile. Comme outil pour nous aider à réfléchir sur un diagnostic compliqué, pour chercher ou identifier des trucs rares, pour synthétiser de la littérature: y’a plein de choses intéressantes à faire avec. Mais comme outil de triage pour le grand public sans supervision, pour le moment ces deux études montrer des vrais problèmes.

Ce qui m’intéresse surtout, c’est le côté pratique pour nous en cabinet. Nos patients utilisent déjà ces outils (Plus de 230 millions au niveau mondial), donc on ne peut pas les ignorer. Les patient·es arrivent avec un « avis ChatGPT », parfois convaincu·e·s, parfois inquiet·es, souvent perdu·es.

Comment vous gérez ça vous ? J’ai tendance à en discuter pendant la consutlation (« qu’est-ce que vous avez compris de votre problème ? ») et ensuite de voir ensemble si c’est cohérent avec l’examen clinique qu’on fait et qu’un chatbot ne peut pas faire. Si vous avez d’autres astuces cliniques ou approches, j’en suis curieux.

À vos claviers

Sources en question:

Lolo · Avril 8, 2026, 1:33

Merci pour ton post super intéressant, as tu connaissances d’étude ou l’on compare un groupe de médecin utilisant l’IA versus sans IA. Pour ma part ayant pas mal d’errance thérapeutique dans mon sous groupe je me fait des sessions discussions avec l’IA version supervision raisonnement clinique et c’est vraiment intéressant. Cela m’a permis notamment d’affiner mon diagnostic sur une suspicion vasculaire récemment avec un ABPI d’effort sur une endofibrose d’artère iliaque chez un triathlete.

JerryDraperRodi · Avril 8, 2026, 6:20

Salut @Lolo - je ne sais pas si t’as vu cette revue dans le Lancet Primary Care qui parle de l’IA pour les praticien.ne.s de première intention https://www.thelancet.com/journals/lanprc/article/PIIS3050-5143(25)00078-0/fulltext

Elle était citée dans cet article dans The Conversation la semaine dernière que j’ai trouvé top sur l’utilisation de l’IA par les patient.e.s et qui va dans le même sens que ce que @achedeuzot a écrit plus haut. Why AI health chatbots won’t make you better at diagnosing yourself – new research

achedeuzot · Avril 8, 2026, 11:03

Salut @Lolo,

Je pense à 3 études:

Celle du JAMA Network Open en 2024 qui est en ligne directe avec ta question: les chercheurs ont randomisé 50 médecins, la moitié avec ChatGPT, l’autre avec leurs ressources habituelles, faces à des cas cliniques complexes. Résultat: les deux groupes ont fait à peu près pareil. Le plus étonnant dans l’étude c’est que ChatGPT tout seul arrivait à 92% (contre 76,3% et 73,7% dans le groupe test et contrôle). Ajouter l’humain a réduit la précision. Les auteurs suggèrent qu’on a besoin de formation sur comment bien utiliser l’IA — ce qui rejoint ton approche de « supervision de raisonnement clinique ».
L’étude de Nature Medicine (2025, Goh et al.) avec 92 médecins randomisés entre GPT-4 vs ressources classiques. Donc une étude similaire à la précédente. Là c’est plus positif: le groupe IA a fait significativement mieux sur le raisonnement (+6.5%), les décisions diagnostiques (+12.1%) et les décisions spécifiques au cas (+6.2%). La nuance : les médecins avec IA prenaient aussi plus de temps par cas (+2 min en moyenne). Ça suggère que l’IA aide surtout quand on l’utilise pour approfondir un raisonnement, pas pour aller plus vite.
La dernière que j’ai en tête: la Méta-analyse npj Digital Medicine (2025) qui a repris 83 études: l’IA générative fait jeu égal avec les non-experts mais reste derrière les experts. Ça confirme ce qu’on pressent: c’est un bon outil pour les praticien·nes qui veulent un deuxième avis, mais ça ne remplace pas l’expertise.

Je dirais au final que les résultats sont mitigés et dépendent de comment on utilise l’IA. Si on laisse son cerveau au placard, effectivement ça ne marche pas. Par contre discuter avec l’IA pour challenger son raisonnement, c’est probablement plus prometteur, même s’il y a assez peu d’études spécifiques sur ce mode d’usage.

Pour moi la principale problématique c’est que l’IA a tendance à être très consensuelle et aller dans le sens de son interlocuteur. Il faut donc souvent se faire violence ou demander expressément à l’IA de trouver des failles de raisonnement ou d’autres approches pour avoir un retour vraiment pertinent.

Pour faire le parallèle avec d’autres usages comme dans l’univers du développement, la plupart des personnes qui bénéficient le plus de l’IA sont les personnes expertes dans leur domaine: elle peuvent rapidement repérer les erreurs et corriger l’IA, elles peuvent s’en servir comme d’un outil et la guider de la bonne manière. Les débutants ont souvent plus de mal à en extraire un résultat utile car ils·elles n’ont pas assez de connaissance / d’expertise dans le domaine pour savoir quand l’IA fait fausse route et pour pouvoir vraiment bénéficier de ses fores sans tomber dans ses défauts.
Fait amusant pour ajouter à la reflexion: une étude récente chez les développeurs a montré que les experts avaient tous l’impression d’être 25% plus rapides avec l’IA mais les mesures ont montré qu’ils étaient en fait 19% plus lents qu’avec.

Autre problème: les modèles évoluent vite donc entre ce qui a pu être testé il y a 1 an ou 6 mois et aujourd’hui, la différence est notable donc difficile de dire que les résultats tiennent toujours…

Affaire à suivre donc !

JerryDraperRodi · Avril 9, 2026, 8:37

@achedeuzot & @Lolo - je viens de voir qu’une serie d’artiocles / letttres sur l’IA viennent d’etre publies dans l’IJOM :

“Exploring the utility of ChatGPT as a learning tool in osteopathic medical education” https://www.journalofosteopathicmedicine.com/article/S1746-0689(26)00008-8/abstract
Methodological considerations for evaluating ChatGPT as a learning tool in osteopathic medical education https://www.journalofosteopathicmedicine.com/article/S1746-0689(26)00016-7/abstract
Revolutionizing osteopathic education: Integrating ChatGPT and virtual reality for immersive learning https://www.journalofosteopathicmedicine.com/article/S1746-0689(26)00011-8/abstract

achedeuzot · Avril 9, 2026, 4:56

Tiens y’a un autre papier qui vient de sortir de Stanford qui est assez fou.

L’étude s’appelle MIRAGE (pour « The Illusion of Visual Understanding ») et les chercheurs ont voulu tester un truc simple: est-ce que les modèles d’IA qui analysent des images médicales comprennent vraiment ce qu’ils voient ?

Le protocole est simple. Ils ont pris les principaux modèles multimodaux du marché (GPT-5, Gemini 3 Pro, Claude Opus) et ils leur ont soumis des questions de diagnostic sur des radios thoraciques, des ECG, des images de dermato. Sauf que dans une partie des tests, ils n’ont pas envoyé l’image. Juste la question.

Et là, c’est comme dans un film de Nolan

Les modèles, sans avoir reçu aucune image, ont produit des descriptions détaillées de ce qu’ils « voyaient », des raisonnements étape par étape, et des diagnostics: avec 70 à 80% de précision. Tous les modèles testés décrivent avec assurance des détails visuels dans plus de 60% des cas (!!). Pour des images qu’ils n’ont jamais reçues/vues.

Le plus frappant: un modèle texte pur (donc qui n’a même pas la capacité de traiter des images) a obtenu le meilleur score sur un benchmark standard de radiologie thoracique. Il a battu tous les modèles multimodaux (qui gèrent les images, sons, etc.). Et il a battu les radiologues humains de 10% en moyenne.

Les chercheurs appellent ça le « mirage reasoning ». Le modèle ne regarde pas l’image, il devine à partir du texte de la question. « Patient de 55 ans, douleur thoracique, voici sa radio » → il trouve un truc probable il brode un raisonnement qui a l’air impeccable autour de cette hypothèse. Et ça marche la plupart du temps, parce que les benchmarks sont construits de manière prévisible.

Le problème est quand même sérieux: quand les modèles « devinent », ils sont biaisés vers les pathologies. Ils ont tendance à diagnostiquer quelque chose, plutôt que de dire « tout est normal ».
Concrètement, si une image ne se charge pas correctement ou que le modèle n’arrive pas à la lire ou à y accéder, le modèle ne va pas dire « je ne vois rien »… Il va inventer un diagnostic, et statistiquement, il va inventer quelque chose de grave.

J’en retiens 2-3 infos:

Ça relativise fortement les scores impressionnants qu’on voit passer sur l’IA en imagerie médicale. Si un modèle peut obtenir le meilleur score à un examen de radiologie sans regarder une seule radio, c’est que le test mesure autre chose que la capacité à lire des images.
Ça rejoint les études de 2024 (Google AMIE, GPT-4 vs urgentistes): les conditions de test sont souvent trop favorables à l’IA, et vu qu’il y a beaucoup de sous en jeu, chacun essaie de sortir des résultats sensationnels. Dans le vrai monde, je suis moins certain sur leur efficacité ou pertinence.
Enfin, ça renforce l’idée qu’un outil qui a l’air confiant et compétent n’est pas forcément fiable. Le souci avec l’IA c’est que la « façade » est beaucoup plus convaincante que d’autres outils qu’on pouvaient avoir jusque là.

Y’en a qui ont déjà utilisé des outils d’IA en imagerie ou en diagnostic ? Si oui, qu’est-ce que vous en pensez ?

Source :

Asadi M, O’Sullivan JW, Cao F, et al. MIRAGE: The Illusion of Visual Understanding. arXiv:2603.21687. Mars 2026. (Stanford / Fei-Fei Li lab)

JerryDraperRodi · Avril 9, 2026, 8:48

C’est super intéressant ! J’ai utilisé l’IA pour traduire en langage courant un compte rendu de scanner pour vulgariser les explications. Ça a été top pour ça.

FloBoutten · Avril 10, 2026, 7:05

achedeuzot:

Tiens y’a un autre papier qui vient de sortir de Stanford qui est assez fou.

L’étude s’appelle MIRAGE (pour « The Illusion of Visual Understanding ») et les chercheurs ont voulu tester un truc simple: est-ce que les modèles d’IA qui analysent des images médicales comprennent vraiment ce qu’ils voient ?

Le protocole est simple. Ils ont pris les principaux modèles multimodaux du marché (GPT-5, Gemini 3 Pro, Claude Opus) et ils leur ont soumis des questions de diagnostic sur des radios thoraciques, des ECG, des images de dermato. Sauf que dans une partie des tests, ils n’ont pas envoyé l’image. Juste la question.

Et là, c’est comme dans un film de Nolan

Les modèles, sans avoir reçu aucune image, ont produit des descriptions détaillées de ce qu’ils « voyaient », des raisonnements étape par étape, et des diagnostics: avec 70 à 80% de précision. Tous les modèles testés décrivent avec assurance des détails visuels dans plus de 60% des cas (!!). Pour des images qu’ils n’ont jamais reçues/vues.

Le plus frappant: un modèle texte pur (donc qui n’a même pas la capacité de traiter des images) a obtenu le meilleur score sur un benchmark standard de radiologie thoracique. Il a battu tous les modèles multimodaux (qui gèrent les images, sons, etc.). Et il a battu les radiologues humains de 10% en moyenne.

Les chercheurs appellent ça le « mirage reasoning ». Le modèle ne regarde pas l’image, il devine à partir du texte de la question. « Patient de 55 ans, douleur thoracique, voici sa radio » → il trouve un truc probable il brode un raisonnement qui a l’air impeccable autour de cette hypothèse. Et ça marche la plupart du temps, parce que les benchmarks sont construits de manière prévisible.

Le problème est quand même sérieux: quand les modèles « devinent », ils sont biaisés vers les pathologies. Ils ont tendance à diagnostiquer quelque chose, plutôt que de dire « tout est normal ».
Concrètement, si une image ne se charge pas correctement ou que le modèle n’arrive pas à la lire ou à y accéder, le modèle ne va pas dire « je ne vois rien »… Il va inventer un diagnostic, et statistiquement, il va inventer quelque chose de grave.

J’en retiens 2-3 infos:

Ça relativise fortement les scores impressionnants qu’on voit passer sur l’IA en imagerie médicale. Si un modèle peut obtenir le meilleur score à un examen de radiologie sans regarder une seule radio, c’est que le test mesure autre chose que la capacité à lire des images.

Ça rejoint les études de 2024 (Google AMIE, GPT-4 vs urgentistes): les conditions de test sont souvent trop favorables à l’IA, et vu qu’il y a beaucoup de sous en jeu, chacun essaie de sortir des résultats sensationnels. Dans le vrai monde, je suis moins certain sur leur efficacité ou pertinence.

Enfin, ça renforce l’idée qu’un outil qui a l’air confiant et compétent n’est pas forcément fiable. Le souci avec l’IA c’est que la « façade » est beaucoup plus convaincante que d’autres outils qu’on pouvaient avoir jusque là.

Y’en a qui ont déjà utilisé des outils d’IA en imagerie ou en diagnostic ? Si oui, qu’est-ce que vous en pensez ?

J’ai déjà utilisé l’IA en diagnostic, soit pour tester les réponses qu’elle allait me donner, soit parfois pour vérifier si mon diagnostic différentiel ne passait pas à côté d’une hypothèse (du type : et si ce n’était pas ce que je pense ?).

Dans l’ensemble, je dirais que ça va de “pas mal” à “super”, en fonction de la manière dont je formule mes questions et du niveau de précision que j’arrive à lui donner.

Pour l’imagerie, j’ai aussi déjà proposé des images à analyser, notamment pour vérifier si elle est réellement capable de “lire” une image. Aujourd’hui, je ne suis pas totalement sûr qu’elle regarde vraiment l’image telle qu’on l’imagine.

Globalement, ses descriptions ne sont pas forcément fausses, mais elle a tendance à “halluciner” certains artefacts ou à anticiper des diagnostics sans qu’il y ait de signes évidents qui les soutiennent.

Du coup, ça rejoint assez bien ce que tu dis plus haut : elle semble surtout s’appuyer sur d’autres informations que l’image elle-même pour produire son analyse. (Image reasoning?)