Je me suis dit que ce serait sympa d’inaugurer le forum avec une discussion sur les effets d’annonce autour des IAs en santé (c’est un sujet
après tout).
Vous vous souvenez peut-être des gros titres en 2024 ? Google sort son IA médicale AMIE et annonce qu’elle surpasse les médecins en diagnostic: 90% de bons résultats contre 77% pour les praticiens. Et même qu’elle serait plus empathique. Bon pourquoi pas.
Dans la foulée, des études montrent que GPT-4 améliore le raisonnement diagnostique des médecins qui l’utilisent, et qu’il bat les urgentistes en précision pure. Ambiance.
Je pense que pas mal de praticien·ne·s se sont posés la question: est-ce que dans 5 ans on va se faire remplacer par un chatbot ? Ou du moins, à quel point peut-on leur faire confiance ?
Sauf que récemment sont sorties deux études dans Nature Medicine, et c’est pas aussi joli.
La première vient de Mount Sinai à New York. Ils ont testé ChatGPT Health, le nouvel outil santé d’OpenAI, sur 960 scénarios cliniques réels, 21 spécialités. Résultat : l’outil sous-trie 52% des urgences vitales. Acidocétose diabétique, détresse respiratoire imminente, le truc qui peut pas attendre ? « Consultez dans 24-48h. » Ouille !
Pire, quand un proche dans le scénario minimise les symptômes (« mais non c’est rien »), l’IA suit sans broncher: elle devient presque 12 fois plus susceptible de sous-estimer la gravité. Re-ouille.
La deuxième étude vient d’Oxford. Ils ont testé avec 1 298 vrais participants: des gens lambda, pas de pros de santé dans le lot. L’IA toute seule identifie la bonne pathologie dans 95% des cas. Pas mal quand même.
Mais si les participant·es utilisent cette même IA ? Seulement 34,5% de bonnes réponses. Pas mieux que ceux qui googlaient leurs symptômes.
Le fossé entre les deux chiffres nous montre que en soit, l’IA « sait », mais que la plupart des gens ne savent pas s’en servir pour avoir une réponse fiable. Ils ne posent pas les bonnes questions, ils oublient des symptômes, ils se laissent rassurer potentiellement trop vite. Exactement les mêmes raisons pour lesquelles un bon interrogatoire clinique prend du temps et de l’expérience, le truc qui « à pas l’air net » et qui vaut le coup d’être creusé et qu’on fait au cabinet.
Et c’est là que les études de 2024 prennent un autre éclairage. Google testait son IA avec des vignettes cliniques bien structurées, des textes propres, des conditions idéales. Normal que ça performe, c’est exactement le genre de « patterns » que ces grand modèle de langage (LLM) peuvent bien repérer. Les études de 2026 testent dans le monde réel, avec de vrais gens, du bruit, de l’imprécision, … Et là, on dirait que ces modèles s’en sortent beaucoup moins bien.
Ça veut pas dire que l’IA est inutile. Comme outil pour nous aider à réfléchir sur un diagnostic compliqué, pour chercher ou identifier des trucs rares, pour synthétiser de la littérature: y’a plein de choses intéressantes à faire avec. Mais comme outil de triage pour le grand public sans supervision, pour le moment ces deux études montrer des vrais problèmes.
Ce qui m’intéresse surtout, c’est le côté pratique pour nous en cabinet. Nos patients utilisent déjà ces outils (Plus de 230 millions au niveau mondial), donc on ne peut pas les ignorer. Les patient·es arrivent avec un « avis ChatGPT », parfois convaincu·e·s, parfois inquiet·es, souvent perdu·es.
Comment vous gérez ça vous ? J’ai tendance à en discuter pendant la consutlation (« qu’est-ce que vous avez compris de votre problème ? ») et ensuite de voir ensemble si c’est cohérent avec l’examen clinique qu’on fait et qu’un chatbot ne peut pas faire. Si vous avez d’autres astuces cliniques ou approches, j’en suis curieux.
À vos claviers
![]()
Sources en question: