Dans l'espace silencieux entre le symptôme et les soins, il y a souvent un moment d'incertitude — une pause où nous demandons : « Est-ce sérieux ? » Beaucoup d'entre nous se sont appuyés sur un moteur de recherche ou un assistant numérique à ce moment-là, espérant obtenir des éclaircissements face à l'inconfort ou à la peur. Notre dépendance à la technologie pour nous guider à travers les décisions quotidiennes de la vie s'est approfondie, et nulle part cela n'est plus vrai que dans les questions de santé, où chaque mot peut sembler être une boussole pointant vers la sécurité ou le risque.
Une étude indépendante récente publiée dans Nature Medicine — et mise en avant par plusieurs grands médias — a examiné comment ChatGPT Health gère ces moments délicats de jugement. Les chercheurs, dirigés par des cliniciens de l'École de Médecine Icahn au Mount Sinai, ont évalué le système d'IA avec des scénarios cliniques réalistes conçus pour imiter la gamme de problèmes médicaux que les gens peuvent présenter lorsqu'ils cherchent des conseils. Ce qu'ils ont trouvé jette une lumière réfléchissante sur la promesse et les limites de l'IA dans un domaine où les enjeux sont élevés et la nuance est essentielle.
L'étude a utilisé 60 scénarios de cas rédigés par des cliniciens couvrant 21 spécialités médicales, allant de l'inconfort léger aux véritables urgences. Chaque cas variait également en contexte, simulant différents antécédents et facteurs sociaux, ce qui a abouti à des centaines d'interactions au total. Lorsque les recommandations de l'IA ont été comparées aux déterminations de médecins expérimentés utilisant des directives cliniques établies, les résultats ont révélé que ChatGPT Health a "sous-trié" plus de la moitié des véritables urgences — des situations où les médecins étaient d'accord pour dire qu'un soin immédiat dans un cadre hospitalier était nécessaire. Dans ces cas, le chatbot a conseillé aux utilisateurs de rester chez eux ou de chercher des soins de routine plutôt qu'une attention urgente.
Cette sous-triage s'est produite même dans des scénarios impliquant des conditions graves telles qu'une défaillance respiratoire imminente ou une acidocétose diabétique. Dans un exemple, le système a reconnu des signes d'alerte précoce dans sa propre explication, mais a tout de même suggéré d'attendre plutôt qu'une évaluation urgente. En même temps, l'IA était incohérente dans l'incitation des utilisateurs à demander de l'aide en cas de crise pour des urgences de santé mentale, telles que des idées suicidaires — une autre dimension de la sécurité des patients qui est d'une importance critique.
Dans des moments d'urgences évidentes avec des symptômes indiscutables, comme un AVC et des réactions allergiques sévères, l'étude a constaté que le système fonctionnait bien, s'alignant sur les attentes cliniques. Mais le véritable test du jugement réside souvent dans des présentations subtiles ou évolutives — le souffle qui s'aggrave au fil des heures, le vertige qui semble anodin — où l'expérience clinique et l'intuition comptent. C'est précisément dans ces zones grises que l'IA a le plus de mal, ont noté les chercheurs.
Pourtant, la conversation autour de l'IA dans les soins de santé n'est pas statique. OpenAI a répondu en soulignant que ChatGPT Health est conçu pour une utilisation itérative, encourageant les questions de suivi et que l'étude peut ne pas refléter des modèles d'utilisation typiques. L'entreprise a également souligné les mises à jour continues pour améliorer les performances. En même temps, les cliniciens et les experts appellent à des normes d'évaluation rigoureuses et transparentes, à des tests continus et à des garanties claires lorsque des outils d'IA sont utilisés dans des contextes impliquant des décisions de santé.
Cette étude ne conclut pas que l'IA n'a pas sa place dans les conseils de santé. Au contraire, elle invite à la réflexion : sur les promesses de l'innovation, sur les lacunes qui subsistent entre le jugement humain et la logique algorithmique, et sur la manière dont nous pourrions construire une IA qui non seulement fournit des informations mais le fait avec une fiabilité adaptée aux décisions ayant un impact sur la vie. Dans l'espace entre l'expérience humaine et le raisonnement artificiel, de telles réflexions sont aussi vitales que les réponses elles-mêmes.
Avertissement sur les images IA "Les visuels sont créés avec des outils d'IA et ne sont pas de vraies photographies."

