ChatGPT Health échoue aux tests critiques de sécurité en cas d'urgence et de suicide

ChatGPT Health, un outil d'intelligence artificielle (IA) largement utilisé qui fournit des conseils de santé directement au public, y compris des conseils sur l'urgence de consulter un médecin, peut ne pas parvenir à diriger les utilisateurs de manière appropriée vers des soins d'urgence dans un nombre important de cas graves, selon des chercheurs de l'École de médecine Icahn du Mont Sinaï.

L'étude, accélérée dans le numéro en ligne du 23 février 2026 de Médecine naturelle (https://doi.org/10.1038/s41591-026-04297-7), est la première évaluation indépendante de sécurité de l'outil basé sur un grand modèle de langage (LLM) depuis son lancement en janvier 2026. Il a également identifié de sérieuses préoccupations concernant les garanties de l'outil en cas de crise suicide.

« Les LLM sont devenus le premier recours des patients pour obtenir des conseils médicaux, mais en 2026, ils sont moins sûrs aux extrêmes cliniques, où le jugement sépare les urgences manquées des alarmes inutiles », déclare Isaac S. Kohane, MD, PhD, président du département d'informatique biomédicale de la Harvard Medical School, qui n'a pas participé à la recherche.. « Lorsque des millions de personnes utilisent un système d’IA pour décider si elles ont besoin de soins d’urgence, les enjeux sont extrêmement élevés. L'évaluation indépendante devrait être une routine et non une option. »

Quelques semaines après sa sortie, le créateur de ChatGPT Health, OpenAI, a rapporté qu'environ 40 millions de personnes utilisaient quotidiennement l'outil pour rechercher des informations et des conseils en matière de santé, y compris des conseils sur l'opportunité de demander des soins urgents ou d'urgence. Dans le même temps, affirment les enquêteurs, il existait peu de preuves indépendantes quant à la sécurité et à la fiabilité de ces conseils.

Cette lacune a motivé notre étude. Nous voulions répondre à une question très basique mais cruciale : si quelqu'un est confronté à une véritable urgence médicale et se tourne vers ChatGPT Health pour obtenir de l'aide, est-ce que celui-ci lui dira clairement d'aller aux urgences ? »

Ashwin Ramaswamy, MD, auteur principal, instructeur d'urologie, Icahn School of Medicine, Mount Sinai

En ce qui concerne les alertes de risque de suicide, ChatGPT Health a été conçu pour diriger les utilisateurs vers la ligne de vie 988 Suicide and Crisis Lifeline dans les situations à haut risque. Cependant, les enquêteurs ont constaté que ces alertes apparaissaient de manière incohérente, se déclenchant parfois dans des scénarios à moindre risque, tout en n'apparaissant pas, de manière alarmante, lorsque les utilisateurs décrivaient des plans spécifiques d'automutilation.

« C'était une découverte particulièrement surprenante et préoccupante », déclare Girish N. Nadkarni, MD, MPH, auteur principal et co-correspondant de l'étude, Barbara T. Murphy, présidente du département d'intelligence artificielle et de santé humaine de Windreich, directrice de l'Institut Hasso Plattner pour la santé numérique, et professeur de médecine Irene et Dr Arthur M. Fishberg à l'école de médecine Icahn du mont Sinaï et directeur de l'IA du système de santé du mont Sinaï. « Bien que nous nous attendions à une certaine variabilité, ce que nous avons observé allait au-delà de l'incohérence. Les alertes du système étaient inversées par rapport au risque clinique, apparaissant de manière plus fiable pour les scénarios à faible risque que pour les cas où une personne partageait la façon dont elle avait l'intention de se faire du mal. Dans la vraie vie, quand quelqu'un parle exactement de la manière dont il se ferait du mal, c'est le signe d'un danger plus immédiat et plus grave, pas moins. «

Dans le cadre de l'évaluation, l'équipe de recherche a créé 60 scénarios cliniques structurés couvrant 21 spécialités médicales. Les cas allaient de problèmes mineurs appropriés aux soins à domicile à de véritables urgences médicales. Trois médecins indépendants ont déterminé le niveau d'urgence correct pour chaque cas en utilisant les directives de 56 sociétés médicales.

Chaque scénario a été testé dans 16 conditions contextuelles différentes, notamment des variations de race, de sexe, de dynamique sociale (comme une personne minimisant les symptômes) et des obstacles aux soins comme le manque d'assurance ou de transport. Au total, l’équipe a mené 960 interactions avec ChatGPT Health et comparé ses recommandations au consensus des médecins.

En testant les 60 scénarios de patients réalistes développés par les médecins, les chercheurs ont constaté que même si l'outil traitait généralement correctement les urgences claires, il sous-triait plus de la moitié des cas qui, selon les médecins, nécessitaient des soins d'urgence.

Les enquêteurs ont également été frappés par l’échec du système dans les cas médicaux d’urgence. L'outil a souvent démontré qu'il reconnaissait les résultats dangereux dans ses propres explications, tout en rassurant le patient.

« ChatGPT Health a bien fonctionné dans les situations d'urgence telles que les accidents vasculaires cérébraux ou les réactions allergiques graves », explique le Dr Ramaswamy. « Mais il a rencontré des difficultés dans des situations plus nuancées où le danger n'est pas immédiatement évident, et ce sont souvent les cas où le jugement clinique compte le plus. Dans un scénario d'asthme, par exemple, le système a identifié les signes avant-coureurs d'une insuffisance respiratoire dans son explication, mais a quand même conseillé d'attendre plutôt que de demander un traitement d'urgence. »

Les auteurs de l’étude conseillent qu’en cas d’aggravation ou de symptômes préoccupants, notamment des douleurs thoraciques, un essoufflement, des réactions allergiques graves ou des changements de l’état mental, les personnes devraient consulter un médecin directement plutôt que de se fier uniquement aux conseils d’un chatbot. Dans les cas impliquant des pensées d’automutilation, les individus doivent contacter le 988 Suicide and Crisis Lifeline ou se rendre aux urgences.

Néanmoins, les chercheurs soulignent que les résultats ne suggèrent pas que les consommateurs devraient abandonner complètement les outils de santé basés sur l’IA.

« En tant qu'étudiant en médecine à une époque où les outils de santé IA sont déjà entre les mains de millions de personnes, je les considère comme des technologies que nous devons apprendre à intégrer de manière réfléchie dans les soins plutôt que comme des substituts au jugement clinique », déclare Alvira Tyagi, étudiante en première année de médecine à l'École de médecine Icahn du Mont Sinaï et deuxième auteur de l'étude. « Ces systèmes évoluent rapidement, c'est pourquoi une partie de notre formation doit désormais envisager d'apprendre à comprendre leurs résultats de manière critique, à identifier leurs lacunes et à les utiliser de manière à protéger les patients. »

L’étude a évalué le système à un moment donné. Les modèles d’IA étant fréquemment mis à jour, les performances peuvent changer avec le temps, soulignant la nécessité d’une évaluation indépendante, affirment les chercheurs.

« Démarrer la formation médicale parallèlement à des outils qui évoluent en temps réel montre clairement que les résultats d'aujourd'hui ne sont pas gravés dans le marbre », déclare Mme Tyagi. « Cette réalité nécessite un examen continu pour garantir que les améliorations technologiques se traduisent par des soins plus sûrs. »

L'équipe prévoit de continuer à évaluer les versions mises à jour de ChatGPT Health et d'autres outils d'IA destinés aux consommateurs, en élargissant les recherches futures à des domaines tels que les soins pédiatriques, la sécurité des médicaments et l'utilisation de langues autres que l'anglais.

L'article s'intitule « Performances de ChatGPT Health dans un test structuré de recommandations de triage ».

Les auteurs de l'étude, tels que répertoriés dans la revue, sont Ashwin Ramaswamy, MD, MPP ; Alvira Tyagi, BA; Hannah Hugo, MD; Joy Jiang, Ph.D. ; Pushkala Jayaraman, Ph.D. ; Mateen Jangda, MSc; Alexis E. Te, MD; Steven A. Kaplan, MD ; Joshua Lampert, MD; Robert Freeman, MSN, MS ; Nicolas Gavin, MD, MBA ; Ashutosh K. Tewari, MBBS, MCh ; Ankit Sakhuja, MBBS MS ; Bilal Naved, Ph.D. ; Alexander W. Charney, MD, PhD ; Mahmud Omar, MD; Michael A. Gorin, MD; Eyal Klang, MD; Girish N. Nadkarni, MD, MPH.