Le chatbot ChatGPT a obtenu de meilleurs résultats que les médecins stagiaires dans l'évaluation des cas complexes de maladies respiratoires dans des domaines tels que la fibrose kystique, l'asthme et les infections thoraciques dans une étude présentée au congrès de la Société européenne de pneumologie (ERS) à Vienne, en Autriche.
L'étude a également montré que le chatbot Bard de Google obtenait de meilleurs résultats que les stagiaires dans certains aspects et que le chatbot Bing de Microsoft obtenait d'aussi bons résultats que les stagiaires.
La recherche suggère que ces grands modèles linguistiques (LLM) pourraient être utilisés pour aider les médecins stagiaires, les infirmières et les médecins généralistes à trier les patients plus rapidement et à alléger la pression sur les services de santé.
L’étude a été présentée par le Dr Manjith Narayanan, consultant en pneumologie pédiatrique au Royal Hospital for Children and Young People d’Édimbourg et maître de conférences honoraire en médecine clinique à l’Université d’Édimbourg, au Royaume-Uni.
Les grands modèles de langage, comme ChatGPT, sont devenus célèbres au cours de la dernière année et demie grâce à leur capacité à comprendre le langage naturel et à fournir des réponses capables de simuler de manière adéquate une conversation de type humain. Ces outils ont plusieurs applications potentielles en médecine. Ma motivation pour mener cette recherche était d'évaluer dans quelle mesure les LLM sont capables d'aider les cliniciens dans la vie réelle.
Dr Manjith Narayanan, consultant en pneumologie pédiatrique, Royal Hospital for Children and Young People, Édimbourg
Pour étudier cette question, le Dr Narayanan a utilisé des scénarios cliniques fréquemment utilisés en pneumologie pédiatrique. Ces scénarios ont été fournis par six autres experts en pneumologie pédiatrique et couvraient des sujets tels que la fibrose kystique, l’asthme, les troubles respiratoires du sommeil, l’essoufflement et les infections pulmonaires. Il s’agissait de scénarios pour lesquels il n’existait aucun diagnostic évident et pour lesquels il n’existait aucune preuve publiée, aucune ligne directrice ou consensus d’experts indiquant un diagnostic ou un plan spécifique.
Dix médecins stagiaires ayant moins de quatre mois d’expérience clinique en pédiatrie ont eu droit à une heure durant laquelle ils pouvaient utiliser Internet, mais pas de chatbot, pour résoudre chaque scénario avec une réponse descriptive de 200 à 400 mots. Chaque scénario a également été présenté aux trois chatbots.
Toutes les réponses ont été évaluées par six experts en pneumologie pédiatrique en termes d’exactitude, d’exhaustivité, d’utilité, de plausibilité et de cohérence. Il leur a également été demandé d’indiquer s’ils pensaient que chaque réponse était générée par un humain ou par un chatbot et d’attribuer à chaque réponse une note globale sur neuf.
Les solutions fournies par la version 3.5 de ChatGPT ont obtenu une note moyenne de sept sur neuf et ont été jugées plus humaines que les réponses des autres chatbots. Bard a obtenu une note moyenne de six sur neuf et a été jugé plus « cohérent » que les médecins stagiaires, mais à d’autres égards, il n’était ni meilleur ni pire que les médecins stagiaires. Bing a obtenu une note moyenne de quatre sur neuf, soit la même que les médecins stagiaires dans l’ensemble. Les experts ont identifié de manière fiable les réponses de Bing et de Bard comme non humaines.
Le Dr Narayanan a déclaré : « Notre étude est la première, à notre connaissance, à tester les LLM auprès de médecins stagiaires dans des situations qui reflètent la pratique clinique réelle. Nous y sommes parvenus en permettant aux médecins stagiaires d'avoir pleinement accès aux ressources disponibles sur Internet, comme ils le feraient dans la vie réelle. Cela permet de ne plus se concentrer sur les tests de mémoire, où les LLM présentent un avantage évident. Par conséquent, cette étude nous montre une autre façon d'utiliser les LLM et à quel point nous sommes proches d'une application clinique quotidienne régulière.
« Nous n’avons pas testé directement le fonctionnement des LLM dans les rôles en contact direct avec les patients. Cependant, ils pourraient être utilisés par les infirmières de triage, les médecins stagiaires et les médecins de soins primaires, qui sont souvent les premiers à examiner un patient. »
Les chercheurs n'ont pas trouvé de cas évidents d'hallucinations (informations apparemment inventées) chez aucun des trois LLM. « Même si, dans notre étude, nous n'avons observé aucun cas d'hallucination chez les LLM, nous devons être conscients de cette possibilité et mettre en place des mesures d'atténuation contre cela », a ajouté le Dr Narayanan. Des réponses jugées non pertinentes dans le contexte ont été parfois données par Bing, Bard et les médecins stagiaires.
Le Dr Narayanan et ses collègues prévoient désormais de tester les chatbots auprès de médecins plus expérimentés et d’étudier des LLM plus récents et plus avancés.
Hilary Pinnock est présidente du conseil d'éducation de l'ERS et professeure de médecine respiratoire de premier recours à l'université d'Édimbourg, au Royaume-Uni, et n'a pas participé à la recherche. Elle déclare : « C'est une étude fascinante. C'est encourageant, mais peut-être aussi un peu effrayant, de voir comment un outil d'IA largement disponible comme ChatGPT peut apporter des solutions à des cas complexes de maladies respiratoires chez les enfants. Cela ouvre certainement la voie à un nouveau monde de soins assistés par l'IA.
« Cependant, comme le soulignent les chercheurs, avant de commencer à utiliser l’IA dans la pratique clinique de routine, nous devons être sûrs qu’elle ne créera pas d’erreurs, soit en « hallucinant » de fausses informations, soit parce qu’elle a été formée sur des données qui ne représentent pas équitablement la population que nous servons. Comme l’ont démontré les chercheurs, l’IA offre la promesse d’une nouvelle façon de travailler, mais nous devons procéder à des tests approfondis de précision et de sécurité cliniques, à une évaluation pragmatique de l’efficacité organisationnelle et à une exploration des implications sociétales avant d’intégrer cette technologie dans les soins de routine. »