Dans une étude récente publiée dans la revue PLoS UNles chercheurs ont testé chatGPT, un modèle de langage destiné à la discussion, pour déterminer s’il pouvait répondre aux questions fréquemment posées sur le diabète.
L’intelligence artificielle (IA), en particulier ChatGPT, a suscité une attention considérable en raison de ses applications cliniques potentielles. Bien qu’il n’ait pas été formé explicitement pour ce domaine, ChatGPT compte des millions d’utilisateurs actifs dans le monde. Des études ont montré que les individus sont plus réceptifs aux solutions basées sur l’IA pour les scénarios à faible risque, avec des taux d’acceptation plus élevés. Cela nécessite des études plus approfondies sur la compréhension et l’utilisation de grands modèles basés sur le langage comme ChatGPT dans des circonstances de routine et un traitement clinique régulier.
Étude : ChatGPT versus réponses générées par l’homme aux questions fréquemment posées sur le diabète : une enquête inspirée du test de Turing auprès des employés d’un centre danois du diabète. Crédit image : Andrey_Popov / Shutterstock
À propos de l’étude
Dans la présente étude, les chercheurs ont évalué l’expertise de ChatGPT en matière de diabète, en particulier sa capacité à répondre aux questions fréquemment posées liées au diabète de la même manière que les humains.
Les chercheurs ont spécifiquement étudié si les participants ayant une expertise en matière de diabète allant de certains à experts pouvaient faire la distinction entre les réponses fournies par les personnes et celles écrites par ChatGPT pour répondre aux requêtes courantes concernant le diabète. En outre, les chercheurs ont examiné si les personnes ayant déjà eu des interactions avec des patients diabétiques en tant que prestataires de santé et les personnes ayant déjà utilisé ChatGPT étaient plus à même de détecter les réponses générées par ChatGPT.
L’étude comprend une enquête informatisée fermée inspirée du test de Turing auprès de tous les travailleurs du Steno Diabetes Center Aarhus (SDCA) (à temps partiel ou à temps plein). Le sondage comprenait 10 requêtes à choix multiples avec deux types de réponses, l’une rédigée par des humains et l’autre produite par ChatGPT, en plus de questions sur l’âge, le sexe et les contacts passés avec les utilisateurs de ChatGPT. Les participants devaient reconnaître la réponse générée par ChatGPT.
Les processus physiopathologiques, la thérapie, les complications, l’activité physique et l’alimentation ont tous été abordés dans les dix questions. La section « Questions fréquemment posées » du site Web de l’Association danoise du diabète, consultée le 10 janvier 2023, comprenait huit questions. Les chercheurs ont conçu les questions restantes pour qu’elles correspondent à des lignes particulières du site Web du Centre de connaissances sur le diabète et à un rapport sur l’activité physique et le diabète sucré de type 1.
Une modélisation de régression logistique a été réalisée pour l’analyse et les rapports de cotes (OR) ont été déterminés. L’équipe a évalué l’influence des caractéristiques des participants sur les résultats de l’analyse secondaire. Basée sur des simulations précises, une marge de non-infériorité de 55 % a été prédéfinie et rendue publique dans le cadre du protocole de recherche avant le début de la collecte des données. Dans le cas des réponses écrites par des humains, elles ont été directement extraites de documents ou de sites Web sources à partir desquels l’équipe a identifié les requêtes.
Pour des raisons pratiques, deux chercheurs, tous deux experts en santé, ont tronqué quelques réponses pour atteindre le nombre de mots souhaité. Avant d’incorporer les questions, le contexte ainsi que trois échantillons (sélectionnés au hasard parmi 13 paires de questions et réponses) ont été fournis au modèle de langage basé sur l’IA dans les invites, chaque question étant posée dans les fenêtres de discussion individuelles. Les individus ont été invités par courrier électronique, qui comprenait des URL spécifiques à la personne leur permettant de répondre au sondage une seule fois. Les informations ont été recueillies entre le 23 et le 27 janvier 2023.
Résultats
Sur les 311 personnes invitées, 183 ont répondu à l’enquête (taux de réponse de 59 %), dont 70 % (n=129) étaient des femmes, 64 % avaient déjà entendu parler de ChatGPT, 19 % l’avaient utilisé et 58 % (n=107) ont eu des interactions antérieures avec des patients diabétiques en tant que praticiens de la santé. Le modèle linguistique basé sur l’IA a été conçu pour fournir des réponses de 45 à 65 mots correspondant aux réponses humaines ; cependant, le nombre moyen de mots était de 70. Cependant, les recommandations de la consultation et les trois premières lignes des questions ont été supprimées, et les réponses ChatGPT ont été considérées comme comprenant 56 mots (en moyenne).
Sur les 10 questions, la proportion de réponses correctes variait entre 38 % et 74 %. Les participants ont correctement identifié les réponses générées par ChatGPT dans 60 % des cas, ce qui dépassait le seuil de non-infériorité. Les hommes et les femmes avaient respectivement 64 % et 58 % de chances de reconnaître avec précision la réponse générée par l’intelligence artificielle. Les personnes ayant déjà eu des contacts avec des patients diabétiques avaient 61 % de chances de répondre précisément aux questions, contre 57 % pour celles qui n’avaient jamais eu de contacts avec des patients diabétiques.
L’utilisation précédente de ChatGPT a montré le lien le plus solide avec le résultat (OR, 1,5) parmi les caractéristiques des participants. Un rapport de cotes de taille comparable a été observé pour le modèle dans lequel l’âge au-delà de 50 ans était associé à une probabilité plus élevée de reconnaître correctement la réponse générée par l’intelligence artificielle (OR, 1,3). Les anciens utilisateurs et non-utilisateurs de chatGPT ont répondu correctement à 67 % et 58 % des questions, respectivement. Contrairement au principe initial, les participants pouvaient mieux discerner entre les réponses générées par ChatGPT et les réponses écrites par des humains que de tirer à pile ou face.
Conclusion
Dans l’ensemble, l’étude sert d’exploration initiale des capacités et des limites de ChatGPT pour fournir des conseils centrés sur le patient pour la gestion des maladies chroniques, en particulier le diabète. Bien que ChatGPT ait démontré un certain potentiel pour répondre avec précision aux questions fréquemment posées, les problèmes liés à la désinformation et au manque de conseils nuancés et personnalisés étaient évidents. Alors que les grands modèles linguistiques recoupent de plus en plus les soins de santé, des études rigoureuses sont essentielles pour évaluer leur sécurité, leur efficacité et leurs considérations éthiques dans les soins aux patients, soulignant la nécessité de cadres réglementaires robustes et d’une surveillance continue.