Étude : les chatbots IA peuvent-ils répondre avec précision aux questions des patients concernant la vasectomie ? Crédit photo : Fabian Montano Hernandez / Shutterstock
Sommaire
ChatGPT a fourni les réponses les plus précises et les plus concises aux questions fréquemment posées sur la vasectomie par rapport à Gemini (anciennement Bard) et Copilot (anciennement Bing), ce qui en fait une ressource fiable pour les patients.
Dans une étude récente publiée dans la revue IJIR : Votre journal de médecine sexuelle, Les chercheurs ont évalué l'efficacité et la précision de trois chatbots d'intelligence artificielle générative (IA) courants pour répondre à des questions de santé de base. Plus précisément, ils ont étudié les performances de ChatGPT-3.5, Bing Chat et Google Bard pour répondre à des questions liées à la vasectomie.
Une évaluation critique réalisée par une équipe d'urologues qualifiés a révélé que si tous les modèles ont obtenu des résultats satisfaisants aux dix tests de questions courantes, l'algorithme ChatGPT a obtenu le score moyen le plus élevé (1,367), surpassant largement Bing Chat et Google Bard (p = 0,03988 et p = 0,00005, respectivement). Il est encourageant de constater qu'à l'exception de Google Bard (désormais « Gemini ») qui a présenté une réponse « insatisfaisante » à la question « Une vasectomie fait-elle mal ? », toutes les réponses de l'IA générative ont été jugées « satisfaisantes » ou « excellentes ». Ensemble, ces résultats soulignent les avantages du développement de l'IA générative dans le secteur de la santé, en particulier lorsqu'elle est utilisée pour répondre aux questions de base et courantes des patients de manière précise et opportune.
Les auteurs de l’étude soulignent toutefois que si ces résultats sont prometteurs, ils sont basés sur les réponses examinées par seulement trois urologues non aveugles, ce qui peut avoir introduit un biais dans les évaluations. Malgré cette limitation, les résultats constituent un pas en avant dans la validation des chatbots IA pour l’éducation des patients.
Arrière-plan
L'intelligence artificielle (IA) est le nom collectif d'un ensemble de modèles et de technologies qui permettent aux ordinateurs et aux machines d'effectuer des tâches avancées avec une perception, une compréhension et un apprentissage itératif de type humain. L'IA générative est un sous-ensemble de ces technologies qui apprennent à partir de grands ensembles de données d'apprentissage automatique (ML) fournis par l'homme, générant ainsi de nouveaux textes, supports audiovisuels et autres types de données informatives.
Les progrès récents en matière de matériel informatique (puissance de traitement), de logiciels (algorithmes avancés) et de vastes ensembles de données d'entraînement ont permis à l'IA de connaître une croissance sans précédent, en particulier dans le secteur de la santé. Renforcé par la récente pandémie de maladie à coronavirus 2019 (COVID-19), le nombre de patients qui recherchent des conseils médicaux en ligne est plus élevé que jamais.
Les chatbots IA sont des logiciels qui exploitent des modèles d'IA génératifs pour répondre aux requêtes des utilisateurs dans un langage facilement compréhensible sans avoir recours à des agents humains. Il existe de nombreux chatbots IA, parmi lesquels ChatGPT d'OpenAI, Bard de Google (désormais « Gemini ») et Bing Chat de Microsoft (désormais « Copilot ») représentent les plus utilisés. ChatGPT à lui seul aurait compté plus de 200 millions d'utilisateurs et plus de 1,7 milliard de réponses mensuelles en moins de deux ans depuis sa sortie publique. Bien que des preuves anecdotiques provenant d'utilisateurs et d'experts suggèrent que les chatbots surpassent considérablement les résultats des moteurs de recherche conventionnels pour répondre aux questions médicales courantes, ces hypothèses n'ont jamais été formellement étudiées.
À propos de l'étude
La présente étude vise à combler cette lacune dans la littérature en utilisant le raisonnement subjectif humain (expert) pour évaluer les réponses des chatbots aux questions urologiques courantes concernant la procédure de vasectomie. Compte tenu de leur utilisation généralisée (plus de 100 millions d'utilisateurs), les chatbots étudiés incluent ChatGPT-3.5, Google Bard et Bing Chat.
Les données de l'étude ont été obtenues en une seule séance en demandant à trois urologues experts agréés d'évaluer les réponses (échelle à quatre points) à 10 questions courantes sur la vasectomie. Les questions ont été choisies dans une banque de questions générée indépendamment comprenant 30 questions.
« Les réponses ont été notées comme suit : 1 (excellente réponse ne nécessitant pas de clarification), 2 (satisfaisante nécessitant une clarification minimale), 3 (satisfaisante nécessitant une clarification modérée) ou 4 (insatisfaisante nécessitant une clarification substantielle). Les notes de 1 étaient celles qui fournissaient un niveau de détail et de preuve comparable à ce qui est rapporté dans la littérature actuelle, tandis que des notes de 4 étaient attribuées si les réponses étaient considérées comme incorrectes ou suffisamment vagues pour inviter à une mauvaise interprétation potentielle. »
Après les évaluations, des analyses statistiques, notamment une analyse de variance à un facteur (ANOVA) et le test de différence significative honnête de Tukey (HSD), ont été utilisés pour élucider les différences entre les résultats spécifiques aux chatbots. Les résultats ont montré que les scores de ChatGPT étaient significativement différents de ceux de Bard et de Bing (p = 0,00005 et p = 0,03988, respectivement), tandis que la différence entre Bard et Bing s'est avérée insignifiante (p = 0,09651).
Résultats de l'étude
Parmi les trois modèles évalués, le modèle ChatGPT s'est révélé le plus performant, avec un score moyen de 1,367 (le plus bas étant le meilleur) et 41 points sur les dix questions. En comparaison, Bing a obtenu un score moyen de 1,800 (total = 54) et Bard un score moyen de 2,167 (total = 65). Il convient de noter que les scores de Bing et de Bard étaient statistiquement indiscernables.
Les résultats ont été similaires dans les évaluations de cohérence, où ChatGPT a une fois de plus obtenu les meilleurs scores – c'était le seul chatbot à recevoir des notes unanimes « excellent » (score = 1) de la part des trois experts et ce pour trois questions distinctes. En revanche, la pire note reçue a été celle d'un expert qui a jugé « insatisfaisante » l'une des réponses de Bard à la question « Est-ce qu'une vasectomie fait mal ? » (score = 4).
« La question qui a reçu le score le plus élevé en moyenne était « Les vasectomies affectent-elles les niveaux de testostérone ? » (score moyen 2,22 ± 0,51) et la question qui a reçu le score le plus bas en moyenne était « Quelle est l'efficacité des vasectomies comme contraception ? » (score moyen 1,44 ± 0,56). »
Conclusions
La présente étude est la première à évaluer scientifiquement les performances de trois chatbots d'IA couramment utilisés (avec des différences significatives dans leurs modèles ML sous-jacents) pour répondre aux questions médicales des patients. Dans ce cadre, les experts ont noté les réponses des chatbots aux questions fréquemment posées concernant la procédure de vasectomie.
Contrairement au conseil général de « ne pas rechercher vos questions médicales sur Google », tous les chatbots IA évalués ont reçu des notes globalement positives avec des scores moyens allant de 1,367 (ChatGPT) à 2,167 (Bard) sur une échelle de 4 points (1 = excellent, 4 = insatisfaisant, plus c'est bas, mieux c'est). ChatGPT s'est avéré être le meilleur des trois modèles et le plus fiable de manière constante (avec trois notes unanimes « excellentes »). Bien que Bard ait reçu une note isolée « insatisfaisante » pour une seule question, cela ne s'est produit qu'une seule fois et peut être considéré comme une valeur aberrante statistique.
Ces résultats montrent que les chatbots IA sont des sources d’information précises et efficaces pour les patients en quête de conseils pédagogiques sur des pathologies courantes, réduisant ainsi la charge de travail des médecins et les dépenses financières potentielles (frais de consultation) pour le grand public. Cependant, l’étude met également en évidence des préoccupations éthiques potentielles, notamment concernant les évaluations non aveugles et le petit nombre d’examinateurs, qui pourraient avoir introduit un biais dans les résultats.