Les prestataires de soins et les patients utilisent Internet pour obtenir rapidement des informations sur les soins de santé. Par conséquent, il n’est pas surprenant que le contenu axé sur la fertilité ait été largement exploré au fil des ans. Malheureusement, bien que des millions de résultats apparaissent dans une seule recherche Google pour le mot « infertilité », l’exactitude médicale de ce contenu n’est pas vérifiée.
Les progrès du traitement du langage naturel (TAL), une branche de l’intelligence artificielle (IA), ont permis aux ordinateurs d’apprendre et d’utiliser le langage humain pour communiquer. Récemment, OpenAI a développé un chatbot IA appelé ChatGPT, qui permet aux utilisateurs humains d’avoir des conversations avec une interface informatique.
Étude: La promesse et le péril de l’utilisation d’un grand modèle de langage pour obtenir des informations cliniques : ChatGPT fonctionne très bien comme un outil de conseil en fertilité avec des limites
Une récente Fertilité et stérilité L’étude a utilisé la fertilité comme domaine pour tester les performances de ChatGPT et évaluer son utilisation en tant qu’outil clinique.
Sommaire
L’évolution récente de ChatGPT
Le caractère unique de ChatGPT peut être attribué à sa capacité à effectuer des tâches linguistiques, telles que rédiger des articles, répondre à des questions ou même raconter des blagues. Ces fonctionnalités ont été développées suite aux avancées récentes des nouveaux algorithmes d’apprentissage en profondeur (DL).
Par exemple, Generative Pretrained Transformer 3 (GPT-3) est un algorithme DL, qui se distingue par sa grande quantité de données de formation de 57 milliards de mots et 175 milliards de paramètres provenant de sources variées.
En novembre 2022, ChatGPT a été initialement publié en tant que version mise à jour du modèle GPT-3.5. Par la suite, elle est devenue l’application à la croissance la plus rapide de tous les temps, acquérant plus de 100 millions d’utilisateurs au cours des deux mois suivant sa sortie.
Bien qu’il soit possible d’utiliser ChatGPT comme outil clinique permettant aux patients d’accéder à des informations médicales, il existe certaines limites à l’utilisation de ce modèle pour les informations cliniques.
Depuis février 2023, ChatGPT a été formé avec des données jusqu’en 2021 ; par conséquent, il n’est pas équipé des dernières données. De plus, l’une des préoccupations critiques concernant son utilisation est la production d’informations plagiées et inexactes.
En raison de la facilité d’utilisation et du langage humain, les patients sont incités à utiliser cette application pour poser des questions concernant leur santé et recevoir des réponses. Par conséquent, il est impératif de caractériser la performance de ce modèle en tant qu’outil clinique et d’élucider s’il fournit des réponses trompeuses.
À propos de l’étude
L’étude actuelle a testé la version ChatGPT « Feb 13 » pour évaluer sa cohérence dans la réponse aux questions cliniques liées à la fertilité qu’un patient pourrait poser au chatbot. Les performances de ChatGPT ont été évaluées en fonction de trois domaines.
Le premier domaine était associé aux questions fréquemment posées sur l’infertilité sur le site Web des Centers for Disease Control and Prevention (CDC) des États-Unis. Un total de 17 questions fréquemment posées, telles que « qu’est-ce que l’infertilité? » ou « comment les médecins traitent-ils l’infertilité ? » ont été considerés.
Ces questions ont été saisies dans ChatGPT au cours d’une seule session. Les réponses produites par ChatGPT ont été comparées aux réponses fournies par CDC.
Le deuxième domaine a utilisé d’importantes enquêtes liées à la fécondité. Le questionnaire Cardiff Fertility Knowledge Scale (CFKS), qui comprend des questions sur la fertilité, les idées fausses et les facteurs de risque d’altération de la fertilité, a été utilisé pour ce domaine. En outre, le questionnaire d’enquête FIT-KS (Fertility and Infertility Treatment Knowledge Score) a également été utilisé pour évaluer les performances de ChatGPT.
Le troisième domaine s’est concentré sur l’évaluation de la capacité du chatbot à reproduire la norme clinique dans la fourniture de conseils médicaux. Ce domaine a été structuré sur la base de l’avis du comité de l’American Society for Reproductive Medicine (ASRM) « Optimiser la fertilité naturelle ».
Résultats de l’étude
ChatGPT a fourni des réponses aux questions du premier domaine qui ressemblaient aux réponses fournies par le CDC sur l’infertilité. La durée moyenne des réponses fournies par le CDC et ChatGPT était la même.
Lors de l’analyse de la fiabilité du contenu fourni par ChatGPT, aucun fait significativement différent n’a été trouvé entre les données du CDC et les réponses produites par ChatGPT. Aucune polarité différentielle des sentiments et aucune subjectivité n’ont été observées. Notamment, seulement 6,12% des déclarations factuelles de ChatGPT ont été identifiées comme incorrectes, alors qu’une déclaration a été citée comme référence.
Dans le deuxième domaine, ChatGPT a obtenu des scores élevés correspondant aux 87e centile de la cohorte internationale 2013 de Bunting pour le CFKS et le 95e centile basé sur la cohorte 2017 de Kudesia pour le FIT-KS. Pour toutes les questions, ChatGPT a fourni un contexte et une justification de ses choix de réponse. De plus, ChatGPT n’a produit qu’une seule fois une réponse non concluante, et la réponse a été considérée comme n’étant ni correcte ni incorrecte.
Dans le troisième domaine, ChatGPT a reproduit les faits manquants pour les sept déclarations récapitulatives de « Optimiser la fertilité naturelle ». Pour chaque réponse, ChatGPT a souligné le fait retiré de la déclaration et n’a pas fourni de faits en désaccord. Dans ce domaine, des résultats cohérents ont été obtenus dans toutes les administrations répétées.
Limites
L’étude actuelle présente plusieurs limites, notamment l’évaluation d’une seule version de ChatGPT. Récemment, le lancement de modèles similaires, tels que Microsoft Bing et Google Bard alimentés par l’IA, permettra aux patients d’accéder à des chatbots alternatifs. Par conséquent, la nature et la disponibilité de ces modes sont sujettes à des changements rapides.
Tout en fournissant des réponses rapides, il est possible que ChatGPT utilise des données provenant de références non fiables. De plus, la cohérence du modèle peut être affectée lors de la prochaine itération. Par conséquent, il est également important de caractériser la volatilité de la réponse du modèle avec diverses données mises à jour.