Dans une récente étude publiée sur medRxiv* serveur de préimpression, les chercheurs évaluent l’exactitude et la reproductibilité des réponses des versions 3.5 et 4 de ChatGPT pour répondre aux questions liées à l’insuffisance cardiaque.
Étude: Pertinence de ChatGPT pour répondre aux questions liées à l’insuffisance cardiaque. Crédit d’image : SuPatMaN / Shutterstock.com
*Avis important: medRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/les comportements liés à la santé, ou traités comme des informations établies.
Sommaire
Arrière-plan
D’ici 2030, les chercheurs estiment que les coûts des soins de santé associés à l’insuffisance cardiaque atteindront environ 70 milliards de dollars américains chaque année aux États-Unis. Environ 70 % de ces coûts sont dus aux hospitalisations, qui représentent 1 à 2 % de toutes les admissions à l’hôpital aux États-Unis. Des études ont montré que les patients qui possèdent plus de connaissances sur la gestion de leur maladie cardiaque ont tendance à avoir des séjours hospitaliers moins nombreux et plus courts.
Avec l’utilisation croissante des ressources en ligne pour les informations sur la santé, près d’un milliard de questions liées à la santé sont recherchées chaque jour sur Google. Un modèle d’intelligence artificielle (IA) notable connu sous le nom de Chat Generative Pre-Trained Transformer (ChatGPT) a récemment gagné en popularité.
ChatGPT est un grand modèle de langage (LLM) qui a été formé sur un ensemble de données diversifié, y compris des sujets médicaux, et peut fournir des réponses conversationnelles aux requêtes des utilisateurs. La communauté médicale étudie activement l’utilité de ChatGPT et de modèles similaires dans le domaine de la médecine en évaluant ses connaissances et ses capacités de raisonnement.
À propos de l’étude
Dans la présente étude, les chercheurs ont recueilli une liste de 125 questions fréquemment posées sur l’insuffisance cardiaque auprès d’organisations médicales réputées et de groupes de soutien Facebook. Après une évaluation minutieuse, 18 questions avec un contenu en double, une formulation vague ou ne répondant pas au point de vue du patient ont été éliminées.
Les 107 questions restantes ont ensuite été saisies deux fois dans les deux versions de ChatGPT à l’aide de la fonctionnalité « nouveau chat », ce qui a conduit à la génération de deux réponses pour chaque question de chaque modèle.
Pour évaluer l’exactitude des réponses, deux cardiologues certifiés par le conseil les ont notées indépendamment à l’aide d’une échelle composée de quatre catégories allant de complète, correcte mais inadéquate, certaines correctes et d’autres incorrectes, et complètement incorrectes. Ce processus d’évaluation a été effectué pour les réponses ChatGPT-3.5 et ChatGPT-4. La reproductibilité des réponses a également été évaluée en comparant les scores d’exhaustivité et de précision des deux réponses pour chaque question de chaque modèle.
Toute divergence de notation entre les examinateurs a été résolue par un troisième examinateur qui est un spécialiste certifié de l’insuffisance cardiaque avancée avec plus de 20 ans d’expérience clinique.
Résultats de l’étude
L’évaluation des réponses des deux modèles ChatGPT a révélé que la plupart des réponses étaient considérées comme « complètes » ou « correctes mais inadéquates ». ChatGPT-4 a montré une plus grande profondeur de connaissances complètes dans les catégories de «gestion» et de «connaissances de base» par rapport à ChatGPT-3.5.
Les performances de ChatGPT-3.5 étaient meilleures dans la catégorie « autre », qui englobait des sujets tels que le pronostic et les procédures d’assistance. Par exemple, ChatGPT-3.5 a fourni une réponse générale sur les avantages cardiaques des inhibiteurs du cotransporteur sodium-glucose-2 (SGLT2), tandis que ChatGPT-4 a offert une réponse plus détaillée mais concise concernant l’impact de ces agents sur la diurèse et la pression artérielle.
Environ 2 % des réponses de ChatGPT-3.5 ont été classées comme « certaines correctes et d’autres incorrectes », tandis qu’aucune réponse de ChatGPT-4 n’entrait dans cette catégorie ou dans la catégorie « complètement incorrect ». Lors de l’examen de la reproductibilité, les deux modèles ont fourni des réponses cohérentes pour la plupart des questions, la version ChatGPT-3.5 obtenant plus de 94 % dans toutes les catégories et GPT-4 atteignant une reproductibilité de 100 % pour toutes les réponses.
conclusion
La présente étude a rapporté que ChatGPT-4 a démontré des performances supérieures par rapport à ChatGPT-3.5 en fournissant des réponses plus complètes aux questions liées à l’insuffisance cardiaque sans aucune réponse incorrecte. Les deux modèles ont montré une reproductibilité élevée pour la plupart des questions. Ces résultats mettent en évidence les capacités impressionnantes et les progrès rapides des LLM pour fournir des informations fiables et complètes aux patients.
ChatGPT a le potentiel de servir de ressource précieuse pour les personnes souffrant de maladies cardiaques en leur donnant des connaissances sous la direction de prestataires de soins de santé. L’interface conviviale et les réponses conversationnelles de type humain font de ChatGPT un outil attrayant pour les patients à la recherche d’informations relatives à la santé. L’amélioration des performances de ChatGPT-4 peut être attribuée à une formation améliorée, qui se concentre sur une meilleure compréhension de l’intention de l’utilisateur et la gestion de scénarios complexes.
Bien que ChatGPT ait bien fonctionné dans cette étude, il existe des limites importantes à prendre en compte. Parfois, le modèle peut fournir des réponses inexactes mais crédibles et, parfois, des réponses absurdes.
La précision du modèle repose sur son ensemble de données de formation, qui n’a pas été divulgué, et les recommandations peuvent varier d’une région à l’autre. Les limites supplémentaires incluent l’incapacité à aveugler les examinateurs aux versions de ChatGPT et le potentiel de biais introduit par l’examen subjectif, malgré l’utilisation d’un panel de plusieurs examinateurs.
Des recherches et une exploration plus approfondies des capacités et des limites de ChatGPT sont recommandées pour maximiser son impact potentiel sur l’amélioration des résultats pour les patients.
*Avis important: medRxiv publie des rapports scientifiques préliminaires qui ne sont pas évalués par des pairs et, par conséquent, ne doivent pas être considérés comme concluants, guider la pratique clinique/les comportements liés à la santé, ou traités comme des informations établies.