L'étude évalue la capacité du GPT-4 à traiter les notes médicales en anglais, espagnol et italien, obtenant ainsi l'accord du médecin dans 79 % des cas.
Étude: Le potentiel de Generative Pre-trained Transformer 4 (GPT-4) pour analyser des notes médicales dans trois langues différentes : une étude rétrospective d'évaluation de modèle. Crédit d’image : SuPatMaN/Shutterstock.com
Dans une étude récente publiée dans le Lancet Santé numériqueun groupe de chercheurs a évalué la capacité de Generative Pre-trained Transformer 4 (GPT-4) à répondre à des questions prédéfinies basées sur des notes médicales rédigées en trois langues (anglais, espagnol et italien).
Sommaire
Arrière-plan
Les notes médicales contiennent des informations cliniques précieuses, mais leur format narratif non structuré pose des défis pour l'analyse automatisée.
Les modèles en grand langage (LLM) comme GPT-4 sont prometteurs pour extraire des détails explicites tels que les médicaments, mais ont souvent du mal à comprendre le contexte implicite, essentiel pour une prise de décision médicale nuancée. La variabilité des styles de documentation selon les fournisseurs ajoute à la complexité.
Les recherches existantes démontrent le potentiel des LLM pour traiter des données médicales en texte libre, notamment pour décoder les abréviations et extraire les déterminants sociaux de la santé, mais ces études se concentrent principalement sur les notes en anglais.
Des recherches supplémentaires sont essentielles pour améliorer la capacité des LLM à gérer des tâches complexes, à améliorer le raisonnement contextuel et à évaluer les performances dans plusieurs langues et contextes.
À propos de l'étude
La présente étude rétrospective d'évaluation de modèle a impliqué huit hôpitaux universitaires de quatre pays : les États-Unis d'Amérique (USA), la Colombie, Singapour et l'Italie.
Les institutions participantes faisaient partie du Consortium 4CE. Ils comprenaient le Boston Children's Hospital, l'Université du Michigan, l'Université du Wisconsin, l'Université nationale de Singapour, le centre médical de l'Université du Kansas, le centre médical de l'Université de Pittsburgh, l'Université d'Antioquia et l'Istituti Clinici Scientifici Maugeri.
Le Département d'informatique biomédicale de l'Université Harvard a servi de centre de coordination. Chaque site a fourni sept notes médicales anonymisées, rédigées entre le 1er février 2020 et le 1er juin 2023, ce qui donne un total de 56 notes médicales, six sites soumettant des notes en anglais, une en espagnol et une en italien.
Les sites participants ont sélectionné des notes sur la base de critères suggérés, y compris des patients âgés de 18 à 65 ans ayant reçu un diagnostic d'obésité et de maladie à coronavirus 2019 (COVID-19) à l'admission. Le respect de ces critères était facultatif.
Les notes soumises comprenaient des notes d’admission, de progrès et de consultation, mais aucun résumé de sortie. Les billets ont été anonymisés conformément aux directives de la Health Insurance Portability and Accountability Act des États-Unis, quel que soit le pays d'origine.
L'étude a utilisé l'API de GPT-4 en Python pour analyser les notes médicales via un cadre de questions-réponses prédéfini. Des paramètres tels que la température, le top-p et la pénalité de fréquence ont été ajustés pour optimiser les performances.
Les médecins ont évalué les réponses sous forme de texte libre et ont indiqué s'ils étaient d'accord avec les réponses du GPT-4. Ils étaient masqués par les évaluations des uns et des autres mais pas par les réponses du GPT-4.
Des analyses statistiques ont été effectuées pour évaluer l'accord entre le GPT-4 et les médecins, en explorant les cas de désaccord et en catégorisant les erreurs en problèmes d'extraction, d'inférence ou d'hallucination.
Les analyses de sous-groupes et les analyses de sensibilité ont porté sur les variations d'exactitude, telles que les différences de langue et les critères d'inclusion spécifiques.
L'étude a mis en évidence la capacité de GPT-4 à traiter des notes médicales dans plusieurs langues, mais a noté des défis en matière d'inférence contextuelle et de variabilité dans les styles de documentation. Les analyses de données ont été effectuées dans RStudio et aucun financement externe n'a soutenu l'étude.
Résultats de l'étude
Au total, 56 dossiers médicaux ont été collectés sur huit sites répartis dans quatre pays : les États-Unis, la Colombie, Singapour et l'Italie. Parmi celles-ci, 42 (75 %) notes étaient en anglais, sept (13 %) en italien et sept (13 %) en espagnol. Pour chaque note, GPT-4 a généré des réponses à 14 questions prédéfinies, résultant en 784 réponses.
Parmi ceux-ci, les deux médecins étaient d'accord avec GPT-4 dans 622 (79 %) réponses, un médecin était d'accord dans 82 (11 %) réponses et aucun n'était d'accord dans 80 (10 %) réponses. Lorsque les données de l'Université nationale de Singapour ont été exclues, les taux d'accord sont restés similaires : 534 (78 %) réponses avaient un double accord, 82 (12 %) avaient un accord partiel et 70 (10 %) n'avaient aucun accord.
Les médecins étaient plus susceptibles d'être d'accord avec GPT-4 pour les notes en espagnol (86/98, 88 %) et en italien (82/98, 84 %) que pour les notes en anglais (454/588, 77 %).
Le type ou la durée des notes n’a pas influencé les taux d’accord. Dans les cas où un seul médecin était d'accord avec GPT-4 (82 réponses), 59 (72 %) désaccords découlaient de problèmes d'inférence, tels que des interprétations différentes d'informations implicites.
Dans un cas, un médecin a déduit qu'un patient n'avait pas le COVID-19 sur la base d'une note « d'infection récente au COVID-19 », tandis que GPT-4 a laissé le statut indéterminé. Les problèmes d'extraction représentaient 8 (10 %) de ces désaccords, comme un médecin négligeant des antécédents médicaux documentés identifiés par GPT-4. Les différences dans le niveau d’accord représentaient les 15 cas restants (18 %).
Dans les réponses où les deux médecins n'étaient pas d'accord avec GPT-4 (80 réponses), les problèmes d'inférence étaient les plus courants (47/80, 59 %), suivis des erreurs d'extraction (23/80, 29 %) et des hallucinations (10/80, 13 %). ).
Par exemple, GPT-4 n’a parfois pas réussi à établir un lien entre des complications, comme le syndrome inflammatoire multisystémique, et le COVID-19, un lien établi par les deux médecins. Les problèmes d’hallucination incluaient la fabrication d’informations par GPT-4 non présentes dans les notes, comme l’affirmation incorrecte qu’un patient avait le COVID-19 alors que cela n’était pas mentionné.
Lors de l'évaluation de la capacité du GPT-4 à sélectionner des patients pour une inscription hypothétique à l'étude sur la base de quatre critères d'inclusion (âge, obésité, statut COVID-19 et type de note d'admission), sa sensibilité variait. GPT-4 a démontré une sensibilité élevée pour l'obésité (97 %), le COVID-19 (96 %) et l'âge (94 %), mais une spécificité plus faible pour les notes d'admission (22 %).
Lorsque le critère de note d'admission a été exclu, GPT-4 a identifié avec précision les trois critères restants dans 90 % des cas.
Conclusions
Pour résumer, l’étude a démontré que GPT-4 analysait avec précision les notes médicales en anglais, italien et espagnol, même sans ingénierie rapide.
Étonnamment, il a obtenu de meilleurs résultats avec les notes italiennes et espagnoles qu'avec l'anglais, probablement en raison de la plus grande complexité des notes médicales américaines, bien que la longueur des notes n'ait pas influencé les performances. GPT-4 a effectivement extrait des informations explicites, mais sa principale limite était de déduire des détails implicites.
Cela concorde avec les découvertes antérieures selon lesquelles les modèles optimisés pour les tâches médicales peuvent surmonter de tels défis. Bien que GPT-4 ait excellé dans l’identification de critères d’inclusion explicites comme l’âge et l’obésité, il a eu du mal à classer les notes d’admission, probablement en raison du recours à des indices structurels implicites.