Dans un article récent publié dans la revue Natureles chercheurs ont utilisé des notes cliniques non structurées du dossier de santé électronique (DSE) pour former NYUTron, un grand modèle de langage pour le langage médical et ont ensuite évalué sa capacité à effectuer cinq tâches prédictives cliniques et opérationnelles.
Étude : Les modèles de langage à l’échelle du système de santé sont des moteurs de prédiction polyvalents. Crédit d’image : Elnur/Shutterstock
Sommaire
Arrière-plan
Initialement, toutes les informations nécessaires pour prendre des décisions médicales sont très dispersées, par exemple dans les dossiers médicaux d’un patient, y compris leurs ordonnances, leurs rapports de laboratoire et d’imagerie. Les médecins regroupent toutes les informations pertinentes de ce pool d’informations dans des notes manuscrites, qui documentent et résument les soins aux patients.
Les modèles prédictifs cliniques existants reposent sur des entrées structurées extraites des DSE des patients ou des entrées des cliniciens, ce qui complique le traitement des données, le développement et le déploiement de modèles. En conséquence, la plupart des modèles prédictifs médicaux sont formés, validés et publiés, mais jamais utilisés dans des contextes cliniques réels, souvent considérés comme le « problème du dernier kilomètre ».
D’autre part, les grands modèles de langage (LLM) basés sur l’intelligence artificielle (IA) reposent sur la lecture et l’interprétation du langage humain. Ainsi, les chercheurs ont émis l’hypothèse que les LLM pouvaient lire les notes manuscrites des médecins pour résoudre le problème du dernier kilomètre. De cette façon, ces LLM pourraient faciliter la prise de décision médicale au point de service pour un large éventail de tâches cliniques et opérationnelles.
À propos de l’étude
Dans la présente étude, les chercheurs ont tiré parti des avancées récentes des systèmes basés sur le LLM pour développer NYUTron et ont évalué de manière prospective son efficacité dans l’exécution de cinq tâches prédictives cliniques et opérationnelles, comme suit :
- Réadmission toutes causes en 30 jours
- mortalité hospitalière
- prédiction de l’indice de comorbidité
- durée du séjour (LOS)
- prédiction de refus d’assurance
En outre, les chercheurs ont effectué une analyse détaillée sur la prédiction de la réadmission, c’est-à-dire la probabilité qu’un patient demande une réadmission à l’hôpital dans les 30 jours suivant sa sortie pour une raison quelconque. Plus précisément, ils ont effectué cinq évaluations supplémentaires dans des contextes rétrospectifs et prospectifs ; par exemple, l’équipe a évalué les propriétés de mise à l’échelle de NYUTron et les a comparées à d’autres modèles à l’aide de plusieurs points de données affinés.
Dans des évaluations rétrospectives, ils ont comparé six médecins à différents niveaux d’ancienneté contre NYUTron. Lors d’évaluations prospectives réalisées entre janvier et avril 2022, l’équipe a testé NYUTron dans un format accéléré. Ils l’ont chargé dans un moteur d’inférence qui s’est interfacé avec le DSE et a lu les notes de sortie dûment signées par les médecins traitants.
un, Nous avons interrogé le NYU Langone EHR pour deux types d’ensembles de données. L’ensemble de données de préformation, NYU Notes, contient 10 ans de notes cliniques d’hospitalisation (387 144 patients, 4,1 milliards de mots). Il existe cinq ensembles de données de réglage fin. Chacun contient 1 à 10 ans de notes cliniques d’hospitalisation (55 791 à 413 845 patients, 51 à 87 millions de mots) avec des étiquettes spécifiques aux tâches (2 à 4 classes). bNous avons préformé un LLM de type BERT de 109 millions de paramètres, appelé NYUTron, sur l’ensemble du DSE en utilisant une tâche MLM pour créer un modèle préformé pour le langage médical contenu dans le DSE. cNous avons ensuite affiné le modèle pré-formé sur des tâches spécifiques (par exemple, la prédiction de réadmission toutes causes sur 30 jours) et l’avons validé sur des données rétrospectives retenues. dEnfin, le modèle affiné a été compressé dans un format accéléré et chargé dans un moteur d’inférence, qui s’interface avec le NYU Langone EHR pour lire les notes de sortie lorsqu’elles sont signées par les médecins traitants.
Résultats
Par rapport aux modèles conventionnels antérieurs, NYUTron avait une aire sous la courbe globale (AUC) comprise entre 78,7 et 94,9 %, soit une amélioration allant jusqu’à 14,7 % concernant l’AUC. De plus, les auteurs ont démontré les avantages de la préformation de NYUTron avec un texte clinique, ce qui a augmenté sa généralisabilité grâce à un réglage fin et a finalement permis son déploiement complet dans un essai prospectif à un seul bras.
La prédiction de la réadmission est une tâche bien étudiée dans la littérature publiée sur l’informatique médicale. Dans son évaluation rétrospective, NYUTron a obtenu de meilleurs résultats qu’un médecin, avec un taux médian de faux positifs (FPR) de 11,11 % pour NYUTron et le médecin. Cependant, le taux médian de vrais positifs (TPR) était plus élevé pour NYUTron que pour les médecins, 81,72 % contre 50 %.
Dans son évaluation prospective, NYUTron a prédit 2 692 des 3 271 réadmissions (82,30 % de rappel) avec une précision de 20,58 %, avec une ASC de 78,7 %. Ensuite, un panel de six médecins a évalué au hasard 100 cas de réadmission capturés par NYUTron et a constaté que certaines prédictions de NYUTron étaient cliniquement pertinentes et auraient pu empêcher les réadmissions.
Curieusement, 27 réadmissions prédites par NYUTron étaient évitables, et les patients qui devaient être réadmis étaient six fois plus susceptibles de mourir à l’hôpital. De plus, trois des 27 réadmissions évitables présentaient une entérocolite, une infection bactérienne fréquente dans les hôpitaux par Clostridioide difficile. Elle entraîne notamment le décès d’une personne infectée sur 11 âgée de plus de 65 ans.
Les chercheurs ont utilisé 24 GPU NVIDIA A100 avec 40 Go de VRAM pendant trois semaines pour le pré-entraînement de NYUTron, et huit GPU A100 pendant six heures par exécution pour un réglage fin. Généralement, cette quantité de calcul est inaccessible aux chercheurs. Cependant, les données de l’étude ont démontré que des ensembles de données de haute qualité pour un réglage fin étaient plus précieux que la préformation. Sur la base de leurs résultats expérimentaux, les auteurs ont recommandé aux utilisateurs d’utiliser un réglage fin local lorsque leur capacité de calcul est limitée.
De plus, dans cette étude, les chercheurs ont utilisé une architecture basée sur un décodeur, par exemple une représentation d’encodeur bidirectionnelle avec transformateur (BERT), démontrant les avantages d’un réglage fin des données médicales, soulignant la nécessité d’un changement de domaine du texte général au texte médical pour la recherche LLM.
conclusion
Pour résumer, les résultats de l’étude actuelle suggèrent la faisabilité d’utiliser les LLM comme moteurs de prédiction pour une suite de tâches prédictives médicales (cliniques et opérationnelles). Les auteurs ont également soulevé le fait que les médecins pourraient trop se fier aux prédictions du NYUTron, ce qui, dans certains cas, pourrait entraîner des conséquences mortelles, une véritable préoccupation éthique. Ainsi, les résultats de l’étude soulignent la nécessité d’optimiser les interactions homme-IA et d’évaluer les sources de biais ou d’échecs imprévus.
À cet égard, les chercheurs ont recommandé différentes interventions en fonction du risque prédit par NYUTron pour les patients. Par exemple, les appels de suivi sont adéquats pour un patient à faible risque de réadmission dans les 30 jours ; cependant, une sortie prématurée est un « NON » strict pour les patients à haut risque. Plus important encore, alors que les prédictions opérationnelles pourraient être entièrement automatisées, toutes les interventions liées aux patients devraient être mises en œuvre strictement sous la supervision d’un médecin. Néanmoins, les LLM présentent une opportunité unique d’intégration transparente dans les flux de travail médicaux, même dans les grands systèmes de santé.