Les chercheurs évaluent les performances d’un grand modèle de langage pour le phénotypage des patientes souffrant d’hémorragie post-partum

Dans une étude récente publiée dans npj Médecine Numériqueles chercheurs ont évalué les performances d’un grand modèle linguistique (LLM) pour le phénotypage des patientes souffrant d’hémorragie post-partum (HPP) à l’aide de notes de sortie.

Étude : Phénotypage interprétable sans tir de l’hémorragie post-partum à l’aide de grands modèles linguistiques. Crédit d’image : christinarosepix/Shutterstock.com

Arrière-plan

Un phénotypage robuste est essentiel aux flux de travail de recherche et cliniques, y compris le diagnostic, le dépistage des essais cliniques, la découverte de nouveaux phénotypes, l’amélioration de la qualité, la recherche d’efficacité comparative et les études d’association à l’échelle du phénotype et du génome. L’adoption des dossiers de santé électroniques (DSE) a permis le développement d’approches de phénotypage numérique.

De nombreuses approches de phénotypage numérique exploitent des codes ou des règles de diagnostic basés sur des données structurées. Cependant, les données structurées ne parviennent souvent pas à capturer le récit clinique des notes du DSE. Les modèles de traitement du langage naturel (NLP) sont de plus en plus utilisés pour le phénotypage multimodal grâce à l’extraction automatisée de notes non structurées.

La plupart des approches NLP sont basées sur des règles et s’appuient sur des expressions régulières, des mots-clés et d’autres outils NLP. Les progrès récents dans la formation des LLM permettent le développement de phénotypes généralisables sans avoir besoin de données annotées. Les capacités zéro-shot des LLM offrent la possibilité de phénotyper des conditions complexes à l’aide de notes cliniques.

L’étude et les résultats

Dans la présente étude, les chercheurs ont développé une approche interprétable pour le phénotypage et le sous-typage des cas d’HPP en utilisant le Flan-T5 LLM. Ils ont identifié plus de 138 000 personnes ayant eu un rendez-vous obstétrical dans les hôpitaux Mass General Brigham de Boston entre 1998 et 2015. Les résumés de sortie ont été utilisés pour le phénotypage basé sur la PNL.

L’équipe a développé 24 concepts liés à l’HPP et les a identifiés dans les notes de sortie en appelant le modèle Flan-T5 pour deux types de tâches : la classification binaire et l’extraction de texte. L’identification de la perte de sang estimée était la tâche d’extraction de texte, tandis que l’identification d’autres concepts liés à l’HPP était une tâche de classification binaire. Cinquante notes annotées ont été utilisées pour développer des invites LLM.

La performance du modèle sur 1 175 notes de sortie annotées manuellement a été évaluée. Les modèles Flan-T5 NLP ont été comparés aux expressions régulières pour chaque concept. Le score binaire F1 du modèle Flan-T5 était ≥ 0,75 sur 21 concepts PPH et > 0,9 sur 12 concepts. Le modèle Flan-T5 a surpassé les expressions régulières pour neuf concepts.

Bien que les expressions régulières fonctionnent de manière similaire à Flan-T5 sur des tâches plus simples, le modèle Flan-T5 les surpasse sur les concepts exprimés dans des notes cliniques dans différents formats. Les faux positifs du modèle Flan-T5 concernaient principalement des notes présentant une polysémie et des concepts sémantiquement liés. Par exemple, les notes contenant une dilatation et un curetage post-partum étaient souvent considérées comme positives pour le retrait manuel du placenta.

Les faux négatifs étaient dus à des concepts comportant des fautes d’orthographe et des abréviations inhabituelles. Alors que les notes d’un seul hôpital ont été utilisées pour élaborer des invites, Flan-T5 s’est bien généralisé aux notes d’autres hôpitaux. De plus, lorsqu’un échantillon de notes de 2015 à 2022 a été évalué, le score binaire F1 de Flan-T5 était ≥ 0,75 sur 14 concepts.

Le modèle a montré des résultats comparables pour la plupart des concepts dans les deux contextes. Ensuite, l’équipe a utilisé les concepts extraits pour identifier les livraisons PPH. Flan-T5 a extrait le type d’administration et la perte de sang estimée de toutes les notes. Les notes étaient classées comme décrivant l’HPP si la perte de sang était respectivement supérieure à 500 ml et 1 000 ml pour les accouchements par voie vaginale et par césarienne.

L’algorithme de phénotypage PPH a été évalué en comparant les performances du Flan-T5 sur 300 résumés de décharge annotés par des experts, prédits par le modèle comme des accouchements avec PPH. La valeur prédictive positive de cet algorithme était de 0,95. Des cas d’HPP sans codes de diagnostic liés à l’accouchement ont également été identifiés grâce à cette approche basée sur la PNL. Plus précisément, plus de 47 % des résumés de congé avec HPP n’auraient pas été identifiés si les codes de diagnostic avaient été utilisés seuls.

Enfin, les concepts PPH ont été extraits pour classer les PPH en sous-types. À cette fin, des phénotypes composites ont été construits pour chaque sous-type sur la base de la présence de termes PPH extraits par la PNL. Les chercheurs ont découvert qu’environ 30 % des accouchements prévus par l’HPP étaient dus à une atonie utérine, 24 % à un traumatisme, 27 % à des produits de conception retenus et 6 % à des anomalies de la coagulation.

Conclusions

Ensemble, l’étude a développé 24 concepts liés à l’HPP et a observé que le modèle Flan-T5 pouvait extraire la plupart des concepts, démontrant un rappel et une précision élevés. De plus, l’algorithme de phénotypage a identifié beaucoup plus d’accouchements d’HPP que ce qui serait identifié à l’aide des seuls codes de diagnostic.

De plus, ces concepts peuvent être utilisés pour une identification interprétable et précise des sous-types d’HPP. Les résultats mettent en évidence la manière dont les LLM complexes peuvent être exploités pour construire des modèles interprétables en aval. Cette approche d’extraction puis de phénotype permet une validation facile des concepts et des mises à jour rapides des définitions de phénotype.

Il est notamment possible que des cas d’HPP récurrents ou retardés aient été omis car l’accent a été mis sur les résumés de sortie. De plus, les notes de sortie peuvent refléter des pratiques spécifiques à l’établissement, et bien que le modèle ait été évalué pour sa généralisabilité temporelle, une validation plus approfondie est nécessaire pour l’ensemble des conditions médicales.