La combinaison de grands modèles de langage avec des méthodes traditionnelles améliore la précision dans l'identification des premiers signes de déclin cognitif, offrant ainsi un nouvel espoir pour un diagnostic précoce.
Étude: Améliorer la détection précoce du déclin cognitif chez les personnes âgées : une étude comparative utilisant un langage large modèles dans les notes cliniques. Crédit d’image : MarutStudio/Shutterstock.com
Une étude récente dans eBioMedicine a évalué l'efficacité des grands modèles de langage (LLM) pour identifier les signes de dégradation cognitive dans les dossiers de santé électroniques (DSE).
Sommaire
Arrière-plan
La maladie d'Alzheimer et les démences associées touchent des millions de personnes, réduisant leur qualité de vie et entraînant des coûts financiers et émotionnels. L'identification précoce de la détérioration cognitive pourrait conduire à une thérapie plus efficace et à un niveau de soins plus élevé.
Les LLM ont démontré des résultats encourageants dans plusieurs domaines de la santé et tâches de traitement du langage clinique, notamment l'extraction d'informations, la reconnaissance d'entités et la réponse à des questions. Cependant, leur efficacité dans la détection de troubles cliniques spécifiques, tels que le déclin cognitif, à l’aide d’informations électroniques sur la santé est discutable.
Peu d’études ont évalué les données de DSE à l’aide de LLM sur les systèmes cloud computing conformes à la Health Insurance Portability and Accountability Act (HIPAA). Des recherches minimes ont comparé de grands modèles de langage aux approches traditionnelles basées sur l'intelligence artificielle (IA), telles que l'apprentissage automatique et l'apprentissage profond. Ce type de recherche peut influencer les techniques d'augmentation du modèle.
À propos de l'étude
Dans la présente étude, les chercheurs ont étudié la détection précoce du déclin cognitif progressif à l’aide de grands modèles de langage et de données DSE. Ils ont également comparé les performances de grands modèles de langage avec des modèles conventionnels formés avec des données spécifiques à un domaine.
Les chercheurs ont analysé des LLM propriétaires et open source au Mass General Brigham de Boston. Ils ont étudié les notes médicales de quatre ans avant un diagnostic de déficience cognitive légère (MCI) en 2019 chez les personnes âgées de ≥ 50 ans.
La Classification internationale des maladies, dixième révision, modification clinique (ICD-10-CM) a déterminé le MCI. L’équipe a exclu les cas transitoires, réversibles et de guérison de déclin cognitif.
Les systèmes de cloud computing conformes à la loi HIPAA autorisent les invites pour GPT-4 (propriétaire) et Llama 2 (open source).
Les méthodes d'augmentation des invites telles que les instructions d'analyse des erreurs, la génération augmentée de récupération (RAG) et les invites matérielles ont permis le développement LLM. Les sélections d'incitation de type dur comprenaient des sélections aléatoires, ciblées et assistées par regroupement K-means.
Les modèles d'étude de base incluaient XGBoost et les réseaux de neurones profonds (DNN) basés sur l'attention. Le cadre DNN comprenait des réseaux bidirectionnels de mémoire à long terme et à court terme (LSTM). Sur la base des performances, les chercheurs ont sélectionné la meilleure approche basée sur le LLM.
Ils ont construit un ensemble de trois modèles basés sur des votes majoritaires. Ils ont utilisé des scores de matrice de confusion pour évaluer les performances du modèle. L’équipe a utilisé une méthode d’ingénierie manuelle intuitive de modèles pour affiner les descriptions de tâches. Des conseils supplémentaires sur les tâches ont amélioré le raisonnement LLM.
Résultats
L'ensemble de données de l'étude comprenait 4 949 sections de notes cliniques de 1 969 personnes, parmi lesquelles 53 % étaient des femmes avec un âge moyen de 76 ans. Des mots-clés de fonctions cognitives ont filtré les notes pour développer des modèles d'étude. L'ensemble de données de test sans filtrage par mots clés comprenait 1 996 sections de notes cliniques provenant de 1 161 personnes, parmi lesquelles 53 % étaient des femmes avec un âge moyen de 77 ans.
L’équipe a trouvé GPT-4 plus précis et efficace que Llama 2. Cependant, GPT-4 n’a pas pu surpasser les modèles conventionnels formés avec des données DSE spécifiques à un domaine et locales. Les profils d'erreur des grands modèles de langage formés à l'aide de domaines généraux, de l'apprentissage automatique ou de l'apprentissage profond étaient assez distincts ; les fusionner en un ensemble a considérablement amélioré les performances.
Le modèle d'étude d'ensemble a atteint une précision de 90 %, un rappel de 94 % et un score F1 de 92 %, surpassant tous les modèles d'étude individuels concernant toutes les mesures de performance avec des résultats statistiquement significatifs.
Il convient de noter que par rapport au modèle individuel le plus précis, l’étude d’ensemble a augmenté la précision de moins de 80 % à plus de 90 %. L'analyse des erreurs a montré qu'au moins un modèle prédisait de manière incorrecte 63 échantillons.
Cependant, tous modèles confondus, il n’y a eu que deux cas d’erreurs mutuelles (3,20 %). Les résultats ont indiqué la diversité des profils d’erreur entre les modèles. La méthode RAG dynamique avec des invites en cinq étapes et des instructions basées sur les erreurs a donné les meilleurs résultats.
GPT-4 a mis en évidence des options de traitement de la démence comme l'Aricept et le donépézil. Il a également détecté des diagnostics tels que des troubles neurocognitifs légers, des troubles neurocognitifs majeurs et la démence vasculaire mieux que les modèles précédents. GPT-4 a abordé les conséquences émotionnelles et psychologiques des problèmes cognitifs, tels que l'anxiété, souvent ignorées par d'autres modèles.
Contrairement aux modèles conventionnels, GPT-4 peut gérer des phrases ambiguës et analyser des informations sophistiquées sans confondre les négations et les facteurs contextuels. Cependant, GPT-4 peut parfois surinterpréter ou être trop prudent, ignorant les raisons sous-jacentes des événements cliniques. Les GPT-4 et les DNN basés sur l’attention interprètent parfois mal les résultats des tests cliniques.
Conclusions
Sur la base des résultats de l'étude, les grands modèles linguistiques et les modèles traditionnels d'IA formés sur les dossiers de santé électroniques présentaient des profils d'erreur différents. La combinaison de trois modèles dans le modèle d'étude d'ensemble a amélioré les performances de diagnostic.
Les résultats de l'étude indiquent que les LLM formés dans des domaines généraux nécessitent un développement supplémentaire pour améliorer la prise de décision clinique. Les études futures devraient combiner les LLM avec des modèles plus localisés, en utilisant les informations médicales et l'expertise du domaine pour améliorer les performances du modèle pour des tâches spécifiques et en expérimentant des tactiques d'incitation et de réglage fin.