Dans un article récent publié dans Médecine naturelleles chercheurs ont appliqué des méthodes d’intelligence artificielle (IA) à des données cliniques longitudinales du monde réel pour concevoir des programmes de surveillance pour la détection précoce des patients à risque élevé de l’une des maladies les plus agressives, le cancer du pancréas.
Étude: Un algorithme d’apprentissage en profondeur pour prédire le risque de cancer du pancréas à partir des trajectoires de la maladie. Crédit d’image : Chinnapong/Shutterstock.com
Sommaire
Arrière-plan
L’incidence du cancer du pancréas augmente, ce qui en fait l’une des principales causes de décès liés au cancer dans le monde. Il est difficile de diagnostiquer le cancer du pancréas en raison d’un manque de compréhension de ses facteurs de risque.
La détection tardive à des stades métastatiques avancés ou distants entrave le traitement, ce qui rend la survie des patients extrêmement rare. Seuls deux à neuf pour cent de ces patients survivent à cinq ans.
Alors que l’âge est un facteur de risque reconnu pour le cancer du pancréas, le dépistage à l’échelle de la population basé sur l’âge n’est pas pratique en raison du coût élevé des tests cliniques, qui donne également des résultats faussement positifs.
De plus, les données sur les antécédents familiaux ou les facteurs de risque génétiques pour la population générale sont souvent indisponibles. Ainsi, il est urgent de développer des programmes de surveillance abordables pour la détection précoce du cancer du pancréas dans la population générale.
À propos de l’étude
Dans la présente étude, les chercheurs ont utilisé des dossiers cliniques longitudinaux réels d’un grand nombre de patients pour identifier un certain nombre de patients à haut risque de cancer du pancréas.
Ils ont exploité des méthodes d’apprentissage automatique (ML) récemment développées à l’aide de dossiers de patients du registre national danois des patients (DNPR) et, par la suite, de l’entrepôt de données d’entreprise (CDW) des anciens combattants des États-Unis (US-VA).
Le premier comprenait des données pour 8,6 millions de patients capturés entre 1977 et 2018, correspondant à 24 000 cas de cancer du pancréas, tandis que le second avait des données cliniques de trois millions de patients avec 3 900 cas de cancer du pancréas.
L’équipe a formé et testé un large éventail de modèles ML sur la séquence des codes de maladie dans les dossiers cliniques du DNPR et de l’US-VA et a testé la prédiction de l’apparition du cancer dans des intervalles de temps supplémentaires appelés CancerRiskNet.
Lors de la construction de modèles prédictifs, l’équipe a utilisé les codes de diagnostic à trois caractères de la Classification internationale des maladies (CIM) et a défini les «patients atteints d’un cancer du pancréas» comme des patients présentant au moins un code sous C25, indiquant une tumeur maligne du pancréas.
La précision des codes de diagnostic de cancer était d’environ 98 %. Enfin, les chercheurs ont signalé quels diagnostics dans l’historique des codes de diagnostic d’un patient étaient les plus informatifs sur le risque de cancer afin de proposer un programme de surveillance idéal.
En outre, les chercheurs ont évalué les performances de prédiction des différents modèles entraînés dans le DNPR à l’aide de la zone sous la caractéristique de fonctionnement du récepteur (AUROC) et des courbes de risque relatif (RR). En outre, ils ont rapporté les scores RR dérivés du ML des patients atteints de cancer dans le groupe à haut risque.
Résultats
Toutes les études précédentes utilisant des dossiers cliniques réels pour prédire le risque de cancer du pancréas ont obtenu des résultats encourageants, mais n’ont pas utilisé la séquence temporelle des antécédents de la maladie pour extraire les caractéristiques longitudinales séquentielles dans le temps. Dans cette étude, ils ont évalué les modèles non séquentiels dans le temps sur l’ensemble de données DNPR.
Dans l’ensemble, le modèle séquentiel dans le temps, Transformer, a obtenu les meilleures performances pour la prédiction de l’incidence du cancer dans les 36 mois suivant la date d’évaluation, avec un AUROC de 0,879, suivi de près par GRU avec un AUROC de 0,852.
Le RR pour ce modèle à un point opérationnel défini par n = 1 000 patients les plus à risque sur un million de patients était de 104,7.
Les performances du modèle sac de mots et du modèle MLP pour prédire l’occurrence du cancer dans les 36 mois en termes d’AUROC étaient de 0,807 et 0,845, respectivement. Cependant, par rapport à Transformer, les RR pour le sac de mots et le MLP étaient bien inférieurs (104,7 contre 2,1 et 26,6).
L’exclusion des données, c’est-à-dire l’exclusion des diagnostics de maladies d’entrée des trois, six et 12 derniers mois avant les diagnostics de cancer du pancréas, a diminué la performance des meilleurs modèles d’AUROC de 0,879 à AUROC de 0,843, 0,829 et 0,827 pour trois-/six- /12 mois.
Cette analyse a indiqué qu’un modèle ML formé sur les données des deux sources avait une valeur prédictive positive (PPV) de 0,32 pour l’intervalle de prédiction de 12 mois. Ainsi, environ 320 patients auraient éventuellement développé un cancer du pancréas.
Bien que les médecins aient pu identifier certains cas sur la base de facteurs de risque reconnus du cancer du pancréas, par exemple la pancréatite chronique, une fraction de ceux-ci, près de 70, serait encore nouvellement identifiée selon une approximation prudente.
Malgré l’utilisation de codes de maladie CIM communs et d’une survie au cancer similaire, l’application croisée des données DNPR aux données US-VA a réduit les performances des modèles ML, augmentant le besoin d’une formation de modèle indépendante dans toutes les régions géographiques pour atteindre des performances de modèle optimales au niveau régional. .
Cependant, un scénario idéal pour une collaboration multi-institutionnelle visant à atteindre un ensemble de règles de prédiction pertinentes à l’échelle mondiale nécessiterait un apprentissage fédéré entre différents systèmes de santé.
conclusion
La précision de prédiction des modèles basés sur ML décrits dans cette étude pourrait s’améliorer avec l’accessibilité des données au-delà des codes de maladie, par exemple, des observations écrites dans des notes cliniques, des résultats de laboratoire et des profils génétiques de plus de personnes ou des informations liées à la santé provenant de leurs appareils portables.
Ensuite, la mise en œuvre clinique du diagnostic précoce du cancer du pancréas nécessiterait l’identification des patients à haut risque.
Étant donné que les personnes les plus à risque constituent un sous-ensemble plus petit d’une grande population dépistée par ordinateur, les programmes de dépistage et d’intervention cliniques coûteux et raffinés seront limités à quelques patients.
Néanmoins, l’IA sur les dossiers cliniques du monde réel pourrait potentiellement déplacer l’attention du traitement de stade avancé vers le traitement du cancer de stade précoce, ce qui, à son tour, améliorerait considérablement la qualité de vie de tous les patients tout en augmentant le rapport avantages-coûts. de la prise en charge du cancer.